14 июня компания Habana Labs (принадлежит Intel) опубликовала набор из 15 патчей для включения сетевой поддержки Gaudi 2 для масштабирования нейронных сетей искусственного интеллекта для систем, подключенных через Ethernet или InfiniBand. Сетевые драйверы Habana Labs предоставляют возможность масштабирования рабочих нагрузок ИИ на несколько систем. Инженер компании Омер Шпигельман (Omer Shpigelman) объяснил:
Данный набор патчей реализует сетевые драйверы HabanaLabs для ASIC Gaudi2, которые предназначены для масштабирования обучения нейронных сетей искусственного интеллекта. Набор патчей включает в себя общий код, используемый всеми ASIC Gaudi, и специальный код ASIC Gaudi2. Будет использоваться более новый код ASIC. Все эти сетевые драйверы моделируются как вспомогательные устройства по отношению к родительскому драйверу.
Недавно добавлены драйверы Core Network (CN), Ethernet и InfiniBand. Все они основаны на существующем драйвере habanalabs, который служит вычислительным драйвером и всей платформой. Драйвер habanalabs проверяет сетевые драйверы, которые настраивают соответствующее аппаратное обеспечение сетевой карты устройства. Кроме того, он постоянно обменивается данными с драйвером CN для предоставления некоторых услуг, которые не являются специфичными для NIC, например, PCI, MMU, FW и т.д.
Драйвер CN является одновременно родительским и дочерним драйвером. Он служит общим уровнем для многих общих операций, которые необходимы драйверам EN и IB.
Аппаратно сетевая карта Gaudi2 состоит из 48 физических линий по 56 Гбит/с каждая. Каждая пара дорожек представляет собой логический порт 100 Гбит/с.
Аппаратное обеспечение NIC было разработано специально для масштабирования обучения ИИ. Следовательно, оно в основном функционирует как обычное сетевое устройство, но настроено для специфичной работы. В результате аппаратное обеспечение сетевой карты поддерживает трафик Ethernet и RDMA по модифицированному протоколу ROCEv2.
Ранее на выставке Computex Intel было объявлено, что 8 ускорителей Gaudi 2 с универсальной базовой платой будут доступны по цене $65 000, что примерно в 3 раза дешевле аналогичных систем на базе NVIDIA. Также ожидается, что Gaudi 3 (выход запланирован на осень 2024 года) превзойдёт по производительности флагманскую платформу H100 от NVIDIA и будет конкурентоспособным по сравнению с будущей платформой H200.