LINUX.ORG.RU

Nvidia представила открытую LLM модель Nemotron-4 340B

 ,

Nvidia представила открытую LLM модель Nemotron-4 340B

0

1

На данный момент самая крупная, после DeepSeek-V2 236B, открытая LLM модель размером 340B. В тестах сравнения человеком по одним показателям выигрывает у GPT-4-1106 (вышла в ноябре 2023), по другим проигрывает, но чаще составляет паритет.

Модель обучалась на 50+ естественных языках и 40+ языках программирования. Архитектура модели построена на Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE). Но длина контекста всего 4096 токенов.

Модель представлена в вариантах: Nemotron-4-340B-Base, Nemotron-4-340B-Instruct и Nemotron-4-340B-Reward:

  • Base предназначена для генерации синтетических данных.

  • Insctuct предназначена для чата и выполнения инструкций.

  • Reward – base-модель с дополнительным линейным слоем для обучения используя новый подход reward.

Модель распространяется под лицензией NVIDIA Open Model License Agreement, разрешающей коммерческое использование.

И на закуску – системные требования:

  • 8x H200 (1x H200 node);

  • 16x H100 (2x H100 nodes);

  • 16x A100 80GB (2x A100 80GB nodes).

>>> Подробности

★★★★

Проверено: hobbit ()
Последнее исправление: hobbit (всего исправлений: 2)

Ответ на: комментарий от kto_tama

к написанию войны и мир готова ?

В контексте всего 4k токенов. Даже одну главу не осилит, к концу забудет, о чём писала в начале.

QsUPt7S ★★
()
Последнее исправление: QsUPt7S (всего исправлений: 1)
Ответ на: комментарий от kto_tama

к написанию войны и мир готова ?

Про «Войну и мир» не скажу, но в стихи - уже может. В том числе и на русском. Достаточно задать основные рифмы. Иногда выходит очень смешно :)

DrRulez ★★★★
() автор топика

    8x H200 (1x H200 node);

    16x H100 (2x H100 nodes);

    16x A100 80GB (2x A100 80GB nodes).

И сколько это в килограммах, киловаттах и килобаксах?

gns ★★★★★
()
Ответ на: комментарий от gns

ей надо не так. Нужны пары. В твоем случае надо:

Прачечная - (аналог министерства культуры) :)

Сколько там по потреблению в режиме работы я так не скажу, а в килобаксах-это много. Еще и H200 надо как-то купить.

Для понимания (ориентировочного) - одна а100 стоит 2 280 084 рублей :) Надо 16 штук, плюс все остальное для «обвязки» :)

DrRulez ★★★★
() автор топика
Ответ на: комментарий от DrRulez

Да, чот недешево получается. Ладно, уж как-нибудь сами сереньким процессором любовь с морковью срифмуем :)

gns ★★★★★
()
Ответ на: комментарий от avgust23

Эти никогда ничего оптимизировать не будут, чем больше оно жрёт - тем им лучше.

340B

Там с любыми оптимизациями жор ресурсов будет — огого!

mord0d ★★★★★
()

Но длина контекста всего 4096 токенов.

@

16x A100 80GB

Халтура, потому и выложили в открытый доступ. Похоже что ML инженеры начинают филонить и создавать видимость работы показывая синтетический прирост. Это предсказуемо и это безопасно для собственного положения в компании.

Вот работы над увеличением длины контекста при сохранении вменяемого числа весов сети публикуют неохотно потому что там думать надо. Много думать и пробовать, с неясным результатом.

Слишком много «вкатунов» в ML на фоне хайпа засрали предметную область.

Obezyan
()

Счастье-то какое, ух теперь заживем.

thesis ★★★★★
()
Ответ на: комментарий от gns

16x H100 (2x H100 nodes)

И сколько это в килограммах, киловаттах и килобаксах?

Полляма вечнозелёных, не считая обвязки.

snizovtsev ★★★★★
()
Ответ на: комментарий от quickquest

Искусство политики - это заставить тебя принять непопулярные идеи, которые тебе не нужны, но нужны лоббистам в целях их заказчиков. Нейроговно способно заменить только что-то простое типа нашей госдумы, реагирующее на резонансные проишествия с двумя опциями ужесточить и запретить. Для развития же нужно уметь прогнозировать… Казалось бы все данные для этого есть: история, статистика, социальные исследования… Но нет главного - она не умеет сомневаться и будет искать бесполезные корреляции, например, сравнивать средний размер пиструна и долю расходох в исследованиях альтернативной энергетики и тп… Если что-то к концу света и приведет, так это отдача на откуп этому попугаю политики… Все эти восторженные посты про ChatGPT мне напоминают высеры кошатников и собачников, которые какому-то заведомо не очень умному существу приписывают человеческие черты характера (даже у собаки ВСЕГО-НАВСЕГО 70 грамм мозгов, половина из которых нужна чтобы нюхать жопы бггг), те часто выдают желаемое за действительность. Человечество находится на крайне низком этапе своего развития. Нашей промышленной цивизилизации всего 200 лет, но и она как 2.6 миллионов лет назад так или иначе крутится вокруг «приручения» огня… Какой тут искусственный интеллект? Его лет через 300-500 если изобретут, то хорошо будет

rtxtxtrx
()
Последнее исправление: rtxtxtrx (всего исправлений: 3)
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.