Nvidia представила открытую LLM модель Nemotron-4 340B

0

1

На данный момент самая крупная, после DeepSeek-V2 236B, открытая LLM модель размером 340B. В тестах сравнения человеком по одним показателям выигрывает у GPT-4-1106 (вышла в ноябре 2023), по другим проигрывает, но чаще составляет паритет.

Модель обучалась на 50+ естественных языках и 40+ языках программирования. Архитектура модели построена на Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE). Но длина контекста всего 4096 токенов.

Модель представлена в вариантах: Nemotron-4-340B-Base, Nemotron-4-340B-Instruct и Nemotron-4-340B-Reward:

Base предназначена для генерации синтетических данных.
Insctuct предназначена для чата и выполнения инструкций.
Reward – base-модель с дополнительным линейным слоем для обучения используя новый подход reward.

Модель распространяется под лицензией NVIDIA Open Model License Agreement, разрешающей коммерческое использование.

И на закуску – системные требования:

8x H200 (1x H200 node);
16x H100 (2x H100 nodes);
16x A100 80GB (2x A100 80GB nodes).

>>> Подробности

Ссылка

←	Snoop Project v1.4.1

Выпуск открытого драйвера для нейронного процессора RK3588 от Rockchip

→

Эти никогда ничего оптимизировать не будут, чем больше оно жрёт - тем им лучше.

avgust23 ★
(17.06.24 10:34:35 MSK)

к написанию войны и мир готова ?

kto_tama ★★★★★
(17.06.24 11:05:26 MSK)

Ответ на: комментарий от kto_tama 17.06.24 11:05:26 MSK

к написанию войны и мир готова ?

В контексте всего 4k токенов. Даже одну главу не осилит, к концу забудет, о чём писала в начале.

QsUPt7S ★★
(17.06.24 11:15:13 MSK)
Последнее исправление: QsUPt7S 17.06.24 11:15:40 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от kto_tama 17.06.24 11:05:26 MSK

к написанию войны и мир готова ?

Про «Войну и мир» не скажу, но в стихи - уже может. В том числе и на русском. Достаточно задать основные рифмы. Иногда выходит очень смешно :)

DrRulez ★★★★★
(17.06.24 11:25:01 MSK) автор топика

Ответ на: комментарий от DrRulez 17.06.24 11:25:01 MSK

На чём Вы её запускаете?

Harliff ★★★★★
(17.06.24 11:29:33 MSK)

Ссылка


    8x H200 (1x H200 node);

    16x H100 (2x H100 nodes);

    16x A100 80GB (2x A100 80GB nodes).

И сколько это в килограммах, киловаттах и килобаксах?

gns ★★★★★
(17.06.24 11:44:37 MSK)

Ответ на: комментарий от DrRulez 17.06.24 11:25:01 MSK

Пример в студию! Рифма — прачечная :)

gns ★★★★★
(17.06.24 11:45:31 MSK)

Ответ на: комментарий от gns 17.06.24 11:45:31 MSK

ей надо не так. Нужны пары. В твоем случае надо:

Прачечная - (аналог министерства культуры) :)

Сколько там по потреблению в режиме работы я так не скажу, а в килобаксах-это много. Еще и H200 надо как-то купить.

Для понимания (ориентировочного) - одна а100 стоит 2 280 084 рублей :) Надо 16 штук, плюс все остальное для «обвязки» :)

DrRulez ★★★★★
(17.06.24 12:00:54 MSK) автор топика

Ответ на: комментарий от DrRulez 17.06.24 12:00:54 MSK

Да, чот недешево получается. Ладно, уж как-нибудь сами сереньким процессором любовь с морковью срифмуем :)

gns ★★★★★
(17.06.24 14:10:30 MSK)

Ссылка

Ответ на: комментарий от kto_tama 17.06.24 11:05:26 MSK

к написанию войны и мир готова ?

Нет, но к захвату власти над человеками готова ©.

quickquest ★★★★★
(17.06.24 15:12:34 MSK)

Ответ на: комментарий от avgust23 17.06.24 10:34:35 MSK

Эти никогда ничего оптимизировать не будут, чем больше оно жрёт - тем им лучше.

340B

Там с любыми оптимизациями жор ресурсов будет — огого!

mord0d ★★★★★
(17.06.24 15:23:56 MSK)

Ссылка

Но длина контекста всего 4096 токенов.

16x A100 80GB

Халтура, потому и выложили в открытый доступ. Похоже что ML инженеры начинают филонить и создавать видимость работы показывая синтетический прирост. Это предсказуемо и это безопасно для собственного положения в компании.

Вот работы над увеличением длины контекста при сохранении вменяемого числа весов сети публикуют неохотно потому что там думать надо. Много думать и пробовать, с неясным результатом.

Слишком много «вкатунов» в ML на фоне хайпа засрали предметную область.

Obezyan ☆
(17.06.24 15:39:20 MSK)

Ссылка

жду выхода LLM от AMD и учу Common Lisp

~~procsys~~
(17.06.24 15:52:31 MSK)

Счастье-то какое, ух теперь заживем.

thesis ★★★★★
(17.06.24 15:59:39 MSK)

Ссылка

Ответ на: комментарий от procsys 17.06.24 15:52:31 MSK

А зачем Common Lisp для перемножения floatов?

abcdef
(17.06.24 18:07:13 MSK)

Ссылка

Ответ на: комментарий от gns 17.06.24 11:44:37 MSK

16x H100 (2x H100 nodes)

И сколько это в килограммах, киловаттах и килобаксах?

Полляма вечнозелёных, не считая обвязки.

snizovtsev ★★★★★
(17.06.24 18:10:09 MSK)

Ссылка

Ответ на: комментарий от quickquest 17.06.24 15:12:34 MSK

Искусство политики - это заставить тебя принять непопулярные идеи, которые тебе не нужны, но нужны лоббистам в целях их заказчиков. Нейроговно способно заменить только что-то простое типа нашей госдумы, реагирующее на резонансные проишествия с двумя опциями ужесточить и запретить. Для развития же нужно уметь прогнозировать… Казалось бы все данные для этого есть: история, статистика, социальные исследования… Но нет главного - она не умеет сомневаться и будет искать бесполезные корреляции, например, сравнивать средний размер пиструна и долю расходох в исследованиях альтернативной энергетики и тп… Если что-то к концу света и приведет, так это отдача на откуп этому попугаю политики… Все эти восторженные посты про ChatGPT мне напоминают высеры кошатников и собачников, которые какому-то заведомо не очень умному существу приписывают человеческие черты характера (даже у собаки ВСЕГО-НАВСЕГО 70 грамм мозгов, половина из которых нужна чтобы нюхать жопы бггг), те часто выдают желаемое за действительность. Человечество находится на крайне низком этапе своего развития. Нашей промышленной цивизилизации всего 200 лет, но и она как 2.6 миллионов лет назад так или иначе крутится вокруг «приручения» огня… Какой тут искусственный интеллект? Его лет через 300-500 если изобретут, то хорошо будет

rtxtxtrx ★★★
(21.06.24 01:36:11 MSK)
Последнее исправление: rtxtxtrx 21.06.24 01:47:17 MSK (всего исправлений: 3)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Snoop Project v1.4.1

Open Source

Выпуск открытого драйвера для нейронного процессора RK3588 от Rockchip

→

Похожие темы