Yalm-100B Видит око да зуб неймет

0

1

Читаю новость https://www.rbc.ru/technology_and_media/23/06/2022/62b382d69a79475a0f77afa3

Компания «Яндекс» выложила в открытый доступ YaLM 100B — нейросеть для генерации и обработки текстов на русском и английском языках. Как утверждает компания, это самая большая GPT-подобная модель, опубликованная в свободном доступе.
«YaLM 100В содержит 100 млрд параметров — больше, чем какая-либо из существующих моделей для русского языка. Это позволяет использовать ее для решения большого круга задач, связанных с обработкой естественного языка. Языковые модели из семейства YaLM определяют принцип построения текста и генерируют новые, опираясь на законы лингвистики и свои знания о мире», — описывает пресс-служба «Яндекса» работу новой модели.
Как утверждает компания, новую нейросеть можно использовать для создания рекламы, описания товаров, генерировать любые тексты, даже стихи, и применять ее для классификации текста, например по стилю.

Сразу шасть на https://github.com/yandex/YaLM-100B

а там, ну ладно, что специальным скриптом еще надо 200 Гб выкачать, это как бы возможно, хотя могли бы и торрент для этого сделать, подозреваю сервак-то тормозить будет.

Но вот это:

Make sure to have 200GB of free disk space before downloading weights. The model (code is based on microsoft/DeepSpeedExamples/Megatron-LM-v1.1.5-ZeRO3) is supposed to run on multiple GPUs with tensor parallelism. It was tested on 4 (A100 80g) and 8 (V100 32g) GPUs, but is able to work with different configurations with ≈200GB of GPU memory in total which divide weight dimensions correctly (e.g. 16, 64, 128).

Это блин на RX 6600XT явно не запустить. И даже не на 3060 ti Хнык, хнык

Ссылка

←	Держу вас в курсе

Все отменить еще не поздно!

→

Да, программы генерирующие случайный, но правдоподобный, бред требуют колоссального количества мусора на входе и серьёзные вычислительные мощности.

Это неисправимый изъян системы.

~~Usruser~~ ★
(23.06.22 13:29:45 MSK)

Ответ на: комментарий от Usruser 23.06.22 13:29:45 MSK

Я думал цепи Маркова причесать немного все же не таких ресурсов потреубует.

Но и яндекс тут самый толстый, другие поскромнее, хотя тоже немало.

Просто вот ЭТО сейчас настоящее, чем программисты занимаются. Было долгое время, когда рабочее место дома позволяло делать тоже, что и на работе, иногда даже лучше, чем на работе. Но сейчас все более и более так, что нет, если конечно не готов стоимость квартиры выложить как минимум.

praseodim ★★★★★
(23.06.22 13:44:18 MSK) автор топика

Ответ на: комментарий от Usruser 23.06.22 13:29:45 MSK

Ща выкачиваю себе в норку хоть полюбуюсь =)

Если кто будет выкачивать там скрипт download чутка доработать надо, добавив опцию -C к курлу

curl -C -

Иначе на таких объемах можно получить недокаченные файлы

praseodim ★★★★★
(23.06.22 13:46:45 MSK) автор топика

Ссылка

Так это было давно понятно, ещё когда GPT-3 выкатили например (ей вообще надо было 300-400 Гб VRAM, так что яндекс ещё худенький), что игры в машинное обучение это только для корпораций.

Gary ★★★★★
(23.06.22 14:05:42 MSK)

Ссылка

Ответ на: комментарий от praseodim 23.06.22 13:44:18 MSK

Просто вот ЭТО сейчас настоящее, чем программисты занимаются. Было долгое время, когда рабочее место дома позволяло делать тоже, что и на работе, иногда даже лучше, чем на работе. Но сейчас все более и более так, что нет, если конечно не готов стоимость квартиры выложить как минимум.

Такими темпами, скоро программисты код начнут оптимизировать! ;)

tiinn ★★★★★
(23.06.22 15:25:50 MSK)

Ответ на: комментарий от tiinn 23.06.22 15:25:50 MSK

Оптимизируй не оптимизируй, но если самый дешманский минимум для работы - это ферма из десятка rtx 3090, то приехали. И то если на этих картах в принципе получится, на самом деле не случайно nvidia выпускает всякие Tesla и прочие.

praseodim ★★★★★
(23.06.22 16:50:36 MSK) автор топика