Читаю новость https://www.rbc.ru/technology_and_media/23/06/2022/62b382d69a79475a0f77afa3
Компания «Яндекс» выложила в открытый доступ YaLM 100B — нейросеть для генерации и обработки текстов на русском и английском языках. Как утверждает компания, это самая большая GPT-подобная модель, опубликованная в свободном доступе.
«YaLM 100В содержит 100 млрд параметров — больше, чем какая-либо из существующих моделей для русского языка. Это позволяет использовать ее для решения большого круга задач, связанных с обработкой естественного языка. Языковые модели из семейства YaLM определяют принцип построения текста и генерируют новые, опираясь на законы лингвистики и свои знания о мире», — описывает пресс-служба «Яндекса» работу новой модели.
Как утверждает компания, новую нейросеть можно использовать для создания рекламы, описания товаров, генерировать любые тексты, даже стихи, и применять ее для классификации текста, например по стилю.
Сразу шасть на https://github.com/yandex/YaLM-100B
а там, ну ладно, что специальным скриптом еще надо 200 Гб выкачать, это как бы возможно, хотя могли бы и торрент для этого сделать, подозреваю сервак-то тормозить будет.
Но вот это:
Make sure to have 200GB of free disk space before downloading weights. The model (code is based on microsoft/DeepSpeedExamples/Megatron-LM-v1.1.5-ZeRO3) is supposed to run on multiple GPUs with tensor parallelism. It was tested on 4 (A100 80g) and 8 (V100 32g) GPUs, but is able to work with different configurations with ≈200GB of GPU memory in total which divide weight dimensions correctly (e.g. 16, 64, 128).
Это блин на RX 6600XT явно не запустить. И даже не на 3060 ti Хнык, хнык