На данный момент самая крупная, после DeepSeek-V2 236B, открытая LLM модель размером 340B. В тестах сравнения человеком по одним показателям выигрывает у GPT-4-1106 (вышла в ноябре 2023), по другим проигрывает, но чаще составляет паритет.
Модель обучалась на 50+ естественных языках и 40+ языках программирования. Архитектура модели построена на Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE). Но длина контекста всего 4096 токенов.
Модель представлена в вариантах: Nemotron-4-340B-Base, Nemotron-4-340B-Instruct и Nemotron-4-340B-Reward:
-
Base предназначена для генерации синтетических данных.
-
Insctuct предназначена для чата и выполнения инструкций.
-
Reward – base-модель с дополнительным линейным слоем для обучения используя новый подход reward.
Модель распространяется под лицензией NVIDIA Open Model License Agreement, разрешающей коммерческое использование.
И на закуску – системные требования:
-
8x H200 (1x H200 node);
-
16x H100 (2x H100 nodes);
-
16x A100 80GB (2x A100 80GB nodes).
>>> Подробности