xAI опубликовала исходный код чат-бота Grok

2

1

Компания xAI, которую Илон Маск запустил летом 2023 года, опубликовала исходный код чат-бота Grok.

В сообщении xAI говорится, что языковая модель Grok-1 содержит 314 млрд параметров, а опубликованные данные включают «веса базовой модели и сетевую архитектуру». Её обучение завершилось в октябре 2023 года. Grok-1 распространяется по лицензии Apache 2.0

Илон Маск объяснил шаг в открытии исходного кода стремление сделать платформу «самой прозрачной и ориентированной на поиск истины».

>>> Подробности

Ссылка

←	VKD3D-Proton 2.12 поддерживает Nvidia Reflex

Первый выпуск дистрибутива TileOS 1.0

→

← 1 2 →

314 млрд параметров

Это много или мало? У других моделей сколько?

vbr ★★★★
(18.03.24 10:29:56 MSK)

Ответ на: комментарий от vbr 18.03.24 10:29:56 MSK

У гопоты-3.5 175 миллиардов.

imul ★★★★★
(18.03.24 10:39:01 MSK)

Ссылка

Ответ на: комментарий от vbr 18.03.24 10:29:56 MSK

Много. 70b параметров со скрипом залезает в 2 Nvidia Tesla P40 с 4-бит квантованием и 8кб размером контекста (Meditron). 72B с 32к контекстом (Smaug): 20 из 81 слоя на GPU, остальное на CPU, что жрет примерно 110 гиг оперативы помимо 48 гиг видеопамяти.

Эта, при тех же размерах квантования/контекста, думаю потребует штук 12 видях для инференса, не меньше.

ncrmnt ★★★★★
(18.03.24 10:42:36 MSK)
Последнее исправление: ncrmnt 18.03.24 10:43:56 MSK (всего исправлений: 2)

Маск зарпенсорсил грока чтобы Альтмана троллить.

imul ★★★★★
(18.03.24 10:44:24 MSK)

Ответ на: комментарий от imul 18.03.24 10:44:24 MSK

Видимо не только его, ибо из других сеток не выложили веса на huggingface и предлагали качать торрентом - только веса сетки GPT-4chan (обученную на /pol/). И то потому, что за расистские высказывания эту сетку с хугинфейса удалили.

ncrmnt ★★★★★
(18.03.24 10:54:32 MSK)
Последнее исправление: ncrmnt 18.03.24 10:54:55 MSK (всего исправлений: 1)

Ответ на: комментарий от imul 18.03.24 10:44:24 MSK

В чём суть троллинга?

ox55ff ★★★★★
(18.03.24 11:01:04 MSK)

Ответ на: комментарий от ncrmnt 18.03.24 10:54:32 MSK

обученную на /pol/

Нашли на чём, лол. Ещё бы на ЛОРе обучали.

a1ba ★★
(18.03.24 11:04:13 MSK)

Ссылка

Ответ на: комментарий от ox55ff 18.03.24 11:01:04 MSK

В том, что у опенаи не опен.

imul ★★★★★
(18.03.24 11:10:29 MSK)

Ответ на: комментарий от imul 18.03.24 11:10:29 MSK

Я так понимаю, тут тоже не вполне опен. Это скорей бинарник, данные они же не выложили, на которых тренировали.

Хотя, конечно, всё равно круто.

vbr ★★★★
(18.03.24 11:37:31 MSK)

Ответ на: комментарий от ncrmnt 18.03.24 10:42:36 MSK

70b -> 70 миллиардов?

sena ★★
(18.03.24 11:44:12 MSK)

Ответ на: комментарий от vbr 18.03.24 11:37:31 MSK

Вы прямо словно не лоровцы. Маск в чирикалке намекал, что у опенаи опен только в названии. В отличии от xAI.

imul ★★★★★
(18.03.24 11:46:30 MSK)

Ответ на: комментарий от imul 18.03.24 11:46:30 MSK

С OpenAI всё давно понятно, тут вопросов нет.

vbr ★★★★
(18.03.24 12:01:26 MSK)

Ссылка

Название подобрали фанаты вахи?

hateWin ★☆
(18.03.24 12:30:12 MSK)

Ответ на: комментарий от hateWin 18.03.24 12:30:12 MSK

Маск любит букву X.

vbcnthfkmnth123 ★★★★★
(18.03.24 12:38:13 MSK)

Ответ на: комментарий от vbcnthfkmnth123 18.03.24 12:38:13 MSK

Я про grok

hateWin ★☆
(18.03.24 12:46:29 MSK)

Ответ на: комментарий от hateWin 18.03.24 12:46:29 MSK

А при чем тут ваха? Первоисточник же - это же Stranger in a Strange Land(1961) by Robert A. Heinlein

vbcnthfkmnth123 ★★★★★
(18.03.24 13:02:58 MSK)

Ссылка

Илон Маск
стремление сделать платформу самой прозрачной

Ыхыхыхы

Gonzo ★★★★★
(18.03.24 13:03:52 MSK)
Последнее исправление: Gonzo 18.03.24 13:03:57 MSK (всего исправлений: 1)

Ссылка

В сообщении xAI говорится, что языковая модель Grok-1 содержит 314 млрд параметров, а опубликованные данные включают «веса базовой модели и сетевую архитектуру». Её обучение завершилось в октябре 2023 года.

Есть какая-то информация на чем обучали? Ведь это самое важное.

Xintrea ★★★★★
(18.03.24 13:53:03 MSK)

Ответ на: комментарий от Xintrea 18.03.24 13:53:03 MSK

на социальной сети ИКС

CAHO ★
(18.03.24 14:09:22 MSK)

Ответ на: комментарий от CAHO 18.03.24 14:09:22 MSK

https://soundex.ru/forum/uploads/imageproxy/1609989355_ORLYWallpapers.png.c4a...

Xintrea ★★★★★
(18.03.24 14:20:19 MSK)

Ссылка

Ответ на: комментарий от sena 18.03.24 11:44:12 MSK

Да

ncrmnt ★★★★★
(18.03.24 15:54:46 MSK)

Ссылка

Ответ на: комментарий от Xintrea 18.03.24 13:53:03 MSK

Ну кстати да, если обучали на твитах, то ценность этих параметров будет невелика)

ncrmnt ★★★★★
(18.03.24 16:23:07 MSK)

Ссылка

xAI Харьковский авиационный институт.

sbu_shpigun ★
(18.03.24 16:51:39 MSK)

Ссылка

там и кода как такового нет.

ориентированной на поиск истины

Math.random() > .5 ? 'да' : 'нет'

Кибер-оракул как фотонная пушка для голо-сувания. Человечество погубит не искусственный интеллект, а слепая вера в него

Мне более перспективной технологией кажется генная инженерия, которая могла бы помочь вырастить людям жабры и переселить их в океаны на Земле, а потом и на спутниках Юпитера Европе, Ио, Ганимеде… Можно еще теломеры укротить и бессмертие всем подарить, но нет Илона Маслакова - это не про прогресс, а про хайп. Как там гиперлуп из семи за… труб поживает?

rtxtxtrx ★★
(18.03.24 17:00:08 MSK)
Последнее исправление: rtxtxtrx 18.03.24 17:05:59 MSK (всего исправлений: 1)

А почему обучение моделей не постоянно?

One ★★★★★
(18.03.24 19:03:18 MSK)

Ответ на: комментарий от rtxtxtrx 18.03.24 17:00:08 MSK

Человеку не хватит растворённого в воде кислорода, ему слишком много требуется, поэтому такие жабры не изобретут в ближайшее время. Или ему прийдётся очень быстро плыть, чтобы пропустить больший объем воды, чтобы набрать нужное количество кислорода… :D

JustVic
(18.03.24 20:23:10 MSK)
Последнее исправление: JustVic 18.03.24 20:24:32 MSK (всего исправлений: 2)

Ответ на: комментарий от One 18.03.24 19:03:18 MSK

А почему обучение моделей не постоянно?

Потому что чтобы добавить один(!) токен, нужно пересобирать модель. А значит каждый "вопрос" оно бы обрабатывало не секунду, а минут сорок, и при этом жрало не 30G RAM, а 240G.

При этом на обучение сразу на пачке токенов нужно столько же времени и оперативки.

mord0d ★★★★★
(18.03.24 20:49:40 MSK)
Последнее исправление: mord0d 18.03.24 20:50:17 MSK (всего исправлений: 1)

Ответ на: комментарий от JustVic 18.03.24 20:23:10 MSK

Ничего, сначала человек попрактикует смешанное дыхание. Потом размер мозга уменьшится до рыбьего и всё будет нормально.

imul ★★★★★
(18.03.24 20:59:32 MSK)

Ссылка

Ответ на: комментарий от mord0d 18.03.24 20:49:40 MSK

чтобы добавить один(!) токен, нужно пересобирать модель

а почему нужно пересобирать?

я нубас в вопросах ИИ если что

Unixson ★
(18.03.24 22:29:25 MSK)

Мы — сила! Мы — Грок-хай!

Nervous ★★★★★
(18.03.24 22:34:01 MSK)

Ссылка

Ответ на: комментарий от mord0d 18.03.24 20:49:40 MSK

Сложно то как, то есть допустим у меня база из миллиона документов, чтобы добавить 1000 новых для работы модели, нужно заново пройти обучение с 1 001 000 документами?

One ★★★★★
(18.03.24 22:50:26 MSK)

Ответ на: комментарий от Unixson 18.03.24 22:29:25 MSK

а почему нужно пересобирать?

Потому что отдельно токен ты не впихнёшь, нужно все реляции к этому токену подвязывать, чтобы были связи. А для этого нужно перетренировывать модель с новыми данными (даже если это один токен).

Если прям грубо, то оно работает приблизительно (очень приблизительно, на самом деле всё сильно сложнее) так: ты вводишь текст, он преобразуется в массив, понятный для этой конкретной модели (модель, отвечающая за преобразование вшита), затем оно контекстуализирует вводные данные, собирает массив-ответ, и затем преобразует с помощью другой вшитой модели массив в человекопонятный текст. Все массивы — многомерны, каждый токен имеет реляции со всеми другими, если не напрямую, то через несколько связующих токенов.

Я плохой объяснятор… да и в txt2txt особо не копал, так что описал как смог.

mord0d ★★★★★
(18.03.24 22:58:37 MSK)

Ссылка

Ответ на: комментарий от JustVic 18.03.24 20:23:10 MSK

рыба луна 2 тонны весит. плавает со скорость 3 км ч и проплывает не более 30. чет твои источники врут. либо ты слишком буквально понял про океан. открытый океан по биомассе на квадратный метр похож на пустыню сахару

rtxtxtrx ★★
(18.03.24 23:03:01 MSK)

Ссылка

Ответ на: комментарий от One 18.03.24 22:50:26 MSK

Сложно то как

xAI опубликовала исходный код чат-бота Grok (комментарий)

то есть допустим у меня база из миллиона документов, чтобы добавить 1000 новых для работы модели, нужно заново пройти обучение с 1 001 000 документами?

Не совсем. Есть ещё мерж — пересборка нескольких моделей в одну.

mord0d ★★★★★
(18.03.24 23:04:05 MSK)

Ссылка

ну-ну, глядишь весь интернет проиндексируем и отключим тихоокеанский тоннель от ЦОД, слава Transhumanism INC, алгоритмам и Илону Маску 😘

~~avas1~~
(19.03.24 00:31:05 MSK)

Ссылка

господа, GPT-J, GPT-Neo то являлись не шуточными новыми возможностями открытыми для гражданских, а тут с выходом Grok (по цифрам более мощная штука) и Mojo в одном земном полушарии я бы на месте эникейщиков напряг булки и пошёл брать кластеры в аренду 🤫🫡

~~avas1~~
(19.03.24 00:40:16 MSK)

Очередной бредогенератор в поисках смысла своего существования?

camarade
(19.03.24 11:19:15 MSK)

Ссылка

Ответ на: комментарий от avas1 19.03.24 00:40:16 MSK

Как раз профессия эникейщика, где может быть куча разнородных факапов, вызванных человеческим фактором, никуда не денется. Вот быдлокодерам, работающим строго по ТЗ, стоит напрячься

Logopeft ★★
(19.03.24 11:22:06 MSK)

Ссылка

Ответ на: комментарий от Xintrea 18.03.24 13:53:03 MSK

Есть какая-то информация на чем обучали?

На твиторе же. Про только ленивые ещё не писали.

yvv1
(19.03.24 15:10:08 MSK)

Ответ на: комментарий от One 18.03.24 22:50:26 MSK

Сложно то как, то есть допустим у меня база из миллиона документов, чтобы добавить 1000 новых для работы модели, нужно заново пройти обучение с 1 001 000 документами?

Нет. Документы вставляются в промпт при помощи RAG алгоритмов.

yvv1
(19.03.24 15:15:15 MSK)

Ссылка

Я чёт не понял… Там ~40Кб кода и ~2Мб данных. И это всё???

anonmyous ★★
(19.03.24 15:42:12 MSK)

Ответ на: комментарий от anonmyous 19.03.24 15:42:12 MSK

Я чёт не понял… Там ~40Кб кода и ~2Мб данных. И это всё???

Чтобы сгенерировать эти данные, нужен мощный кластер. Или хотя бы компьютер с дюжиной видеокарт. А использование готового конечного результата большой вычислительной мощности не требует.

В одном учебном курсе по AI, ЕМНИП, система распознавания лиц требует для работы несколько десятков килобайт и мегагерц. Но её обучение требует много часов на современном многогигабайтном многоядерном десктопе.

question4 ★★★★★
(19.03.24 16:26:19 MSK)

Ответ на: комментарий от question4 19.03.24 16:26:19 MSK

Вопрос даже не в этом. Почему код размером со студенческую курсовую? Ну не могут же все эти мега-наработки в 40К кода умещаться!

PS: не, ну он ещё гига 3 зависимостей через pip вытягивает, но всё равно, это ж всего лишь зависимости, а не код нейронки…

anonmyous ★★
(19.03.24 19:27:03 MSK)

Ссылка

Ответ на: комментарий от rtxtxtrx 18.03.24 17:00:08 MSK

Мне более перспективной технологией кажется генная инженерия, которая могла бы помочь вырастить людям жабры и переселить их в океаны на Земле, а потом и на спутниках Юпитера Европе, Ио, Ганимеде…

Интересная мысль. Могу предположить, что для полноценной жизни под водой человеку нужно ОЧЕНЬ много чего ещё кроме жабр.

Для таких бросков в генной инженерии нужен расцвет кучи областей наук, от которых она зависит. Дайте Илону времени, зачем же так гнать :)

txgk
(19.03.24 23:13:55 MSK)

Ссылка

а можно интересно ли заставить Grok генерить фейк трафф для смартфонов, чтобы заставить Око Брамы идти по ложному следу 🤔 нейросеть которая умеела бы писать код придумали, значит и с этим разберёмся

~~avas1~~
(20.03.24 01:10:59 MSK)

Ссылка

Ответ на: комментарий от rtxtxtrx 18.03.24 17:00:08 MSK

если обучать на форумах где, восновном, все срутся за радикально противоположные мнения как-то так и должно работать. Цветнокожие рассисты, патриархальные трансы, либеральные фошисты и вот это все

Syncro ★★★★★
(20.03.24 08:47:58 MSK)

Ссылка

Ответ на: комментарий от yvv1 19.03.24 15:10:08 MSK

Есть какая-то информация на чем обучали?
На твиторе же. Про только ленивые ещё не писали.

Нахрен нужна такая нейросетка? В ней знаний никаких не будет, только трындеж не по делу.

Xintrea ★★★★★
(20.03.24 10:23:03 MSK)

Ответ на: комментарий от anonmyous 19.03.24 15:42:12 MSK

Ну дык прочитай что это. Это код для загрузки модели, чтоб с ней можно было работать. Ясно что он простой как доска и сложным быть не должен. Это не код для обучения и подготовки данных на которых она училась. И тем более не сама модель, которая лежит отдельно на торрентах, т.к. гит на 300 гигах начинает не очень хорошо работать.

peregrine ★★★★★
(20.03.24 14:01:58 MSK)

Ответ на: комментарий от Xintrea 20.03.24 10:23:03 MSK

Нахрен нужна такая нейросетка? В ней знаний никаких не будет, только трындеж не по делу.

Нейросети не хранят занания, они хранят статистические параметры. Контретно грок - это сырая модель, без файн тюнинга. Чтобы она стала полезной, ей нужна тонкая найстройка и прочие оптимизации. Смысл октрытия исходников и весов как раз в том, чтобы дать разработчикам возможность оптимизировать эту модель под свои конкретные юзкейсы.

yvv1
(20.03.24 15:21:52 MSK)
Последнее исправление: yvv1 20.03.24 15:29:53 MSK (всего исправлений: 1)

Ответ на: комментарий от yvv1 20.03.24 15:21:52 MSK

Нейросети не хранят занания, они хранят статистические параметры. Контретно грок - это сырая модель, без файн тюнинга. Чтобы она стала полезной, ей нужна тонкая найстройка и прочие оптимизации.

Естественно, нейросети всего лишь хранят веса. Но если ты тренируешь нейросеть твиттами, то вряд ли затем ты сможешь обсудить особенности вывода уравнений в какой-нибудь кристаллической химии.

Скорее всего, если результаты сети адекватные, то тренировка была не только на материалах твиттера, какие-то книги, журналы, прочие печатные издания прошлых лет и текущего времени должны были подсовывать.

Xintrea ★★★★★
(20.03.24 15:35:01 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

←	VKD3D-Proton 2.12 поддерживает Nvidia Reflex

Open Source

Первый выпуск дистрибутива TileOS 1.0

→

Похожие темы