LINUX.ORG.RU

xAI опубликовала исходный код чат-бота Grok

 ,


2

1

Компания xAI, которую Илон Маск запустил летом 2023 года, опубликовала исходный код чат-бота Grok.

В сообщении xAI говорится, что языковая модель Grok-1 содержит 314 млрд параметров, а опубликованные данные включают «веса базовой модели и сетевую архитектуру». Её обучение завершилось в октябре 2023 года. Grok-1 распространяется по лицензии Apache 2.0

Илон Маск объяснил шаг в открытии исходного кода стремление сделать платформу «самой прозрачной и ориентированной на поиск истины».

>>> Подробности

★★★★★

Проверено: hobbit ()
Последнее исправление: hobbit (всего исправлений: 2)
Ответ на: комментарий от vbr

Много. 70b параметров со скрипом залезает в 2 Nvidia Tesla P40 с 4-бит квантованием и 8кб размером контекста (Meditron). 72B с 32к контекстом (Smaug): 20 из 81 слоя на GPU, остальное на CPU, что жрет примерно 110 гиг оперативы помимо 48 гиг видеопамяти.

Эта, при тех же размерах квантования/контекста, думаю потребует штук 12 видях для инференса, не меньше.

ncrmnt ★★★★★
()
Последнее исправление: ncrmnt (всего исправлений: 2)
Ответ на: комментарий от imul

Видимо не только его, ибо из других сеток не выложили веса на huggingface и предлагали качать торрентом - только веса сетки GPT-4chan (обученную на /pol/). И то потому, что за расистские высказывания эту сетку с хугинфейса удалили.

ncrmnt ★★★★★
()
Последнее исправление: ncrmnt (всего исправлений: 1)
Ответ на: комментарий от ncrmnt

обученную на /pol/

Нашли на чём, лол. Ещё бы на ЛОРе обучали.

a1ba ★★
()
Ответ на: комментарий от imul

Я так понимаю, тут тоже не вполне опен. Это скорей бинарник, данные они же не выложили, на которых тренировали.

Хотя, конечно, всё равно круто.

vbr ★★★★
()
Ответ на: комментарий от vbr

Вы прямо словно не лоровцы. Маск в чирикалке намекал, что у опенаи опен только в названии. В отличии от xAI.

imul ★★★★★
()
Ответ на: комментарий от imul

С OpenAI всё давно понятно, тут вопросов нет.

vbr ★★★★
()
Ответ на: комментарий от hateWin

А при чем тут ваха? Первоисточник же - это же Stranger in a Strange Land(1961) by Robert A. Heinlein

vbcnthfkmnth123 ★★★★★
()

Илон Маск
стремление сделать платформу самой прозрачной

Ыхыхыхы

Gonzo ★★★★★
()
Последнее исправление: Gonzo (всего исправлений: 1)

В сообщении xAI говорится, что языковая модель Grok-1 содержит 314 млрд параметров, а опубликованные данные включают «веса базовой модели и сетевую архитектуру». Её обучение завершилось в октябре 2023 года.

Есть какая-то информация на чем обучали? Ведь это самое важное.

Xintrea ★★★★★
()
Ответ на: комментарий от Xintrea

Ну кстати да, если обучали на твитах, то ценность этих параметров будет невелика)

ncrmnt ★★★★★
()

xAI Харьковский авиационный институт.

sbu_shpigun
()

там и кода как такового нет.

ориентированной на поиск истины

Math.random() > .5 ? 'да' : 'нет'

Кибер-оракул как фотонная пушка для голо-сувания. Человечество погубит не искусственный интеллект, а слепая вера в него


Мне более перспективной технологией кажется генная инженерия, которая могла бы помочь вырастить людям жабры и переселить их в океаны на Земле, а потом и на спутниках Юпитера Европе, Ио, Ганимеде… Можно еще теломеры укротить и бессмертие всем подарить, но нет Илона Маслакова - это не про прогресс, а про хайп. Как там гиперлуп из семи за… труб поживает?

rtxtxtrx ★★
()
Последнее исправление: rtxtxtrx (всего исправлений: 1)
Ответ на: комментарий от rtxtxtrx

Человеку не хватит растворённого в воде кислорода, ему слишком много требуется, поэтому такие жабры не изобретут в ближайшее время. Или ему прийдётся очень быстро плыть, чтобы пропустить больший объем воды, чтобы набрать нужное количество кислорода… :D

JustVic
()
Последнее исправление: JustVic (всего исправлений: 2)
Ответ на: комментарий от One

А почему обучение моделей не постоянно?

Потому что чтобы добавить один(!) токен, нужно пересобирать модель. А значит каждый "вопрос" оно бы обрабатывало не секунду, а минут сорок, и при этом жрало не 30G RAM, а 240G.

При этом на обучение сразу на пачке токенов нужно столько же времени и оперативки.

mord0d ★★★★★
()
Последнее исправление: mord0d (всего исправлений: 1)
Ответ на: комментарий от JustVic

Ничего, сначала человек попрактикует смешанное дыхание. Потом размер мозга уменьшится до рыбьего и всё будет нормально.

imul ★★★★★
()
Ответ на: комментарий от mord0d

чтобы добавить один(!) токен, нужно пересобирать модель

а почему нужно пересобирать?

я нубас в вопросах ИИ если что

Unixson
()

Мы — сила! Мы — Грок-хай!

Nervous ★★★★★
()
Ответ на: комментарий от mord0d

Сложно то как, то есть допустим у меня база из миллиона документов, чтобы добавить 1000 новых для работы модели, нужно заново пройти обучение с 1 001 000 документами?

One ★★★★★
()
Ответ на: комментарий от Unixson

а почему нужно пересобирать?

Потому что отдельно токен ты не впихнёшь, нужно все реляции к этому токену подвязывать, чтобы были связи. А для этого нужно перетренировывать модель с новыми данными (даже если это один токен).

Если прям грубо, то оно работает приблизительно (очень приблизительно, на самом деле всё сильно сложнее) так: ты вводишь текст, он преобразуется в массив, понятный для этой конкретной модели (модель, отвечающая за преобразование вшита), затем оно контекстуализирует вводные данные, собирает массив-ответ, и затем преобразует с помощью другой вшитой модели массив в человекопонятный текст. Все массивы — многомерны, каждый токен имеет реляции со всеми другими, если не напрямую, то через несколько связующих токенов.

Я плохой объяснятор… да и в txt2txt особо не копал, так что описал как смог.

mord0d ★★★★★
()
Ответ на: комментарий от JustVic

рыба луна 2 тонны весит. плавает со скорость 3 км ч и проплывает не более 30. чет твои источники врут. либо ты слишком буквально понял про океан. открытый океан по биомассе на квадратный метр похож на пустыню сахару

rtxtxtrx ★★
()
Ответ на: комментарий от One

Сложно то как

xAI опубликовала исходный код чат-бота Grok (комментарий)

то есть допустим у меня база из миллиона документов, чтобы добавить 1000 новых для работы модели, нужно заново пройти обучение с 1 001 000 документами?

Не совсем. Есть ещё мерж — пересборка нескольких моделей в одну.

mord0d ★★★★★
()

ну-ну, глядишь весь интернет проиндексируем и отключим тихоокеанский тоннель от ЦОД, слава Transhumanism INC, алгоритмам и Илону Маску 😘

avas1
()

господа, GPT-J, GPT-Neo то являлись не шуточными новыми возможностями открытыми для гражданских, а тут с выходом Grok (по цифрам более мощная штука) и Mojo в одном земном полушарии я бы на месте эникейщиков напряг булки и пошёл брать кластеры в аренду 🤫🫡

avas1
()

Очередной бредогенератор в поисках смысла своего существования?

camarade
()
Ответ на: комментарий от avas1

Как раз профессия эникейщика, где может быть куча разнородных факапов, вызванных человеческим фактором, никуда не денется. Вот быдлокодерам, работающим строго по ТЗ, стоит напрячься

Logopeft ★★
()
Ответ на: комментарий от One

Сложно то как, то есть допустим у меня база из миллиона документов, чтобы добавить 1000 новых для работы модели, нужно заново пройти обучение с 1 001 000 документами?

Нет. Документы вставляются в промпт при помощи RAG алгоритмов.

yvv1
()
Ответ на: комментарий от anonmyous

Я чёт не понял… Там ~40Кб кода и ~2Мб данных. И это всё???

Чтобы сгенерировать эти данные, нужен мощный кластер. Или хотя бы компьютер с дюжиной видеокарт. А использование готового конечного результата большой вычислительной мощности не требует.

В одном учебном курсе по AI, ЕМНИП, система распознавания лиц требует для работы несколько десятков килобайт и мегагерц. Но её обучение требует много часов на современном многогигабайтном многоядерном десктопе.

question4 ★★★★★
()
Ответ на: комментарий от question4

Вопрос даже не в этом. Почему код размером со студенческую курсовую? Ну не могут же все эти мега-наработки в 40К кода умещаться!

PS: не, ну он ещё гига 3 зависимостей через pip вытягивает, но всё равно, это ж всего лишь зависимости, а не код нейронки…

anonmyous ★★
()
Ответ на: комментарий от rtxtxtrx

Мне более перспективной технологией кажется генная инженерия, которая могла бы помочь вырастить людям жабры и переселить их в океаны на Земле, а потом и на спутниках Юпитера Европе, Ио, Ганимеде…

Интересная мысль. Могу предположить, что для полноценной жизни под водой человеку нужно ОЧЕНЬ много чего ещё кроме жабр.

Для таких бросков в генной инженерии нужен расцвет кучи областей наук, от которых она зависит. Дайте Илону времени, зачем же так гнать :)

txgk
()

а можно интересно ли заставить Grok генерить фейк трафф для смартфонов, чтобы заставить Око Брамы идти по ложному следу 🤔 нейросеть которая умеела бы писать код придумали, значит и с этим разберёмся

avas1
()
Ответ на: комментарий от rtxtxtrx

если обучать на форумах где, восновном, все срутся за радикально противоположные мнения как-то так и должно работать. Цветнокожие рассисты, патриархальные трансы, либеральные фошисты и вот это все

Syncro ★★★★★
()
Ответ на: комментарий от yvv1

Есть какая-то информация на чем обучали?
На твиторе же. Про только ленивые ещё не писали.

Нахрен нужна такая нейросетка? В ней знаний никаких не будет, только трындеж не по делу.

Xintrea ★★★★★
()
Ответ на: комментарий от anonmyous

Ну дык прочитай что это. Это код для загрузки модели, чтоб с ней можно было работать. Ясно что он простой как доска и сложным быть не должен. Это не код для обучения и подготовки данных на которых она училась. И тем более не сама модель, которая лежит отдельно на торрентах, т.к. гит на 300 гигах начинает не очень хорошо работать.

peregrine ★★★★★
()
Ответ на: комментарий от Xintrea

Нахрен нужна такая нейросетка? В ней знаний никаких не будет, только трындеж не по делу.

Нейросети не хранят занания, они хранят статистические параметры. Контретно грок - это сырая модель, без файн тюнинга. Чтобы она стала полезной, ей нужна тонкая найстройка и прочие оптимизации. Смысл октрытия исходников и весов как раз в том, чтобы дать разработчикам возможность оптимизировать эту модель под свои конкретные юзкейсы.

yvv1
()
Последнее исправление: yvv1 (всего исправлений: 1)
Ответ на: комментарий от yvv1

Нейросети не хранят занания, они хранят статистические параметры. Контретно грок - это сырая модель, без файн тюнинга. Чтобы она стала полезной, ей нужна тонкая найстройка и прочие оптимизации.

Естественно, нейросети всего лишь хранят веса. Но если ты тренируешь нейросеть твиттами, то вряд ли затем ты сможешь обсудить особенности вывода уравнений в какой-нибудь кристаллической химии.

Скорее всего, если результаты сети адекватные, то тренировка была не только на материалах твиттера, какие-то книги, журналы, прочие печатные издания прошлых лет и текущего времени должны были подсовывать.

Xintrea ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.