The Linux Foundation запускает инициативу OMI для продвижения открытых ИИ-моделей

linux foundation, искусственный интеллект

0

2

The Linux Foundation объявила о запуске новой инициативы, направленной на продвижение открытых моделей искусственного интеллекта

На прошлой неделе была официально представлена инициатива Open Model Initiative (OMI), которая теперь работает под эгидой организации The Linux Foundation. Совместными усилиями они стремятся стимулировать инновации в разработке открытых ИИ-моделей.

OMI была создана тремя организациями, специализирующимися на ИИ: Invoke, Comfy Org и Civitai. Инициатива ориентирована на развитие и распространение моделей ИИ для генерации изображений, видео и аудио, которые будут доступны под открытыми лицензиями.

Управление проектом будет осуществляться комитетом, состоящим из представителей сообщества. Все модели, выпущенные в рамках OMI, будут иметь лицензии, которые останутся неизменными, не будут включать условия об удалении контента и не потребуют обязательной оплаты за доступ.

Основные задачи этой программы:

создание структуры управления и рабочих групп для поддержки коллективной работы сообщества;
проведение опросов среди участников сообщества для понимания их запросов и ожиданий в области исследований и обучения будущих моделей;
разработка конкурентоспособных и этичных ИИ-моделей с открытыми лицензиями;
создание стандартов для обеспечения совместимости моделей и унифицированного подхода к метаданным;
работа с прозрачными наборами данных для обучения и создание систем автоматической разметки данных;
запуск альфа-версии модели для проведения целевого тестирования безопасности (Red Teaming);
публикация альфа-версии модели и сценариев её настройки до конца 2024 года.

На данный момент у OMI еще нет официального сайта, однако информацию по ней можно найти на странице проекта на GitHub или на сервере Discord.

Во время анонса исполнительный директор The Linux Foundation Джим Землин сказал:

«The Linux Foundation глубоко привержен идее открытого и совместного развития ИИ. С запуском Open Model Initiative мы делаем важный шаг к тому, чтобы ИИ стал доступным и полезным для всех, создавая условия, в которых творчество и прогресс в области ИИ могут развиваться без барьеров.»

Сегодня многие компании и разработчики ИИ слишком часто поддаются соблазну коммерческих выгод, из-за чего доступ к моделям становится ограниченным. Открытая модель, которую вчера мог использовать любой, завтра может оказаться за платной стеной.

>>> Подробности

Ссылка

←	bfs 4.0 и 4.0.1

Драйвер NVIDIA 560.35 для Linux

→

Это Цукерберг сзади?

avgust23 ★
(22.08.24 21:50:30 MSK)

Очередной ИИ-скам

mittorn ★★★★★
(23.08.24 10:01:21 MSK)

Ссылка

Пилите пилите, только чтоб прямо со смартфона работала и могла точно и правильно отвечать. А то всё никак.

R_He_Po6oT ★★★★★
(23.08.24 10:30:12 MSK)

The Linux Foundation запускает инициативу OMI для продвижения открытых ИИ-поделий

token_polyak ★★★★★
(23.08.24 11:12:59 MSK)

Ссылка

Ответ на: комментарий от R_He_Po6oT 23.08.24 10:30:12 MSK

и могла точно и правильно отвечать

Так это ж вроде не про этот ИИ.

papin-aziat ★★★★★
(23.08.24 11:52:15 MSK)

Ответ на: комментарий от papin-aziat 23.08.24 11:52:15 MSK

А про какой? ИИ должен быть открытым. Обязан быть. ИИ должен быть надёжным, а для этого надо точно разграничить что он «знает», а что он «выдумывает». А то рассказывает потом, что кронциркуль, это круглый инструмент российских масонов по переносу систем счисления....

А натренировать его чтобы отвечал мне в стиле папина-азията, когда тот не приходит меня развлекать, вообще бы было бы :)

R_He_Po6oT ★★★★★
(23.08.24 12:05:41 MSK)

Ответ на: комментарий от R_He_Po6oT 23.08.24 12:05:41 MSK

ИИ должен быть надёжным, а для этого надо точно разграничить что он «знает», а что он «выдумывает».

Да, было бы здорово, чтобы в него накачивали книги и он умел цитировать из них, но тут наверняка будет проблема с правами или типа того.

papin-aziat ★★★★★
(23.08.24 12:44:35 MSK)

Ссылка

Ура! Свободу сгенерированным сиськам!

cocucka_B_TECTE ☆
(23.08.24 13:00:25 MSK)

Ссылка

Ответ на: комментарий от avgust23 22.08.24 21:50:30 MSK

Это Цукерберг сзади?

Да, пристраивается к опенсорс-сообществу

cocucka_B_TECTE ☆
(23.08.24 13:01:22 MSK)

Ответ на: комментарий от cocucka_B_TECTE 23.08.24 13:01:22 MSK

Это Цукерберг сзади?

Да, пристраивается к опенсорс-сообществу

Сзади.

densss ★★★★★
(23.08.24 15:07:04 MSK)

Ссылка

запуске новой инициативы, направленной на продвижение открытых моделей искусственного интеллекта

Отличная идея! И назвать надо как-то лаконично и понятно, например OpenAI

Logopeft ★★
(23.08.24 17:26:23 MSK)

Ссылка

Я так понял из всего этого маркетоидного высера «open» у них только сама «моделька» и сама тупорылая ANN которая с этой моделькой будет работать, а вот исходные данные использованные для получения тренировочной бигдаты для этой «модельки» они ни при каких условиях делать «open» не собираются, при том, что это единственная вещь, которая может быть реально инторесна из всей этой «AI» тряхомудии.

Забавный нынче «open» у нетрадиционных. Невидия вот давеча сделала «open» драйвера конвертируя блобы в сишные массивы, теперь вот это вот.

Интересно, эти говноеды уже заергистрировали слово «open» как TM? Ну чтобы никто уже даже не думал подразумевать под «open» что-то реально open, в изначальном смысле в отношении софта.

Stanson ★★★★★
(23.08.24 18:05:30 MSK)
Последнее исправление: Stanson 23.08.24 18:06:52 MSK (всего исправлений: 1)

Ответ на: комментарий от R_He_Po6oT 23.08.24 12:05:41 MSK

ИИ должен быть надёжным, а для этого надо точно разграничить что он «знает», а что он «выдумывает». А то рассказывает потом, что кронциркуль, это круглый инструмент российских масонов по переносу систем счисления….

Дело в том, что у нейросети нет знаний. У неё есть натренированный заранее оператор. Знания нужно прикреплять к запросу, например энциклопедию, или поисковую машину. Тогда она найдёт, что такое кронциркуль, и выдаст обобщение. Вообщем, нейросеть сама по себе, это ещё не интеллект. Нейросеть в комбинации с базой знаний и алгоритмами доступа к ним (RAG и т.д.), это уже похоже на интеллект.

yvv1
(23.08.24 19:10:57 MSK)
Последнее исправление: yvv1 23.08.24 19:12:42 MSK (всего исправлений: 1)

Ссылка

Моделей много, данных мало, ничего нового.

shpinog ★★★★
(23.08.24 23:15:07 MSK)

Ссылка

Без участия Hugging Face это все писями по воде, имхо. Именно туда выкладывают свои модели исследователи, Comfy с Civit просто пользуются этими моделями, а их пользователи заняты в основном тем что создают новые LoRA для очередной сексуальной позы.

Obezyan ☆
(24.08.24 02:01:10 MSK)

Ссылка

Ответ на: комментарий от Stanson 23.08.24 18:05:30 MSK

вот исходные данные использованные для получения тренировочной бигдаты для этой «модельки» они ни при каких условиях делать «open» не собираются

Так эти конторы и не создают сети, а пользуются тем что на HF. А вот там и сети и датасеты на которых обучали выложены (не для каждой сети), под разными лицензиями, в том числе открытыми. Датасеты

Obezyan ☆
(24.08.24 02:05:42 MSK)

Ответ на: комментарий от Obezyan 24.08.24 02:05:42 MSK

Я не про датасеты, а про исходные данные для создания датасетов и потом тренировки ANN и получения модели в виде коэффициэнтов ANN.

Датасет это уже обработанная бигдата. Промежуточный результат, как полученные из сишных сырцов бинарные .o которые потом надо собрать линкером. Блоб не имеющий никакой ценности в смысле опенсурса.

Open предполагает что любой пользователь может самостоятельно собрать итоговое поделие из исходных данных. Для программы это код, для текстовой модели, например, это, очевидно, оригиналы текстов которые использовались для создания датасета и затем модели и т.д.

Stanson ★★★★★
(24.08.24 02:20:57 MSK)
Последнее исправление: Stanson 24.08.24 02:23:37 MSK (всего исправлений: 1)

Стильно, модно, молодёжно.

Aoka
(24.08.24 03:12:00 MSK)
Последнее исправление: Aoka 24.08.24 03:12:17 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Stanson 24.08.24 02:20:57 MSK

Я не про датасеты, а про исходные данные для создания датасетов и потом тренировки ANN и получения модели в виде коэффициэнтов ANN.

Исходные данные для сети и есть датасет, его можно использовать и получить те же результаты, он открыт для просмотра и изменения, там тупо текст в определённом формате.

Собирают такие датасеты обычно (для instruct сетей) из стековерфлоу, википедии и реп на гитхабе, их тупо парсят, удаляют дубли, ищут скриптами текст лицензии и если не свободная - удаляют, если файл лицензии не найден то считается что свободное использование. Обычно либо в датасете пишут как его собирали либо в описании самой сети на HF.

Конкретного списка реп нет даже у создателей сети тк данные обрабатывались скриптами, а не вручную. Есть итоговый датасет, его можно скачать и обучить на нем получив тот же результат, т.е. ваша претензия не имеет смысла. Весь гитхаб вы не распарсите также чтобы получить тот же датасет.

Obezyan ☆
(24.08.24 03:33:10 MSK)
Последнее исправление: Obezyan 24.08.24 03:35:12 MSK (всего исправлений: 1)

Ответ на: комментарий от Obezyan 24.08.24 03:33:10 MSK

Да-да, конечно-конечно. Вот вам гигабайт бардака, который неизвестно из чего и с какой целью сделан.

А потом оно будет рассказывать как негры победили в ВОВ, что на rust написано больше всего ПО или ещё какую ахинею.

Такой прям open, что пора уже натурально морду бить этим конченным ублюдкам.

Stanson ★★★★★
(24.08.24 13:22:48 MSK)

Ответ на: комментарий от Obezyan 24.08.24 03:33:10 MSK

«… если файл лицензии не найден то считается что свободное использование. …». Поидее вроде если лицензия не указана использовать вообще нельзя никак. А понял это наверно Свободное использование произведения в информационных, научных, учебных или культурных целях.

JustVic
(24.08.24 14:10:29 MSK)
Последнее исправление: JustVic 24.08.24 14:11:59 MSK (всего исправлений: 1)

Ответ на: комментарий от Stanson 24.08.24 13:22:48 MSK

Похоже, что вы ни разу не открывали датасет и просто не понимаете что там. Вместо этого требуя копию всего гитхаба в качестве исходных данных.

Просто постарайтесь осознать что датасет и есть исходные данные в открытом виде. Он может быть хоть руками напечатан, в этом случае вы потребуете именно ту клавиатуру или руки?

Obezyan ☆
(24.08.24 15:18:29 MSK)

Ответ на: комментарий от JustVic 24.08.24 14:10:29 MSK

Я просто рассказал текущую ситуацию как есть. Сейчас считают что если выложено в открытом репозитарии на гитхабе и нет лицензиии то - можно использовать.

Obezyan ☆
(24.08.24 15:20:11 MSK)

Ссылка

Ответ на: комментарий от Stanson 23.08.24 18:05:30 MSK

вот исходные данные использованные для получения тренировочной бигдаты для этой «модельки» они ни при каких условиях делать «open» не собираются

А они общедоступны обычно. Там слишком большой объем данных, никто просто не осилит самостоятельно их создать. Обычно обучают например на постах реддита с высокой оценкой, аналогично со стекоферфлоу и так далее. Это для текста например. Для видео обычно просто берут видосы с ютуба сколько смогут и тренируют на этом.

vbcnthfkmnth123 ★★★★★
(24.08.24 15:43:08 MSK)
Последнее исправление: vbcnthfkmnth123 24.08.24 15:45:40 MSK (всего исправлений: 1)

А никто не хочет запилить опрос, кто камими ИИ тулзами пользуется и как часто/успешно? Просто прозондировать аудиторию ради интереса. Сам недавно обнаружил, что больше без них жить не могу, но подозреваю, что пользуюсь, как обезьяна микроскопом.

yvv1
(24.08.24 18:52:56 MSK)

Ссылка

Ответ на: комментарий от vbcnthfkmnth123 24.08.24 15:43:08 MSK

Там слишком большой объем данных, никто просто не осилит самостоятельно их создать.

Так и собрать фаерфокс из сырцов тоже не всякий осилит и захочет. А на каком-нибудь одноплатнике это сделать вообще может быть невозможно, чисто потому что памяти не хватит.

Проблема в том, что именно от выбора данных для датасета зависит то, что будет выдавать ANN натренированная на нём. Датасет это уже «скомпилированный» объект, и пытаться изменить поведение ANN редактируя датасет такое себе занятие.

Соответственно - нет исходных данных, нифига не open. Open будет когда данные для датасета будут под open лицензией, с правом изменять, копировать и распространять целиком или частично.

Stanson ★★★★★
(24.08.24 20:21:05 MSK)
Последнее исправление: Stanson 24.08.24 20:30:37 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Obezyan 24.08.24 15:18:29 MSK

Похоже, что вы ни разу не открывали датасет и просто не понимаете что там.

Да я и объектники какого-нибудь фаерфокса не открывал.

Он может быть хоть руками напечатан

Бинарный блоб тоже может быть руками напечатан.

в этом случае вы потребуете именно ту клавиатуру или руки?

Нет, я требую исходные данные из которых создан датасет. Причём под open лицензией. С правом копировать, изменять и распространять.

Stanson ★★★★★
(24.08.24 20:26:40 MSK)

Ответ на: комментарий от Stanson 24.08.24 20:26:40 MSK

Нет, я требую исходные данные из которых создан датасет.

Так вот же они, на гитхабе лежат, берите. Более того, они были собраны с 24 по 27 июля, если найдёте способ откатить репы на эту дату и достаточное место на своём диске - сможете скачать. Но т.к. никто кроме вас в здравом уме этим заниматься не будет (да и вы не будете, места то нет), то датасета более чем достаточно, тем более что он открыт для чтения и редактирования, это не blob.

Obezyan ☆
(24.08.24 23:12:29 MSK)

Ответ на: комментарий от Obezyan 24.08.24 23:12:29 MSK

Так вот же они, на гитхабе лежат, берите.

И я могу их в том числе копировать, изменять и распространять без ограничений, частично, или полностью, как положено в опенсурсе?

Более того, они были собраны с 24 по 27 июля, если найдёте способ откатить репы на эту дату и достаточное место на своём диске - сможете скачать.

Каким конкретно образом они были собраны? Где скрипты для собирания? Какие правки, блеклисты и вайтлисты использовались при создания этого конкретного датасета?

Как мне проверить, что при создании датасета на жидхабных данных, не были выкинуты проекты под лицензией MIT+NIGGER, например?

Stanson ★★★★★
(25.08.24 01:10:26 MSK)

Ответ на: комментарий от Stanson 25.08.24 01:10:26 MSK

И я могу их в том числе копировать, изменять и распространять без ограничений, частично, или полностью, как положено в опенсурсе?

да, те репы которые имеют такую лицензию - можете.

Каким конкретно образом они были собраны? Где скрипты для собирания? Какие правки, блеклисты и вайтлисты использовались при создания этого конкретного датасета?

В последний раз напишу что это не является исходными данными, исходными данными для обучения сети является датасет. Если он открыт, то на этом все, точка.

Как мне проверить, что при создании датасета на жидхабных данных, не были выкинуты проекты под лицензией MIT+NIGGER, например?

Открываете датасет и поиском ищете интересующую вас строчки из репозитария. Прям поиском по тексту.

Obezyan ☆
(25.08.24 01:17:50 MSK)

Ответ на: комментарий от Obezyan 25.08.24 01:17:50 MSK

да, те репы которые имеют такую лицензию - можете.

Я не про репы какие-то а про исходные данные для open датасета.

Если бинарник заявлен как opensource, то, очевидно что весь его исходный код является opensource без исключения.

Если модель заявлена как opensource, то все данные из которых сделан её тренировочный датасет, тоже opensource без исключения.

Если это не так, то вся эта рекламируемая AI тряхомудия никакого отношения к open не имеет вообще, и просто является ещё одним проприетарным высером с моделью натренированной неизвестно на чём и неизвестно с какой целью.

Stanson ★★★★★
(25.08.24 01:25:02 MSK)

Ответ на: комментарий от Stanson 25.08.24 01:25:02 MSK

Если бинарник заявлен как opensource, то, очевидно что весь его исходный код является opensource без исключения.

Какой бинарник? Модель это текстовый pytorch/tensorflow формат записи весов сети, датасет вообще текстовый файл или их набор.

Сеть опенсорс, датасет - как исходные данные к ней - доступен, Открываете и проверяете, повторяете, изменяете и тд. Метод сбора датасета и данные для него не являются исходными для сети. Для неё раньше датасета нет ничего.

Вы просто очередной покусанный Столманном или ещё кем попугай который не понимает о каком опенсорсе талдычит заученные фразы. На этом закончим.

Obezyan ☆
(25.08.24 02:05:35 MSK)

Ответ на: комментарий от Obezyan 25.08.24 02:05:35 MSK

Какой бинарник? Модель это текстовый pytorch/tensorflow формат записи весов сети, датасет вообще текстовый файл или их набор.

Точно такой же, как невидиевские бинарники в виде сишных массивов. То, что файл имеет текстовый формат никак не делает его исходником.

Метод сбора датасета и данные для него не являются исходными для сети. Для неё раньше датасета нет ничего.

Ну да, традиционное проприетарное шлангование. «Исходный код бинарной прошивки WiFi модуля не является определяющим его поведение и результаты работы».

На этом закончим.

Давно пора. С человеком который пытается впарить нарративчик, что набор данных и способ создания датасета никакого отношения к модели и её итоговому поведению не имеют - разговаривать вообще не о чем.

Stanson ★★★★★
(25.08.24 02:50:29 MSK)
Последнее исправление: Stanson 25.08.24 02:50:58 MSK (всего исправлений: 1)