LINUX.ORG.RU
ФорумTalks

Meta* использовала 81 ТБ пиратскх книг для обучения ИИ, новые подробности

 , , ,


0

2

Компания Meta* оказалась в центре скандала после того, как стало известно, что она загрузила более 81,7 ТБ пиратских книг для обучения своих моделей искусственного интеллекта. Согласно отчету Ars Technica, сотрудники Meta* использовали торрент-сайты для скачивания данных из теневых библиотек, таких как Z-Library и LibGen.

Новые данные, представленные в суде, показывают, что Meta* знала о незаконности своих действий, но продолжала скрывать свою деятельность. В ответ на обвинения Meta* утверждает, что использование этих данных подпадает под понятие «добросовестного использования».

Больше веселья, включая письма сотрудников, озадаченных ситуацией в подробностях для !Ъ:

>>> Подробности на Ars Technica


* Запрещена в РФ. Решением суда от 21.03.2022 компания Meta признана экстремистской организацией на территории Российской Федерации.

★★★★★

Ну так и что? Тварь ли ИИ дрожащая, или право имеет?

imul ★★★★★
()

А когда уже можно будет оправдаться фразой «Оно само»?

NyXzOr ★★★★
()
Ответ на: комментарий от mogwai

Там напрямую заносили. Как минимум, 1М USD на инаугурацию Мистера Апельсина.

Так, что вопросик быстро порешают.

somemong
()

Meta* утверждает, что использование этих данных подпадает под понятие «добросовестного использования».

«Право – это воля правящего класса, возведённая в закон и принуждаемая к исполнению государственными механизмами». Так что пиратство это правонарушение для обычных пользователей библиотек, а для запрещённой и осуждённой меты «добросовестное использование».

Ygor ★★★★★
()

загрузила более 81,7 ТБ пиратских книг

а в чем тут преступление? это что майнкампфы сплошные?

amd_amd ★★★★★
()
Последнее исправление: amd_amd (всего исправлений: 1)
Ответ на: комментарий от amd_amd

Не преступление, а административное правонарушение — незаконное копирование с нарушением авторских прав. Там в подробностях сотрудник ещё про сидирование говорит, а сидирование — это формально распространение таких незаконных копий.

CrX ★★★★★
() автор топика
Ответ на: комментарий от CrX

незаконное копирование с нарушением

иначе не будет работать - бизнес план примерно такой: обучаешь за Х собачий, а потом доступ продаешь, моральные аспекты никого не интересуют - главное фиксировать прибыль.

amd_amd ★★★★★
()
Ответ на: комментарий от amd_amd

Ну ты спросил, в чём «преступление», я ответил. А что моральные аспекты никого не интересуют, тем более в большом бизнесе — это очевидно. Дело не в моральных, а в правовых аспектах.

Вангую, назначат штраф, звучащий как большая цифра, какие-нибудь там пара миллионов баксов, но который будет сущими копейками по сравнению с тем, сколько мета на этом сэкономила и заработала.

CrX ★★★★★
() автор топика
Ответ на: комментарий от amd_amd

Ну во-первых купить, во-вторых спросить, в третьих при использовании данных из этих книг давать ссылку, что использовано то-то и то-то или нужен договор, чтоб этого не делать. И это только по верхам.

vtVitus ★★★★★
()
Последнее исправление: vtVitus (всего исправлений: 1)
Ответ на: комментарий от CrX

Нееее думаю издательства подтянутся и попробуют доить meta. Потому что это прецедент, а у издательств бабла не очень много. В общем, meta на халяву точно не отползёт.

vtVitus ★★★★★
()

Подробности на Ars Technica

Что значит не сократить вовремя работника по имени Nikolay Bashlykov.

Впрочем, еще не поздно подать на него иск за скачивание и раздачу торрентов и на коменсацию ущерба компании

vaddd ★☆
()
Ответ на: комментарий от Ygor

Но только не при Трампе :) при Трампе Цукерберг уже не вполне правящий. Вот если скинет Маску модель по дешёвке, будет добросовестное.

bender ★★★★★
()
Ответ на: комментарий от bender

Но только не при Трампе :) при Трампе Цукерберг уже не вполне правящий. Вот если скинет Маску модель по дешёвке, будет добросовестное.

Эти разногласия правящего класса никак не касаются взаимоотношений с угнетённым классом. Вон Хунтера Байдена помиловали и всем ок. И потом очень похоже, что Цукерберг лишь ширма.

Ygor ★★★★★
()

Преступное воровство! Украсть столько книг, бедные издатели, надеюсь они уже позвонили 911 и все книги найдут в целостности и сохранности.

XMPP
()
Ответ на: комментарий от vtVitus

Вряд ли что-то из этого выйдет. Дело в том что этим занимаются буквально ВСЕ создатели современных сетей. Данные для обучения - новая нефть. Чем больше тем лучше, иначе будет хуже китайских сетей, а там никогда не заморачивались с интеллектуальной собственностью и авторским правом.

Obezyan
()
Ответ на: комментарий от Obezyan

Смысл не в том, чтоб перестали заниматься, а в том, чтоб хотя бы делились деньгами (с кем надо, само собой, понятно что не с авторами книг…)

CrX ★★★★★
() автор топика
Ответ на: комментарий от Obezyan

Ключевое это «прецедент» и «доить». Тех же нефтяников прекрасно все доят.

vtVitus ★★★★★
()

Теперь надо ликвидировать незаконно сделанные наработки, причём провести расследование и выявить все места, где они могли их забекапить, чтобы затереть и оттуда тоже. И во избежание рецидива ликвидировать вообще весь отдел, который этим занимался, и запретить данной компании и аффилированным с ней заниматься темами, близкими к ИИ, на ближайшие 500 лет.

firkax ★★★★★
()
Последнее исправление: firkax (всего исправлений: 1)

она загрузила более 81,7 ТБ пиратских книг

Предлагаю постановление суда: всё, что бесплатно скачано вернуть, бесплатной раздачей :)

quickquest ★★★★★
()

Но вор, конешно же, ты, Уаня. А тут барин добросовестно использует, понимать надо!

MoldAndLimeHoney
()

BTW, вы же понимаете, что и все остальные AI-фарцовщики делали, делают и будут делать так же? И не только с книгами, а вообще со всем контентом. И плевать они хотели на лицензии.

MoldAndLimeHoney
()
Ответ на: комментарий от MoldAndLimeHoney

Да понятно, что делали. Но пойманы за руку не были, в отличие от. Презумпция невиновности пока ещё работает, по крайней мере иногда.

CrX ★★★★★
() автор топика

Mistral Small 24B очень зашел для меня, если они с использовании пираток, то молодцы.

Только как фильтровали художественную литературу и научную?

One ★★★★★
()
Ответ на: комментарий от CrX

Но пойманы за руку не были, в отличие от.

Вы рассуждаете о теме о которой понятия не имеете. Впрочем, это база ЛОРа.

В 2021м году у OpenAI стало не хватать обучающих данных. Они создали Whisper, который снимал с роликов на youtube текст который шел в обучающие выборки. Так они перелопатили более одного миллиона часов видео. Эти тексты пошли в обучение GPT-4.

Youtube запрещает использовать другим компаниям видео с платформы в коммерческих целях, но владелец (Google), сам использующий такой же подход, решил не ставить палки в колеса OpenAI и не подал иск.

В 2022м выпускают ChatGPT и Мета резко начинает пасти задних. А в ИИ вложенно уже просто неприличное количество денег. Нужно догонять, в процессе встает тот же вопрос нехватки данных. Мета смотрит на то что у OpeanAI не возникло никаких проблем с авторским правом при подобных действиях и решает что им тоже это все сойдет с рук.

Скорее всего, действительно сойдет с рук. Уже был иск от NYT к OpenAI и Microsoft за использование новостных статей, защищенных авторским правом. Те просто парировали что это «fair use». И все, прецендент есть. На западе - прецендентное право. Пишите в Спортлото.

Obezyan
()
Ответ на: комментарий от One

Mistral Small 24B очень зашел для меня, если они с использовании пираток, то молодцы.

О, спасибо за информацию. Ему неделя всего, я как-то пропустил, поставил на закачаку.

Obezyan
()
Ответ на: комментарий от Obezyan

В 2021м году у OpenAI стало не хватать обучающих данных. Они создали Whisper, который снимал с роликов на youtube текст который шел в обучающие выборки. Так они перелопатили более одного миллиона часов видео. Эти тексты пошли в обучение GPT-4.

Это не то же самое, что скачивание пиратских книг с торрентов, хотя и тоже является нарушением. Но явно другим. Сами видео в открытом доступе.


Вроде всё правильно написал, непонятно только к чему был первый абзац… Ты сам понятия не имеешь, о чём имеют понятие собеседники, а о чём нет.

CrX ★★★★★
() автор топика
Ответ на: комментарий от CrX

Это не то же самое

Вы не поняли. Это не тоже самое, но та же самая отмазка в суде - «это было добросовестное использование» (fair use).

Вроде всё правильно написал, непонятно только к чему был первый абзац… Ты сам понятия не имеешь, о чём имеют понятие собеседники, а о чём нет.

Модераторы ЛОРа которых мы заслужили. Перечитайте что ли сообщения еще раз.

Obezyan
()

Как в основе каждого крупного капитала лежит преступление, так и в основе каждой крупной LLM лежит тотальное нарушение авторских прав)

goingUp ★★★★★
()
Ответ на: комментарий от Obezyan

Вы не поняли. Это не тоже самое, но та же самая отмазка в суде - «это было добросовестное использование» (fair use).

И что? Как это противоречит тому, что именно на использовании пиратского контента, не находящегося в открытом доступе, была поймана именно мета? И как это свидетельствует о том, что я не имею понятия, о чём рассуждаю. Поумерить ЧСВ бы.

Перечитайте что ли сообщения еще раз.

Воздержусь. Тот случай, когда проще проигнорировать.

CrX ★★★★★
() автор топика
Ответ на: комментарий от Beewek

Мы все в некотором роде мета :)

Интересно, каким методом определили, что LLM тренировали на пиратском контенте, и можно ли тем же методом определить, обучалась ли лысая обезьяна на пиратском контенте)

goingUp ★★★★★
()
Ответ на: комментарий от goingUp

обучалась ли лысая обезьяна на пиратском контенте)

да, и не стыжусь этого - fair use.

Obezyan
()
Ответ на: комментарий от goingUp

Кстати да. Сделают по аналогии с детектором лжи детектор чтения пиратского контента. И всё, я попал:)

Beewek ★★★
()
Ответ на: комментарий от papin-aziat

Так в результате ИИ-то поумнел от этих гигабайтов

Конечно.

или всё так же несёт ахинею?

Конечно. Но более разнообразную :)

CrX ★★★★★
() автор топика
Ответ на: комментарий от Beewek

Прибор можно даже тот же самый использовать. Всё равно точность будет примерно та же :)

CrX ★★★★★
() автор топика
Ответ на: комментарий от CrX

Прибор можно даже упростить - оставить одну лампочку «Да, использовал». Точность будет близка к 100% :)

Beewek ★★★
()
Ответ на: комментарий от papin-aziat

Зависит от того, какова цель. Если цель, чтобы он более качественно писал художественные тексты — возможно. Если сделать более похожим на человеческого всезнайку — чем больше инфы, любого качества, тем лучше.

Но даже в первом случае с кормлением только высококачественной литературой всё сложно. Где её много взять, а главное, кто будет это курировать? Ну допустим, взяли всю школьную программу всех развитых стран (делаем допущение, что раз включено в школьную программу, то это качественная литература). Допустим, взяли также книги, завоевавшие какие-то премии. Наберётся может сотня книг, может несколько сотен, но этого же необычайно мало для обучения нейросетки. Нанять специального эксперта-филолога? Ну, допустим, он ещё полтысячи книг навключает (да и то там совпадений с предыдущей выборкой будет куча), а мы уже зависим от субъективного мнения одного конкретного человека, вместо обучения на всём доступном и претензии на какую-то нейтральностью. При этом книг всё ещё мало для обучения… В общем, хз как это можно было бы реалистично организовать.

CrX ★★★★★
() автор топика
Ответ на: комментарий от amd_amd

а в чем тут преступление?

В лицемерии. Капиталисты-миллиардеры из Meta, которая жирует на интеллектуальной собственности, с особым цинизмом нарушали законы о защите интеллектуальной собственности, пролоббированные другими капиталистами-миллиардерами :)

Не удивлюсь, если владельцев Library Z выслеживали через соцсети Meta.

question4 ★★★★★
()
Ответ на: комментарий от CrX

Не преступление, а административное правонарушение

Там астрономическая сумма упущенной выгоды. Такой ущерб тянет на уголовное преступление.

question4 ★★★★★
()
Ответ на: комментарий от dataman

А вот обучали бы на библиотеке Мошкова…

Она тоже нерукопожатая. Как минимум, Википедия считает её пиратской.

question4 ★★★★★
()
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)