Meta* использовала 81 ТБ пиратскх книг для обучения ИИ, новые подробности

meta, torrent, искусственный интеллект, пиратство

0

2

Компания Meta* оказалась в центре скандала после того, как стало известно, что она загрузила более 81,7 ТБ пиратских книг для обучения своих моделей искусственного интеллекта. Согласно отчету Ars Technica, сотрудники Meta* использовали торрент-сайты для скачивания данных из теневых библиотек, таких как Z-Library и LibGen.

Новые данные, представленные в суде, показывают, что Meta* знала о незаконности своих действий, но продолжала скрывать свою деятельность. В ответ на обвинения Meta* утверждает, что использование этих данных подпадает под понятие «добросовестного использования».

Больше веселья, включая письма сотрудников, озадаченных ситуацией в подробностях для !Ъ:

>>> Подробности на Ars Technica

* Запрещена в РФ. Решением суда от 21.03.2022 компания Meta признана экстремистской организацией на территории Российской Федерации.

Ссылка

←	Полноценно питаемся за 500 рублей в день на человека

Как правильно указывать копирайты и авторство при создании форка?

→

← 1 2 3 4 →

Мы все в некотором роде мета :)

Beewek ★★★
(07.02.25 09:35:38 MSK)

Ну так и что? Тварь ли ИИ дрожащая, или право имеет?

imul ★★★★★
(07.02.25 09:40:11 MSK)

Ссылка

А когда уже можно будет оправдаться фразой «Оно само»?

NyXzOr ★★★★
(07.02.25 09:45:31 MSK)

Ссылка

Ничегоо, Цук Маску часть доли продаст, и договорятся.

mogwai ★★★★★
(07.02.25 09:45:39 MSK)

Ответ на: комментарий от mogwai 07.02.25 09:45:39 MSK

Там напрямую заносили. Как минимум, 1М USD на инаугурацию Мистера Апельсина.

Так, что вопросик быстро порешают.

somemong
(07.02.25 09:52:28 MSK)

Ссылка

Meta* утверждает, что использование этих данных подпадает под понятие «добросовестного использования».

«Право – это воля правящего класса, возведённая в закон и принуждаемая к исполнению государственными механизмами». Так что пиратство это правонарушение для обычных пользователей библиотек, а для запрещённой и осуждённой меты «добросовестное использование».

Ygor ★★★★★
(07.02.25 09:52:55 MSK)

загрузила более 81,7 ТБ пиратских книг

а в чем тут преступление? это что майнкампфы сплошные?

amd_amd ★★★★★
(07.02.25 09:55:49 MSK)
Последнее исправление: amd_amd 07.02.25 09:56:19 MSK (всего исправлений: 1)

Ответ на: комментарий от amd_amd 07.02.25 09:55:49 MSK

Хуже. Там было ПСС ВИЛ.

imul ★★★★★
(07.02.25 09:57:05 MSK)
Последнее исправление: imul 07.02.25 09:57:23 MSK (всего исправлений: 1)

Ответ на: комментарий от amd_amd 07.02.25 09:55:49 MSK

Не преступление, а административное правонарушение — незаконное копирование с нарушением авторских прав. Там в подробностях сотрудник ещё про сидирование говорит, а сидирование — это формально распространение таких незаконных копий.

CrX ★★★★★
(07.02.25 09:57:37 MSK) автор топика

Ответ на: комментарий от imul 07.02.25 09:57:05 MSK

сталинские еще скормить надо

amd_amd ★★★★★
(07.02.25 09:58:40 MSK)

Ответ на: комментарий от CrX 07.02.25 09:57:37 MSK

незаконное копирование с нарушением

иначе не будет работать - бизнес план примерно такой: обучаешь за Х собачий, а потом доступ продаешь, моральные аспекты никого не интересуют - главное фиксировать прибыль.

amd_amd ★★★★★
(07.02.25 10:04:42 MSK)

Ответ на: комментарий от amd_amd 07.02.25 10:04:42 MSK

Ну ты спросил, в чём «преступление», я ответил. А что моральные аспекты никого не интересуют, тем более в большом бизнесе — это очевидно. Дело не в моральных, а в правовых аспектах.

Вангую, назначат штраф, звучащий как большая цифра, какие-нибудь там пара миллионов баксов, но который будет сущими копейками по сравнению с тем, сколько мета на этом сэкономила и заработала.

CrX ★★★★★
(07.02.25 10:08:09 MSK) автор топика

Ответ на: комментарий от amd_amd 07.02.25 09:55:49 MSK

Ну во-первых купить, во-вторых спросить, в третьих при использовании данных из этих книг давать ссылку, что использовано то-то и то-то или нужен договор, чтоб этого не делать. И это только по верхам.

vtVitus ★★★★★
(07.02.25 10:14:40 MSK)
Последнее исправление: vtVitus 07.02.25 10:14:58 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от CrX 07.02.25 10:08:09 MSK

Нееее думаю издательства подтянутся и попробуют доить meta. Потому что это прецедент, а у издательств бабла не очень много. В общем, meta на халяву точно не отползёт.

vtVitus ★★★★★
(07.02.25 10:17:45 MSK)

Подробности на Ars Technica

Что значит не сократить вовремя работника по имени Nikolay Bashlykov.

Впрочем, еще не поздно подать на него иск за скачивание и раздачу торрентов и на коменсацию ущерба компании

vaddd ★☆
(07.02.25 10:21:40 MSK)

Ссылка

Ответ на: комментарий от Ygor 07.02.25 09:52:55 MSK

Но только не при Трампе :) при Трампе Цукерберг уже не вполне правящий. Вот если скинет Маску модель по дешёвке, будет добросовестное.

bender ★★★★★
(07.02.25 10:38:24 MSK)

А вот обучали бы на библиотеке Мошкова…

dataman ★★★★★
(07.02.25 10:52:08 MSK)

Ответ на: комментарий от bender 07.02.25 10:38:24 MSK

Но только не при Трампе :) при Трампе Цукерберг уже не вполне правящий. Вот если скинет Маску модель по дешёвке, будет добросовестное.

Эти разногласия правящего класса никак не касаются взаимоотношений с угнетённым классом. Вон Хунтера Байдена помиловали и всем ок. И потом очень похоже, что Цукерберг лишь ширма.

Ygor ★★★★★
(07.02.25 11:23:50 MSK)

Ссылка

Преступное воровство! Украсть столько книг, бедные издатели, надеюсь они уже позвонили 911 и все книги найдут в целостности и сохранности.

XMPP ★
(07.02.25 11:36:06 MSK)

Ссылка

Ответ на: комментарий от vtVitus 07.02.25 10:17:45 MSK

Вряд ли что-то из этого выйдет. Дело в том что этим занимаются буквально ВСЕ создатели современных сетей. Данные для обучения - новая нефть. Чем больше тем лучше, иначе будет хуже китайских сетей, а там никогда не заморачивались с интеллектуальной собственностью и авторским правом.

Obezyan ☆
(07.02.25 12:02:17 MSK)

Ответ на: комментарий от Obezyan 07.02.25 12:02:17 MSK

Смысл не в том, чтоб перестали заниматься, а в том, чтоб хотя бы делились деньгами (с кем надо, само собой, понятно что не с авторами книг…)

CrX ★★★★★
(07.02.25 12:07:02 MSK) автор топика

Ссылка

Ответ на: комментарий от Obezyan 07.02.25 12:02:17 MSK

Ключевое это «прецедент» и «доить». Тех же нефтяников прекрасно все доят.

vtVitus ★★★★★
(07.02.25 12:18:58 MSK)

Ссылка

Теперь надо ликвидировать незаконно сделанные наработки, причём провести расследование и выявить все места, где они могли их забекапить, чтобы затереть и оттуда тоже. И во избежание рецидива ликвидировать вообще весь отдел, который этим занимался, и запретить данной компании и аффилированным с ней заниматься темами, близкими к ИИ, на ближайшие 500 лет.

firkax ★★★★★
(07.02.25 12:34:29 MSK)
Последнее исправление: firkax 07.02.25 12:34:49 MSK (всего исправлений: 1)

Ответ на: комментарий от firkax 07.02.25 12:34:29 MSK

ликвидировать вообще весь отдел

Физически.

VovanE ★
(07.02.25 12:36:22 MSK)
Последнее исправление: VovanE 07.02.25 12:36:39 MSK (всего исправлений: 1)

Ссылка

Нигадую

Psilocybe ★★★★★
(07.02.25 12:43:06 MSK)

Ссылка

она загрузила более 81,7 ТБ пиратских книг

Предлагаю постановление суда: всё, что бесплатно скачано вернуть, бесплатной раздачей :)

quickquest ★★★★★
(07.02.25 13:05:11 MSK)

Ссылка

Но вор, конешно же, ты, Уаня. А тут барин добросовестно использует, понимать надо!

MoldAndLimeHoney ★
(07.02.25 13:26:22 MSK)

Ссылка

BTW, вы же понимаете, что и все остальные AI-фарцовщики делали, делают и будут делать так же? И не только с книгами, а вообще со всем контентом. И плевать они хотели на лицензии.

MoldAndLimeHoney ★
(07.02.25 13:29:15 MSK)

Ответ на: комментарий от MoldAndLimeHoney 07.02.25 13:29:15 MSK

Да понятно, что делали. Но пойманы за руку не были, в отличие от. Презумпция невиновности пока ещё работает, по крайней мере иногда.

CrX ★★★★★
(07.02.25 13:35:37 MSK) автор топика

Mistral Small 24B очень зашел для меня, если они с использовании пираток, то молодцы.

Только как фильтровали художественную литературу и научную?

One ★★★★★
(07.02.25 14:03:28 MSK)

Ответ на: комментарий от One 07.02.25 14:03:28 MSK

нейросеть и фильтрует. вот прям не отличишь учебник математики от «преступления и наказания».

alysnix ★★★
(07.02.25 14:09:46 MSK)

Ответ на: комментарий от CrX 07.02.25 13:35:37 MSK

Но пойманы за руку не были, в отличие от.

Вы рассуждаете о теме о которой понятия не имеете. Впрочем, это база ЛОРа.

В 2021м году у OpenAI стало не хватать обучающих данных. Они создали Whisper, который снимал с роликов на youtube текст который шел в обучающие выборки. Так они перелопатили более одного миллиона часов видео. Эти тексты пошли в обучение GPT-4.

Youtube запрещает использовать другим компаниям видео с платформы в коммерческих целях, но владелец (Google), сам использующий такой же подход, решил не ставить палки в колеса OpenAI и не подал иск.

В 2022м выпускают ChatGPT и Мета резко начинает пасти задних. А в ИИ вложенно уже просто неприличное количество денег. Нужно догонять, в процессе встает тот же вопрос нехватки данных. Мета смотрит на то что у OpeanAI не возникло никаких проблем с авторским правом при подобных действиях и решает что им тоже это все сойдет с рук.

Скорее всего, действительно сойдет с рук. Уже был иск от NYT к OpenAI и Microsoft за использование новостных статей, защищенных авторским правом. Те просто парировали что это «fair use». И все, прецендент есть. На западе - прецендентное право. Пишите в Спортлото.

Obezyan ☆
(07.02.25 14:16:24 MSK)

Ответ на: комментарий от One 07.02.25 14:03:28 MSK

Mistral Small 24B очень зашел для меня, если они с использовании пираток, то молодцы.

О, спасибо за информацию. Ему неделя всего, я как-то пропустил, поставил на закачаку.

Obezyan ☆
(07.02.25 14:18:57 MSK)

Ответ на: комментарий от Obezyan 07.02.25 14:16:24 MSK

В 2021м году у OpenAI стало не хватать обучающих данных. Они создали Whisper, который снимал с роликов на youtube текст который шел в обучающие выборки. Так они перелопатили более одного миллиона часов видео. Эти тексты пошли в обучение GPT-4.

Это не то же самое, что скачивание пиратских книг с торрентов, хотя и тоже является нарушением. Но явно другим. Сами видео в открытом доступе.

Вроде всё правильно написал, непонятно только к чему был первый абзац… Ты сам понятия не имеешь, о чём имеют понятие собеседники, а о чём нет.

CrX ★★★★★
(07.02.25 14:20:02 MSK) автор топика

Ответ на: комментарий от CrX 07.02.25 14:20:02 MSK

Это не то же самое

Вы не поняли. Это не тоже самое, но та же самая отмазка в суде - «это было добросовестное использование» (fair use).

Вроде всё правильно написал, непонятно только к чему был первый абзац… Ты сам понятия не имеешь, о чём имеют понятие собеседники, а о чём нет.

Модераторы ЛОРа которых мы заслужили. Перечитайте что ли сообщения еще раз.

Obezyan ☆
(07.02.25 14:22:23 MSK)

Как в основе каждого крупного капитала лежит преступление, так и в основе каждой крупной LLM лежит тотальное нарушение авторских прав)

goingUp ★★★★★
(07.02.25 14:22:43 MSK)

Ссылка

Ответ на: комментарий от Obezyan 07.02.25 14:22:23 MSK

Вы не поняли. Это не тоже самое, но та же самая отмазка в суде - «это было добросовестное использование» (fair use).

И что? Как это противоречит тому, что именно на использовании пиратского контента, не находящегося в открытом доступе, была поймана именно мета? И как это свидетельствует о том, что я не имею понятия, о чём рассуждаю. Поумерить ЧСВ бы.

Перечитайте что ли сообщения еще раз.

Воздержусь. Тот случай, когда проще проигнорировать.

CrX ★★★★★
(07.02.25 14:26:07 MSK) автор топика

Ссылка

Ответ на: комментарий от Beewek 07.02.25 09:35:38 MSK

Мы все в некотором роде мета :)

Интересно, каким методом определили, что LLM тренировали на пиратском контенте, и можно ли тем же методом определить, обучалась ли лысая обезьяна на пиратском контенте)

goingUp ★★★★★
(07.02.25 14:26:56 MSK)

Так в результате ИИ-то поумнел от этих гигабайтов или всё так же несёт ахинею?

papin-aziat ★★★★★
(07.02.25 14:27:37 MSK)

Ответ на: комментарий от goingUp 07.02.25 14:26:56 MSK

обучалась ли лысая обезьяна на пиратском контенте)

да, и не стыжусь этого - fair use.

Obezyan ☆
(07.02.25 14:30:47 MSK)

Ссылка

https://ru.wikipedia.org/wiki/%D0%9A%D0%B0%D0%BF%D0%B5%D1%80%D1%81%D0%BA%D0%BE%D0%B5_%D1%81%D0%B2%D0%B8%D0%B4%D0%B5%D1%82%D0%B5%D0%BB%D1%8C%D1%81%D1%82%D0%B2%D0%BE

Недостаточно веселый Роджер или что?

t3n3t ★
(07.02.25 14:32:39 MSK)
Последнее исправление: t3n3t 07.02.25 14:34:28 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от goingUp 07.02.25 14:26:56 MSK

Кстати да. Сделают по аналогии с детектором лжи детектор чтения пиратского контента. И всё, я попал:)

Beewek ★★★
(07.02.25 14:33:47 MSK)

Ответ на: комментарий от papin-aziat 07.02.25 14:27:37 MSK

Так в результате ИИ-то поумнел от этих гигабайтов

Конечно.

или всё так же несёт ахинею?

Конечно. Но более разнообразную :)

CrX ★★★★★
(07.02.25 14:34:51 MSK) автор топика

Ответ на: комментарий от Beewek 07.02.25 14:33:47 MSK

Прибор можно даже тот же самый использовать. Всё равно точность будет примерно та же :)

CrX ★★★★★
(07.02.25 14:36:19 MSK) автор топика

Ответ на: комментарий от CrX 07.02.25 14:36:19 MSK

Прибор можно даже упростить - оставить одну лампочку «Да, использовал». Точность будет близка к 100% :)

Beewek ★★★
(07.02.25 14:41:14 MSK)

Ссылка

Ответ на: комментарий от CrX 07.02.25 14:34:51 MSK

Мне кажется они его только запутывают кучей данных. Кормили бы только высококачественной литературой…

papin-aziat ★★★★★
(07.02.25 14:41:30 MSK)

Ответ на: комментарий от papin-aziat 07.02.25 14:41:30 MSK

Зависит от того, какова цель. Если цель, чтобы он более качественно писал художественные тексты — возможно. Если сделать более похожим на человеческого всезнайку — чем больше инфы, любого качества, тем лучше.

Но даже в первом случае с кормлением только высококачественной литературой всё сложно. Где её много взять, а главное, кто будет это курировать? Ну допустим, взяли всю школьную программу всех развитых стран (делаем допущение, что раз включено в школьную программу, то это качественная литература). Допустим, взяли также книги, завоевавшие какие-то премии. Наберётся может сотня книг, может несколько сотен, но этого же необычайно мало для обучения нейросетки. Нанять специального эксперта-филолога? Ну, допустим, он ещё полтысячи книг навключает (да и то там совпадений с предыдущей выборкой будет куча), а мы уже зависим от субъективного мнения одного конкретного человека, вместо обучения на всём доступном и претензии на какую-то нейтральностью. При этом книг всё ещё мало для обучения… В общем, хз как это можно было бы реалистично организовать.

CrX ★★★★★
(07.02.25 14:48:56 MSK) автор топика

Ответ на: комментарий от amd_amd 07.02.25 09:55:49 MSK

а в чем тут преступление?

В лицемерии. Капиталисты-миллиардеры из Meta, которая жирует на интеллектуальной собственности, с особым цинизмом нарушали законы о защите интеллектуальной собственности, пролоббированные другими капиталистами-миллиардерами :)

Не удивлюсь, если владельцев Library Z выслеживали через соцсети Meta.

question4 ★★★★★
(07.02.25 14:49:06 MSK)

Ссылка

Ответ на: комментарий от CrX 07.02.25 09:57:37 MSK

Не преступление, а административное правонарушение

Там астрономическая сумма упущенной выгоды. Такой ущерб тянет на уголовное преступление.

question4 ★★★★★
(07.02.25 14:51:01 MSK)

Ответ на: комментарий от dataman 07.02.25 10:52:08 MSK

А вот обучали бы на библиотеке Мошкова…

Она тоже нерукопожатая. Как минимум, Википедия считает её пиратской.

question4 ★★★★★
(07.02.25 14:52:09 MSK)

Ссылка

Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)

← 1 2 3 4 →

←	Полноценно питаемся за 500 рублей в день на человека

Talks

Как правильно указывать копирайты и авторство при создании форка?

→

Похожие темы