LINUX.ORG.RU
ФорумTalks

Meta* использовала 81 ТБ пиратскх книг для обучения ИИ, новые подробности

 , , ,


0

2

Компания Meta* оказалась в центре скандала после того, как стало известно, что она загрузила более 81,7 ТБ пиратских книг для обучения своих моделей искусственного интеллекта. Согласно отчету Ars Technica, сотрудники Meta* использовали торрент-сайты для скачивания данных из теневых библиотек, таких как Z-Library и LibGen.

Новые данные, представленные в суде, показывают, что Meta* знала о незаконности своих действий, но продолжала скрывать свою деятельность. В ответ на обвинения Meta* утверждает, что использование этих данных подпадает под понятие «добросовестного использования».

Больше веселья, включая письма сотрудников, озадаченных ситуацией в подробностях для !Ъ:

>>> Подробности на Ars Technica


* Запрещена в РФ. Решением суда от 21.03.2022 компания Meta признана экстремистской организацией на территории Российской Федерации.

★★★★★
Ответ на: комментарий от pekmop1024

Но выжрало почти всю видеопамять (пришлось выгружать, чтобы картинки флаксом рисовать).

pekmop1024 ★★★★★
()
Последнее исправление: pekmop1024 (всего исправлений: 1)
Ответ на: комментарий от Obezyan

А, мы про разные сети значит. Ну, эта галлюцинирует знатно. :) DeepSeek-R1:32b, та что дистиллят Qwen, гораздо меньше таким страдает.

pekmop1024 ★★★★★
()
Ответ на: комментарий от vaddd

Я не против этого слова, но оно как-то уже чем «информация». Скорее нарратив - это часть окружающего человека инфополя

Наоборот, это самое широкое понятие. Нарратив — это сказка о реальности (не обязательно часть), он содержит в себе весь поток субнарративов в перемешку с эндогенными самовнушениями. По сути, нарратив есть перманентная суггестия, формирующая мировоззрение.

Например, президент страны N — нехороший человек, — нарратив; завтра 5 градусов тепла, — информация.

Чёткую грань между понятиями провести наверное нельзя, как это обычно бывает в гуманитарных вопросах, однако разница очевидна при небольшой тренировке.

В основу этого рассуждения кладу оппозицию к современной болтовне о мифическом информационном обществе, чтобы было ясно, что как правило информации там с гулькин хер.

Не-не-не ) Вы что, никогда не видели, как человек, получив какую-то информацию, не соответствующую его убеждениям - озлобляется, отвергет ее, называет «ложью», «вбросом», «вражеской пропагандой» и лишь укрепляется в своих убеждениях?

Коллега, мы ж с вами не натуралисты, что б интересоваться жизнью насекомых 🧐

papin-aziat ★★★★★
()
Ответ на: комментарий от Obezyan

Видел тесты, что на Q5_K_L у неё совершенно нет разницы с Q8

Во, нашёл

https://www.reddit.com/r/LocalLLaMA/comments/1iefhfj/mistral_small_3_24b_gguf_quantization_evaluation/

Не с Q8, блин, а с Q6

Там же в ветке есть:

Q3_K_M 67.32 Q4_K_L 67.8 Q4_K_M 67.56 IQ4_XS 69.51 Q5_K_L 69.76 Q6_K_L 70.73 Q8_0 71.22 F16 72.20

One ★★★★★
()
Последнее исправление: One (всего исправлений: 4)
Ответ на: комментарий от pekmop1024

Ну, эта галлюцинирует знатно

Подавляющее большинство сетей с квантизацией это огрызки по которым не стоит судить о полноценной сети. Их делают просто чтобы как можно больше количество пользователей могло попробовать-поиграться.

Год назад сравнивал в последний раз - полноценные сети с меньшим количеством весов работали лучше чем их старшие квантизованные версии. Как сейчас - не знаю.

Obezyan
()
Ответ на: комментарий от One

Не с Q8, блин, а с Q6

Полноценная сеть использует fp32 (Q32). Часто имеет смысл использовать ее с точностью fp16/bf16 (Q16). Все что ниже это отсечение топором лобных долей. Там не важно уже Q8 или Q6, Q6 или Q4, слишком сильное загрубление.

Добавлю про квантизацию, а то большинство просо не в курсе походу: сильная квантизация работает только с небольшими моделями. Если модель имеет больше ~6.7B параметров то Q8 превращает такую модель в бредогенератор. Пруф.

Причина этого в следующем - современные авторегрессионные LLMки выдают токены последовательно. При сильной квантизации вероятность «выброса» (генерации ошибочного токена) достаточно велика чтобы это происходило и уводило генерируемый ответ в бред.

Поэтому, сколько бы у вас там ресурсов не было, старайтесь использовать сети с квантизацией не ниже 16 (или без нее). Лучше выберите такую же сеть, но с меньшим количеством параметров и большей квантизацией при прочих равных.

Obezyan
()
Последнее исправление: Obezyan (всего исправлений: 3)
Ответ на: комментарий от papin-aziat

Наоборот, это самое широкое понятие.

Ну употребляйте «нарратив», я для себя буду вносить преобразование к слову «информация» )

По сути, нарратив есть перманентная суггестия, формирующая мировоззрение.

Мировоззрение формируется слишком многими вещами, чтобы сводить к нарративам или даже к информации )

Например, президент страны N — нехороший человек, — нарратив; завтра 5 градусов тепла, — информация.

Так топорно давно уже не разграничивают ) Наоборот, человек пребывает в окружающем его инфополе, которое достаточно малозаметно участвует в формировании взглядов. Например «Температура 5 градусов тепла. Президент принял участие в совещании по повышению пенсий» )

чтобы было ясно, что как правило информации там с гулькин хер.

Не согласен. Именно информации там дохрена. Более того, она вся правдивая ) Просто одну информацию сократят, в другой заменят терминологию, в третьей покажут лишь информацию под углом 38 градусов. И вот вся эта информация уже работает по другому )

vaddd ★☆
()
Ответ на: комментарий от vaddd

Что-то мне подсказывает, что говорим об одном и том же, но только я склонен к логике дедуктивной, а ты наоборот. А ведь ты мог бы просто сказать, что я прав, и пойти уже проверить, правильно ли жарит грибочки жена.

papin-aziat ★★★★★
()
Ответ на: комментарий от papin-aziat

Что-то мне подсказывает, что говорим об одном и том же,

Я в этом почти не сомневаюсь )

А ведь ты мог бы просто сказать, что я прав, и пойти уже проверить, правильно ли жарит грибочки жена.

А поговорить? )

PS. Тем более, что жена уже пожарила индюшкину печень, мы ее заценили под Abadia Mantrus, обсудили последние достижения науки, и посмотрели пару клипов )

vaddd ★☆
()

Meta* использовала 81 ТБ пиратскх книг для обучения ИИ, новые подробности

Правила сильного, параграф 3 «добросовестное использование».

anonymous_sama ★★★★★
()
Ответ на: комментарий от vaddd

Жарить печень — целое искусство. Там момент между тем, когда она уже не кровит и ещё не стала сухой очень маленький и его надо поймать, тогда она нежная получается.

Я придумал так: нарезать, хорошенько помешать с оливковым маслом (экстра вирджин!), соевым соусом и рисовым уксусом, потом всё это на хорошо разогретую сковородку и, помешивая, ловить момент — она слегка разбухает и тут где-то надо снимать и подавать. Посыпать свежим укропом, да.

Давненько, кстати, не делаем, что-то наелись одно время, пока я руку набивал 😁

papin-aziat ★★★★★
()
Последнее исправление: papin-aziat (всего исправлений: 1)
Ответ на: комментарий от papin-aziat

Я придумал так: нарезать, хорошенько помешать с оливковым маслом (экстра вирджин!)

Вы что? ( Экстравирджин - только для салатов, для приправ, оно категорически не подходит для жарки. На жарку - только рафинированное, не жмыховое (чтобы не было в описании слова pomace, это вообще продукт хим обработки). Есть какие-то теории, что extravirgin якобы не такое уж и вредное при жарке, но когда масло начинает пригорать при гораздо более низкой температуре, чем рафинированное - лучше не рисковать.

из более-менее массовых рафинированных для жарки одно из самых неплохих - casa rinaldi, но чтобы опять же не было pomace.

vaddd ★☆
()
Ответ на: комментарий от vaddd

Не, о какой-то прям длительной жарке речи не идёт, разумеется, но спасибо за совет, посмотрим.

papin-aziat ★★★★★
()
Ответ на: комментарий от Obezyan

Что-то на очень богатом

локальные модели мне не настолько интересны, что бы 14b-32b запускать на fp16, так как куда более интересные облака доступны, недорого, а то и бесплатно на уровне моделей google ai студио

One ★★★★★
()

Цукерберг начал свою карьеру с воровства. Вначале украл фотки университетских тёлок, затем идею университетской социальной сети.

zg
()
Последнее исправление: zg (всего исправлений: 1)
Ответ на: комментарий от vaddd

Факт скачивания именно каких-то конкретных книг с копирайтом размыт и не факт что где-то залогирован … Упущенная выгода малодоказуема

Во-первых, по делу Z-Library собирали доказательства, что продажи учебников обратно кореллируют с её доступностью. (Достаточно для блокировки, что решит суд над Мета — не знаю.)

Во-вторых, Мета обязана хранить свои логи сколько-то лет. Нет логов — значит, прячут улики, значит виновны.

question4 ★★★★★
()
Ответ на: комментарий от question4

С большущим трудом верится, что соцсеть с многомиллиардным баблом и капитализацией, всю жизнь существовавшая в насквозь закопирайченной и пропитанной судами и юристами Америке - и вдруг не позаботилась об юридическом основании своих действий, повела себя как списывающий двоечник-растяпа.

Что у них там, штата своих юристов нету? Своего внутреннего аудита? Нонсенс.

vaddd ★☆
()
Ответ на: комментарий от firkax

Теперь надо ликвидировать незаконно сделанные наработки, причём провести расследование и выявить все места, где они могли их забекапить, чтобы затереть и оттуда тоже. И во избежание рецидива ликвидировать вообще весь отдел, который этим занимался, и запретить данной компании и аффилированным с ней заниматься темами, близкими к ИИ, на ближайшие 500 лет.

А всем, кто читал пиратские книги, — разорвать принудительно нейронные связи и залить в синаптические щели гамма-аминомасляную кислоту, чтоб неповадно было 😡

IPR ★★★★★
()
Ответ на: комментарий от firkax

Ты же понимаешь, что в реальном мире всё работает наоборот? Если злостная компания с кучей денег и связей будет воровать миллионами, то возможно, что дело замнут, или отделаются какими-нибудь небольшими санкциями, а если простой работяга украл чекушку в магазине, то он уже не отвертится и ответит по всей строгости. Ну вот так это работает, как бы тебе (или мне, или даже большинству окружающих) не хотелось обратного…

CrX ★★★★★
() автор топика
Последнее исправление: CrX (всего исправлений: 1)
Ответ на: комментарий от CrX

Я как раз поэтому и пишу. Компания явно в более сильном положении и может как нанимать себе кучу адвокатов так и просто иметь денежный запас на случай наказаний. И если даже через этих адвокатов их виновность всё равно будет установлена - значит они точно виноваты, а ещё значит у них точно был умысел, т.к. они, при наличии толп юристов, не могли не знать всю степень преступности своих действий, и обвиняющее решение суда не будет иметь на них никакого морального воздействия (нормальные люди после того как их признали виновными - могут устыдиться, раскаяться, передумать итд - это важный аспект правоохранительной деятельности, а эти - не могут, они чисто математически примут к учёту финансовые потери), только экономическое. Именно поэтому к ним изначально должно быть запланировано намного более жёсткое наказание, в расчёте что добровольно они преступную деятельность не прекратят, их надо навсегда лишить физической возможности это делать.

firkax ★★★★★
()
Последнее исправление: firkax (всего исправлений: 1)
Ответ на: комментарий от CrX

Я не говорю, что его получится добиться, но если ты хотя бы будешь озвучивать данную точку зрения почаще - это будет лучше, чем не озвучивать, больше людей её увидят и вероятно поддержат. Я понимаю, что эффект от этого не сильный, но и трудозатраты на это тоже маленькие.

firkax ★★★★★
()
Ответ на: комментарий от Obezyan

Ой, и не говори, подруга. У самой муж — пьяница.

sparkie ★★★★★
()
Ответ на: комментарий от vaddd

С большущим трудом верится, что соцсеть с многомиллиардным баблом и капитализацией, всю жизнь существовавшая в насквозь закопирайченной и пропитанной судами и юристами Америке - и вдруг не позаботилась об юридическом основании своих действий, повела себя как списывающий двоечник-растяпа.

Такое случается регулярно. Утечки после покупки Твиттера — яркий пример массовых нарушений :) Давление со стороны политиков и силовых ведомств способствует нарушениям — что-то нарушают под давлением, что-то из нарушений обещают прикрыть оказывающие давление.

Что у них там, штата своих юристов нету? Своего внутреннего аудита?

Эти юристы способны похоронить любое начинание. Доходит до того, что выгоднее не проводить патентный поиск заранее, а судиться, если поймают на нарушении патента. А у стартапов нет юристов, поэтому они рискуют работать без аудита и иногда быстро богатеют. Мета вполне могла тряхнуть стариной и позволить перспективному подразделению действовать как быстрее, а не как законно.

question4 ★★★★★
()
Ответ на: комментарий от One

Никак - на такой литре оно само обучалось через разного рода cbow или fasttext меты. Руками размеченными данными обычно дообучают уже именно модель поведения, например чтобы не просто поток текста выдавала, а чтобы вела себя как чат(начиная с ввода от человека, заканчивая стилизацией ответа и пр.) или впихивала в шапке рассуждение.

AKonia ★★★
()
Последнее исправление: AKonia (всего исправлений: 2)
Ответ на: комментарий от Obezyan

Не знаю, сами исследователи показывали, что нифига не так - размер конечно ухудшает качество, емнип(86 -> 81% при переходе llama3 от 450b до 72b, дальше хуже), но и дальше вы получаете лишь ухудшение качества и потерю не лобных долей, а скорее СДВГ и забывчивость, как итог модель генерит по сути те же ответы, но снижает вероятность того, что в них нет ошибок. Напротив же с ростом числа параметров влияние усечений на неё влияет всё меньше и меньше, ввиду именного того факта, что огромная часть «нейронов» остаются не при делах, часть «содержит» избыточную инфу и того, что алгоритмами обучают неточно, стремясь получить хорошие обобщающие способности модели(хорошие результаты на тестовых данных), что собственно и даёт возможность моделькам быть очень живучими с такими сильными отсечениями. Собственно это емнип касается и человека, т.к. уже были неоднократные наблюдения того, что важен не размер мозга, а то что в нём содержится и что даже люди, которым удаляли чуть ли не полушарие восстанавливали деятельность удалённого полушария с объёме оставшегося. Собственно имеем, что нейроизбыточность необходима для выживаемости, как человеческого, так и искусственного мозга, поэтому сжатие модели выше в 6 раз снизило качество всего на 5%

AKonia ★★★
()
Ответ на: комментарий от Obezyan

В 2021м году у OpenAI стало не хватать обучающих данных. Они создали Whisper, который снимал с роликов на youtube текст который шел в обучающие выборки. Так они перелопатили более одного миллиона часов видео. Эти тексты пошли в обучение GPT-4.

Youtube запрещает использовать другим компаниям видео с платформы в коммерческих целях, но владелец (Google), сам использующий такой же подход, решил не ставить палки в колеса OpenAI и не подал иск.

С правовой точни зрения я вижу проблему только в том, как Meta получила данные (скачала пиратские копии с торрентов), а не как их использовала (для тренировки AI).

Так, в английской Википедии про fair use (добросовестное использование) написано, что под это, в частности, подпадает text and data mining, что как раз и делается для получения наборов данных для машинного обучения.

Еще мне попадалась статья (venturebeat.com – Judge dismisses most of Sarah Silverman’s copyright infringement lawsuit against OpenAI), в которой говорится, что владельцы авторских прав пытались обвинить OpenAI во всех смертных грехах в связи с использованием защищенных соответствующими правами книжек для тренировки AI, включая то, что они для целей машинного обучения изготавливали электронные копии этих книжек, и то, что все без исключения ответы AI являются derivative works (производными произведениями) от оригиналов. Судья это все отмёл, в частности указав, что копии книжек делались только в backend’e, но не воспроизводились во frontend’e для платящих клиентов, а то, что какие-то ответы AI нарушают авторские права, необходимо доказывать для каждого из ответов AI в отдельности, чего сделано не было.

Тут (gamedeveloper.com – Report: Nvidia’s AI tools use loads of scraped internet video) Nvidia беззастенчиво заявляет журналистам, что она извлекает защищенные копирайтом видео (фильмы, видеозахват из видеоигр) из популярных вебсайтов и платформ (включая YouTube и Netflix) для тренировки своих AI-продуктов, и не видит в этом ничего такого, т.к. это подпадает под fair use.

Что касается запрета со стороны Google на использование видео с платформы в коммерческих целях, то Meta не предоставляет своим клиентам доступ к видео с Youtube’a, а распространяет лишь свои AI-модели и предоставляет услуги с их использованием. Найдут в конкретных ответах ее моделей нарушение копирайта – будет плохо, а пока не нашли – все хорошо. Если же трактовать термин использование настолько широко, то можно дойти до того, что будет незаконным просмотр какого-либо обучающего видео работником какой-либо коммерческой организации: а в друг он узнает из него что-то полезное и применит это в своей работе на данную организацию?

Что касается скачивания защищенных авторским правом произведений с пиратских торрентов, то в России за одно только это теоретически может быть ответственность по ч. 2 ст. 146 УК РФ – за незаконное использование объектов авторского права или смежных прав, совершенное в крупном размере (500 тыс. руб.). Под использованием тут понимается, в частности, изготовление одного или нескольких экземпляров произведения либо его части в любой материальной форме, в том числе запись в память ЭВМ, на жесткий диск компьютера (Пленум Верховного суда о нарушении авторских прав). Как с этим в американском законодательстве, не знаю. Но думается, что должны быть похожие нормы уголовной и гражданской ответственности.

Zaruba
()
Ответ на: комментарий от firkax

Аналогия неуместна. Речь про злостно-коммрческую компанию, она должна получать по-максимуму.

Так это не работает. Или мы хотим обучать ИИ и пользоваться плодами технологического развития, или мы хотим копирайт и всё такое. Проблема не в том, чтобы купить книги, скорее всего. Проблема в том, что большинство книг уже не продаётся.

IPR ★★★★★
()
Ответ на: комментарий от IPR

Кто «мы»? Я не хочу никакие ИИ обучать и не хочу чтобы всякие паразиты типа фейсбука воровали ради своих корпоративных ИИ-нужд массивы данных.

мы хотим копирайт и всё такое

Копирайт в текущем его виде много где проблемен, однако для корпораций, желающих использовать чужие произведения, он должен действовать по-максимуму.

firkax ★★★★★
()
Последнее исправление: firkax (всего исправлений: 1)
Ответ на: комментарий от firkax

Кто «мы»? Я не хочу никакие ИИ обучать и не хочу чтобы всякие паразиты типа фейсбука воровали ради своих корпоративных ИИ-нужд массивы данных.

Вас не смущает, что кто-то создал и создает библиотеки, включая частные и копоративные?

vaddd ★☆
()
Ответ на: комментарий от firkax

Больно уж размыт процесс. Все мы учимся на каких-то книжках, каких-то источниках информации, за что-то платим, чаще нет. Более того, мы все на этих знаниях потом зарабытываем деньги )

vaddd ★☆
()
Ответ на: комментарий от vaddd

Все мы

Суть в том что фейсбук это не «мы», это фирма по торговле чужими данными. Они должны платить за всё по-максимуму где только можно и безо всяких поблажек.

firkax ★★★★★
()
Ответ на: комментарий от firkax

В мире очень много фирм, торгующих нашими данными, нашим трудом, нашими полезными ископаемыми, нашим здоровьем. Многие из них богатые и наглые. И никто за это нам особо не платит, наоборот многим вообще платим мы сами.

Фейсбух среди них - один из самых безвредных.

vaddd ★☆
()
Ответ на: комментарий от vaddd

В мире очень много фирм, торгующих нашими данными

Они все тоже должны платить, но всех разом не переловишь. А вот с самых наглых и заметных можно начать.

Фейсбух среди них - один из самых безвредных.

Да ну.

firkax ★★★★★
()
Ответ на: комментарий от firkax

Они все тоже должны платить, но всех разом не переловишь.

Кому платить, правообладателям? ) Вы уверены, что все продумали и не пожалеете, если вдруг все станет по вашему? )

vaddd ★☆
()
Ответ на: комментарий от firkax

По любому убытки получите вы. Может даже еще больше. Часть вашего бабла еще получат всякие писатели и издатели.

Нравится? Вы хотели именно этого.

vaddd ★☆
()
Ответ на: комментарий от vaddd

Не выдумывай. Если заставить их оплачивать всё чем они пользуются - значительная часть их деятельности (если не почти вся) станет убыточной и они её свернут. Все их огромные доходы берутся исключительно из того, что они берут забесплатно что плохо лежит и потом продают, на каждой отдельной сделке доход маленький, но цифровые технологии позволили этот подход масштабировать во много раз.

firkax ★★★★★
()
Ответ на: комментарий от AKonia

Ну то, что Маск правша все теперь хорошо знают.

А левой он будет мексиканцев на Марс запускать. Одно другому не мешает.

Obezyan
()
Ответ на: комментарий от Zaruba

Судья это все отмёл -> необходимо доказывать для каждого из ответов AI в отдельности. На этом уже понятно что никого ни за что не привлекут. Это просто медийный шум.

Obezyan
()

Не наши люди, ох не наши... Наши бы всё свалили на сам ИИ, мол это оно само.

anc ★★★★★
()
Ответ на: комментарий от firkax

Тебе, кстати, тоже никто не мешает скачать все тоже самое и тренировать свою сетку.

А если заставлять всех платить за датасеты из книг, то возможно вообще никто не сможет себе это позволить, даже гугл, который отсканировал (но не распознал) большинство книг на планете и которому фактически запретили использовать результат.

praseodim ★★★★★
()
Ответ на: комментарий от praseodim

то возможно вообще никто не сможет себе это позволить,

Всё правильно.

даже гугл

Ещё один вредитель-торговец чужими данными.

firkax ★★★★★
()
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)