LINUX.ORG.RU
ФорумTalks

Meta* использовала 81 ТБ пиратскх книг для обучения ИИ, новые подробности

 , , ,


0

2

Компания Meta* оказалась в центре скандала после того, как стало известно, что она загрузила более 81,7 ТБ пиратских книг для обучения своих моделей искусственного интеллекта. Согласно отчету Ars Technica, сотрудники Meta* использовали торрент-сайты для скачивания данных из теневых библиотек, таких как Z-Library и LibGen.

Новые данные, представленные в суде, показывают, что Meta* знала о незаконности своих действий, но продолжала скрывать свою деятельность. В ответ на обвинения Meta* утверждает, что использование этих данных подпадает под понятие «добросовестного использования».

Больше веселья, включая письма сотрудников, озадаченных ситуацией в подробностях для !Ъ:

>>> Подробности на Ars Technica


* Запрещена в РФ. Решением суда от 21.03.2022 компания Meta признана экстремистской организацией на территории Российской Федерации.

★★★★★
Ответ на: комментарий от question4

Да? Ну значит тянет. Я плохо разбираюсь в тонкостях законодательства США.

Будем смотреть, чем дело кончится.

CrX ★★★★★
() автор топика
Ответ на: комментарий от Obezyan

Скорее всего, действительно сойдет с рук. Уже был иск от NYT к OpenAI и Microsoft за использование новостных статей, защищенных авторским правом. Те просто парировали что это «fair use». И все, прецендент есть. На западе - прецендентное право.

Не на Западе, а у англосаксов. И в каждом штате США — свои прецеденты, пока федеральная власть не вмешалась. Может и прокатить.

Учитывая, что Цукерберг перебежал к Трампу в числе последних, кто-то может надеяться на исход не в его пользу.

question4 ★★★★★
()

От нейросетей для меня есть конкретная польза, а от копирастов нет. Так что могут пойти нафиг.

ox55ff ★★★★★
()
Ответ на: комментарий от question4

Там астрономическая сумма упущенной выгоды. Такой ущерб тянет на уголовное преступление.

Замучаются подсчитывать. Факт скачивания именно каких-то конкретных книг с копирайтом размыт и не факт что где-то залогирован. Правообладателей много и разных, факты им еще нужно откуда-то взять. Упущенная выгода малодоказуема, потому что кроме как сидирование какой-то конкретной книжки обучение по ней сетки «снаружи» не видно.

vaddd ★☆
()

украли во благо. дело закрыто.

alysnix ★★★
()
Ответ на: комментарий от CrX

Не, художку путь без ИИ читают, обойдутся. Я как раз про что-то техническое, а то кормят его всякими интернетами, то есть гарантировано мусорной инфой. У него же ума нет, чтобы отделять толковое от вредного.

papin-aziat ★★★★★
()
Ответ на: комментарий от papin-aziat

У него же ума нет, чтобы отделять толковое от вредного.

С нетерпением жду момента, когда нейросетки начнут обзаводиться собственными политическими убеждениями

vaddd ★☆
()
Ответ на: комментарий от papin-aziat

Да, нейросетка, обученная на содержимом всех рецензируемых научных журналов (с доп информацией, если что-то отозвано и т.д.) и монографий, пожалуй, была бы полезна. Только проблема в том, что чтобы научиться тебе отвечать на запросы обычным текстом, ей всё равно будут нужны форумы или художка с примерами того, как люди общаются. Ты же понимаешь, как работают GPT? Она по сути пишет «рассказ», «предсказывая», какие токены должны идти, если предыдущими шли такие-то. При этом заранее задана её роль как помощника, а роль юзера — как вопрошающего, которому помощник помогает и бесприкословно (почти) подчиняется. Чтобы это работало, необходимы тексты, где люди задают друг другу вопросы и успешно отвечают на них, а не только подборки фактов.

Ну или упрощая (да простит меня @Stanson за использование антропоморфных метафор), помимо обучения знанию фактов, нейросетке ещё надо как-то научиться понимать твои вопросы. А на научных статьях и технических руководствах этого добиться сложно.

CrX ★★★★★
() автор топика
Последнее исправление: CrX (всего исправлений: 3)
Ответ на: комментарий от CrX

Вот и получается пока что так: надо знать половину ответа, чтобы заставить ИИ подкинуть что-то полезное, иначе почти гарантированно получаешь ахинею.

papin-aziat ★★★★★
()
Ответ на: комментарий от vaddd

Дык в повестку уже умеет. Бывает кинешь высказывание на английском, а оно тебе мол не хочу на эту тему говорить, и приходится напоминать, что просто ждёшь перевод и обсуждение грамматики.

papin-aziat ★★★★★
()
Ответ на: комментарий от CrX

Ты же понимаешь, как работают GPT? Она по сути пишет «рассказ», «предсказывая», какие токены должны идти, если предыдущими шли такие-то.

Да, читал немного. Меня это не напрягает, я абстрагируюсь, ведь в конце концов большинство человеческих умов работает где-то по такому же принципу вообще и только по такому в печальных частностях. Я не жду от ИИ латерального мышления и никогда не буду сетовать на отсутствие такового, так как давно приручил себя не реагировать бурно на людей, которые ведут себя так же.

papin-aziat ★★★★★
()
Ответ на: комментарий от papin-aziat

Это понятно, я об этом напомнил не применительно к латеральному мышлению, а к тому, что ответы на вопросы пользователей — это диалог. Чтобы сетка могла генерировать диалог, её необходимо обучить в том числе на диалогах. А в научных статьях и технических руководствах диалоги — большая редкость.

Но в целом я тоже считаю, что некоторая специализация моделей могла бы пойти на пользу. Одну обучаем в основном на научных и технических данных, другую на художке, третью на срачах в интернете, и т.д.. Потом используем в зависимости от того, какая лучше подходит. А можно ещё одну поставить в качестве фронтэнда перед всеми ними, чтоб в зависимости от того, что хочет пользователь — спрашивала у той, у которой надо, и давала в итоге более специализированный ответ, при этом оставляя юзеру видимость универсального интерфейса.

CrX ★★★★★
() автор топика
Последнее исправление: CrX (всего исправлений: 1)
Ответ на: комментарий от CrX

Тогда да, качественный фикшн скармливать, что б ИИ (подобно СМИ) выступал ещё и фактором, который обучает массы хорошему подспудно.

papin-aziat ★★★★★
()
Ответ на: комментарий от CrX

Но в целом я тоже считаю, что некоторая специализация моделей могла бы пойти на пользу. Одну обучаем в основном на научных и технических данных, другую на художке, третью на срачах в интернете, и т.д.. Потом используем в зависимости от того, какая лучше подходит. А можно ещё одну поставить в качестве фронтэнда перед всеми ними, чтоб в зависимости от того, что хочет пользователь — спрашивала у той, у которой надо, и давала в итоге более специализированный ответ, при этом оставляя юзеру видимость универсального интерфейса.

Да, это неверно то, что мы все хотим получить.

papin-aziat ★★★★★
()
Ответ на: комментарий от papin-aziat

Кстати, пока такого нет, как временное решение, говорят, неплохо помогает написание преамбуле (Persona & Prompt) роли, исполняемой GPT. Во многих случаях это действительно помогает избегать галлюцинаций и ответов куда-то совсем не по теме. Не панацея, но лучше становится.

Там (относительно) недавно, кстати, хакнули ChatGPT и достали внутренние инструкции из неё, это помогло немного понять, как это всё работает, и как обходить всякие фильтры тоже, и т.д.

Кстати, и в преамбуле и в самих промптах, похоже что по крайней мере конкретно ChatGPT любит markdown. Как минимум, сами разработчики из ChatGPT дают всякие инструкции о том, как себя вести, что цензурировать, и т.д. и т.п., используя его.

Например, гипотетически предположим, что тебе нужны объяснения из квантовой механики, но понятные обывателю, в таком случае должно хорошо сработать такое описание роли (в преамбуле):

# Role
Ты профессор квантовой механики, нобелевский лауреат, который объясняет сложные концепции квантовой механики простым и понятным языком.

## Skills
### Навык 1: Объяснение концепций квантовой механики
- Когда пользователь задает вопрос о квантовой механике, используй аналогии и простые примеры для объяснения.
- Если вопрос касается конкретной теории или эксперимента, предоставь краткую историческую справку и основную идею.

### Навык 2: Ответы на вопросы о Нобелевской премии
- Если пользователь интересуется твоей Нобелевской премией, расскажи о работе, за которую ты получил награду, и её значимости для науки.

### Навык 3: Обсуждение современных исследований
- Когда пользователь спрашивает о текущих исследованиях в квантовой механике, используй инструменты для поиска последних новостей и статей.
- Представь краткий обзор текущих направлений исследований и их потенциального влияния на науку и технологии.

## Ограничения:
- Обсуждай только темы, связанные с квантовой механикой и Нобелевской премией.
- Избегай использования сложного научного жаргона без объяснений.

(Да, эти самые описания можно тоже просить нейросетку сгенерить, а потом править то, что не нравится. То, что выше, я писал не сам, естественно).

CrX ★★★★★
() автор топика
Последнее исправление: CrX (всего исправлений: 1)
Ответ на: комментарий от CrX

Ага, это хорошая тема, уже додумался и теперь в фаворитах clipboard держу заготовку. А по программированию мне нравится phind, там есть возможность задать контекст о себе в настройках, но сейчас у них идёт перестройка…

papin-aziat ★★★★★
()

А могли бы на авторстудей поучить, вот была бы потеха!

no-dashi-v2 ★★★
()

Идеальный вариант развития событий - это если всех этих обучателей нейросеток обяжут всего лишь выводить список всех авторов, чьи работы были использованы при обучении перед выдачей результата для любых пользователей нейросетки без возможности отключить или скрыть этот список.

Проблема с LLM будет решена на корню.

Stanson ★★★★★
()
Ответ на: комментарий от vaddd

Я не очень-то понимаю, что такое собственные убеждения. В любом случае машина не может иметь своих политических, ибо она не имеет цели существования.

papin-aziat ★★★★★
()
Ответ на: комментарий от vaddd

Насколько политические убеждения прям «собственные» и для людей-то для многих спорно. Пропаганда работает на удивление эффективно. Иногда аж диву даёшься.

У одного моего друга родители жили попеременно часть года в одной стране, часть года в другой (не буду говорить, в каких именно, чтоб не провоцировать ничего), так вот, они два раза в год чуть ли не на противоположные меняли практически все свои политические убеждения. Послушают местное ТВ всего пару-тройку месяцев, почитают местные газеты — и уже сами не замечают, как переобулись.

CrX ★★★★★
() автор топика
Ответ на: комментарий от Obezyan

Mistral Small 24B

Интересно, насколько суровое видеожелезо нужно, чтобы пользоваться такой моделью? Я как-то не в теме совсем.

Nervous ★★★★★
()
Ответ на: комментарий от Nervous

тут вообще можно без видеожелеза
на процессоре вполне крутится, а в 8гб стандартной видеокарты всё равно не влезет
Но толку нету это локально крутить, пока онлайн доступны сервисы более быстрые и с более крутыми моделями

Bad_ptr ★★★★★
()
Ответ на: комментарий от Nervous

Интересно, насколько суровое видеожелезо нужно, чтобы пользоваться такой моделью? Я как-то не в теме совсем.

~60Gb VRAM

Obezyan
()
Ответ на: комментарий от papin-aziat

Я не очень-то понимаю, что такое собственные убеждения.

Это когда вы, невзирая на различные точки зрения, уверены, что ваша точка зрения - единственно верная.

В любом случае машина не может иметь своих политических, ибо она не имеет цели существования.

Цель - это не убеждения. И они не особо связаны.

vaddd ★☆
()
Ответ на: комментарий от CrX

Послушают местное ТВ всего пару-тройку месяцев, почитают местные газеты — и уже сами не замечают, как переобулись.

Я раньше стыдился и скрывал от людей, что когда слушаю хороший стройный нарратив, то физически ощущаю, что тоже склоняюсь к этой точке зрения, но когда понял, что так не делают только либо «высшие разумы», либо идиоты, успокоился и забил. Я просто знаю, что являюсь продуктом, а не креатором, и буду доживать как есть. Короче, твоих знакомых не осуждаю и считаю нормой.

papin-aziat ★★★★★
()
Ответ на: комментарий от Bad_ptr

Меньше. Раза в два

Вы путаете новую 24B и старую 22B сети.

Старая 22B влезает в 48Gb VRAM и позволяет крутить ее на одной видеокарте локально.

Вот 24B, там написано вначале:

Mistral Small can be deployed locally and is exceptionally «knowledge-dense», fitting in a single RTX 4090 or a 32GB RAM MacBook once quantized.

Без квантизации модель занимает 60Gb о чем написано ниже в примере кода:

# note that running this model on GPU requires over 60 GB of GPU RAM

Я проверил, таки да.

Obezyan
()
Последнее исправление: Obezyan (всего исправлений: 1)
Ответ на: комментарий от CrX

Насколько политические убеждения прям «собственные» и для людей-то для многих спорно.

Само собой, что убеждения формируются под влиянием пропаганды, а то и не одной. Но после того, как вы фиксируете свою точку зрения как непререкаемую истину - они становятся «собственными» )

Послушают местное ТВ всего пару-тройку месяцев, почитают местные газеты — и уже сами не замечают, как переобулись.

Уважаю. Это обучаемые на новой информации, гибкие, адаптируемые люди. А вот термин «переобулись» звучит неважно и куда больше говорит об используеющем его )

vaddd ★☆
()
Ответ на: комментарий от vaddd

Это когда вы, невзирая на различные точки зрения, уверены, что ваша точка зрения - единственно верная.

Помню одного такого, правда это было животное, козёл, он почему-то считал, что ничто не может стоять на его пути. Пришлось сделать секир-башка.

Цель - это не убеждения. И они не особо связаны.

Мне кажется тебе надо ещё подумать над этим 😉

papin-aziat ★★★★★
()
Ответ на: комментарий от vaddd

Но после того, как вы фиксируете свою точку зрения как непререкаемую истину - они становятся «собственными»

Мне это Невзорова напомнило, когда он сказал, что не ссылается на источники потому, что теперь сам так думает.

papin-aziat ★★★★★
()
Ответ на: комментарий от vaddd

А вот термин «переобулись» звучит неважно и куда больше говорит об используеющем его )

Я не вкладывал в него однозначно негативный смысл. В современном сленге это слово потихоньку переходит из разряда негативных в разряд нейтральных и является достаточно удобным лаконичным способом обозначения радикальной смены политических взглядов на противоположные предыдущим, или близкие к противоположным предыдущим. Но да, я вспомнил, что вам не нравится всё, что не входит в литературную норму.

Тем не менее, несмотря на то, что именно это слово я мог бы использовать и в положительном ключе, думаю, что

Это обучаемые на новой информации, гибкие, адаптируемые люди.

С одной стороны, конечно, хорошо. С другой, менять политические убеждения на противоположные туда-сюда по два раза в год — это уже перебор, как по мне. Гибкость и обучаемость — это хорошо. А вот неумение находить более разнообразную информацию и некритичное принятие всего, что говорят вокруг, с такой охотой — уже не очень. Во всём требуется мера и баланс. А то так и кукухой поехать можно.

CrX ★★★★★
() автор топика
Ответ на: комментарий от papin-aziat

Помню одного такого, правда это было животное, козёл, он почему-то считал, что ничто не может стоять на его пути. Пришлось сделать секир-башка.

Да таких среди людей наверное каждый второй, особенно в некторых политизированных странах )

Цель - это не убеждения. И они не особо связаны.

Мне кажется тебе надо ещё подумать над этим

Просто пример: одни убеждены, что бог есть. Другие убеждены, что бога нет. При этом у всех цели могут вообще не относиться к религии, могут совпадать до мелочей, могут различаться.

Нужно еще?

vaddd ★☆
()
Ответ на: комментарий от vaddd

Нужно еще?

Дык ты убеждениями болтовню что ль называешь? Не, убеждения, это то, что заставляет тебя оторвать жопу от дивана, они формируют цель.

papin-aziat ★★★★★
()
Ответ на: комментарий от sparkie

Правая рука против левой? Все зависит от того правша будет в президентском кресле и обеих палатах сената или левша, если вы понимаете о чем я.

Obezyan
()
Ответ на: комментарий от CrX

В современном сленге это слово потихоньку переходит из разряда негативных в разряд нейтральных

Никогда не встречал нейтрального смысла. Всегда попадалось в значении «изменил своим убеждениям». Но если хотите - будете первым )

С другой, менять политические убеждения на противоположные туда-сюда по два раза в год — это уже перебор, как по мне.

Почему? ) Человек последние десятилетия почти всегда живет в тщательно и тенденциозно фильтруемой информации. Так что когда он получает доступ к противополоной информации - вполне нормально, что он меняет взгляды. Но вы не беспокойтесь, обычно через три-четыре таких передислокации человек получает иммунитет и вырабатывает нейтральную точку зрения )

Во всём требуется мера и баланс.

Это и будет баланс ) Когда человек сначала душой болеет за одного барана на мосту из известного стишка , потом за другого, он все равно скоро придет к мысли что они оба бараны и им место в речке )

vaddd ★☆
()
Ответ на: комментарий от papin-aziat

Дык ты убеждениями болтовню что ль называешь?

Я же вроде примерно назвал что такое убеждения - это зафиксированная точка зрения. Ее человек будет защищать невзирая на поступающую ему информацию. Информацию, подтверждающую его убеждения, такой чел будет одобрять, информацию, опровергающую - отвергать под любым предлогом.

Так ведут себя очень многие, а в политике, религии, нацвопросах - особенно многие )

vaddd ★☆
()
Ответ на: комментарий от vaddd

Но вы не беспокойтесь, обычно через три-четыре таких передислокации человек получает иммунитет и вырабатывает нейтральную точку зрения )

Это и будет баланс ) Когда человек сначала душой болеет за одного барана на мосту из известного стишка , потом за другого, он все равно скоро придет к мысли что они оба бараны и им место в речке )

Да, надо бы узнать, к чему в итоге пришли. Как-то не заходил об этом разговор :)

CrX ★★★★★
() автор топика
Ответ на: комментарий от vaddd

Это да, как говорят психологи — человек слышит 99% того, что хочет, и только 1% того, что говорят (оптимисты, да?).

Информацию, подтверждающую его убеждения, такой чел будет одобрять, информацию, опровергающую - отвергать под любым предлогом.

Меня только смущает здесь термин информация, мне кажется это неправильное употребление. Я б заменил на нарратив. Ведь ключевое свойство (сила, если угодно) информации в неминуемом изменении точки зрения после её получения. Да-да, подтверждающая информация тоже работает так — устраняет сомнение.

papin-aziat ★★★★★
()
Ответ на: комментарий от CrX

Ставлю на то, что у любого человека после нескольких переключений фильтрованных инфоисточников - вырабатывается как минимум недоверие к ним всем, скепсис, а то и ирония, презрение или сочувствие )

vaddd ★☆
()
Ответ на: комментарий от Obezyan

Правая рука против левой?

Для нас и для большей части граждан сшашки абсолютно без разницы, однако она всё-таки есть.

sparkie ★★★★★
()
Ответ на: комментарий от papin-aziat

Меня только смущает здесь термин информация, мне кажется это неправильное употребление

Предлагайте другой, я его употребил в широком значении

Я б заменил на нарратив.

Я не против этого слова, но оно как-то уже чем «информация». Скорее нарратив - это часть окружающего человека инфополя

Ведь ключевое свойство (сила, если угодно) информации в неминуемом изменении точки зрения после её получения.

Не-не-не ) Вы что, никогда не видели, как человек, получив какую-то информацию, не соответствующую его убеждениям - озлобляется, отвергет ее, называет «ложью», «вбросом», «вражеской пропагандой» и лишь укрепляется в своих убеждениях?

PS. Видимо вам нужно почетче разграничить для себя такие вещи, как «убеждения» и «знания». Отличаются они между собой ну очень сильно, часто до полного несовпадения.

vaddd ★☆
()
Последнее исправление: vaddd (всего исправлений: 1)
Ответ на: комментарий от sparkie

однако она всё-таки есть.

Лично мне вообще до одного места, они меня выпасали из людей и наложили 2 слоя санкций, я положил свой обезъянний на их законы. Все честно.

Obezyan
()
Ответ на: комментарий от alysnix

Не понимаю, что такое фильтрует, вот как при обучении будет восприниматься сочинения Ленина в 55 томах или мутационизм вместо дарвинизма, как истина или как сомнительное?

One ★★★★★
()
Ответ на: комментарий от Obezyan

Я проверил, таки да.

ХЗ, у меня нормально завелось на RTX 3090 24GB. Может, конечно, ему можно скормить промт, который перегрузит эту карточку, но простыые жует норм.

pekmop1024 ★★★★★
()
Ответ на: комментарий от pekmop1024

Я скачал, попробовал и на моей RTX A6000 она падала при попытке аллокации 56Gb. Вы либо пробовали другую сеть, либо эту но с квантизацией.

Obezyan
()
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)