LINUX.ORG.RU
ФорумTalks

А вот подъехала забавная штуковина для отравления LLM и поисковых систем.

 , помножить на ноль


1

3

https://zadzmo.org/code/nepenthes/

В общем, генератор бреда заточенный для LLM poisoning в промышленных масштабах. В принципе сцылочку на него можно оставить в каком-нибудь hidden элементе, посетители сайта не увидят, а crawler непременно туда полезет и начнёт жрать мусор лопатами.

Понятно, что можно сделать намного лучше, gif-бомбы добавить, генератор бреда поприличнее, чтобы crawler принципиально не мог отличить от реального контента, но это же только начало, я надеюсь. :)

Затраты на генерацию бреда, который никакие нейросетки не смогут автоматически отличать от реального контента неизмеримо меньше чем затраты владельцев LLM на тренировку и фильтрацию. Таким образом, можно с минимальными усилиями помножить на ноль все потуги корпораций, несмотря на то, что у корпораций намного больше ресурсов.

Если к этому добавить аналогичные генераторы мусора для социалочек, какой-ниубдь замечательный scigen и т.п. то у корпораций нет шансов.

Интеренет и так уже по самое небалуйся загажен бессмысленным контентом, так что с этической точки зрения здесь нет никаких проблем. Да и нормальный человек всегда сможет отличить мусор от информации, в отличии от тупых нейросеточек.

★★★★★

Последнее исправление: Stanson (всего исправлений: 3)

hidden элементе

Что за crawler, который hidden-элемент не распознает?

Они вон уже сделали Operator, который всё исключительно по отрендеренной картинке из браузера распознаёт, а вы говорите…

И почему вообще этот бред, в котором даже словарных слов нету, LLM должна схавать за чистую монету?

unDEFER ★★★★★
()
Последнее исправление: unDEFER (всего исправлений: 1)

Если бы эти дети знали, что LLM не обучается на всем интернете, они бы очень расстроились.jpg

Чувак, ну серьезно, сколько по твоему нужно ресурсов, чтобы перемолотить весь инет?

goingUp ★★★★★
()
Ответ на: комментарий от goingUp

Чувак, ну серьезно, сколько по твоему нужно ресурсов, чтобы перемолотить весь инет?

Ну что-то типа нескольких датаценторов, которые забиты Нвидиями на миллиарды долларов.. вейт..

MoldAndLimeHoney
()
Ответ на: комментарий от MoldAndLimeHoney

Ну что-то типа нескольких датаценторов, которые забиты Нвидиями на миллиарды долларов..

И мы засовываем туда лорчик, чтобы обучить нашу ЛЛМ отвечать на все вопросы «забанься, дебил». Money well spent)

Юзер такой типа спрашивает «что такое ЛЛМ?» а она типа «да это скам вообще»)

goingUp ★★★★★
()
Последнее исправление: goingUp (всего исправлений: 1)
Ответ на: комментарий от unDEFER

Что за crawler, который hidden-элемент не распознает?

В том-то и дело что они распознают и непременно лазают по URL в hidden элементе. Это очень просто проверить самостоятельно, внезапно. :)

Они вон уже сделали Operator, который всё исключительно по отрендеренной картинке из браузера распознаёт

Это для вебдваноль-лендингов, которые парсить почти нереально. И такой подход жрёт на порядки больше ресурсов, чем парсинг.

И почему вообще этот бред, в котором даже словарных слов нету, LLM должна схавать за чистую монету?

Кто-то мешает добавить словарные слова? Я ж написал - это всего лишь рыба для создания подобных систем.

Stanson ★★★★★
() автор топика
Ответ на: комментарий от goingUp

Чувак, ну серьезно, сколько по твоему нужно ресурсов, чтобы перемолотить весь инет?

Тут очередная омериканская обама выделила полтриллиона на эту херню. Так что очень много, да.

Stanson ★★★★★
() автор топика

Можно и не в hidden. Если у тебя есть сайт с ценным контентом, можно его открыто разбавлять результатами работы этой штуки, а юзерам где-то сделать объяснение для чего это нужно и чтоб они не удивлялись и, возможно, даже комментировали это иногда как будто там что-то полезное.

firkax ★★★★★
()
Последнее исправление: firkax (всего исправлений: 1)

Не получится. Натренеруют нейросеть, которая отсеивает бред. И будут пропускать через неё.

ox55ff ★★★★★
()

Вот ты какой, луддизм 21го века. Подозреваю, что итог будет такой же, как и в веке 19.

Loki13 ★★★★★
()
Последнее исправление: Loki13 (всего исправлений: 2)

вандализм, как способ восстановить порушенную справедливость.

alysnix ★★★
()

Лучше всего пойти еще дальше и на любой запрос отвечать непрерывным потоком из /dev/urandom. Все равно людей в интернете меньшинство, кругом давно одни только роботы.

Khnazile ★★★★★
()

LLM обучаются на тщательно отобранном контенте. Обучать LLM на сыром интернете это просто глупо. Ты же своих детей не будешь обучать на дампе рандомного треда лора, как минимум посмотришь и отредактируешь его, а скорей всего скачаешь советский учебник и по нему обучишь. Ровно то же делают и создатели LLM.

vbr ★★★★★
()
Ответ на: комментарий от vbr

Ты же своих детей не будешь обучать на дампе рандомного

Сейчас большинство детей обучаются на Ютубе и прочих Тиктоках. Родителям проще сунуть тугусере в руки телефон/планшет, чем заниматься его воспитанием. Собственно, так было даже 10 лет назад.

MoldAndLimeHoney
()
Ответ на: комментарий от vbr

LLM обучаются на тщательно отобранном контенте.

Ага, например треты с реддита, высшая категория прям!

Kolins ★★★★★
()
Ответ на: комментарий от olelookoe

Оно фундаментально неспособно ни умнеть, ни ненавидеть.

Stanson ★★★★★
() автор топика

Так достаточно просто обучения сетки на собственном выхлопе. Деградирует до хлебушка за несколь итераций.

BceM_IIpuBeT ★★☆☆☆
()
Ответ на: комментарий от vbr

В тредах с реддита есть оценки пользователей. Это и есть тщательный отбор.

🤣 Ты бы еще хабр принес или пикабу))))

BceM_IIpuBeT ★★☆☆☆
()
Ответ на: комментарий от BceM_IIpuBeT

Обучение сетки на выхлопе более умной сетки это сейчас лидирующее направление в современном ИИ, насколько я понимаю.

vbr ★★★★★
()
Ответ на: комментарий от vbr

Ну правильно. Потому что понижать энтропию может только человек(жизнь)))) Не, ну ты и луддит... А как же стронк ИИ, порабощение, скайнет, робот Федор!?

BceM_IIpuBeT ★★☆☆☆
()
Последнее исправление: BceM_IIpuBeT (всего исправлений: 1)
Ответ на: комментарий от BceM_IIpuBeT

Ну так надо чтобы кто-то подсовывал ей этот выхлоп. Массовая намеренная организация таких залуп (от слова loop, если что) это тоже очень хороший вариант. :)

Stanson ★★★★★
() автор топика
Ответ на: комментарий от alysnix

это называется «информационный терроризьм».

Нет, всякие CNN и продукты LLM являются информационным терроризмом. А это - уничтожение кормовой базы террористов. Благое дело, потомки скажут нам спасибо и будут слагать в честь нас гимны. Сами, без нейросетей.

Stanson ★★★★★
() автор топика
Ответ на: комментарий от Stanson

да нну нет же. вы НАМЕРЕННО портите некий общественный сервис, и это может нанести обществу вред, и даже создать угрозу для жизни людей.

просто рекомендую пакет с мылом, трениками, зубной щеткой иметь всегда под рукой. и паспорт на видном месте.

alysnix ★★★
()

Спасибо, поржал с бредовой идеи бредового генератора бреда.

Gonzo ★★★★★
()

«Хруп!» - сказала лесопилка. «То-то же!» - сказали суровые мужики, и продолжили пилить двуручными пилами.

thesis ★★★★★
()
Ответ на: комментарий от alysnix

НАМЕРЕННО портите некий общественный сервис

Да, очень мерзкий общественный сервис принадлежащий и контролируемый конченными ублюдками и врагами человечества.

Stanson ★★★★★
() автор топика
Последнее исправление: Stanson (всего исправлений: 1)
Ответ на: комментарий от Stanson

мерзкий общественный сервис принадлежащий и контролируемый конченными ублюдками и врагами человечества

это ты про ЛОР??? .. ах ты гад!

alysnix ★★★
()
Последнее исправление: alysnix (всего исправлений: 2)
Ответ на: комментарий от alysnix

общественный сервис,

антиобщественный

firkax ★★★★★
()

Детский сад, штаны на лямках.

yvv1
()
Ответ на: комментарий от unDEFER

Поисковые более-менее распознают, но по скрытому контенту еще как лазят. Ну и hidden можно добавить после загрузки html.

Это классический honeypot для ботов-спаммеров. Человек элемент не увидит, а бот получит голый html где элемент не скрыт и его заполнит, например, если это форма. Дальше дело техники - работает безотказно.

t3n3t
()
Последнее исправление: t3n3t (всего исправлений: 2)
Ответ на: комментарий от vbr

скорей всего скачаешь советский учебник и по нему обучишь. Ровно то же делают и создатели LLM.

советский учебник

Я так и знал! Все левачье в интернетах - это боты.

t3n3t
()
Ответ на: комментарий от t3n3t

Ну и hidden можно добавить после загрузки html.

С этого места поподробнее. Это как? Мы же не про JavaScript говорим?

unDEFER ★★★★★
()

Я знавал чувака который подобной штукой сломал гугл в девяностые или в начале двухтысячных. У него были бесконечно генерящиеся адалт доры, на которые гугл потратил всю свою вычислитеьную мощность и ушел на пару недель в аут по крайней мере по европе. И доры конечно потом забанил.

shimshimshim
()
Ответ на: комментарий от unDEFER

Про жс, конечно, но вообще можно и с css извратиться, но уж очень окольными путями.

Типа того: https://jsfiddle.net/0cj3rg4q/ - дальше на что фантазии хватит. Можно еще всякие невидимые радио-кнопки делать, играться с урлами и анкорами в них (анкоры краулеры не учитывают, емнип).

ЗЫ: еще на ум приходят z-index или вообще позиция за экраном, но это чревато пессимизацией, скорее всего.

t3n3t
()
Последнее исправление: t3n3t (всего исправлений: 1)

Генератор бреда для генератора бреда? Но зачем?

buddhist ★★★★★
()

С точки зрения скармливания корпам мусорных данных о пользователе - был такой замечтаельный плагин для браузера - https://github.com/vtoubiana/TrackMeNot

Он эпизодически посылает в поисковики рандомные поисковые запросы от имени пользователя. Я в комплекте с поставил какой-то плагин который иногда лениво кликает на рандомные ссылки, и оставлял это на всю ночь крутиться на работе с рабочего браузера. На утро было открыто 2-3 десятка рандомных страниц.

На мой взгляд выглядело как перспективная тема, но почему-то проект подсдох. Хотя там даже были зачатки движения к тому чтоб сами посылаемые запросы подгрухать из каких-то обновляющихся трендов

GPFault ★★★
()
Ответ на: комментарий от goingUp

Чувак, ну серьезно, сколько по твоему нужно ресурсов, чтобы перемолотить весь инет?

64 Kb

bdrbt
()
Ответ на: комментарий от unDEFER

Что за crawler, который hidden-элемент не распознает?

Обычный, cо css-свойством hidden (хз что там нонче используют).

bdrbt
()
Ответ на: комментарий от shimshimshim

девяностые

Гугл появился в 1998 г., а более-менее известен стал в 1999 г. Помнится, для меня он стал изветен, т.к. был поисковой системой по умолчанию в KDE 1.0.

pandrey ★★
()
Ответ на: комментарий от pandrey

Незаметная ссылка, вне зависимости от способа придания ей незаметности, детектится очень просто: её не посещают люди. То есть посмотреть и на всякий случай распарсить её, конечно, многие захотят, но они, при желании, вполне могут знать что эта ссылка почему-то никому не интересна и учесть этот факт.

firkax ★★★★★
()
Ответ на: комментарий от GPFault

Ну это мелковато. Но напомнило названием что из плагинов для браузеров, самый лучший и полезный после uBO был BugMeNot. К сожалению аффтары продались пейсбукам и прочим гуглям и оно перестало работать практически на всей социальщине и с пейволами. Ну и сдохло.

Stanson ★★★★★
() автор топика
Ответ на: комментарий от firkax

Незаметная ссылка, вне зависимости от способа придания ей незаметности, детектится очень просто: её не посещают люди. То есть посмотреть и на всякий случай распарсить её, конечно, многие захотят, но они, при желании, вполне могут знать что эта ссылка почему-то никому не интересна и учесть этот факт.

И как же эти они узнают что она не посещается?

Stanson ★★★★★
() автор топика
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)