https://zadzmo.org/code/nepenthes/
В общем, генератор бреда заточенный для LLM poisoning в промышленных масштабах. В принципе сцылочку на него можно оставить в каком-нибудь hidden элементе, посетители сайта не увидят, а crawler непременно туда полезет и начнёт жрать мусор лопатами.
Понятно, что можно сделать намного лучше, gif-бомбы добавить, генератор бреда поприличнее, чтобы crawler принципиально не мог отличить от реального контента, но это же только начало, я надеюсь. :)
Затраты на генерацию бреда, который никакие нейросетки не смогут автоматически отличать от реального контента неизмеримо меньше чем затраты владельцев LLM на тренировку и фильтрацию. Таким образом, можно с минимальными усилиями помножить на ноль все потуги корпораций, несмотря на то, что у корпораций намного больше ресурсов.
Если к этому добавить аналогичные генераторы мусора для социалочек, какой-ниубдь замечательный scigen и т.п. то у корпораций нет шансов.
Интеренет и так уже по самое небалуйся загажен бессмысленным контентом, так что с этической точки зрения здесь нет никаких проблем. Да и нормальный человек всегда сможет отличить мусор от информации, в отличии от тупых нейросеточек.