Некоторое время назад я сделал нейроябеду.
Нейросеть обучалась искать нарушение правил форума на базе из 5 миллионов сообщений, собрать которые мне любезно помог Шома.
Тестирование показало, что сетка не очень-то хорошо находит некорректные посты, что было видно и на кросс-валидации, но не в этом суть. Проблема была в том, что модераторам не хватает времени качественно шерстить форум, соответственно, разметка по удалённым постам была некачественной, ибо много чего осталось незамеченным.
Узнал про private GPT, и подумал, а что если разметить посты большой языковой моделью.
Скачал, поставил, запустил. Результат на ОП-пике.
Доступная модель неплохо замечает всякие там жопы, мат, хейтспич, но вот с политотой явно не справляется.
Видимо завтра попробую detoxify, разметка с ROC AUC 89% всяко лучше, чем человеческая.
>>> Просмотр (1920x1080, 181 Kb)