Проект Нейромодератор
Точнее «нейрокрыса»: т.к. модераторских полномочий у меня нет, я лишь могу сделать скрипты, которые будут отписываться в специальный тред
Тема навеяна Бан без причины (комментарий)
Суть такова: буду пилить набор скриптов для «выявления подозрительных сообщений», обучать буду на текстах с LORа, которые были удалены модераторами.
Когда доделаю попрошу модераторов оценить качество работы сабжа.
На данный момент:
- скачан архив тредов с января по май 2019;
- идет первичный анализ данных;
- идет подготовка к разметке данных.
Проблема: модераторы указывают причины вручную (или не указывают совсем), соответственно:
- есть сомнения в качестве разметки,
- текстовую разметку придется превращать в разметку для классификации;
Для решения проблемы сформированы:
- файл с таблицей соответствия причин удалений;
- список классов сообщений;
Да, разделитель в файлах - точка с запятой.
Прошу модераторов поглядеть в файлы по ссылкам и внести свои пожелания по классам для разметки, корректировки таблицы соответствия.
cast jollheef, Shaman007, maxcom
Апдейт 1 (13.06.2019)
По результатам обсуждения тут решил:
-
В качестве положительных примеров брать удаленные модераторам вручную сообщения, для которых указаны нормальные причины а не всякий треш.
-
В качестве отрицательных - оставленные модераторами собщения из тех же топиков, что и удаленные.
-
Если данных хватать не будет - добью неудаленными из других топиков.
Пришлось немного переформатировать датасет (датафрейм pandas), т.к. раннее там не было ссылок сообщение-топик.
В эти выходные сделаю обучающую выборку и попробую сделать бинарный классификатор.
Если получится, - на следующей неделе буду пилить нейромодератора нейроябеду.