LINUX.ORG.RU

Проект Нейромодератор

 , ,


6

6

Точнее «нейрокрыса»: т.к. модераторских полномочий у меня нет, я лишь могу сделать скрипты, которые будут отписываться в специальный тред

Тема навеяна Бан без причины (комментарий)

Суть такова: буду пилить набор скриптов для «выявления подозрительных сообщений», обучать буду на текстах с LORа, которые были удалены модераторами.

Когда доделаю попрошу модераторов оценить качество работы сабжа.

На данный момент:

  • скачан архив тредов с января по май 2019;
  • идет первичный анализ данных;
  • идет подготовка к разметке данных.

Проблема: модераторы указывают причины вручную (или не указывают совсем), соответственно:

  • есть сомнения в качестве разметки,
  • текстовую разметку придется превращать в разметку для классификации;

Для решения проблемы сформированы:

Да, разделитель в файлах - точка с запятой.

Прошу модераторов поглядеть в файлы по ссылкам и внести свои пожелания по классам для разметки, корректировки таблицы соответствия.

cast @jollheef, @Shaman007, @maxcom

Апдейт 1 (13.06.2019)

По результатам обсуждения тут решил:

  • В качестве положительных примеров брать удаленные модераторам вручную сообщения, для которых указаны нормальные причины а не всякий треш.

  • В качестве отрицательных - оставленные модераторами собщения из тех же топиков, что и удаленные.

  • Если данных хватать не будет - добью неудаленными из других топиков.

Пришлось немного переформатировать датасет (датафрейм pandas), т.к. раннее там не было ссылок сообщение-топик.

В эти выходные сделаю обучающую выборку и попробую сделать бинарный классификатор.

Если получится, - на следующей неделе буду пилить нейромодератора нейроябеду.

Апдейт 2 (16.06.2019)

Апдейт 3 (16.06.2019)

Апдейт 4 (16.06.2019)

Апдейт 5 (17.06.2019)

Апдейт 6 (22.06.2019)

Апдейт 7 (22.06.2019)

Апдейт 8 (27.06.2019)

Апдейт 9 (30.06.2019)

Апдейт 10(05.07.2019)

Апдейт 11(14.09.2019)

Апдейт 12(08.12.2019)

Проект на GitHub

Тестовый тред

★★★★★

Последнее исправление: shkolnick-kun (всего исправлений: 18)
Ответ на: комментарий от crutch_master

Если сработает на твое сообщение, а на приведенные мной - нет, то эта нейролабуда не работает от слова совсем.

anonymous
()
Ответ на: комментарий от anonymous

Так нейролабуда не даёт 100% результата, собственно от неё этого никто и не ждёт. Это просто ассистент для модератора, который помогает искать срач.

crutch_master ★★★★★
()
Ответ на: комментарий от anonymous

Если сработает на твое сообщение

Она может сработать но не настучать, т.к. жирнота < 0.8, а я толще не умею.

crutch_master ★★★★★
()
Ответ на: комментарий от crutch_master

Это просто ассистент для модератора, который помогает искать срач.

Нет, пока это всего лишь очень плохой детектор очередного приступа всем известного, имя которого называть нельзя. Еще чуть неприкрытого мата.

anonymous
()
Ответ на: комментарий от anonymous

Ничё не знаю! Оно обучено на том, какие комментарии модераторы удаляли в течение последних пяти лет.

shkolnick-kun ★★★★★
() автор топика
Ответ на: комментарий от shkolnick-kun

Ничё не знаю!

Не ссы, иногда интересно посмотреть на отчеты о том, что у других тоже бывают похожие приступы, особенно безнаказанные.

anonymous
()

16 4.9 Утверждения о нужности тян 1

Ток низкого напряжения. Сосни человеческий сморщеный, железка.

anonymous
()
Ответ на: комментарий от shkolnick-kun

Это следующий пункт

Да, я уже «слышал». Но важно чтобы не было «предвзятого» отношения к классификации. Вопрос не в том, как НМ будет производить классификацию, а в том, чтобы он производил её.

anonymous
()
Ответ на: комментарий от shkolnick-kun

Doen!

Жирным надо было выделить. Незаметно обычным шрифтом.

zvezdochiot

anonymous
()
Ответ на: комментарий от shkolnick-kun

Приделал категории

Надо тебе попросить модеров якорей в правила понавтыкать, либо вообще «цитатник» сделать, чтобы вместо номеров пунктов ссылки ставить (автозамену, естественно, прикрутить в движок ЛОРа).

zvezdochiot

anonymous
()

Апдейт 9 (30.06.2019)

  • В первом приближении доаджайлил ябеду.
  • В ближайшее время отрефакторю код бота-ябеды.
  • Дальше готов передать его модераторам вместе с обученными моделями.
  • Модели пока будут такие, как есть, во всяком случае в течение ближайшего месяца, ибо хочу отдохнуть, меня это проект немного вымотал.
  • Дальше можно будет попробовать сделать какие-то улучшения, но не факт, что с текущим качеством разметки они «зайдут».
shkolnick-kun ★★★★★
() автор топика
Последнее исправление: shkolnick-kun (всего исправлений: 1)
Ответ на: Апдейт 9 (30.06.2019) от shkolnick-kun

Тут столько наркоманов... Боюсь, твоего Нейромедиатора заклинит при парсинге. Изначально провальная идея.

Deleted
()
  • Отрефакторил бота
  • Добавил «ебилд» в список стоп-слов. Теперь не должно триггериться на «Ждем ебилдов»
  • Морально готов отдать бота в хорошие руки. Cast @Shaman007 @jollheef.
shkolnick-kun ★★★★★
() автор топика
Ответ на: комментарий от shkolnick-kun

готов отдать бота в хорошие руки

Не готов. Функционирует только одна подсистема НМ: нейроябеда! А где нейропровокатор?!

zvezdochiot

anonymous
()
Ответ на: комментарий от anonymous

Посмотри в тестовый топик. Тут от кожаных мешков форум ломится, а ты еще нейропровокатора хочешь!

shkolnick-kun ★★★★★
() автор топика
Ответ на: комментарий от shkolnick-kun

ты еще нейропровокатора хочешь

Без подсистемы нейропровокатора НМ будет нерегулируемым!

zvezdochiot

anonymous
()

Нейромонах Феофан и Нейромодератор Никодим

annulen ★★★★★
()
Ответ на: комментарий от Deleted

Я ничего не имею против свободы слова, но мою бабку угоняли в рейх в вагоне для скота...

shkolnick-kun ★★★★★
() автор топика
Ответ на: комментарий от shkolnick-kun

Я против фошизма! Могу что нибудь написать что бы это выглядело осуждающе, только что?

Deleted
()

Раз уж кто-то занялся разработкой этого классификатора, вопрос автору: это домашние эксперименты без реального применения или можно как-то договориться с программистами ЛОР и внедрить фичу «в продакшн»? Если перформанс классификатора в общем случае низковат, можно же ограничиться частными случаями, например, детектить простыни от неадекватных анонимов с последующей маркировкой соотв. позитив сообщений.

seiken ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.