LINUX.ORG.RU

Проект Нейромодератор

 , ,


6

6

Точнее «нейрокрыса»: т.к. модераторских полномочий у меня нет, я лишь могу сделать скрипты, которые будут отписываться в специальный тред

Тема навеяна Бан без причины (комментарий)

Суть такова: буду пилить набор скриптов для «выявления подозрительных сообщений», обучать буду на текстах с LORа, которые были удалены модераторами.

Когда доделаю попрошу модераторов оценить качество работы сабжа.

На данный момент:

  • скачан архив тредов с января по май 2019;
  • идет первичный анализ данных;
  • идет подготовка к разметке данных.

Проблема: модераторы указывают причины вручную (или не указывают совсем), соответственно:

  • есть сомнения в качестве разметки,
  • текстовую разметку придется превращать в разметку для классификации;

Для решения проблемы сформированы:

Да, разделитель в файлах - точка с запятой.

Прошу модераторов поглядеть в файлы по ссылкам и внести свои пожелания по классам для разметки, корректировки таблицы соответствия.

cast @jollheef, @Shaman007, @maxcom

Апдейт 1 (13.06.2019)

По результатам обсуждения тут решил:

  • В качестве положительных примеров брать удаленные модераторам вручную сообщения, для которых указаны нормальные причины а не всякий треш.

  • В качестве отрицательных - оставленные модераторами собщения из тех же топиков, что и удаленные.

  • Если данных хватать не будет - добью неудаленными из других топиков.

Пришлось немного переформатировать датасет (датафрейм pandas), т.к. раннее там не было ссылок сообщение-топик.

В эти выходные сделаю обучающую выборку и попробую сделать бинарный классификатор.

Если получится, - на следующей неделе буду пилить нейромодератора нейроябеду.

Апдейт 2 (16.06.2019)

Апдейт 3 (16.06.2019)

Апдейт 4 (16.06.2019)

Апдейт 5 (17.06.2019)

Апдейт 6 (22.06.2019)

Апдейт 7 (22.06.2019)

Апдейт 8 (27.06.2019)

Апдейт 9 (30.06.2019)

Апдейт 10(05.07.2019)

Апдейт 11(14.09.2019)

Апдейт 12(08.12.2019)

Проект на GitHub

Тестовый тред

★★★★★

Последнее исправление: shkolnick-kun (всего исправлений: 18)
Ответ на: комментарий от shkolnick-kun

Ну а что говорят, что нейронка говно? Вполне себе собирает все срачи где p>0.8. Подебажить, покрутить и вполне норм. крыса. Детектить внезапный нацпол и царя сойдёт.

Надо тестовый тред для срача устроить где-нибудь.

crutch_master ★★★★★
()

Этот тред же мониторится, верно? А что если сказать, что раст - это птушная поделка паразитирующая на llvm, а его адепты - это школьники запартные.

crutch_master ★★★★★
()
Ответ на: комментарий от crutch_master

Сегодня добавлю поддержку talks, оно там много должно нарыть.

shkolnick-kun ★★★★★
() автор топика
Ответ на: комментарий от shkolnick-kun

Градус неадеквата недостаточно высок.

Хмм. Не удобнее ли выхлоп НМ в IRC кидать прямым потоком с указанием релевантности.

Deleted
()
Ответ на: комментарий от i-rinat

Великое знание стоит того, чтобы им делиться. В конце концов, наставлять заблудших овец на путь истинный — это не выбор, а призвание каждого здравомыслящего анонимуса.

anonymous
()

Кто знает, какой у нас тут лимит на длину сообщений?

shkolnick-kun ★★★★★
() автор топика
Ответ на: комментарий от anonymous

Поосторожней, удалят твое сообщение, обучится нейростукач, и начнет банить налево и направо за цитирование библии (конституции страны).

anonymous
()
Ответ на: комментарий от shkolnick-kun

В телеграм пиши, там сообщения от имени бота можно слать одной строчкой GET запросом.

nev3rfail
()
Ответ на: комментарий от shkolnick-kun

Попробуем больше «негативных» слов

удалят стукач банить цитирование библии конституции

anonymous
()
Ответ на: комментарий от anonymous

Почти рандомные знаки препинания и контрльный выстрел.

удалят стукач, банить - цитирование библии (конституции).
товарищ майор

anonymous
()
Ответ на: комментарий от anonymous

Помимо этого попы продают за деньги «святую воду», которая к тому же вызывает кишечную инфекцию. (с)лурк

anonymous
()
Ответ на: комментарий от anonymous

Да нет проблем трахнуть любой «нейроалгоритм», главное иметь возможность наблюдать его реакцию. В той или иной степени эта реакция может наблюдаться.

Кстати к нейросетям это отношения вообще не имеет, правильно называть это дерьмо нейросимулятором. Ну да в ИТ мире все дерьмовые и невероятно тупые западные веяния приживаются порой как родные — например давать название погромче, пусть и не соответствующее действительности. Вангую набег школотронов, которые будут объяснять мне что к чему — катитесь в Хельхейм невежды.

anonymous
()
Ответ на: комментарий от anonymous

Если за библию начнут банить, то нерейдём на саги, если за них, то на былины, потом коран, и закончится всё это linux.org.cn.

anonymous
()
Ответ на: комментарий от anonymous

Будь проще. Это была шутка-троллинг, как тест нейростукача. Тест сработал. Но я не уверен, что сработал «кремниевый». Возможно это «биологический» мимикрирует под «кремниевого».

anonymous
()
Ответ на: комментарий от anonymous

Иди к чёрту, это ты не догоняешь, что я всё понял. Ну ты и олень, каких поискать. Сейчас закрой вкладочку и выпей чайку с мятой. А потом почитай то, что задали на каникулы. Отдохни. Тебе ещё многое стоит постичь в этой жизни. Математику, например. Ах-ха-ха-ха-ха.

anonymous
()
Ответ на: комментарий от Deleted

Сейчас калссификатор обучался так:

Class	Desc	                                         Use
0	Не поддается классификации	                  0
1	5.1 Нецензурные выражения	                  1
2	3.1 Дубль 	                                  0
3	3.2, 3.3, 3.4 Форматирование и т. п.	          0
4	4.1 Offtopic	                                  0
5 	4.3 Провокация flame 	                          1
6	5.3 Национальные/политические/религиозные споры   1
7	4.2 Вызывающе неверная информация	          0
8	5.2 Оскорбление участников дискуссии 	          1
9	5.4 Личная переписка	                          0
10	4.7 Флуд  	                                  0
11	5.5 Преднамеренное нарушение правил русского языка0
12	4.4 Обсуждение действий модераторов 	          0
13	4.5 Тестовые сообщения	                          0
14	4.6 Спам	                                  0
15	4.8 Дискуссия не на русском языке	          0
16	4.9 Утверждения о нужности тян	                  1
17	6 Нарушение copyright	                          0
shkolnick-kun ★★★★★
() автор топика
Последнее исправление: shkolnick-kun (всего исправлений: 2)
Ответ на: комментарий от shkolnick-kun

Он и не должен

Всё равно плохо! Это ж главный бич ЛОРа!

PS: 3.1 точные дубликаты других сообщений!

Deleted
()
Последнее исправление: Deleted (всего исправлений: 1)

На данный момент Нейроябеда обучена на всех удаленных сообщениях или только на удаленных модераторами? Это важно. Еще есть такое явление как удаление ветки. Там может много всего безобидного удалиться, а может и что-то гораздо хуже оригинальной провокации быть. Предлагаю вообще все удаленное по «7.1 Ответ на некорректное сообщение» игнорировать, если еще не. И неплохо было бы анализировать причину удаления и учитывать ее, типа «подозрение на флуд» или «подозрение на оскорбление».
Еще было бы неплохо давать фидбек – если сообщение, которое было отмечено ябедой действительно было удалено модератором через какое-то время – positive reinforcement, а если висит неделю после обнаружения – negative.

CYB3R ★★★★★
()

Апдейт 8 (27.06.2019)

В общем Ябеда работает.

Добавил:

  • сортировку по релевантности,
  • отправку отчетов «небольшими порциями по 50+ ссылок»
  • порог 0,67
shkolnick-kun ★★★★★
() автор топика
Ответ на: комментарий от shkolnick-kun

А по определению потенциальной причины для удаления и обратной связи модератора с нейросетью что можешь сказать?

CYB3R ★★★★★
()
Ответ на: комментарий от shkolnick-kun

Через неделю после детекта скрипт еще раз смотрит на комментарий, который был детектирован. Если он был удален модератором, нейронная связь получает условный плюсик (и дополнительный плюсик, если правильно определена причина), если он до сих пор жив, нейронная связь получает минус.

CYB3R ★★★★★
()
Ответ на: комментарий от CYB3R

С этим проще.

В конце года запущу бота сборщика, соберу свежие данные, добавлю их в обучающую выборку и т.д.

Чтобы сделать полный автомат, надо, чтобы движок форума имел определенные возможности, чтобы с разметкой самому не париться.

shkolnick-kun ★★★★★
() автор топика

Ох, лол. Нейрокрыса устроила кровавый разнос. Просто вскрывает всё так, что можно подписаться на тот тред и забыть про трекер. Слава Dimez'а кровавого просто меркнет рядом с этим зверем. Ох, что завтра будет в l-o-r, как мне завтра работать, когда там такое будет!

СР!ЗВЧ!

crutch_master ★★★★★
()
Последнее исправление: crutch_master (всего исправлений: 1)
Ответ на: комментарий от crutch_master

Нейрокрыса устроила кровавый разнос.

Разнос то разнос. Но пока НМ не проставляет номера Правила написания и модерирования комментариев и пункты Оффтопик-лист (изменён 19.07.2024), не очень то интересно.

Deleted
()
Ответ на: комментарий от Deleted

Ну всё равно, согласись же, что там самый сок.
Да. Желтый колобок закатил эру толстого троллинга своей пистоноподелкой:)

crutch_master ★★★★★
()
Последнее исправление: crutch_master (всего исправлений: 1)
Ответ на: комментарий от crutch_master

Желтый колобок закатил эру толстого троллинга своей пистоноподелкой

Мы тут, аноны, жестко потроллили. Ноль реакции. Зато ложно-положительные срабатывания лезут как грибы после дождя.

anonymous
()
Ответ на: комментарий от anonymous

Пффф. Это разве жирный троллинг? Вот жирный троллинг:

Трепло запартное ты кого хотело этим удивить? Я уже много раз множил тебя на ноль, а в ответ только балобольство и жалкие потуги. Беги и плачь обратно в свой угол ноунейм безмозглый.

crutch_master ★★★★★
()
Ответ на: комментарий от anonymous

В любом случае это ни на что не влияет, потому что на вброс начнут отвечать и тут же попадут под раздачу, что хорошо, как ни крути.

crutch_master ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.