LINUX.ORG.RU

Поставил private GPT, тестирую вот!

 , ,


0

2

Некоторое время назад я сделал нейроябеду.

Нейросеть обучалась искать нарушение правил форума на базе из 5 миллионов сообщений, собрать которые мне любезно помог Шома.

Тестирование показало, что сетка не очень-то хорошо находит некорректные посты, что было видно и на кросс-валидации, но не в этом суть. Проблема была в том, что модераторам не хватает времени качественно шерстить форум, соответственно, разметка по удалённым постам была некачественной, ибо много чего осталось незамеченным.

Узнал про private GPT, и подумал, а что если разметить посты большой языковой моделью.

Скачал, поставил, запустил. Результат на ОП-пике.

Доступная модель неплохо замечает всякие там жопы, мат, хейтспич, но вот с политотой явно не справляется.

Видимо завтра попробую detoxify, разметка с ROC AUC 89% всяко лучше, чем человеческая.

>>> Просмотр (1920x1080, 181 Kb)

★★★★★

Проверено: hobbit ()
Последнее исправление: hobbit (всего исправлений: 2)

Доступная модель неплохо замечает всякие там жопы, мат, хейтспич, но вот с политотой явно не справляется.

И слава богу.

hobbit ★★★★★
()

так вот кто форум нам портит. лови его! раздвигайте ему топики!

bernd ★★★★★
()

Тестирование показало, что сетка не очень-то хорошо находит некорректные посты

и слава Б-гу

Bad_ptr ★★★★★
()

Доступная модель неплохо замечает всякие там жопы, мат, хейтспич, но вот с политотой явно не справляется.

О, Хоспади, оно того стоит? Условный фернандос за три копейки выполнит эту работу на раз-два. Займитесь чем-то полезным!

papin-aziat ★★★★★
()

Некоторое время назад я сделал нейроябеду.

Покайтесь, сходите в церкву, помолитесь Ктулху и займитесь репликацией бубликов.

Herabora
()

Жёваный крот! Никакая копаная нейросеть никогда не сможет нибуя сделать с матом. Потому что в драной нейросети в принципе не предусмотрено никаких механизмов способных в контекст. А тому что теоретически когда-нибудь смогло бы, всякие конченные рассказыватели про «хорошие практики программирования» ещё лет 20 назад устроили полный и окончательный истец.

Stanson ★★★★★
()
Ответ на: комментарий от Stanson

Жёваный крот!

Выпил - веди себя прилично, бери пример с лучших, например с меня.

Herabora
()

нейро…

ненужно

…ябеду

ненужно x2

И панель полнейший вырвиглаз. Firefox тоже с дефолтным убожеством вместо вкладок.

Werenter ★★★
()
Последнее исправление: Werenter (всего исправлений: 1)
Ответ на: комментарий от Pinux001

Слово жопа уже запрещено?

Зависит от того, чья жопа. Например, модераторские жопы в контексте использования техники Apple было запрещено обсуждать.

hateyoufeel ★★★★★
()
Ответ на: комментарий от Stanson

Бот триггерится на «кака» и удаляет сообщение.

HE_KOT
()
Ответ на: комментарий от Stanson

механизмов способных в контекст

Пффф тут полный форум организмов, не способных в контекст. Что уж говорить о механизмах.

James_Holden ★★★
()

По сабжу - нейроябеда не нужнен, а вот что действительно нужно - так это решение на базе GPT, которое бы генерировало тонны качественно оформленного мусора для подачи его организмам, неспособным в контекст.

James_Holden ★★★
()

Кажется ты нашёл идеальный способ навалить дерьма в интернет ещё больше, чем в состоянии все мясные мешки вместе взятые.

kirill_rrr ★★★★★
()
Ответ на: комментарий от hobbit

Как раз политоту имеет смысл чистить, а вот заставлять всех маршировать строем в идеологически правильном направлении - так себе идея.

kirill_rrr ★★★★★
()
Ответ на: комментарий от Pinux001

4PDA например уже несколько лет как режет ботом-модератором.

kirill_rrr ★★★★★
()

Узнал про private GPT, и подумал, а что если разметить посты большой языковой моделью.

Ты собрался одну нейросеть другой обучать?

firkax ★★★★★
()

Подход чуть не верный. Тебе надо не обучать одну нейронку результатами работы другой а либо обогащать данные, либо что более правильно дообучать чужую нейронку, возможно с добавлением своих слоёв в конце готовой сети или просто дообучением в лоб. Правда для больших языковых моделей трудно будет в лоб, там железки нужны лямов в 50 рублей минимум чтоб за адекватное время обучать.

peregrine ★★★★★
()
Ответ на: комментарий от peregrine

Тебе надо не обучать одну нейронку результатами работы другой а

Тут ключевой вопрос в качестве разметки. Результат работы многоязычного detoxify мог дать более качественную разметку, чем модеры.

Но не дал. Попробовал я его.

shkolnick-kun ★★★★★
() автор топика

Двойственное чувство. С одной стороны резать мусор надо, а с другой стороны, ну не делать же зверинец с электронными надзирателями... Лучше повесь этого бота пообщаться «за жысь», будет интересно, что он нагенерит на лоре и чему научится :)

R_He_Po6oT ★★★★
()
Ответ на: комментарий от R_He_Po6oT

Не, эта хрень по русски не умеет говорить и жрёт кучу ресурсов.

Это надо сервер Ынтырпрайс класса с видюхами/ТПУ, чтобы весь ЛОР смог с ней базарить.

shkolnick-kun ★★★★★
() автор топика
Последнее исправление: shkolnick-kun (всего исправлений: 1)
Ответ на: комментарий от James_Holden

Полезная мысль, а то некоторые пишут новости в стиле сепуления сепулек. Только нужен дисклеймер, что контекст сгенерен ллм-кой и изложенные утверждения не обязаны совпадать с нашей реальностью

Logopeft ★★
()
Последнее исправление: Logopeft (всего исправлений: 2)
Ответ на: комментарий от shkolnick-kun

А с чего он даст, когда для «понимания» контента надо большие языковые модели брать.

peregrine ★★★★★
()

замечает всякие там жопы

Покусились на святое! Мою жопу вы сможете отнять только из моих холодных мёртвых рук!

Smacker ★★★★
()
Ответ на: комментарий от shkolnick-kun

Тут ключевой вопрос в качестве разметки.

Ну так возьми и разметь.

1. Парсишь новые сообщения www.linux.org.ru/tracker/ (так как после удаления сообщения модератором, текст сообщения не будет тебе доступен)

2. Парсишь запросы на удаление: Ссылки на некорректные сообщения (58)

3. Если сообщение было удалено, у тебя текст сообщения есть. Значит этот текст помечается как вредный. Можешь добавлять в оценку текста причину удаления или текст запроса на удаление.

В конце концов у тебя будет база вредных сообщений, да еще и с причинами от модеров и описанием почему надо удалить от пользователей.

Xintrea ★★★★★
()
Ответ на: комментарий от shkolnick-kun

Не, эта хрень по русски не умеет говорить и жрёт кучу ресурсов.

хм, т.е. раньше на ресурсы меняли биткоины а теперь на воздух ?

mx__ ★★★★★
()

ждём выхода Gemini и её последующей интеграции с веб разработкой, гейронки то обучаются на инфе взятой из смартфона/виндовс и поисковых запросах 🫡

loveFX
()
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.