История изменений
Исправление shkolnick-kun, (текущая версия) :
Поднял порог срабатывания классификатора с 0.5 до 0.8 (на выходе - сигмоида).
Прочитал 1200+ «ложноположительных» комментариев, примерно 55% вполне себе нацпол, мат, оскорбления.
По моим оценкам соотношение [не выявлено/выявлено модераторами] примерно 8/5.
На следующей неделе буду качать данные не за 5 месяцев, а за 5 лет.
Из этих данных отберу примерно 15к положительных и 15к «отрицательных» примеров.
При таком отборе погрешность разметки модераторами будет составлять порядка 3-5%.
Положительных данных хватит для классификации подозрительных сообщений по категориям/тегам.
Не баньте плиз, сбор займет 24/5.
Параллельно буду вечерами писать ябеду.
Исправление shkolnick-kun, :
Апдейт 4 (16.06.2019)
Исходная версия shkolnick-kun, :
Поднял порог срабатывания классификатора с 0.5 до 0.8 (на выходе - сигмоида).
Прочитал 1200+ «ложноположительных» комментариев, примерно 55% вполне себе нацпол, мат, оскорбления.
По моим оценкам соотношение [не выявлено/выявлено модераторами] примерно 8/5.
На следующей неделе буду качать данные на за 5 месяцев, а за 5 лет.
Из этих данных отберу примерно 15к положительных и 15к «отрицательных» примеров.
При таком отборе погрешность разметки модераторами будет составлять порядка 3-5%.
Положительных данных хватит для классификации подозрительных сообщений по категориям/тегам.
Не баньте плиз, сбор займет 24/5.
Параллельно буду вечерами писать ябеду.