История изменений
Исправление peregrine, (текущая версия) :
Дальше - токенизатор (20к самых частых слов) и паддинг и нейронка.
Знаешь, можно ещё взять нормальные (не потёртые) и ненормальные сообщения и посчитать для них частоты слов, выбрать те слова, которые с разными частотами встречаются (они чётче всего характеризуют интересующую тебя область). Порог сам посмотришь, на графике отсортируй только по частоте и как пик пойдёт резко вверх, так твои слова (статистически важные признаки) начались. Только слова, которые редко встречаются (меньше 1% на всё множество с повторениями слов отбрось, это шумы). Хорошо бы тут развернуть ещё всё твоё векторное пространство текста как-то, но в эту сторону, насколько я понимаю, особо не думали пока и один BERT учитывает расстояния между словами. Хотя по идее там да, n-мерные пространства можно наворачивать, добавляя расстояния между словами
Исправление peregrine, :
Дальше - токенизатор (20к самых частых слов) и паддинг и нейронка.
Знаешь, можно ещё взять нормальные (не потёртые) и ненормальные сообщения и посчитать для них частоты слов, выбрать те слова, которые с разными частотами встречаются (они чётче всего характеризуют интересующую тебя область). Порог сам посмотришь, на графике отсортируй только по частоте и как пик пойдёт резко вверх, так твои слова (статистически важные признаки) начались. Только слова, которые редко встречаются (меньше 1% на всё множество с повторениями слов отбрось, это шумы). Хорошо бы тут развернуть ещё всё твое векторное пространство текста как-то, но в эту сторону, насколько я понимаю, особо не думали пока и один BERT учитывает расстояния между словами. Хотя по идее там да, n-мерные пространства можно наворачивать, добавляя расстояния между словами
Исправление peregrine, :
Дальше - токенизатор (20к самых частых слов) и паддинг и нейронка.
Знаешь, можно ещё взять нормальные (не потёртые) и ненормальные сообщения и посчитать для них частоты слов, выбрать те слова, которые с разными частотами встречаются (они чётче всего характеризуют интересующую тебя область). Порог сам посмотришь, на графике отсортируй только по частоте и как пик пойдёт резко вверх, так твои слова (статистически важные признаки) начались. Только слова, которые редко встречаются (меньше 1% на всё множество с повторениями слов отбрось, это шумы). Хорошо бы тут развернуть ещё всё твое векторное пространство текста как-то, но в эту сторону, насколько я понимаю, особо не думали пока и один BERT учитывает расстояния между словами.
Исправление peregrine, :
Дальше - токенизатор (20к самых частых слов) и паддинг и нейронка.
Знаешь, можно ещё взять нормальные (не потёртые) и ненормальные сообщения и посчитать для них частоты слов, выбрать те слова, которые с разными частотами встречаются (они чётче всего характеризуют интересующую тебя область). Порог сам посмотришь, на графике отсортируй только по частоте и как пик пойдёт резко вверх, так твои слова (статистически важные признаки) начались. Только слова, которые редко встречаются (меньше 1% на всё множество с повторениями слов отбрось, это шумы)
Исходная версия peregrine, :
Дальше - токенизатор (20к самых частых слов) и паддинг и нейронка.
Знаешь, можно ещё взять нормальные (не потёртые) и ненормальные сообщения и посчитать для них частоты слов, выбрать те слова, которые с разными частотами встречаются (они чётче всего характеризуют интересующую тебя область). Порог сам посмотришь, на графике отсортируй только по частоте и как пик пойдёт резко вверх, так твои слова (статистически важные признаки) начались.