История изменений

Дальше - токенизатор (20к самых частых слов) и паддинг и нейронка.

Знаешь, можно ещё взять нормальные (не потёртые) и ненормальные сообщения и посчитать для них частоты слов, выбрать те слова, которые с разными частотами встречаются (они чётче всего характеризуют интересующую тебя область). Порог сам посмотришь, на графике отсортируй только по частоте и как пик пойдёт резко вверх, так твои слова (статистически важные признаки) начались. Только слова, которые редко встречаются (меньше 1% на всё множество с повторениями слов отбрось, это шумы). Хорошо бы тут развернуть ещё всё твоё векторное пространство текста как-то, но в эту сторону, насколько я понимаю, особо не думали пока и один BERT учитывает расстояния между словами. Хотя по идее там да, n-мерные пространства можно наворачивать, добавляя расстояния между словами

Дальше - токенизатор (20к самых частых слов) и паддинг и нейронка.

Знаешь, можно ещё взять нормальные (не потёртые) и ненормальные сообщения и посчитать для них частоты слов, выбрать те слова, которые с разными частотами встречаются (они чётче всего характеризуют интересующую тебя область). Порог сам посмотришь, на графике отсортируй только по частоте и как пик пойдёт резко вверх, так твои слова (статистически важные признаки) начались. Только слова, которые редко встречаются (меньше 1% на всё множество с повторениями слов отбрось, это шумы). Хорошо бы тут развернуть ещё всё твое векторное пространство текста как-то, но в эту сторону, насколько я понимаю, особо не думали пока и один BERT учитывает расстояния между словами. Хотя по идее там да, n-мерные пространства можно наворачивать, добавляя расстояния между словами

Дальше - токенизатор (20к самых частых слов) и паддинг и нейронка.

Знаешь, можно ещё взять нормальные (не потёртые) и ненормальные сообщения и посчитать для них частоты слов, выбрать те слова, которые с разными частотами встречаются (они чётче всего характеризуют интересующую тебя область). Порог сам посмотришь, на графике отсортируй только по частоте и как пик пойдёт резко вверх, так твои слова (статистически важные признаки) начались. Только слова, которые редко встречаются (меньше 1% на всё множество с повторениями слов отбрось, это шумы). Хорошо бы тут развернуть ещё всё твое векторное пространство текста как-то, но в эту сторону, насколько я понимаю, особо не думали пока и один BERT учитывает расстояния между словами.

Дальше - токенизатор (20к самых частых слов) и паддинг и нейронка.

Знаешь, можно ещё взять нормальные (не потёртые) и ненормальные сообщения и посчитать для них частоты слов, выбрать те слова, которые с разными частотами встречаются (они чётче всего характеризуют интересующую тебя область). Порог сам посмотришь, на графике отсортируй только по частоте и как пик пойдёт резко вверх, так твои слова (статистически важные признаки) начались. Только слова, которые редко встречаются (меньше 1% на всё множество с повторениями слов отбрось, это шумы)

Дальше - токенизатор (20к самых частых слов) и паддинг и нейронка.

Знаешь, можно ещё взять нормальные (не потёртые) и ненормальные сообщения и посчитать для них частоты слов, выбрать те слова, которые с разными частотами встречаются (они чётче всего характеризуют интересующую тебя область). Порог сам посмотришь, на графике отсортируй только по частоте и как пик пойдёт резко вверх, так твои слова (статистически важные признаки) начались.