LINUX.ORG.RU

Метрика для разреженных векторов (классификиция текстовй)


0

1

Есть у меня вектора признаков, в которых 99% элементов == 0 (в данном случае - количество конкретных слов в тексте). Надобно найти N наиболее похожих текстов в базе (база не слишком большая, перебрать все - таки да, можно).

Какую метрику использовать в таких случаях? Евклидова, подозреваю, далеко не лучший вариант.


А последовательность слов значения не имеет? Тогда м.б. что то вроде корреляционной функции?

AIv ★★★★★
()
Ответ на: комментарий от AIv

Да, простой BagOfWords. Однако я кое-что нагуглил: братцы-арабцы используют косинусную меру и TF-IDF. Видимо, придётся перекраивать своё поделье, увы.

Yak
() автор топика

Да обычный PCA без нормализации можно использовать. Две точки совпали -> значит тексты близки по выбранным дескрипторам. Все классификаторы «смысловые» используют. По моему на cran лежат пакеты готовые для R.

psv1967 ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.