Метрика для разреженных векторов (классификиция текстовй)

0

1

Есть у меня вектора признаков, в которых 99% элементов == 0 (в данном случае - количество конкретных слов в тексте). Надобно найти N наиболее похожих текстов в базе (база не слишком большая, перебрать все - таки да, можно).

Какую метрику использовать в таких случаях? Евклидова, подозреваю, далеко не лучший вариант.

Ссылка

←	Инициализация вектора при передачи в функцию

Некорректно выводятся символы с атрибутами (ncurses)

→

А последовательность слов значения не имеет? Тогда м.б. что то вроде корреляционной функции?

~~AIv~~ ★★★★★
(05.03.12 19:05:05 MSK)

Ответ на: комментарий от AIv 05.03.12 19:05:05 MSK

Да, простой BagOfWords. Однако я кое-что нагуглил: братцы-арабцы используют косинусную меру и TF-IDF. Видимо, придётся перекраивать своё поделье, увы.

Yak ★
(05.03.12 19:36:39 MSK) автор топика

Ссылка

Да обычный PCA без нормализации можно использовать. Две точки совпали -> значит тексты близки по выбранным дескрипторам. Все классификаторы «смысловые» используют. По моему на cran лежат пакеты готовые для R.

psv1967 ★★★★★
(06.03.12 11:26:28 MSK)