LINUX.ORG.RU
ФорумTalks

кластеризация данных. cablegate


0

1

подскажите какие есть проги по кластеризации данных которые можно было бы применить к набору английских текстов.

охота почитать wikileaks, но хоть сколько-нибудь осмысленно это сделать без предобработки затруднительно.

★★★

Любая библиотека по нормализации слов (для английского это не проблема вообще), потом просто набор слов маркеров выбирается (например исключив слова которые встречаются слишком часто и слишком редко). Каждый текст описывается сколько раз в нем встретился каждый маркер.

На получившийся датафрейм натравливается PCA и смотрят возникающие «естественные группировки». Все похожие документы находятся рядом.

R вполне подойдёт.

psv1967 ★★★★★
()
Ответ на: комментарий от psv1967

а чего-нибудь готового нет? какие-нибудь opensource движки поисковиков и библиотеки для них?

vasaka ★★★
() автор топика
Ответ на: комментарий от vasaka

Не знаю, man matlab, наверное :) Сам не участвовал, на соседнюю кафедру лингвисты заказывали какие-то исследования по английскому языку. Вот они успешно юзали матлаб.

muon ★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.