Библиотека для работы с русскими словами

0

2

Стоит задача подсчитать, какие слова и сколько раз встречаются в тексте. Сама по-себе она предельно примитивная, но наличие падежей в русском языке означает, что одно и то же слово в разных падежах может быть подсчитано как разные слова.

Поэтому мне нужен какой-нибудь инструмент, который позволит дать ему слово в любом падеже и получить назад это же слово в первом лице ед. числа. Так же с временами, в идеале, и так далее. Тогда у меня все слова будут в одной форме, а значит и подсчет будет более точным.

Может есть какая-нибудь готовая библиотека? Я просто не лингвист, и слабо себе представляю, как все проработать с нуля самому.

Ссылка

←	Ошибка при выделении памяти

Непонятки c QFileInfo

→

https://github.com/kmike/pymorphy2

Оно?

phoen ★★
(13.11.15 14:02:55 MSK)

Чот подозреваю, что такое только при помощи грамматического словаря можно.

ossa ★★
(13.11.15 14:03:29 MSK)

Ссылка

Возможно есть

zolden ★★★★★
(13.11.15 14:04:08 MSK)

Ответ на: комментарий от phoen 13.11.15 14:02:55 MSK

Попробую как время будет, спасибо за наводку.

Ghostwolf ★★★★★
(13.11.15 14:06:12 MSK) автор топика

Ссылка

Ответ на: комментарий от zolden 13.11.15 14:04:08 MSK

И тебе спасибо. Не знал, как это правильно называется.

Ghostwolf ★★★★★
(13.11.15 14:07:17 MSK) автор топика

Отмечу как решенное, теперь понятно, куда копать.

Ghostwolf ★★★★★
(13.11.15 14:07:46 MSK) автор топика

Ссылка

Использовал для похожей задачи стеммер Яндекса. Остался доволен.

https://tech.yandex.ru/mystem/?ncrnd=3120

Y ★★
(13.11.15 15:05:31 MSK)

Ссылка

Ответ на: комментарий от Ghostwolf 13.11.15 14:07:17 MSK

Это называется не так, стемминг - выделение псевдоосновы, а ты просишь лемматизацию.

Deleted
(13.11.15 19:50:38 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Ошибка при выделении памяти

Непонятки c QFileInfo

→