LINUX.ORG.RU

Библиотека для работы с русскими словами

 


0

2

Стоит задача подсчитать, какие слова и сколько раз встречаются в тексте. Сама по-себе она предельно примитивная, но наличие падежей в русском языке означает, что одно и то же слово в разных падежах может быть подсчитано как разные слова.

Поэтому мне нужен какой-нибудь инструмент, который позволит дать ему слово в любом падеже и получить назад это же слово в первом лице ед. числа. Так же с временами, в идеале, и так далее. Тогда у меня все слова будут в одной форме, а значит и подсчет будет более точным.

Может есть какая-нибудь готовая библиотека? Я просто не лингвист, и слабо себе представляю, как все проработать с нуля самому.

★★★★★

Чот подозреваю, что такое только при помощи грамматического словаря можно.

ossa ★★
()
Ответ на: комментарий от phoen

Попробую как время будет, спасибо за наводку.

Ghostwolf ★★★★★
() автор топика

Отмечу как решенное, теперь понятно, куда копать.

Ghostwolf ★★★★★
() автор топика
Ответ на: комментарий от Ghostwolf

Это называется не так, стемминг - выделение псевдоосновы, а ты просишь лемматизацию.

Deleted
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.