Алгоритм определения частей речи и стеммер для русского языка
Посоветуйте сабж. Нужно определять, какой частью речи является слово в русском тексте и стеммить его (или, как вариант, лемматизировать до нормальной формы). Желательно, чтобы причастия и деепричастия нормализовались в ту же форму, что и глаголы (stem(стремиться) == stem(стремясь)). Ну и чтобы алгоритм определения части речи был без адских хаков, но давал приемлемую точность.