Наконец-то вышла OpenSource-библиотека для обработки текста FreeLing 3.0. Основные возможности FreeLing:
- разметка текста (токенизация);
- выделение предложений;
- морфологический анализ;
- определение составных слов;
- вероятностное определение части речи неизвестного слова (hmm tagger);
- обнаружение и определение именной группы;
- классификация именной группы;
- построение дерева зависимостей (слов в предложении);
- определение местоимений (местоименных словоформ);
- нормализация и определение дат, чисел, процентных соотношений, валюты и физических величин (скорость, вес, температура, плотность и т. д.);
- определение части речи (вероятностное).