Сегодня вышла в свет новая версия библиотеки для препроцессинга текстов (natural language processing) — FreeLing 3.1.
Основные изменения относительно предыдущей версии:
- Потокобезопасность (можно запускать параллельно обработчики для нескольких языков).
- Расширенное API.
- Исправление\поиск похожих слов.
- Регулярные выражения теперь из boost`a, (boost::regex, boost::xpressive) на выбор.
- Поддержка новых языков (французский, чешский, словенский).
- Упрощенная инсталляция и сборка.
- Документация дополнена примерами.
Основные возможности FreeLing:
- Разметка текста (токенизация).
- Выделение предложений.
- Морфологический анализ.
- Определение составных слов.
- Вероятностное определение части речи неизвестного слова (hmm tagger).
- Обнаружение и определение именной группы.
- Классификация именной группы.
- Построение дерева зависимостей (слов в предложении).
- Определение местоимений (местоименных словоформ).
- Нормализация и определение дат, чисел, процентных соотношений, валюты и физических величин (скорость, вес, температура, плотность и т.д.).
- Определение части речи (вероятностное).
Библиотека написана на С++, доступны обертки под Java, Python, Perl, Php, Ruby. Так же в пакете содержатся клиент-серверные примеры для обеспечения распараллеливания тяжелых задач на несколько машин. Лицензия GPL.