Набор библиотек для обработки естественного языка
Привет. Хочу поделится с сообществом двумя библиотеками, которые я разрабатываю в свободное время.
Yargy - GLR-парсер, аналог Томита-парсера от Яндекса, только на питоне, без протобафа и всего такого. При разборе используются все варианты слов (омонимия не снимается) выданные pymorphy2. В качестве примера можно посмотреть грамматику, которая извлекает название улицы и номер дома по заданным правилам (в данном случае: слово улица (во всех формах), набор слов в винительном падеже (кого/чего?), и число).
В дополнение к парсеру, существует набор частоиспользуемых грамматик для извлечения именованных сущностей. В списке извлекаемых сущностей: физ. лица (ФИО, в разных вариантах), юр. лица (ПАО «Газпром»), денежные единицы (семьдесят пять тысяч рублей) и несколько других.
Можно поиграться с ним онлайн, без смс.
Всё это распространяется бесплатно и без каких-либо ограничений, под лицензией MIT.