внезапно!
питон или ява? хочется конечно яву... какая либа круче всех?
чего хочу: хочу имея с вободной форме текст разбить его на полезные кусочки и сложить в базулю.
ну например:
1. гражданин сидоров, проживающий по адресу, зарезал к чертям свою соседку по пьяне.
2. на улице произошло столкновение двух клевых автомобилей.
что мы тут видим? есть ФИО, есть адреса, есть преступление, как будто есть даже марки машин.
и вот имея ворох таких документов хочется узнать сколько клевых парней прешило негодных баб в прошлом месяце и сколько ухайдакали ведер на районе.
вариант относительно простой, но трудоемкой: нашлепать в рукопашную кучу файлов с метками и грубо говоря структурой документа. ну типа:
<fio regexp/> <address regexp/> <action regexp/>
<marker fio/>, <marker adderess>, <marker action>
проблема в том, что количество таких шаблонов будет расти и их будет просто до черта. считай на каждую новую «свободную» форму свой новый шаблон. одно уныние.
а хочется чего-то более машинленинговово, чтоб OpenNLP или NLTK какой. хочется больше эвристики. как это правильно нынче делается?