LINUX.ORG.RU

обработка естественных языков

 , ,


5

4

внезапно!

питон или ява? хочется конечно яву... какая либа круче всех?

чего хочу: хочу имея с вободной форме текст разбить его на полезные кусочки и сложить в базулю.

ну например:

1. гражданин сидоров, проживающий по адресу, зарезал к чертям свою соседку по пьяне.

2. на улице произошло столкновение двух клевых автомобилей.

что мы тут видим? есть ФИО, есть адреса, есть преступление, как будто есть даже марки машин.

и вот имея ворох таких документов хочется узнать сколько клевых парней прешило негодных баб в прошлом месяце и сколько ухайдакали ведер на районе.

вариант относительно простой, но трудоемкой: нашлепать в рукопашную кучу файлов с метками и грубо говоря структурой документа. ну типа:

<fio regexp/> <address regexp/> <action regexp/>

<marker fio/>, <marker adderess>, <marker action>

проблема в том, что количество таких шаблонов будет расти и их будет просто до черта. считай на каждую новую «свободную» форму свой новый шаблон. одно уныние.

а хочется чего-то более машинленинговово, чтоб OpenNLP или NLTK какой. хочется больше эвристики. как это правильно нынче делается?

Ответ на: комментарий от Rastafarra

Ну я-то совсем не в теме. Просто наткнулся на знакомые слова, вспомнил релевантный (на мой некомпетентный взгляд) топик - отписался. Но за топиком несколько людей следит, да и мне вдруг интересно стало. Так что будут результаты - тоже пиши.

winlook38 ★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.