обработка естественных языков

java, ml, python

5

4

внезапно!

питон или ява? хочется конечно яву... какая либа круче всех?

чего хочу: хочу имея с вободной форме текст разбить его на полезные кусочки и сложить в базулю.

ну например:

1. гражданин сидоров, проживающий по адресу, зарезал к чертям свою соседку по пьяне.

2. на улице произошло столкновение двух клевых автомобилей.

что мы тут видим? есть ФИО, есть адреса, есть преступление, как будто есть даже марки машин.

и вот имея ворох таких документов хочется узнать сколько клевых парней прешило негодных баб в прошлом месяце и сколько ухайдакали ведер на районе.

вариант относительно простой, но трудоемкой: нашлепать в рукопашную кучу файлов с метками и грубо говоря структурой документа. ну типа:

<fio regexp/> <address regexp/> <action regexp/>

<marker fio/>, <marker adderess>, <marker action>

проблема в том, что количество таких шаблонов будет расти и их будет просто до черта. считай на каждую новую «свободную» форму свой новый шаблон. одно уныние.

а хочется чего-то более машинленинговово, чтоб OpenNLP или NLTK какой. хочется больше эвристики. как это правильно нынче делается?

Ссылка

← 1 2 →

Ответ на: комментарий от Rastafarra 14.12.16 13:04:03 MSK

Ну я-то совсем не в теме. Просто наткнулся на знакомые слова, вспомнил релевантный (на мой некомпетентный взгляд) топик - отписался. Но за топиком несколько людей следит, да и мне вдруг интересно стало. Так что будут результаты - тоже пиши.

winlook38 ★★
(14.12.16 14:01:57 MSK)

Похожие темы