LINUX.ORG.RU

очень простой морфологический анализ фраз (для inflection)


0

1

классически метод:

берем фразу, бъем на слова, для каждого слова проводим морфологический анализ (часть речи, род, число) - лемматизация - склонение (inflection в моем случае по падежам)

склонение - проще всего и это уже есть (набор правил + исключения), а вот с определением части речи и т.п. - заморочка, найденные решения как правило построены на обучении и таскании с собой толстой модели языка

нужно что-то максимально простое - некий алгоритм который можно быстро нашкодить не притягивая всякие DAWG для алгоритма.

ps. яп - java

Deleted

это была реклама Вашего проекта ?

MKuznetsov ★★★★★
()

jz-decliner был какой-то. только я его давно тыкал - не помню.. кажется, он только для ФИО.

aol ★★★★★
()
Ответ на: комментарий от aol

с фио какраз таки проблем нет, они встречаются по отдельности и где 'ф' а где 'и' можно задавать, трабл именно в произвольных фразах

Deleted
()

как правило построены на обучении и таскании с собой толстой модели языка

Без этого никак. Нормализация (например, для поиска с учётом морфологии) возможна очень примитивная (хоть и неточная), на стемминге. А вот полноценная морфология — только с толстой базой. Я использую phpMorphy, там база ~13Мб.

https://bitbucket.org/Balancer/blib-morfology-ru

Базируется на

http://phpmorphy.sourceforge.net/dokuwiki/

А сами алгоритмы простые, на Java легко переписать.

KRoN73 ★★★★★
()
Ответ на: комментарий от KRoN73

да я и на яве находил (судя по всему от авторов aot.ru) но там и допиливание требуется (и выкинуть зависимость от lucene) и словари

Deleted
()

Я POS tagger видел только на базе обучения по корпусу. И лингвисты часто спорят о частях речи, так что это не очень четко определенная штука.

С другой стороны, если целевой язык - русский, можно попробовать сформулировать правила (лучше, наверное, поискать тусовку лингвистов и там спросить). В английском часть речи можно только зная контекст определить, т.к. слова не склоняются и слабо словообразуются. С русским должно быть проще. Большинство готовых решений - для английского, естественно, поэтому там сплошное обучение.

moroz
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.