LINUX.ORG.RU

Увидел свет Link Grammar Parser 5.2.0

 , ,


6

5

Двадцать седьмого декабря две тысячи четырнадцатого года увидел свет Link Grammar Parser 5.2.0.

Link Grammar Parser — это синтаксический анализатор английского, русского, арабского и персидского (и других языков). Создан на основе Link Grammar, оригинальной теории синтаксиса. Получив предложение, система присваивает ему синтаксическую структуру, которая состоит из набора меченых связей, соединяющих пары слов. Расширение RelEx предоставляет вывод разбора на основе зависимостей. Написан на Си. Имеются привязки к Java, Python, Common Lisp, Ocaml, Perl и AutoIt.

Link Grammar Parser применяется для проверки грамматики в AbiWord. Планируется его использование в Calligra Words.

Пример работы:

linkparser> Кот лежащий на столе может мурлыкать. 
No complete linkages found. 
linkparser> Кот, лежащий на столе, может мурлыкать. 
Found 26 linkages (16 had no P.P. violations)

Изменения в версии 5.2:

Это мажорный релиз парсера, включающий много важных изменений. Внутренняя структура парсера была реорганизована, что привело к ускорению анализа типичных текстов на английском языке в 2 – 4 раза. Многие ошибки, связанные с многопоточностью, были исправлены, и появился простой тест для многопоточной работы. Одна утечка памяти и чрезмерное потребление памяти были исправлены. Эти изменения стали возможными благодаря окончательному удалению из парсера кода, ответственного за «жирные связи».

В этой версии:

  • в англоязычных текстах теперь распознаются сокращения «y'all», «ain't», «gonna», «y'gotta», язык Beverly Hillbillies;
  • полностью удалён код, ответственный за «жирные связи»;
  • удалён код, ответственный за ранее не рекомендуемые деревья из составных частей;
  • в англоязычных текстах глаголы «reign», «rule», «run», «leave», «come» теперь могут принимать предикативные прилагательные;
  • переработаны весовые коэффициенты для многих прилагательных, образованных от глаголов;
  • добавлена работа с предикативными модификаторами, похожими на прилагательные, для различных глаголов совершенного вида;
  • исправлена работа с различными словами, обозначающими цвета;
  • исправлена работа с различными утвердительными ответами;
  • в словарь добавлено 100 различных глаголов;
  • добавлена предварительная поддержка lxc-docker (docker.io);
  • исправлена утечка памяти, появившаяся в релизе 5.1.0;
  • работа программы ускорена в 1.7 – 4 раза (в зависимости от текста) благодаря переустройству обработки связей;
  • исправлена ошибка, связанная с безопасностью многопоточности;
  • исправлено выравнивание при печати связей и областей (ради улучшения поддержки UTF8);
  • исправлена ошибка (EMPTY_WORD), приводившая к чрезмерному потреблению памяти, которая существовала с версии 4.7.10;
  • больше не применяется функция «xrealloc», имя которой совпадает с символом «xrealloc» из «libbfd»;
  • добавлен тест для многопоточного анализа.

В версии 5.2.1, вышедшей двадцать восьмого декабря две тысячи четырнадцатого года из-за срыва запуска всех тестов при создании 5.2.0:

  • появился прототип словаря индонезийского языка от Hendy Irawan;
  • исправлены падения при анализе длинных предложений.

>>> Подробности



Проверено: anonymous_incognito ()
Последнее исправление: anonymous_incognito (всего исправлений: 3)

Link Grammar Parser применяется для проверки грамматики в AbiWord. Планируется его использование в Calligra Words.

Зачем оно нужно в этом ненужно? Прикрутили бы сразу к либре.

petrosyan ★★★★★
()

Двадцать седьмого декабря две тысячи четырнадцатого года

Понятно, что хочется показать, что программа помогает правильно писать числительные, но все-таки «27 декабря 2014 года» было бы короче и понятнее.

Klymedy ★★★★★
()
Ответ на: комментарий от Myau

Видимо какой-то местный жаргон, вроде бы латиноамериканский или креольский что-то точнее не понял.

anonymous_incognito ★★★★★
()

Увидел свет Link Grammar Nazi 5.2.0

fixed

Zubok ★★★★★
()
Ответ на: комментарий от Klymedy

Числительное в начале предложения - фи.

Deleted
()
Ответ на: комментарий от Klymedy

Мне не нравится начинать предложения с цифр. А прочитать вы и так и так сможете.

Sakka
() автор топика

linkparser> Кот лежащий на столе может мурлыкать.
No complete linkages found.

а я (человек) вот и без запятых вполне смог распарсить всю связь :-)

user_id_68054 ★★★★★
()
Последнее исправление: user_id_68054 (всего исправлений: 1)
Ответ на: комментарий от cvs-255

да, два варианта..

но я (человек) выбираю тот вариант, в котором «лежащий» относится к «на столе». так как это наиболее употребляемое (людьми), чем мысль «мурлыкать где? на столе!»

user_id_68054 ★★★★★
()
Ответ на: комментарий от user_id_68054

а я (человек) вот и без запятых вполне смог распарсить всю связь :-)

Ну-ну...

Кот, лежащий, на столе может мурлыкать

iVS ★★★★★
()
Ответ на: комментарий от user_id_68054

но я (человек) выбираю тот вариант, в котором «лежащий» относится к «на столе». так как это наиболее употребляемое (людьми)

Грамматика служит для передачи как можно более точного смысла. А «более или менее употребляемое» оставьте неграмотным, которые два слова в предложение связать не могут.

iVS ★★★★★
()
Ответ на: комментарий от iVS

Грамматика служит для передачи как можно более точного смысла.

мне конечно же хотелось бы верить в это. (это было бы прекрасно! если было бы правдой!)

но будь это правдой — в этом случае, небось, все говорили бы на Эспиранто-подобных языках. :-)

а вот естественные языки — допускают передачу смысла в весьма неточной форме. и люди всё-равно умеют это понимать достаточно точно (выполняя разборы предложений — с учётом статистики наиболее употребляемых фраз).

user_id_68054 ★★★★★
()
Ответ на: комментарий от anonymous

fmdw (31.12.2014 8:52:39)> 141227, как сказали бы шведы.

anonymous (31.12.2014 9:09:29)> 12/27/2014, как сказали бы американцы

anonymous (31.12.2014 9:24:52)> 20141227 (ну или 2014-12-27), ибо ISO 8601

а в дату в звёздном формате (по версии СтарТрека) — умеет кто-нибудь конвертировать? :)

user_id_68054 ★★★★★
()
Ответ на: комментарий от user_id_68054

9 тевета 5775 года, как сказал бы наш раввин.

anonymous
()

когда появится универсальный переводчик ?

kto_tama ★★★★★
()

синтаксический анализатор английского, русского, арабского и персидского (и других языков).

применяется для проверки грамматики

А для чего-нибудь ещё его можно применить? Например, для разбора предложений и последующей передачи в анализатор уже семантики? Ну что-то типа задач искусственного интеллекта. Или для этого нужны «немножко совсем другие» инструменты?

Последний раз (давно), когда я этим интересовался, попадались программы типа Alice, но у них подход скорее «сымитировать что-то похожее на разумные ответы» и формально пройти тест Тьюринга, а мне было бы интереснее увидеть именно осмысленный анализ текста. Даже самообучение не главное.

hobbit ★★★★★
()

Что-то я не понял как его можно применять для проверки грамматики, он же не говорит где должны быть запятые?!

alozovskoy ★★★★★
()
Ответ на: комментарий от hobbit

А для чего-нибудь ещё его можно применить? Например, для разбора предложений и последующей передачи в анализатор уже семантики? Ну что-то типа задач искусственного интеллекта. Или для этого нужны «немножко совсем другие» инструменты?

С такой целью Link Grammar Parser используют в OpenCog, например (http://opencog.org/). И самообучение там тоже есть :).

anonymous
()

С НОВЫМ ГОДОМ МОИ ЛЮБИМЫЕ ДРУЗЬЯ АНОНИМУСЫ!!!! НУ ЛАДНО НИМУСЫ ТОЖЕ С НОВЫМ ГОДОМ)))))))))))

anonymous
()
Ответ на: комментарий от user_id_68054

А если ему «волосатое стекло» подсунуть? Вот уж эталон двусмысленности.

Правда, это не совсем предложение, скорее, словосочетание.

hobbit ★★★★★
()
Ответ на: комментарий от MyTrooName

Насколько я помню, «жирные связи» — встроенное непосредственно в исходный код средство для поддержки списков однородных членов в английском языке.

Sakka
() автор топика
Ответ на: комментарий от anonymous

Она и правда весьма посредственна. Но написать качественный модуль для проверки пунктуации в разных языках, при этом не применяя шаблоны, как тот же LanguageTool, — задача не из лёгких.

Sakka
() автор топика
Ответ на: комментарий от cvs-255

И как же ты распарсил? Я вижу как минимум 2 варианта

Там всего один вариант:

Кот лежащий на столе может мурлыкать.

Автор хотел сказать, что кот, который лежит, может мурлыкать на столе.

Если бы автор хотел сказать, что кот, который лежит на столе, может мурлыкать, то он бы выделил причастный оборот запятыми.

DELIRIUM ☆☆☆☆☆
()
Ответ на: комментарий от DELIRIUM

Он как раз писал, что специально не писал запятых

cvs-255 ★★★★★
()
Ответ на: комментарий от user_id_68054

Можно ещё принять «Кот» за обращение.

Aceler ★★★★★
()

анализатор английского, русского, арабского и персидского (и других языков)

А я уж думал, очередной клон yacc.

Unicode4all ★★★★★
()
Ответ на: комментарий от cvs-255

Сядь на поребрик у парадной напротив булошной с сосулей да съешь шавермы с курой и гречей.

exception13 ★★★★★
()

Двадцать седьмого декабря две тысячи четырнадцатого года

Классная работа...
ну нафига так писать? дальше не читал даже. автор осилил числительные в шестом классе?

PerdunJamesBond
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.