LINUX.ORG.RU

Истории успеха для Named Entity Recognition (NER)

 ,


0

2

rumgot

По мотивам Named Entity Recognition (NER) C++ библиотеки  — впервые вообще узнал про такой класс программ.

Где применяется для чего-то кроме исследований вот это вот?

А что что-то вот читаю разные обзоры типа https://habr.com/ru/post/502366/ или https://habr.com/ru/post/647357/ и возникает ощущение, что оно с одной стороны интересно, круто, а с другой не совсем понятно как для чего-то сильно полезного использовать эту технологию, при том что совсем не гарантируется корректное распознание этих самых NE, даже в наиболее типовых вариантах (ФИО, названия городов, даты).

То есть, для каких практических задач можно продать решение с NER?

Если в документообороте надо выделять и искать, то как правило там уже есть какая-то форма и разметка документов. Обычно всегда какой-то шаблон есть. А если просто поиск в документах, то обычно ищут конкретные данные, но при чем тут NER

А поисковые системы вроде пока еще не умеют обрабатывать запросы самого общего вида типа «Кто из известных людей родился в таком-то городе в такие-то годы?» Ну ChatGPT к этому приближается, но там если используется NER, то как один из компонентов и то не уверен.

Пока все что придумывается - это чего-то вроде автоматического составления обзоров из новостей на какую-то жестко заданную тему. Ну например, ловить упоминания ФИО, имен компаний, технологий и т.п. Да и то, такое ощущение, что в конкретном случае проще задать некий интересующий набор ключевых слов.

★★★★★

Я думаю, что указанная технология востребована в первую очередь во всяких гуглояндексах. Ещё одна форма глубокого анализа большого массива неструктурированных данных.

pathfinder ★★★★
()

А поисковые системы вроде пока еще не умеют обрабатывать запросы самого общего вида типа «Кто из известных людей родился в таком-то городе в такие-то годы?»

В Wikidata можно использовать SPARQL, есть Query Builder.

Пример.

dataman ★★★★★
()
Ответ на: комментарий от praseodim

А там точно NER

Cкорее всего используются мета-данные статей Wiki. Что не отменяет полезности сайта.

У них и JSON-дампы есть (109.04 GiB!).

dataman ★★★★★
()
Последнее исправление: dataman (всего исправлений: 1)
Ответ на: комментарий от static_lab

В каком виде? Они или записаны в какой-то заданной форме и с их обработкой никогда не было проблем и без NER или проблемы будут в любом случае.

Я так и представил интернет-магазин, в котором адрес доставки будет выделяться сабжевыми системами и сколько он так проработает.

praseodim ★★★★★
() автор топика
Ответ на: комментарий от praseodim

Например выделение дат и времени как в простом виде: 12:00 23.12.2025, так и в виде: «завтра в обед», «в следующем месяце в этот же день», «на следующей неделе» и т.п. на такие сущности не удобно писать регулярное выражение, да и не очень понятно, возможно ли.

rumgot ★★★★★
()
Ответ на: комментарий от rumgot

Так вот у меня то ли фантазия отключилась, но я не могу представить для чего практически это использовалось бы в коммерческих системах? Кроме может усиления интеллекта чат-ботов =)

В том же интернет-магазине, например, даты и время доставки явно задаются в часах обычно. А всякие «завтра в обед» настолько нечетко в любом случае, что не станет использоваться.

praseodim ★★★★★
() автор топика
Ответ на: комментарий от praseodim

Или вот было бы прикольно составить краткий план книги в хронологическом порядке. Вот например есть книга Сильмариллион. Я ее когда читал, то помечал некоторые вещи на полях карандашом, потому что дат, имен там, как в учебнике по истории. Вот краткий план с датами было бы интересно..

rumgot ★★★★★
()
Последнее исправление: rumgot (всего исправлений: 2)
Ответ на: комментарий от pineapple

Так тут в чем фокус - информация о клиенте должна гарантированно получаться правильной. А тут или в договоре уже есть что-то вроде разметки и тогда сабж в сущности излишен или на него нельзя полностью положиться. Хотя можно представить полуавтоматическое получение информации. Просто после ее корректность проверяется оператором, получается выигрыш времени, если ее в допустим 90% случаев не надо вручную набивать. Да, пример, применения.

praseodim ★★★★★
() автор топика