LINUX.ORG.RU
ФорумTalks

Найти буквы в тексте на неизвестном языке

 ,


0

1

Привет!

Есть рукописный текст на неизвестном языке. Можно ли из него извлечь отдельные буквы? Может кто-то сталкивался с такой задачей, расскажите поподробнее что за задача (это наверно лингвистика какая-то), какими методами решается, решается ли? А что если текст непрерывный?

Гуглятся только статьи про оффлайн разбор рукописного текста индусами.


Используй онлайн разбор рукописного текста носителями. Без человека — гугли распознавалку соответствующей письменности. Правда, если это не латиница или кириллица, твои шансы стремятся почти к нулю...

buddhist ★★★★★
()
Ответ на: комментарий от buddhist

Если бы нужно было разобраться с конкретным текстом!.. )) Хочется понять, как в принципе такое работает.

dann
() автор топика

В смысле на вход даёт jpeg рандомного рукописного текста на рандомном языке, на выходе получаем plain text в utf8? Если рандомный язык выбирается из какого-то заранее известного множества языков то это машинное зрение (распознавание образов, OCR). Под каждый язык (алфавит) нужно отдельно затачивать инструмент. И под каждое начертание. И, на сколько я понимаю, с рукописным текстом в любом случае всё это работает грустно.
Если набор возможных языков заранее не известен то это libastral. Автоматика может разве-что выделить те группы пикселей которые возможно являются одними и теми-же буквами

MrClon ★★★★★
()
Ответ на: комментарий от MrClon

Набор языков неизвестен. Просто тонна (очень много) картинок со строками на неизвестном языке. Как понять, что тут одна буква?

dann
() автор топика

Например, глядя на арабское письмо, не будучи знакомым с предметом, трудно сказать, где тут отдельные символы. Можно выдвигать различные гипотезы. Интересно, можно ли научить машину строить такие гипотезы на основе многих строк текста?

dann
() автор топика

это наверно лингвистика какая-то

Natural language processing (NLP).

какими методами решается

ПО для обработки естественного языка ©.

quickquest ★★★★★
()
Ответ на: комментарий от dann

А, понял, ты хочешь понять, как вообще попытаться что-то разобрать, если никто даже приблизительно не знает, что там должно быть?

buddhist ★★★★★
()
Ответ на: комментарий от question4

Я не спорю что читаемо, просто оно читаемо не с набегу сразу.

текущие ОЦР такое не потянут.

Serg_HIS
()
Ответ на: комментарий от dann

В общем случае ты не можешь знать, является ли пятнышко пятнышком, или важным синтаксическим элементом, означающим «каждый, кто прочтёт дальше, умрёт».

Xellos ★★★★★
()
Ответ на: комментарий от Xellos

Тот же Манускрипт Войнича, насколько я знаю, разделили на «буквы» вручную, и уже эти буквы пытаются расшифровать. Но вполне может быть, что это разделение неверное.

Xellos ★★★★★
()

Это задача кластеризации применительно к изображению текста. Называется сегментация.

Даже к уже распознанному потоку символов текста это трудная задача https://en.wikipedia.org/wiki/Text_segmentation

Именно к тексту читай ссылки https://duckduckgo.com/?q=image text segmentation&t=canonical&ia=web

Например https://www.sciencedirect.com/science/article/pii/S2212017314000954

psv1967 ★★★★★
()
Ответ на: комментарий от dann

Хочется понять, как в принципе такое работает.

Неизвестный язык в принципе не обязан иметь буквы.

mimico
()
Ответ на: комментарий от targitaj

Вообще, не обязательно, может иероглифическое.

dann
() автор топика
Последнее исправление: dann (всего исправлений: 1)

Тут просто _немерянный_ размер матрицы различий получается. Ну и все еще рекурсивно повторять придется: пикселы сливать в «суперпикселы1», эти супер1 в супер2 и т.д. Пока будут основания значимые для наличия группировок в графе близости кодируемом этой матрицей.

Это даже если представить что уже есть идеальный алгоритм вычисления подобия двух «пикселей» изображения текста друг к другу.

psv1967 ★★★★★
()
Ответ на: комментарий от psv1967

Спасибо!

А сильно легче не станет, если есть есть два таких текста, и известно, что один — перевод второго?

dann
() автор топика
Ответ на: комментарий от Xellos

Хочется таблицу {кусок, вероятность}. Только если в результате получится таблица из всех возможных кусков с равными вероятностями — такая таблица будет мало содержательной, во всех остальных случаях будет что-то интересное.

dann
() автор топика
Ответ на: комментарий от dann

А что - кусок, вероятность? Это может быть язык типа ифкуиля. А теперь скрещиваем арабскую вязь, девангари с ифкуилем, и получаем НЁХ, которая может быть как произведением искусства, так и инженерной документацией марсиан.

Xellos ★★★★★
()
Ответ на: комментарий от Serg_HIS

Не, если точно известно, что там написано что-то осмысленное, и второй текст — это перевод первого.

dann
() автор топика
Ответ на: комментарий от Xellos

Задача принимает дурной оборот.

Анализ какой бы то ни было семантики не требуется — всё, что нужно это просто в наборе замысловатых непрерывных линий попытаться выделить похожие кусочки. Что эти кусочки значат, какова структура языка — неважно. Предполагается только, что такое разбиение есть. Не предполагается, что оно единственно. Вопрос в том, можно ли машину научить строить гипотезы относительно того, как могут выглядеть такие разбиения?

Можно, к примеру, взять порубить все строки в лапшу, на кусочки от 5 до 150 пикселей, и попытаться найти среди них похожие. Может можно как-то такой подход оптимизировать.

Хотел поблагодарить за ссылку на ифкуиль, но думаю, как бы теперь это забыть))

dann
() автор топика
Ответ на: комментарий от dann

Жаль что мой проект по распознаванию слов с ошибками ты не застал на лоре. Он не умер конечно.

Но я работаю в гораздо большем захвате всяких распознаваний.

Распознать рукописное очень тяжело, даже треннированым людям.

Serg_HIS
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.