Библиотека для распознавания текста по шаблонам

0

1

Идея такая: есть документ / форма, в которой часть текста - малоинформативная и используется только для точного позиционирования. А другая часть - содержательная, должна преобразовываться в структурные единицы на выходе.

Пример практического применения - сканирование чеков из магазинов. Вот например, FinPix (проприетарное, под Андроид) явно использует что-то подобное. Я пробовал, кстати, довольно неплохо распознаёт, только медленно. А есть опенсорсные библиотеки, которыми можно решить такую задачу?

Ссылка

←	Приглашаю помочь мне в разработке vala-panel

send raw socket. bug или нет ?

→

tesseract?

anonymous
(28.09.16 04:05:38 MSK)

Ссылка

Распознование содержательной части через tesseract (это самое вменяемое что есть), и вероятно с дообучением под конкретные шрифты.

А вот анализ документа на предмет выдирания этой содержательной части очень вероятно придется делать руками.

В последних tesseract конечно layout analysis есть, но есть сильное подозрение что для 'документов' где относительно мало текста и много разметки (типа чеков) это не подойдет.

neird
(28.09.16 04:46:41 MSK)

плюсану tesseract

Rastafarra ★★★★
(28.09.16 10:36:33 MSK)

Ссылка

Ответ на: комментарий от neird 28.09.16 04:46:41 MSK

В последних tesseract конечно layout analysis есть

Спасибо за ключевые слова, возможно, удастся найти, как этот самый layout analysis заставить работать. Собственно, во всех обзорах, что я читал, tesseract и называется самой вменяемой опенсорсной OCR. Правда, я читал только, как его на новый алфавит настроить, а вот про использование расположения элементов не попадалось. Очень может быть, что плохо искал.

но есть сильное подозрение что для 'документов' где относительно мало текста и много разметки (типа чеков) это не подойдет.

Ну собственно, «разметка», которую я имел в виду, тоже большей частью текстовая...

hobbit ★★★★★
(28.09.16 21:07:03 MSK) автор топика

Ответ на: комментарий от hobbit 28.09.16 21:07:03 MSK

Спасибо за ключевые слова, возможно, удастся найти, как этот самый layout analysis заставить работать. Собственно, во всех обзорах, что я читал, tesseract и называется самой вменяемой опенсорсной OCR. Правда, я читал только, как его на новый алфавит настроить, а вот про использование расположения элементов не попадалось. Очень может быть, что плохо искал.

И не попадется. google tesseract layout analysis/recognition не дает особо много примеров. Если посмотреть как оно устроено, то на мой взгляд для случая чеков придется делать ручками. Это вообщем то не удивительно поскольку с научной точки зрения задача анализа схемы документа существенно более плохо решена чем задача распознавания.

neird
(28.09.16 21:59:19 MSK)

Ответ на: комментарий от neird 28.09.16 21:59:19 MSK

Ага, понял. В любом случае за ссылку тоже спасибо. Не напишу, так поумнею.

hobbit ★★★★★
(28.09.16 22:08:40 MSK) автор топика

Ответ на: комментарий от hobbit 28.09.16 22:08:40 MSK

Я бы расчитывал больше на поумнение, а не написание. Хотя тут все зависит от того сколько времени потрачено.

В начале пути разработки систем, связанных с компьютерным зрением, граблей часто не видно, но обычно они есть и очень плотно рассыпаны.

Полезно почитать Постановка задачи компьютерного зрения, PassportVision.

neird
(28.09.16 22:37:40 MSK)

Ссылка

Непонятно, что у вас за документ. На OpenCV не смотрели? Вот тут несколько примеров выделения текста на картинке:

http://stackoverflow.com/questions/23506105/extracting-text-opencv

После выделения уже можно прогнать через OCR

Deleted
(29.09.16 15:33:48 MSK)

Ответ на: комментарий от Deleted 29.09.16 15:33:48 MSK

Да, спасибо за ссылку, в других источниках тоже упоминают связку OpenCV + Tesseract.

hobbit ★★★★★
(29.09.16 18:31:00 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Приглашаю помочь мне в разработке vala-panel

Development

send raw socket. bug или нет ?

→

Похожие темы