Графическая оболочка для системы распознавания текста tesseract

Новости — Open Source

Программист с ником nguyenq написал простую графическую оболочку для OCR-системы tesseract. Оболочка написана на Java и находится в стадии ранней беты, но уже вполне пригодна для распознавания отдельных страниц текста.

К её достоинствам относится возможность автоматической конвертации распознаваемой картинки в понимаемый tesseract формат. Ранее все картинки приходилось вручную конвертировать в разновидность tiff.

Желающие дописать недостающий функционал и исправить баги могут связаться с автором в форуме http://groups.google.com/group/tesser...

Оболочка также способна использовать в качестве системы распознавания программу gocr, однако эта программа не способна распознавать русский шрифт, и в едва ли в ближайшее время этому научится.

В отличии от gocr, программа tesseract уже сейчас может быть обучена русскому, а в ближайшее время авторы обещают коренным образом исправить ситуацию с распознаванием неанглийских текстов.
Об обучении tesseract русскому языку см. http://groups.google.com/group/tesser...

(для работы оболочки необходимо указать в настройках каталог, содержащий бинарник tesseract)

>>> Подробности

asdf128
(30.01.08 08:50:09 MSK)

27 комментариев

Сообщения asdf128

Графическая оболочка для системы распознавания текста tesseract