Программист с ником nguyenq написал простую графическую оболочку для OCR-системы tesseract. Оболочка написана на Java и находится в стадии ранней беты, но уже вполне пригодна для распознавания отдельных страниц текста.
К её достоинствам относится возможность автоматической конвертации распознаваемой картинки в понимаемый tesseract формат. Ранее все картинки приходилось вручную конвертировать в разновидность tiff.
Желающие дописать недостающий функционал и исправить баги могут связаться с автором в форуме http://groups.google.com/group/tesser...
Оболочка также способна использовать в качестве системы распознавания программу gocr, однако эта программа не способна распознавать русский шрифт, и в едва ли в ближайшее время этому научится.
В отличии от gocr, программа tesseract уже сейчас может быть обучена русскому, а в ближайшее время авторы обещают коренным образом исправить ситуацию с распознаванием неанглийских текстов.
Об обучении tesseract русскому языку см. http://groups.google.com/group/tesser...
(для работы оболочки необходимо указать в настройках каталог, содержащий бинарник tesseract)
>>> Подробности