OCRopus, это попытка от Google создать OCR-систему на базе не так давно открытого распознающего ядра - tesseract. В состав OCRopus входит собственно tesseract, GUI и интерфейс автоматизации и конфигурирования на основе Lua.
Из улучшений (не считая то. что это, в общем, первый релиз этой программы):
* Разделение входного изображения на текст и графику
* Улучшения в алгоритмах распознавания
* Новая статистическая модель языка
* Улучшенный вывод в собственном формате hOCR
и т.п.
Так дело пойдет, и Abbyy придется потесниться :)
>>> Подробности