История изменений
Исправление token_polyak, (текущая версия) :
В общем да, единственная свободная сюита, в которой я видел большинство необходимого - это монструозный OCR-D, ориентированный на пропуск через пайплайны целых книг. Вот там тебе и предобработка изображения, и нарезка на колонки-абзацы-строки, и распознавание несколькими OCR (а то из тессеракта >=4 вырезали, например, распознавание жирный ли текст или курсивом написан), и вывод в разные форматы - всё в одном.
А сохранять в один PDF gImageReader всё-таки умеет.
Исправление token_polyak, :
В общем да, единственная свободная сюита, в которой я видел большинство необходимого - это монструозный OCR-D, ориентированный на пропуск через пайплайны целых книг. Вот там тебе и предобработка изображения, и нарезка на колонки-абзацы-строки, и распознавание несколькими OCR (а то из тессеракта >=4 вырезали, например, распознавание жирный ли текст или курсивом написан), и вывод в разные форматы - всё в одном.
Исправление token_polyak, :
В общем да, единственная свободная сюита, в которой я видел все функции файнридера - это монструозный OCR-D, ориентированный на пропуск через пайплайны целых книг. Вот там тебе и предобработка изображения, и нарезка на колонки-абзацы-строки, и распознавание несколькими OCR (а то из тессеракта >=4 вырезали, например, распознавание жирный ли текст или курсивом написан), и вывод в разные форматы - всё в одном.
Исходная версия token_polyak, :
В общем да, единственная свободная сюита, в которой я видел все функции файнридера - это монструозный OCR-D, ориентированный на пропуск через пайплайны целых книг. Вот там тебе и предобработка изображения, и нарезка на колонки-абзацы-строки, и распознавание несколькими OCR (а то из тессеракта >=4 вырезали, например, распознавание жирный ли текст или курсивом написан), и выход в разные форматы - всё в одном.