LINUX.ORG.RU

История изменений

Исправление token_polyak, (текущая версия) :

а) разве FineReader не российский продукт?
б) если да, то надо пнуть по поводу поддержки отечественных ОС

Также верны выводы @peregrine про пайплайн распознавания. Тесеракту надо подсовывать куски именно текста, а со структурой разбираться на предыдущих этапах (как и с контрастом, бинаризацией и прочим) - для этого существуют фреймворки вроде OCR-d, который умеет распознавать те же таблицы; текст внутри них - в самом конце.

ЗЫ что у тесеракта неоспоримое преимущество - обучение автоматизируется. Накидать в директорию тхт файлов и соответстующих им изображений слов, оставить на час-ночь-недельку, и получаем адекватную модель. С файнридером подобное нельзя, по крайней мере - в интернете не нарыл, а серверную/эмбеддед версии (ни доки к ним) на поиграться не дают.

Исправление token_polyak, :

а) разве FineReader не российский продукт?
б) если да, то надо пнуть по поводу поддержки отечественных ОС

Также верны выводы @peregrine про пайплайн распознавания. Тесеракту надо подсовывать куски именно текста, а со структурой разбираться на предыдущих этапах (как и с контрастом, бинаризацией и прочим) - для этого существуют фреймворки вроде OCR-d, который умеет те же таблицы распознавать; текст внутри них - в самом конце.

ЗЫ что у тесеракта неоспоримое преимущество - обучение автоматизируется. Накидать в директорию тхт файлов и соответстующих им изображений слов, оставить на час-ночь-недельку, и получаем адекватную модель. С файнридером подобное нельзя, по крайней мере - в интернете не нарыл, а серверную/эмбеддед версии (ни доки к ним) на поиграться не дают.

Исправление token_polyak, :

а) разве FineReader не российский продукт?
б) если да, то надо пнуть по поводу поддержки отечественных ОС

Также верны выводы @peregrine про пайплайн распознавания. Тесеракту надо подсовывать куски именно текста, а со структурой разбираться на предыдущих этапах (как и с контрастом, бинаризацией и прочим) - для этого существуют фреймворки вроде OCR-d, который умеет те же таблицы распознавать; текст внутри них - в самом конце.

ЗЫ что у тесеракта неоспоримое преимущество - обучение автоматизируется. Накидать в директорию тхт файлов и соответстующих им изображений слов, оставить на час-ночь-недельку, и получаем адекватную модель. С файнридером подобное нельзя, по крайней мере - в интернете не нарыл, а серверную/эмбеддед версии на поиграться не дают.

Исправление token_polyak, :

а) разве FineReader не российский продукт?
б) если да, то надо пнуть по поводу поддержки отечественных ОС

Также верны выводы @peregrine про пайплайн распознавания. Тесеракту надо подсовывать куски именно текста, а со структурой разбираться на предыдущих этапах (как и с контрастом, бинаризацией и прочим) - для этого существуют фреймворки вроде OCR-d, который умеет те же таблицы распознавать; текст внутри - в самом конце.

ЗЫ что у тесеракта неоспоримое преимущество - обучение автоматизируется. Накидать в директорию тхт файлов и соответстующих им изображений слов, оставить на час-ночь-недельку, и получаем адекватную модель. С файнридером подобное нельзя, по крайней мере - в интернете не нарыл, а серверную/эмбеддед версии на поиграться не дают.

Исправление token_polyak, :

а) разве FineReader не российский продукт?
б) если да, то надо пнуть по поводу поддержки отечественных ОС

Исправление token_polyak, :

а) разве FineReader не российский продукт? б) если да, то почему бы не пнуть по поводу поддержки отечественных ОС?

Исправление token_polyak, :

Разве FineReader не отечественное ПО?

Исходная версия token_polyak, :

Причем тут «импортозамещение» отечественного OCR?