История изменений
Исправление token_polyak, (текущая версия) :
а) разве FineReader не российский продукт?
б) если да, то надо пнуть по поводу поддержки отечественных ОС
Также верны выводы peregrine про пайплайн распознавания. Тесеракту надо подсовывать куски именно текста, а со структурой разбираться на предыдущих этапах (как и с контрастом, бинаризацией и прочим) - для этого существуют фреймворки вроде OCR-d, который умеет распознавать те же таблицы; текст внутри них - в самом конце.
ЗЫ что у тесеракта неоспоримое преимущество - обучение автоматизируется. Накидать в директорию тхт файлов и соответстующих им изображений слов, оставить на час-ночь-недельку, и получаем адекватную модель. С файнридером подобное нельзя, по крайней мере - в интернете не нарыл, а серверную/эмбеддед версии (ни доки к ним) на поиграться не дают.
Исправление token_polyak, :
а) разве FineReader не российский продукт?
б) если да, то надо пнуть по поводу поддержки отечественных ОС
Также верны выводы peregrine про пайплайн распознавания. Тесеракту надо подсовывать куски именно текста, а со структурой разбираться на предыдущих этапах (как и с контрастом, бинаризацией и прочим) - для этого существуют фреймворки вроде OCR-d, который умеет те же таблицы распознавать; текст внутри них - в самом конце.
ЗЫ что у тесеракта неоспоримое преимущество - обучение автоматизируется. Накидать в директорию тхт файлов и соответстующих им изображений слов, оставить на час-ночь-недельку, и получаем адекватную модель. С файнридером подобное нельзя, по крайней мере - в интернете не нарыл, а серверную/эмбеддед версии (ни доки к ним) на поиграться не дают.
Исправление token_polyak, :
а) разве FineReader не российский продукт?
б) если да, то надо пнуть по поводу поддержки отечественных ОС
Также верны выводы peregrine про пайплайн распознавания. Тесеракту надо подсовывать куски именно текста, а со структурой разбираться на предыдущих этапах (как и с контрастом, бинаризацией и прочим) - для этого существуют фреймворки вроде OCR-d, который умеет те же таблицы распознавать; текст внутри них - в самом конце.
ЗЫ что у тесеракта неоспоримое преимущество - обучение автоматизируется. Накидать в директорию тхт файлов и соответстующих им изображений слов, оставить на час-ночь-недельку, и получаем адекватную модель. С файнридером подобное нельзя, по крайней мере - в интернете не нарыл, а серверную/эмбеддед версии на поиграться не дают.
Исправление token_polyak, :
а) разве FineReader не российский продукт?
б) если да, то надо пнуть по поводу поддержки отечественных ОС
Также верны выводы peregrine про пайплайн распознавания. Тесеракту надо подсовывать куски именно текста, а со структурой разбираться на предыдущих этапах (как и с контрастом, бинаризацией и прочим) - для этого существуют фреймворки вроде OCR-d, который умеет те же таблицы распознавать; текст внутри - в самом конце.
ЗЫ что у тесеракта неоспоримое преимущество - обучение автоматизируется. Накидать в директорию тхт файлов и соответстующих им изображений слов, оставить на час-ночь-недельку, и получаем адекватную модель. С файнридером подобное нельзя, по крайней мере - в интернете не нарыл, а серверную/эмбеддед версии на поиграться не дают.
Исправление token_polyak, :
а) разве FineReader не российский продукт?
б) если да, то надо пнуть по поводу поддержки отечественных ОС
Исправление token_polyak, :
а) разве FineReader не российский продукт? б) если да, то почему бы не пнуть по поводу поддержки отечественных ОС?
Исправление token_polyak, :
Разве FineReader не отечественное ПО?
Исходная версия token_polyak, :
Причем тут «импортозамещение» отечественного OCR?