Обучение tesseract 3.03 новому языку
В который раз свела меня нелёгкая с этим прекрасным продуктом. На сей раз дело не ограничилось русским и английским языками со стандартными шрифтами «из коробки». Мне попал в руки шрифт с латинницей, но на 21 символ (без некоторых букв), причём в данном алфавите не существует символов в нижнем регистре. Распознавание стандартной латинницей в тессеракте очевидно даст неоднозначность. Было принято решение создать новый язык (я не знаю, как повезет себя тессеракт, если я суну ему шрифт с неполным алфавитом и скажу, что это - латинница). На новую версию был успешно нагуглен ман: https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3 На первый взгляд все очевидно и хорошо разжёвано, однако, как и ожидалось, строптивая натура тессеракта дала о себе знать. 3 часа компилирования лептоники и тессеракта были только началом. Наконец, все нужные утилиты собраны, приступаем к выполнению инструкций. Пункт «NEW Automated method» выполнен успешно, все буквы на месте, box-файл создан. Далее фраза
If you can use text2image for your application, great! Now skip to Run Tesseract For Training below.
намекает, что можно пропустить половину инструкций для тех, кому повезло, и приступить к самому интересному. Пункт
Run Tesseract for Training
содержит две команды «на выбор», ни одну из которых tesseract-3.03 не признаёт валидной, воспринимая команды после tiff файла, как ... файлы и, естественно, мы получаем
No such file
, правда как warning, что вдвойне странно. Далее происходит какой-то процесс, не выдающий ничего, кроме ошибки распознавания (никак не обучения) второй страницы (еще бы, у меня всего один семпл). На этом моменте я опустил руки, сославшись на корявость мана. После передышки попробовал выполнить операции ниже по тексту, однако получил гору ошибок и окончательно расстроился. Приму любую помощь, даже моральную. Взамен могу предложить хороший заряд в карму через медитацию.