Прислали мне тут на днях несколько документов в виде pdf и djvu. Документы в свое время были получены путем скана бумажных архивов, и судя по виду итогового результата, бумажки эти многое повидали…
Попросили что-то сделать с этим, обновить видок, улучшить читаемость. Ну думаю, щас загуглю какую распознавалку, и будет норм. Может даже свободную… Нашлась гугловская приблуда (tesseract), да такая мощная оказалась, что даже самый обосраный текст берет! Да еще и несколько языков одновременно можно задать. Вообще круто распознает. Но вот беда, на 1 страницу уходит по 5 минут, а страниц то дофига…
Гуглю значит дальше. Нахожу poppler utils (набор всяких утилит для работы в pdf). Ну а там есть такая pdftotxt. И че вы думаете? Указываешь pdf документ, а она за ОДНУ СЕКУНДУ выдает вообще весь текст со всех страниц, причем безошибочно…
Но с djvu она работать не умеет, поэтому гуглю дальше. Нахожу все тот же Imagemagick, который по идее умеет работать с djvu… Он сделает мне кучу картинок из djvu документа, а дальше я их буду снова… распознавать тесерактом (по 5 минут на картинку, ага).
Продолжаю гуглить что-то типа pdftotxt для djvu. И таки нахожу охрененную штуку - djvulibre. Она есть в репах (в ubuntu даже установлена по умолчанию). Тоже куча утилит в пакете для обработки djvu. Меня интересовала утилита djvutxt. Указал ей djvu-документ на 120 страниц, и опять за ОДНУ СЕКУНДУ получил офигенный результат - полный текст документа в виде txt.
Не совсем понятно, над чем пыхтят распознавалки по 5 минут на страницу, если есть вот такие штуки?