LINUX.ORG.RU

Аналог файнридера для русского текста


0

0

Есть идея - перевести ГОСТы, которые все недавно открыли в какой-нибудь приемлемый формат, например HTML + картинки (так, чтобы можно было проиндексировать текст).

Какой программой (программами) это можно сделать?

cunei form? Есть cuneiform-linux, command-line вариант

michwill ★★★★★
()

Сunei form какой то небоеспособный. Есть ещё tesseract-ocr где то видел для него русский языковой набор, но насколько оно лучше и лучше ли cuneform не могу сказать.

U-headers
()
Ответ на: комментарий от wyldrodney

Под виндой знаю работает, а в linux мне лично им воспользоваться не удалось, при распознавании картинок с цифрами вываливался, кажется с фатал ерор. До серьёзного текста на русском у меня тогда дело не дошло, смею предположить, что если от картинок с цифрами у него fatal error он и на тексте будет сыпаться. Tesseract кстати работает, хотя русский текст - далеко не идеально(даже скорее плохо).

U-headers
()
Ответ на: комментарий от U-headers

Ясно. Претензий к качеству распознавания нет, а дерьмо течёт.

wyldrodney
()
Ответ на: комментарий от anonymous4

Сори. Только что попробовал последнюю версию, действительно не падает. Отстал от прогресса.

U-headers
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.