Аналог файнридера для русского текста

0

0

Есть идея - перевести ГОСТы, которые все недавно открыли в какой-нибудь приемлемый формат, например HTML + картинки (так, чтобы можно было проиндексировать текст).

Какой программой (программами) это можно сделать?

Ссылка

←	[e17] Убрать приложения->параметры

Подскажите софт для обработки сигналов и изображений

→

cunei form? Есть cuneiform-linux, command-line вариант

michwill ★★★★★
(23.06.09 04:52:04 MSD)

Ссылка

Сunei form какой то небоеспособный. Есть ещё tesseract-ocr где то видел для него русский языковой набор, но насколько оно лучше и лучше ли cuneform не могу сказать.

U-headers
(23.06.09 10:55:23 MSD)

Ответ на: комментарий от U-headers 23.06.09 10:55:23 MSD

>Сunei form какой то небоеспособный

Можно узнать в чём это проявляется?

wyldrodney ☆
(23.06.09 10:57:47 MSD)

Ответ на: комментарий от wyldrodney 23.06.09 10:57:47 MSD

Под виндой знаю работает, а в linux мне лично им воспользоваться не удалось, при распознавании картинок с цифрами вываливался, кажется с фатал ерор. До серьёзного текста на русском у меня тогда дело не дошло, смею предположить, что если от картинок с цифрами у него fatal error он и на тексте будет сыпаться. Tesseract кстати работает, хотя русский текст - далеко не идеально(даже скорее плохо).

U-headers
(23.06.09 11:10:08 MSD)