Хм, сейчас попробовал, версия 0.5.0 требует на вход только bmp. А так вполне неплохо - по быстрому сфоткал с книги английский текст, обработал в гимпе, с учётом загиба страницы распознаёт на уровне Fine Reader-а. Если бы я заюзал сканер, то вообще было бы идеально.
readme.txt
> By default Cuneiform outputs plain text. There are several other output formats. To get a list run the command "cuneiform -f".
dolfer@dolfer-laptop:~$ cuneiform -f
Cuneiform for Linux 0.5.0
Supported formats:
html HTML format
hocr hOCR HTML format
native Cuneiform 2000 format
rtf RTF format
smarttext plain text with TeX paragraphs
text plain text
> если PDF не сделан криворучками в виде набора картинок, то его распознавать не надо
спасибо, Мистер Очевидность, теперь пацаны в курсе.
hint: PDF в данном случае - это лишь контейнер, в котором выдают тексты на перевод из-под факсов, сканов и пр. и пр. и если OCR претендует на право называться полезной, она должна уметь работать и с PDF в том числе.
мнда. смотрю я на комментарии и становится очевидным, что ребята не имеют никакого представления о том, как, к примеру, технологически работает бизнес переводческих агентств. остаётся лишь надеяться, что рулевые проекта это понимают гораздо лучше и предпримут необходимые шаги по доведению движка до уровня продукта. в противном случае имеем что имеем и о какой то практической пользе тем более в масштабе говорить не приходится.
> мнда. смотрю я на комментарии и становится очевидным, что ребята не имеют никакого представления о том, как, к примеру, технологически работает бизнес переводческих агентств.
Смотрю я на твоё шлангование и мне так жалко тебя становится. Неужели ты действительно не догоняешь, что процесс портирования не окончен?
> клалафуда известный тролль и ламер. Еще любитель выпендривается со своим // wbr постоянно, ибо постами запомниться не в состоянии и понимает это.
На самом деле по-моему, анонимус слишком строг в данном конкретном случае. Клалафуда виндузятник и при каждом удобном и неудобном случае не забывает выпендриться этим перед красноглазыми. Не то что бы я его защищаю.. просто анонимус судит виндузятника по высоким линуксовым стандартам, чего делать не стоит по-моему. А для среднего виндузятника, по-моему опять же, клалафуда вполне себе "опытный пользователь с навыками программиста и администратора", а никакой ни ламер.
Авторам однозначно +100, если честно долгое время из-за отсутствия такой проги считал что Linux пока рано ставить как 100% десктоп.
lester, не стоит так ругать программеров...
Возьми код который предложил detergen, промануалься (http://ylsoftware.com/?action=news&na=viewfull&news=471), и забабахай самое что нинаесть продакшн приложения с импортом из любого типа в любой :), можеш даже новый проект открыть :D