OCR

1

1

Возникла необходимость попереводить изображение в текст в большом объёме. Текст русский. Каково сейчас состояние дел с этим в GNU/Linux? Куда посмотреть?

Ссылка

←	video-intel хмурые цвета

Редактирование главного меню приложений в alacarte

→

Как бы это не звучало грустно, но только FineReader+wine. Иначе, очень много проблем с вычиткой и правкой результирующего текста.

Burunduk ★
(04.10.13 08:19:28 MSK)

Ответ на: комментарий от Burunduk 04.10.13 08:19:28 MSK

FineReader разве работает с wine? Про 11ю версию написано, что статус «мусорный».

Нет ли онлайновых служб?

Evgueni ★★★★★
(04.10.13 08:22:22 MSK) автор топика
Последнее исправление: Evgueni 04.10.13 08:23:11 MSK (всего исправлений: 1)

Ссылка

Ну бесплатное cuneiform и tesseract. Если хорошие сканы то может и подойдёт.

Вообще есть CLI OCR for Linux у abby. Там нормально - без гуев. Естественно не бесплатно, но и качество в разы лучше.

fornlr ★★★★★
(04.10.13 08:30:03 MSK)

Ответ на: комментарий от fornlr 04.10.13 08:30:03 MSK

Если я правильно помню, то CLI OCR for Linux у абби стоит десятки килодолларов и не поддерживается.

Evgueni ★★★★★
(04.10.13 08:31:47 MSK) автор топика

Ответ на: комментарий от Evgueni 04.10.13 08:31:47 MSK

сколько страниц то надо? Цены тут http://www.ocr4linux.com/en:pricing

fornlr ★★★★★
(04.10.13 08:35:33 MSK)

Ссылка

Ответ на: комментарий от fornlr 04.10.13 08:30:03 MSK

Посмотрел — 149 евро за 12 тыс. стр. в год — в принципе можно попробовать. А то, что это 9ая версия движка это ничего не значит? В смысле есть уже 11ая. Я не очень разбираюсь в этом вопросе.

Evgueni ★★★★★
(04.10.13 08:41:12 MSK) автор топика

Попробуйте cuneiform, я когда-то им даже с djvu документов распознавание делал, в принципе меня устраивало.

anonymous
(04.10.13 08:51:48 MSK)

Ответ на: комментарий от anonymous 04.10.13 08:51:48 MSK

Достаточно ли стандартной сборки? Или были какие-то обёртки?

Evgueni ★★★★★
(04.10.13 08:53:45 MSK) автор топика

Ответ на: комментарий от Evgueni 04.10.13 08:41:12 MSK

Да я тоже, два года назад надо было - смотрел, что есть, но я нищеброд поэтому мучился с cuneiform. А версии этого движка не совпадают с finereader. Вообще Триал же есть.

fornlr ★★★★★
(04.10.13 08:57:12 MSK)
Последнее исправление: fornlr 04.10.13 08:59:22 MSK (всего исправлений: 2)

Ссылка

Ещё на швабре натыкался на неплохую статью http://habrahabr.ru/post/153617/

fornlr ★★★★★
(04.10.13 09:01:35 MSK)

Ссылка

Ответ на: комментарий от Evgueni 04.10.13 08:53:45 MSK

есть граф. оболочка yagf, поддерживает работу с cuneiform и tesseract. ещё можешь посмотреть в сторону abbyy finereader online

grem ★★★★★
(04.10.13 09:21:12 MSK)

Ссылка

Плохонько: cuneiform распознает, но нужно, чтобы текст был отсканирован в идеальном качестве + на картинке чтобы был только текст (а то сегфолтится, собака)…

Вот тебе мой рабочий скриптик:

#!/bin/sh
# this script has been written by Eddy 
#
#		recognize_pdf - распознает pdf-файлы при помощи cuneiform
# зависит от cuneiform и pdftoppm
#
# Создан 25-го Апрель 2012 года в 18:12
#

if [ $# == 0 ]; then
	echo -e "\nUsage: $(basename $0) filename.pdf,\n\tneeds some space for temporary ppm-files,\n\tsaves results to file filename.txt\n"
	exit -1
fi

NAME=$(bsnm $1)

# 1. Преобразуем pdf в ppm'ы
echo -e "\nConvert pdf to a lot of ppms"
pdftoppm $1 $NAME

# 2. Распознаем каждый рисунок
echo -e "\nRecognize every file\n"
for PPM in $(ls -1 ${NAME}-*ppm)
do
	echo -n "$PPM .. "
	cuneiform -l ruseng -f smarttext ${PPM} -o ${PPM}.txt
	echo "done!"
done

# 3. Собираем все вместе
rm -f ${NAME}.txt
cat $(ls -1 ${NAME}-*txt) > ${NAME}.txt

# 4. Подчищаем мусор
echo -n "Ready, cleaning ..."

rm -f ${NAME}-*.txt ${NAME}-*.ppm

echo "Done!"

И еще один:

cat ~/bin/recognize     
#!/bin/sh
# this script has been written by Eddy 
#
#		recognize_pdf - распознает картинки при помощи cuneiform, выхлоп отправляет в файл outp.txt
# зависит от cuneiform 
#
# Создан 25-го Апрель 2012 года в 18:12
#

if [ $# == 0 ]; then
	echo -e "\nUsage: $(basename $0) files,\n\tsaves results to file filename.txt\n"
	exit -1
fi

rm -f outp.txt

# 1. Распознаем каждый рисунок
echo -e "\nRecognize every file\n"
for file in $*
do
	[ ! -f $file ] && continue
	echo -n "$file ... "
	base=$(bsnm $file)
	cuneiform -l ruseng -f smarttext $file -o ${base}.txt
	cat ${base}.txt >> outp.txt
	echo "done!"
done

echo "Done!"

~~Anon~~
(04.10.13 10:11:02 MSK)