LINUX.ORG.RU

OCR

 


1

1

Возникла необходимость попереводить изображение в текст в большом объёме. Текст русский. Каково сейчас состояние дел с этим в GNU/Linux? Куда посмотреть?

★★★★★

Последнее исправление: Evgueni (всего исправлений: 1)

Как бы это не звучало грустно, но только FineReader+wine. Иначе, очень много проблем с вычиткой и правкой результирующего текста.

Burunduk
()
Ответ на: комментарий от Burunduk

FineReader разве работает с wine? Про 11ю версию написано, что статус «мусорный».

Нет ли онлайновых служб?

Evgueni ★★★★★
() автор топика
Последнее исправление: Evgueni (всего исправлений: 1)

Ну бесплатное cuneiform и tesseract. Если хорошие сканы то может и подойдёт.

Вообще есть CLI OCR for Linux у abby. Там нормально - без гуев. Естественно не бесплатно, но и качество в разы лучше.

fornlr ★★★★★
()
Ответ на: комментарий от fornlr

Если я правильно помню, то CLI OCR for Linux у абби стоит десятки килодолларов и не поддерживается.

Evgueni ★★★★★
() автор топика
Ответ на: комментарий от fornlr

Посмотрел — 149 евро за 12 тыс. стр. в год — в принципе можно попробовать. А то, что это 9ая версия движка это ничего не значит? В смысле есть уже 11ая. Я не очень разбираюсь в этом вопросе.

Evgueni ★★★★★
() автор топика

Попробуйте cuneiform, я когда-то им даже с djvu документов распознавание делал, в принципе меня устраивало.

anonymous
()
Ответ на: комментарий от Evgueni

Да я тоже, два года назад надо было - смотрел, что есть, но я нищеброд поэтому мучился с cuneiform. А версии этого движка не совпадают с finereader. Вообще Триал же есть.

fornlr ★★★★★
()
Последнее исправление: fornlr (всего исправлений: 2)
Ответ на: комментарий от Evgueni

есть граф. оболочка yagf, поддерживает работу с cuneiform и tesseract. ещё можешь посмотреть в сторону abbyy finereader online

grem ★★★★★
()

Плохонько: cuneiform распознает, но нужно, чтобы текст был отсканирован в идеальном качестве + на картинке чтобы был только текст (а то сегфолтится, собака)…

Вот тебе мой рабочий скриптик:

#!/bin/sh
# this script has been written by Eddy 
#
#		recognize_pdf - распознает pdf-файлы при помощи cuneiform
# зависит от cuneiform и pdftoppm
#
# Создан 25-го Апрель 2012 года в 18:12
#

if [ $# == 0 ]; then
	echo -e "\nUsage: $(basename $0) filename.pdf,\n\tneeds some space for temporary ppm-files,\n\tsaves results to file filename.txt\n"
	exit -1
fi

NAME=$(bsnm $1)

# 1. Преобразуем pdf в ppm'ы
echo -e "\nConvert pdf to a lot of ppms"
pdftoppm $1 $NAME

# 2. Распознаем каждый рисунок
echo -e "\nRecognize every file\n"
for PPM in $(ls -1 ${NAME}-*ppm)
do
	echo -n "$PPM .. "
	cuneiform -l ruseng -f smarttext ${PPM} -o ${PPM}.txt
	echo "done!"
done

# 3. Собираем все вместе
rm -f ${NAME}.txt
cat $(ls -1 ${NAME}-*txt) > ${NAME}.txt

# 4. Подчищаем мусор
echo -n "Ready, cleaning ..."

rm -f ${NAME}-*.txt ${NAME}-*.ppm

echo "Done!"

И еще один:

cat ~/bin/recognize     
#!/bin/sh
# this script has been written by Eddy 
#
#		recognize_pdf - распознает картинки при помощи cuneiform, выхлоп отправляет в файл outp.txt
# зависит от cuneiform 
#
# Создан 25-го Апрель 2012 года в 18:12
#

if [ $# == 0 ]; then
	echo -e "\nUsage: $(basename $0) files,\n\tsaves results to file filename.txt\n"
	exit -1
fi

rm -f outp.txt

# 1. Распознаем каждый рисунок
echo -e "\nRecognize every file\n"
for file in $*
do
	[ ! -f $file ] && continue
	echo -n "$file ... "
	base=$(bsnm $file)
	cuneiform -l ruseng -f smarttext $file -o ${base}.txt
	cat ${base}.txt >> outp.txt
	echo "done!"
done

echo "Done!"
Anon
()
Ответ на: комментарий от Evgueni

А то, что это 9ая версия движка это ничего не значит?

Да даже 7я распознаёт хорошо. Не парься по этому поводу.

GAMer ★★★★★
()

Всем спасибо — буду разбираться

Evgueni ★★★★★
() автор топика

Попробуйте http://www.onlineocr.net, в последнее время им пользовался, регистрация нужна. Качество сносное.

Winnerer
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.