LINUX.ORG.RU
решено ФорумTalks

Проверьте, пожалуйста, качество Tesseract OCR/Finereader


0

1

Скан: http://narod.ru/disk/18166216001/0071-cut.bmp.bz2.html

$ tesseract images/0071-cut.bmp 0071 -l rus
Результат:
Организация Предприниматель Новосёлов К.А. ИНН 434545080114
Адрес: Россия,г.Кир0в,ул.Московская, д.12. Телефон 35-70ї23 пн-пт 9.00-18.00 сб 10.00-15.00
КВИТАНЦИЯ МСЦ00015329_от 27.02.08
ДЛЯ ОПОЄДЭПЕНИЯ ВОЗМОЖНОСТИ РЭМОНТЗ  ЄТЕПЬШВУЄТ О ПЄрЄХ0Де ППЭВ ВПЄДЄНИЯ И ПОЛЬЗОЕЗНИЯ)
Это - хорошее качество (для Tesseract)?

IMHO, качество - очень посредственное. Ведь текст - распечатан стандартным шрифтом на лазерном принтере.

P.S. Лучше ли распознает этот текст FineReader?

★★★★★
Ответ на: комментарий от CARS

> А Cuneiform пробовали?

Сейчас попробую. Просто question4 в теме: http://www.linux.org.ru/forum/talks/4315485
показал, что Tesseract (Bearing Y = 30) и FineReader (Bearing Y = 20) выдавали наилучшие результаты.

Сейчас посмотрю Cuneiform. Оно под Linux юзабельно?

pacify ★★★★★
() автор топика
Ответ на: комментарий от pacify

> Сейчас посмотрю Cuneiform

... у него тоже неплохие результаты в тесте question4.

pacify ★★★★★
() автор топика
Ответ на: комментарий от pacify

>> Оно под Linux юзабельно?

Вообще да, текст с вашего скриншота, мне кажется, он должен распознать лучше, чем Tesseract. А вот если сравнивать с FineReader'ом, то он (FineReader) уделывает всех конкурентов. Вот только платный, зараза.

CARS ★★★★
()
Ответ на: комментарий от CARS

Cuneiform отработал хуже ...

Организация Предприниматель Новосёлов К.А. ИНН 434545080114 
гдр„: т„„„,х р yм„ „„„хгг. т ф ззгзгг . ггзггзз з гззз-гзгг

КВИТАНЦИЯ ЙСЦ00015329 от 27.02.08 
для определения возможности ремонта Гне свидетельствует о переходе прав владения и пользования)
pacify ★★★★★
() автор топика
Ответ на: комментарий от pacify

Странно, я думал, гораздо лучше распознает (сам просто какое-то время им пользовался). Какая версия Cuneiform'a кстати?

CARS ★★★★
()

бесплатного OCR нормального нет

namezys ★★★★
()
Ответ на: комментарий от pacify

Ага, ну если exe'шник, то, скорее всего, последняя. Я под Ubuntu сравнивал версии 0.7 и 1.0, и разница в качестве была значительной.

CARS ★★★★
()

Лучше ли распознает этот текст FineReader?

когда я лет 6 назад его брал в первый и последний раз он распознавал очень хорошо, даже структуру таблиц пытался сохранить(иногда даже успешно).

текст - распечатан стандартным шрифтом на лазерном принтере.

а сосканировано чем? Если на мобильник то попробуй «нормальным» фотиком. Про сканер и не говорю :)

true_admin ★★★★★
()
Ответ на: комментарий от true_admin

> а сосканировано чем?

Отсканировано сканером EPSON Perfection 1270.
Разрешение вроде 200 или 300 dpi.

pacify ★★★★★
() автор топика
Ответ на: комментарий от pacify

Тогда, увы, ты раскрыл правду о tesseract. Попробуй поискать онлайн-сервисы сканирование для сравнения, вроде такие были.

Ну или можешь выложить текст и попросить лор сосканить для сравнения.

true_admin ★★★★★
()
Ответ на: комментарий от true_admin

> Ну или можешь выложить текст и попросить лор сосканить для сравнения.

Я уже выкладывал, в формате BMP (см. первый пост)
Скан: http://narod.ru/disk/18166216001/0071-cut.bmp.bz2.html

Или ты имеешь ввиду, попробовать другие сканы?

Я пробовал еще квитанции Сбербанка - там на матричном распечатано. Результат - вообще мрак ...

pacify ★★★★★
() автор топика
Ответ на: комментарий от pacify

Тот тест был для английского языка. Для русского я так и не собрался протестировать :(

И там я высказывал опасения, что Tesseract показал столь хороший результат именно потому, что тест искусственный — использовались не сканы, а созданные в GIMP-е картинки. Я долго думал, как создать условия теста приближенные к реальности, экспериментировал с гимпом и техом, а затем жизнь закрутилась: ушиб руку так, что с трудом пользовался компом, сменил работу, из-за чего исчезло свободное время, переехал, долго был без интернета, отдал стационарный компьютер, а нового не купил...

Может, когда-нибудь этим летом продолжу тесты.

question4 ★★★★★
()
Ответ на: комментарий от pacify

> Сейчас посмотрю Cuneiform. Оно под Linux юзабельно?

Версия командной строки успешно распознавала текст со скриншотов. Но Файнридер справился лучше.

question4 ★★★★★
()

Не забывай, что Tesseract - самообучающаяся система. Будешь кормить ему много примеров - будет распознавать лучше файнридера.

Quasar ★★★★★
()
Ответ на: комментарий от Quasar

Не будет чуда. Распознать идеальный текст довольно легко. А вот предобработать картинку (убрать геометрические искажения, шум, неравномерную освещенность и проч.) уже намного сложнее. И это ребята из файнридера умеют пока что лучше всех

xnick
()
Ответ на: комментарий от pacify
Организация Предприниматель Новосёлов К.А. ИНН 434545080114 
гдр„: т„„„,х р yм„ „„„хгг. т ф ззгзгг . ггзггзз з гззз-гзгг

КВИТАНЦИЯ ЙСЦ00015329 от 27.02.08 
для определения возможности ремонта Гне свидетельствует о переходе прав владения и пользования)

По-моему, это намного лучше. Он не просто распознал символы, он распознал их так, как воспринимает человек!

proud_anon ★★★★★
()
Ответ на: комментарий от pacify

Cuneiform отработал хуже ...

Правда? А у меня не хуже

$ cuneiform -l rus 0071-cut.bmp 
Cuneiform for Linux 1.1.0
$ cat cuneiform-out.txt 
Организация Предприниматель Новоселов К.А. ИНН 434545080114 
Адрес: Россия,г.Кировьул.Московская, д.12. Телефон 35-70-23 пн-пт 9.00-18.00 сб 10.00-15.00

КВИТАНЦИЯ МСЦ0001632Э ат 27.02.08 
дпя определения воэможности ремонта ~йе свидетельствует о переходе прав владения и пользования)

kim-roader ★★
()
Ответ на: комментарий от kim-roader

> Правда? А у меня не хуже

Странно. Может это потому, что я использовал Cuneiform для WinXP?

pacify ★★★★★
() автор топика
Ответ на: комментарий от pacify

Как раз таки версия для винды должна быть более продвинутой. Впрочем, попробуйте и под линукс, чем чёрт не шутит.

CARS ★★★★
()
Ответ на: комментарий от pacify

Cuneiform отработал хуже ...

У меня На Debian - Cuneiform 1.1.0 + Yagf:

Организация Предприниматель Новоселов К.А. ИНН 434545080114 Адрес: Россия,г.Кировяул.Московская, д.12. Телефон 35-70-23 пн-пт 9.00-18.00 сб 10.00-15.00 КВИТАНЦИЯ МСЦ00016320 от 27.02.08 для определения воэможности ремонта (йесвидетельствует о переходе прав впадения и пользования)

Riksh
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.