Системы оптического распознавания текста в Linux - обзор и сравнительное тестирование

0

5

В статье проведено сравнительное тестирование имеющихся систем оптического распознавания текста (OCR), доступных в Linux. Для полноты картины рассматривались как локально устанавливаемые программы, так и онлайновые сервисы. Вывод автора: При хорошем качестве распознаваемого материала все участвовавшие в тестировании программы обеспечивают высокое качество распознавания, причем снижение разрешения с 300 до 200 dpi практически не влияет на результат. В целом можно отметить, что широко распространенное суждение о том, что для Linux нет хороших систем оптического распознавания текста, сегодня уже не выдерживает критики.

>>> Подробности

Ссылка

←	7-й номер журнала «Практика функционального программирования»

Использование XML и JSON с Android. Часть1

→

← 1 2 3 →

Ссылка на третий образец битая. А так не плохо, спасибо.

Ximen ★★★★
(13.04.2011 18:26:32 +00:00)

Ссылка

Теперь нужно потестить с более сложным форматированием, таблицами и всем таким, и сравнить, как оно распознается. Тогда, думаю, станет ясно, что 149 евро за FineReader это не так уж и много.

Ximen ★★★★
(13.04.2011 18:31:00 +00:00)

как я понял сложные многоэтажные формулы они распозновать не будут?

anonymous
(13.04.2011 18:34:20 +00:00)

Ответ на: комментарий от anonymous 13.04.2011 18:34:20 +00:00

А что, есть какие-то платные «распознавалки», которые могут сложные формулы распознать?

~~Eddy_Em~~ ☆☆☆☆☆
(13.04.2011 18:38:12 +00:00)

Кстати, cuneiform вполне прилично с текстами справляется.

~~Eddy_Em~~ ☆☆☆☆☆
(13.04.2011 18:38:59 +00:00)

Ответ на: комментарий от Eddy_Em 13.04.2011 18:38:59 +00:00

Зависит от. Всё относительно, и относительно finereader'a со сложными он справляется не очень.

libfun
(13.04.2011 20:35:53 +00:00)

спасибо! очень полезный обзор

demoth
(13.04.2011 20:40:36 +00:00)

Ссылка

Ответ на: комментарий от libfun 13.04.2011 20:35:53 +00:00

Ну, нашли с чем сравнивать. finereader - проприетарный продукт и разрабатывается уже давно, а свободный cuneiform довольно молод.

~~Eddy_Em~~ ☆☆☆☆☆
(13.04.2011 20:47:56 +00:00)

Всё таки хотелось бы посмотреть на третий (самы некачественный) образец.

vilisvir ★★★★★
(13.04.2011 20:48:47 +00:00)

Очень неплохой обзор.

Igron ★★★★★
(13.04.2011 20:49:45 +00:00)

Ссылка

Не так давно надо было стихи распознать, так вот этот ~~кунилингус~~ куниформ отказался это деласть - строки сбивались в одну, и еще он тире упорно видел как ять.

anonymous
(13.04.2011 20:49:58 +00:00)

Ссылка

Ответ на: комментарий от Eddy_Em 13.04.2011 20:47:56 +00:00

проприетарный cuneiform разрабатывается с начала 90х. То есть свободная версия — не то же самое?

Shtsh ★★★★
(13.04.2011 20:50:41 +00:00)

Ответ на: комментарий от Eddy_Em 13.04.2011 20:47:56 +00:00

«User didn't care» (c)

~~Andaril~~ ★
(13.04.2011 20:51:37 +00:00)

Ответ на: комментарий от Shtsh 13.04.2011 20:50:41 +00:00

Вряд ли. В свободной по понятным причинам огороженные алгоритмы использоваться не могут. А это сильно усложняет процесс разработки - получается, что не только «велосипедить» надо, так еще и следить, чтобы твой велосипед не был похож на что-нибудь из патентов...

Andaril
«User didn't care» (c)

Очень даже care: в n-й сумме баксов...

~~Eddy_Em~~ ☆☆☆☆☆
(13.04.2011 20:57:18 +00:00)

Ссылка

> $ sudo apt-get install leptonica-progs

$ sudo ldconfig

Зачем вторая строка?

JackYF ★★★★
(13.04.2011 21:02:35 +00:00)

Не читал, но презираю подобные сравнения.

Лучше бы внесли свой вклад в обучение единственную живую ocr - tesseract.

cuneiform уже рип, смотрите changelog' и даты последних релизов

//кун

anonymous
(13.04.2011 21:04:41 +00:00)

> $ sudo chmod 777 /usr/local/share/tessdata/*.traineddat

Очень настораживает.

JackYF ★★★★
(13.04.2011 21:05:32 +00:00)

Ссылка

В целом же - хороший обзор, спасибо, много названий я услышал в первый раз.

JackYF ★★★★
(13.04.2011 21:08:11 +00:00)

Ссылка

Ответ на: комментарий от JackYF 13.04.2011 21:02:35 +00:00

Странно, что лептонику вообще «раскрутили» до включения в дебиановские репы... Я устанавливал из тарбола, да еще и pc-файл для pkg-config'а делал.

Кстати, в лептонике нет «законченных» средств распознавания текста. Только необходимое для этого.

~~Eddy_Em~~ ☆☆☆☆☆
(13.04.2011 21:10:22 +00:00)

Ссылка

Ваша новость не описывает будующий релиз какой-либо свободной программы и вообще ваша новость полезная и по этому она не подходит для ЛОРа

anonymous
(13.04.2011 21:12:32 +00:00)

Ссылка

Ответ на: комментарий от vilisvir 13.04.2011 20:48:47 +00:00

brains on

http://rus-linux.net/MyLDP/office/OCR/images/150.jpg

anonymous
(13.04.2011 22:10:14 +00:00)

напишите этим идьетам что они позор линукс комьюнити, кто там тусуется

r ★★★★★
(13.04.2011 22:24:29 +00:00)

Ответ на: комментарий от r 13.04.2011 22:24:29 +00:00

>напишите этим идьетам что они позор линукс комьюнити, кто там тусуется

их там 390, но учитывая что у большинства пароли от аккаунта и мыла совпадают, а также что пароли вида «28342833» дешифруются на раз - то многие скоро останутся без е-мейлей)

~~Donnie_Darko~~
(13.04.2011 22:31:36 +00:00)

Ответ на: комментарий от Donnie_Darko 13.04.2011 22:31:36 +00:00

ну что тут сказать... trashcanmail.com и keepassx

frozenix ★★★
(13.04.2011 22:39:58 +00:00)

Ссылка

Ответ на: комментарий от Donnie_Darko 13.04.2011 22:31:36 +00:00

Я правильно понял, что их ошика была вот тут:

?name=/MyLDP/office/OCR/OCR_review.html

P.S. Базу схоронил.

FFSinit ★★
(13.04.2011 23:12:23 +00:00)

Ответ на: комментарий от FFSinit 13.04.2011 23:12:23 +00:00

Правильно, правильно... Этим запросом они очень хорошую дырку сделали :)

dpkg ★★★★
(13.04.2011 23:26:20 +00:00)

Ссылка

ТАКОЙ-ТО ВИН

nutz ★★
(14.04.2011 00:24:55 +00:00)

Ссылка

шикарно

wxw ★★★★★
(14.04.2011 00:44:30 +00:00)

Ссылка

Почему какой-то онлайн-сервис на движке tesseract получил больше очков, чем сам tesseract? Авторы не умеют его готовить?

Oreolek
(14.04.2011 01:10:03 +00:00)

Ответ на: комментарий от Eddy_Em 13.04.2011 20:47:56 +00:00

Вообще-то как раз наоборот: cuneiform разрабатывается существенно дольше.

nio-kun ★
(14.04.2011 02:00:53 +00:00)

Ссылка

Однобокий тест

Вместо засирания последней картинки, IMHO надо было подогнать фильтр для GIMP чтобы ее почистить. И потом уже тестировать. Собственно Abby просто хорошо очищает картинку, возможно блочным фильтром с определением размера символа и строки.

zyoung ★
(14.04.2011 03:38:13 +00:00)

По результатам «теста» говорить про отсутствие хороших систем оптического распознавания текста еще можно. Ибо не видно, как все эти системы справляются с сохранением форматирования - шрифты, абзацы, колонки, таблицы...

PS. В файнридер-то я верю, а вот остальные было бы интересно глянуть, как себя поведут.

aikr
(14.04.2011 04:25:00 +00:00)

кому то оно еще надо ?

iomould
(14.04.2011 05:15:41 +00:00)

Ссылка

Распознавание текста и распознавания документов - разные вещи.

Распознавание текста редко нужно. Надо еще вытаскивать контекст.

namezys ★★★★
(14.04.2011 05:17:36 +00:00)

Ответ на: Однобокий тест от zyoung 14.04.2011 03:38:13 +00:00

ABBYY делает это сам - а вы предлагаете руками очищать

namezys ★★★★
(14.04.2011 05:18:23 +00:00)

Ссылка

Спасибо за обзор! Действительно полезно.

Vudod ★★★★★
(14.04.2011 05:44:14 +00:00)

Ответ на: комментарий от aikr 14.04.2011 04:25:00 +00:00

По результатам «теста» говорить про отсутствие хороших систем оптического распознавания текста еще можно. Ибо не видно, как все эти системы справляются с сохранением форматирования - шрифты, абзацы, колонки, таблицы...

Сложно придумать адекватный тест, потому что разные программы форматируют исходный текст по-размому. Конечно, если ориентироваться на то, что всё набирается в ворде 2003, становится понятнее, но вряд ли это приемлемая постановка задачи.

Vudod ★★★★★
(14.04.2011 05:47:08 +00:00)

Ответ на: комментарий от Ximen 13.04.2011 18:31:00 +00:00

>Теперь нужно потестить с более сложным форматированием, таблицами и всем таким, и сравнить, как оно распознается. Тогда, думаю, станет ясно, что 149 евро за FineReader это не так уж и много.

Не подскажете, где можно ознакомится со столь чудесными результатами работы этой замечательной программы за 149€? А то мне за последние *цать лет как ни попадётся распознанная книга со сложным (и не очень) форматированием, — хоть плачь!

Может просто не везёт, и мне попадаются исключительно цифровые копии изготовленные при помощи других OCR, стоимостью менее 149€, а то и вовсе бесплатных? Или я не не там их беру? А, где-то на закрытых ресурсах для особо избранных — хранятся великолепные цифровые фолианты, изготовленные исключительно в FineReader, и качеством ни в чём не уступающие оригиналу, а иногда даже и превосходящие последние?.

Так и хочется таким bookоделам травмы нанести. И ещё завели моду обрабатывать книги в ms word, и внедрять шрифты из виндовс… — за это хочется просто дать по квадратной, windowsобразной башке лопатой, совковой.

anonymous
(14.04.2011 06:15:55 +00:00)