Обучение OCR Tesseract русскому языку

0

0

На сайте opennet.ru появилась инструкция по обучению Tesseract русскому языку.

Tesseract — программа для распознавания текстов, разрабатывавшаяся Hewlett-Packard с середины 1980-х по середину 1990-х, а затем 10 лет "пролежавшая на полке". Не так давно Google купил её и открыл исходные тексты для продолжения разработки. В настоящий момент программа уже работает с UTF-8, но знает только английский, немецкий, французский, испанский, итальянский и голландский языки.

Руководство по обучению русскому языку: http://www.opennet.ru//base/rus/osr_t...

Руководство по обучению программы (на английском): http://code.google.com/p/tesseract-oc...

Страница Tesseract: http://code.google.com/p/tesseract-ocr/

>>> Группа tesseract-ocr-russian в группах Google

Ссылка

←	EuroBSDCon 2007: закрытие.

Вышел wine doors 0.1.1

→

← 1 2 →

Любопытно. Вечерком почитаю :)

GFORGX ★★★
(15.09.07 14:07:50 MSD)

Ссылка

FineReaderкапец?

Killfoxster
(15.09.07 14:08:08 MSD)

Ответ на: комментарий от Killfoxster 15.09.07 14:08:08 MSD

FineReader не только разбирает буквы, но и сохраняетформатирование В 9 будет ещё многоразных вкусностей

anonymous
(15.09.07 14:23:05 MSD)

Ответ на: комментарий от Killfoxster 15.09.07 14:08:08 MSD

> FineReaderкапец?

Нет ещё.

1) Интерфейс Tesseract -- командная строка. Хотя, думаю, можно взять одну из существующих "морд". А для автоматизации командная строка даже удобнее.

2) Tesseract пока не умеет анализировать макет, считает текст 1 колонкой.

3) Точность распознавания даже английского на низких разрешениях хуже. Тессеракт плохо распознаёт символы ниже 15 пикселей, Файнридер даёт читаемый текст даже при высоте 7 пикселей.

4) Тессеракт пока нормально работает только с 2-уровневыми TIFFами.

5) Создаваемый при обучении шрифт -- пока не более 256 символов. В старых версиях Файнридера возможность обучения была, в новых убрали.

6) Не поддерживается письмо справа налево и сверху вниз.

7) Не поддерживается арабская вязь.

Но пункты 2, 4, 5, 6 обещают исправить уже в этом году.

acheron ★★★★
(15.09.07 14:25:08 MSD) автор топика

Ответ на: комментарий от anonymous 15.09.07 14:23:05 MSD

>>FineReader не только разбирает буквы, но и сохраняетформатирование В 9 будет ещё многоразных вкусностей

Ой, вот только не надо про форматирование - уж лучше бы его там вообще не было.

MuZHiK-2 ★★★★
(15.09.07 14:25:23 MSD)

Ответ на: комментарий от anonymous 15.09.07 14:23:05 MSD

> FineReader не только разбирает буквы, но и сохраняетформатирование

Вот только редактировать это форматирование в новых версиях невозможно.

> В 9 будет ещё многоразных вкусностей

Экспорт в swf и запрет на ручной анализ макета? С требованием постоянного соединения с сервером ABBYY, иначе сохраняемый файл забьёт мусором :)

acheron ★★★★
(15.09.07 14:33:15 MSD) автор топика

Ссылка

Ответ на: комментарий от acheron 15.09.07 14:25:08 MSD

acheron> Файнридер даёт читаемый текст даже при высоте 7 пикселей.

Зато какой =) Как будто программы тоже траву курят :)

~~Quasar~~ ★★★★★
(15.09.07 14:34:14 MSD)

Ответ на: комментарий от acheron 15.09.07 14:25:08 MSD

>7) Не поддерживается арабская вязь.

Какой ужос!

Rumata ★★
(15.09.07 14:39:52 MSD)

Ответ на: комментарий от Rumata 15.09.07 14:39:52 MSD

Последние виндовые бастионы готовы пасть? )

nassaja ★
(15.09.07 14:50:42 MSD)

Ссылка

Ответ на: комментарий от Quasar 15.09.07 14:34:14 MSD

> Как будто программы тоже траву курят :)

Я уменьшил вдвое тестовый файл, шедший с tesseract 2.0 и распознал.

Файнридер: 
This is a lot of 12 point Text to test the ocr code and see if it works or all types of file format.
The quick brown dog jumped over the lazy fox The quick brown dog jumped over the lazy fox The quick brown dog jumped over the lazy fox. The quick brown dog lumped over the lazy fox.

Тессеракт: 
This is a |ct0l12 point (ext to (esl the
ccr code and see if it works on all types
cl Hle lcrmal
The quick brcwn dog jumped cver the
lazy fox, The quick brown dog jumped
over the lazy {cx, The quick brcwn dog
jumped over the lazy {cx, The quick
brcwn dog jumped cver the lazy fox,

Для сравнения GOCR, который называют лучшим из свободных:
m is is a Iot of 1 2 _int text to test the
ocr code and see if it mhs on aII _pes
of _Ie format.
me quich b_own dog jumped over the
Iazy tox. The quic_ brown d_ jumped
over the lazy fox. me quich b_own dog
jumped over the Iazy fox. The quick
b_own dog jumped over the Iazy tox.

GOCR делал ошибки в тестовом файле даже при нормальном разрешении.

acheron ★★★★
(15.09.07 14:50:57 MSD) автор топика

Ссылка

Ответ на: комментарий от Rumata 15.09.07 14:39:52 MSD

>> 7) Не поддерживается арабская вязь.

> Какой ужос!

Ну да, пункты 6 и 7 -- тяжёлое препятствие на пути гугла к мировому господству :)

acheron ★★★★
(15.09.07 14:52:25 MSD) автор топика

Ссылка

Ответ на: комментарий от anonymous 15.09.07 14:23:05 MSD

>FineReader не только разбирает буквы, но и сохраняетформатирование В 9 будет ещё многоразных вкусностей

Не подскажешь, где можно купить версию под GNU/Linux и MacOSX? Я бы взял.

А пока такой возможности нет, ABBYY может взять свои виндовые "вкусности", свернуть их трубочкой и засунуть обратно в свою шикарную задницу.

magesor ★☆
(15.09.07 15:11:47 MSD)

Ответ на: комментарий от magesor 15.09.07 15:11:47 MSD

Есть распознавалка под Linux стоимостью примерно в 1000 буказоидов - если _действительно_ нужно.

Evgueni ★★★★★
(15.09.07 15:21:05 MSD)

А эти словари куда-то отправляют? То есть может благодаря добровольцам через год получиться распознавание русского из коробки?

georgii ★
(15.09.07 15:25:06 MSD)

Ответ на: комментарий от MuZHiK-2 15.09.07 14:25:23 MSD

>>FineReader не только разбирает буквы, но и сохраняетформатирование

> Ой, вот только не надо про форматирование - уж лучше бы его там вообще не было.

до 7й версии это отключается, 8-ю я не видел

vadiml ★★★★★
(15.09.07 15:25:42 MSD)

Ссылка

Ответ на: комментарий от Evgueni 15.09.07 15:21:05 MSD

>Есть распознавалка под Linux стоимостью примерно в 1000 буказоидов - если _действительно_ нужно.

Что за зверь такой? И, главное, как у этого зверя с русским?

А вообще косарь - это действительно сильно, дешевле венду с файнридером купить, и ещё дофига на пиво останется =) Или зверь фичастей/распознаёт лучше (сомневаюсь)?

magesor ★☆
(15.09.07 15:29:02 MSD)

Ответ на: комментарий от magesor 15.09.07 15:11:47 MSD

> Не подскажешь, где можно купить версию под GNU/Linux и MacOSX? Я бы взял.

FR под wine работает, правда сканера не видит. Надежда только на то, что в wine twain допилят

vadiml ★★★★★
(15.09.07 15:30:37 MSD)

Ответ на: комментарий от magesor 15.09.07 15:29:02 MSD

>>Есть распознавалка под Linux стоимостью примерно в 1000 буказоидов - если _действительно_ нужно.

> Что за зверь такой? И, главное, как у этого зверя с русским?

это FR без GUI

vadiml ★★★★★
(15.09.07 15:32:10 MSD)

Ответ на: комментарий от vadiml 15.09.07 15:30:37 MSD

>FR под wine работает, правда сканера не видит

не смешно =) И не факт, что _пока_ работает, до следующей версии wine/FR. Факт в том, что официально перечисленные платформы _не_поддерживаются_

magesor ★☆
(15.09.07 15:36:03 MSD)

Ответ на: комментарий от georgii 15.09.07 15:25:06 MSD

Ну сделайте, выложите для начала куда-нибудь, хоть на rapidshare. Попробуем сделать базу. А то все мечтают, а добровольцев нема.

welkam ★★
(15.09.07 15:36:08 MSD)

Ссылка

Ответ на: комментарий от vadiml 15.09.07 15:32:10 MSD

>это FR без GUI

там же вроде только либы для девелоперов или что-то в этом сорте, разве нет?

magesor ★☆
(15.09.07 15:37:18 MSD)

Ответ на: комментарий от magesor 15.09.07 15:37:18 MSD

http://www.abbyy.ru/sdk/?param=32334

ABBYY FineReader __Engine__ 6.0 for LINUX

magesor ★☆
(15.09.07 15:40:39 MSD)

Ответ на: комментарий от vadiml 15.09.07 15:32:10 MSD

> это FR без GUI

1000? Мне казалось ~2500. SDK для создания своей OCR системы. С возможностью обучения, распознавания рукописного шрифта, иероглифов...

acheron ★★★★
(15.09.07 15:42:17 MSD) автор топика

Ссылка

Ответ на: комментарий от georgii 15.09.07 15:25:06 MSD

> А эти словари куда-то отправляют?

По идее группа http://groups.google.com/group/tesseract-ocr-russian/ создана именно для этого.

acheron ★★★★
(15.09.07 15:43:07 MSD) автор топика

Ссылка

Ответ на: комментарий от magesor 15.09.07 15:40:39 MSD

http://www.abbyy.ru/sdk/?param=60343

ABBYY FineReader Engine 8.0 EPS – это наиболее мощный и универсальный инструментарий разработчика приложений для Mac OS X (Intel), FreeBSD и Linux, заинтересованного в эффективной реализации функций распознавания печатных символов (OCR) и штрих-кодов, а также преобразования PDF-файлов. По возможностям данный продукт превосходит все альтернативные средства, способные работать на указанных платформах.

magesor ★☆
(15.09.07 15:43:13 MSD)

Ответ на: комментарий от magesor 15.09.07 15:29:02 MSD

>> Есть распознавалка под Linux стоимостью примерно в 1000 буказоидов - если _действительно_ нужно.

> Что за зверь такой? И, главное, как у этого зверя с русским?

Заявлено что есть. Смотреть сюда: http://www.vividata.com/ - первая строка в google на запрос "Linux OCR" Вроде, можно скачать пробную 30-дневную версию.

> А вообще косарь - это действительно сильно, дешевле венду с файнридером купить, и ещё дофига на пиво останется =) Или зверь фичастей/распознаёт лучше (сомневаюсь)?

Как я понял функционалом оно побогаче будет, хотя говорю как наблюдатель со стороны. Мне пока подобные программы не нужны были и в обозримом будущем тоже не будут. Так что моё мнение может быть ошибочным.

Evgueni ★★★★★
(15.09.07 15:49:07 MSD)

Ответ на: комментарий от Evgueni 15.09.07 15:49:07 MSD

Да, было бы интересно если кто-то это попробует и выскажет своё мнение.

Evgueni ★★★★★
(15.09.07 15:50:48 MSD)

Ответ на: комментарий от magesor 15.09.07 15:43:13 MSD

> Или зверь фичастей/распознаёт лучше (сомневаюсь)?

> http://www.abbyy.ru/sdk/?param=60343 ABBYY FineReader Engine 8.0 EPS

По идее там есть возможности, заблокированные в FineReader 7-8, то есть да, фичастее. С чего я решил, что он стоит 2500 у.е. -- ума не приложу :)

acheron ★★★★
(15.09.07 16:09:30 MSD) автор топика

Ссылка

Ответ на: комментарий от Evgueni 15.09.07 15:49:07 MSD

Был на этом сайте когда-то, но так и не понял что у них с русским. И да, цены у них злые =))

http://www.vividata.com/be_xtr_pricing.html

Я так понимаю, эта штука предназначена немного для других задач, нежели FR =)

magesor ★☆
(15.09.07 16:18:35 MSD)

Кстати, никто не знает хорошие статьи про распознавание символов? А то мне надо курсач для распознавания номеров с изображения, поступающего с вёб-камеры написать. И препод просил делать это без нейросетей. =( Ссылкой киньте, если знаете что-нить.

anonymous
(15.09.07 16:47:35 MSD)

Ответ на: комментарий от magesor 15.09.07 16:18:35 MSD

> Был на этом сайте когда-то, но так и не понял что у них с русским.

Там написано что поддерживается (слова russian присутствует).

> И да, цены у них злые =))

Начиная от килобуказоида - если для фирмы это действительно надо, то нормальная цена - дешевле скажем AutoCAD

> Я так понимаю, эта штука предназначена немного для других задач, нежели FR =)

Я не спец, но IMHO распознавалка и в Африке распознавалка.

Если эта тема интересна, то утащи пробную версию и дай знать сообществу о её функционале и качестве.

Evgueni ★★★★★
(15.09.07 16:53:36 MSD)

Ссылка

Щас заценю. Кто-нибудь поможет прикрутить эту прогу к djvused? (чтобы автоматом включатиь текст в djvu-файл)

DNA_Seq ★★☆☆☆
(15.09.07 17:00:54 MSD)

Ссылка

Ответ на: комментарий от magesor 15.09.07 15:29:02 MSD

Vividata OCR Shop XTR

>Есть распознавалка под Linux стоимостью примерно в 1000 буказоидов >>Что за зверь такой? И, главное, как у этого зверя с русским?

Vividata OCR Shop XTR

С русским нормально. Есть триал. Как его кракать известно интернету.

Loh ★★
(15.09.07 17:26:45 MSD)

Ссылка

Ответ на: комментарий от Evgueni 15.09.07 15:21:05 MSD

>Есть распознавалка под Linux стоимостью примерно в 1000 буказоидов

За эти деньги можно купить отдельный комп с лицензионными виндой и файнридером. И даже со сканером в качестве бонуса :)

~~KRoN73~~ ★★★★★
(15.09.07 18:11:43 MSD)

Ссылка

Ответ на: комментарий от anonymous 15.09.07 16:47:35 MSD

Скачай реферат, всего-то делов.

anonymous
(15.09.07 18:22:20 MSD)

Ссылка

Ответ на: комментарий от Evgueni 15.09.07 15:50:48 MSD

>Да, было бы интересно если кто-то это попробует и выскажет своё мнение.

Что конкретно?

Vividata OCR? Что "толстая", что "легкая" версия работают нормально. GUI не замечено.

Tesseract и руководство по обучению? Ну повозился с ним сейчас минут эдак 30. Русскому научить можно. Будет свободное время (а оно у меня вряд-ли будет) попробую подбить его под себя и свои нужды.

~~ZloySergant~~ ★
(15.09.07 18:23:31 MSD)

Ответ на: комментарий от magesor 15.09.07 15:36:03 MSD

>>FR под wine работает, правда сканера не видит

>не смешно =) И не факт, что _пока_ работает, до следующей версии wine/FR. Факт в том, что официально перечисленные платформы _не_поддерживаются_

Поэтому я и боюсь обновлять wine... Впрочем, Виста тоже официально не поддерживается

maraudeur
(15.09.07 18:28:36 MSD)

Ссылка

Ответ на: комментарий от Evgueni 15.09.07 15:21:05 MSD

>Есть распознавалка под Linux стоимостью примерно в 1000 буказоидов - если _действительно_ нужно.

А кто-нибудь пробовал FineFeader Home Edition под Wine'ом? Он AFAIR 25-30$ стОит, если действительно надо - то не так уж и дорого

Led ★★★☆☆
(15.09.07 18:33:34 MSD)

Ссылка

Ответ на: комментарий от acheron 15.09.07 14:25:08 MSD

>1) Интерфейс Tesseract -- командная строка. Хотя, думаю, можно взять одну из существующих "морд". А для автоматизации командная строка даже удобнее.

У Файнридера тоже есть морда с командной строкой: FineOCR.exe

>5) Создаваемый при обучении шрифт -- пока не более 256 символов. В старых версиях Файнридера возможность обучения была, в новых убрали.

Неправда. В 8-й есть возможность обучения, просто вызывается оно не напрямую из меню

>6) Не поддерживается письмо справа налево и сверху вниз. >7) Не поддерживается арабская вязь.

Файнридер тоже не поддерживает. И по-моему и в остальных OCR-ах это идёт за отдельную плату.

maraudeur
(15.09.07 18:43:42 MSD)

Ответ на: комментарий от maraudeur 15.09.07 18:43:42 MSD

> У Файнридера тоже есть морда с командной строкой: FineOCR.exe

Сильно урезанная по возможностям по сравнению с GUI.

> В 8-й есть возможность обучения, просто вызывается оно не напрямую из меню

Видимо, не во всех версиях. Как её вызвать?

>> письмо справа налево и сверху вниз... арабская вязь.

> Файнридер тоже не поддерживает.

ABBYY FineReader Engine 8.0 EPS -- кроссплатформенный SDK, обсуждавшийся выше, умеет всё, что упомянуто в моём списке. Если верить рекламе. Именно с ним я и сравнивал Tesseract.

acheron ★★★★
(15.09.07 19:24:51 MSD) автор топика

Ответ на: комментарий от acheron 15.09.07 19:24:51 MSD

>> У Файнридера тоже есть морда с командной строкой: FineOCR.exe

>Сильно урезанная по возможностям по сравнению с GUI.

не спорю

>> В 8-й есть возможность обучения, просто вызывается оно не напрямую из меню

>Видимо, не во всех версиях. Как её вызвать?

Сервис > Опции > Вкладка "2. Распознать" > установить "Распознавать с обучением". Дальше запустить процесс распознавания, появится "Ручное обучение эталона". И вперёд :). Версия 8.0 Pro

>>> письмо справа налево и сверху вниз... арабская вязь.

>> Файнридер тоже не поддерживает.

>ABBYY FineReader Engine 8.0 EPS -- кроссплатформенный SDK, обсуждавшийся выше, умеет всё, что упомянуто в моём списке. Если верить рекламе. Именно с ним я и сравнивал Tesseract.

Значит это я пропустил, слышал краем уха про китайский в 8.1 EPS, а про это нет.

maraudeur
(15.09.07 19:40:48 MSD)

Ответ на: комментарий от maraudeur 15.09.07 19:40:48 MSD

> Сервис > Опции > Вкладка "2. Распознать" > установить "Распознавать с обучением". Дальше запустить процесс распознавания, появится "Ручное обучение эталона". И вперёд :). Версия 8.0 Pro

Спасибо! В 7 (точнее не помню) этого не было, в 8 не стал искать.

acheron ★★★★
(15.09.07 21:08:15 MSD) автор топика

Ссылка

FineReader7 + CrossOver нормально работает....

anonymous
(15.09.07 22:39:08 MSD)

Ссылка

Ответ на: комментарий от vadiml 15.09.07 15:30:37 MSD

>> Не подскажешь, где можно купить версию под GNU/Linux и MacOSX? Я бы взял.

>FR под wine работает, правда сканера не видит. Надежда только на то, что в wine twain допилят

Кстати, странно. В http://www.winehq.org/site/winapi_stats написано, что twain_32 реализован на 100%. Может быть, там какие-нибудь libwine-twain и xsane не установлены? У меня сканера нет проверить не могу

maraudeur
(15.09.07 22:49:02 MSD)

Ссылка

Пробовал тессеракт. Имею сказать - говно. К реальному использованию непригоден. Ждём, пока у гугля дойдут руки.

yk4ever ★
(15.09.07 23:19:09 MSD)

Ответ на: комментарий от vadiml 15.09.07 15:30:37 MSD

>FR под wine работает, правда сканера не видит. Надежда только на то, что в wine twain допилят

А если открывать через рисунки? :)

~~FiXer~~ ★★☆☆☆
(15.09.07 23:50:21 MSD)

Ссылка

Ответ на: комментарий от yk4ever 15.09.07 23:19:09 MSD

> Пробовал тессеракт. Имею сказать - говно.

Давно пробовал? Хотя да, резать колонки вручную заколебёшься.

acheron ★★★★
(16.09.07 00:23:54 MSD) автор топика

Ссылка

Ответ на: комментарий от ZloySergant 15.09.07 18:23:31 MSD

Есть GUI к vividata.

http://www.vividata.com/be_ocrshop_pricing.html

boooo
(16.09.07 12:11:53 MSD)

Ответ на: комментарий от anonymous 15.09.07 16:47:35 MSD

есть такая штука, называется морфологический анализ изображений. Насколько мне известно, книгу Пытьева еще не выпустили, если очень надо, могу покапаться, у меняя ее препринт был где-то.

MooNug
(16.09.07 13:20:12 MSD)