LINUX.ORG.RU

Обучение OCR Tesseract русскому языку


0

0

На сайте opennet.ru появилась инструкция по обучению Tesseract русскому языку.

Tesseract — программа для распознавания текстов, разрабатывавшаяся Hewlett-Packard с середины 1980-х по середину 1990-х, а затем 10 лет "пролежавшая на полке". Не так давно Google купил её и открыл исходные тексты для продолжения разработки. В настоящий момент программа уже работает с UTF-8, но знает только английский, немецкий, французский, испанский, итальянский и голландский языки.

Руководство по обучению русскому языку: http://www.opennet.ru//base/rus/osr_t...

Руководство по обучению программы (на английском): http://code.google.com/p/tesseract-oc...

Страница Tesseract: http://code.google.com/p/tesseract-ocr/

>>> Группа tesseract-ocr-russian в группах Google

Любопытно. Вечерком почитаю :)

GFORGX ★★★
()
Ответ на: комментарий от Killfoxster

FineReader не только разбирает буквы, но и сохраняетформатирование В 9 будет ещё многоразных вкусностей

anonymous
()
Ответ на: комментарий от Killfoxster

> FineReaderкапец?

Нет ещё.

1) Интерфейс Tesseract -- командная строка. Хотя, думаю, можно взять одну из существующих "морд". А для автоматизации командная строка даже удобнее.

2) Tesseract пока не умеет анализировать макет, считает текст 1 колонкой.

3) Точность распознавания даже английского на низких разрешениях хуже. Тессеракт плохо распознаёт символы ниже 15 пикселей, Файнридер даёт читаемый текст даже при высоте 7 пикселей.

4) Тессеракт пока нормально работает только с 2-уровневыми TIFFами.

5) Создаваемый при обучении шрифт -- пока не более 256 символов. В старых версиях Файнридера возможность обучения была, в новых убрали.

6) Не поддерживается письмо справа налево и сверху вниз.

7) Не поддерживается арабская вязь.

Но пункты 2, 4, 5, 6 обещают исправить уже в этом году.

acheron ★★★★
() автор топика
Ответ на: комментарий от anonymous

>>FineReader не только разбирает буквы, но и сохраняетформатирование В 9 будет ещё многоразных вкусностей

Ой, вот только не надо про форматирование - уж лучше бы его там вообще не было.

MuZHiK-2 ★★★★
()
Ответ на: комментарий от anonymous

> FineReader не только разбирает буквы, но и сохраняетформатирование

Вот только редактировать это форматирование в новых версиях невозможно.

> В 9 будет ещё многоразных вкусностей

Экспорт в swf и запрет на ручной анализ макета? С требованием постоянного соединения с сервером ABBYY, иначе сохраняемый файл забьёт мусором :)

acheron ★★★★
() автор топика
Ответ на: комментарий от acheron

acheron> Файнридер даёт читаемый текст даже при высоте 7 пикселей.

Зато какой =) Как будто программы тоже траву курят :)

Quasar ★★★★★
()
Ответ на: комментарий от Quasar

> Как будто программы тоже траву курят :)

Я уменьшил вдвое тестовый файл, шедший с tesseract 2.0 и распознал.

Файнридер: 
This is a lot of 12 point Text to test the ocr code and see if it works or all types of file format.
The quick brown dog jumped over the lazy fox The quick brown dog jumped over the lazy fox The quick brown dog jumped over the lazy fox. The quick brown dog lumped over the lazy fox.

Тессеракт: 
This is a |ct0l12 point (ext to (esl the
ccr code and see if it works on all types
cl Hle lcrmal
The quick brcwn dog jumped cver the
lazy fox, The quick brown dog jumped
over the lazy {cx, The quick brcwn dog
jumped over the lazy {cx, The quick
brcwn dog jumped cver the lazy fox,

Для сравнения GOCR, который называют лучшим из свободных:
m is is a Iot of 1 2 _int text to test the
ocr code and see if it mhs on aII _pes
of _Ie format.
me quich b_own dog jumped over the
Iazy tox. The quic_ brown d_ jumped
over the lazy fox. me quich b_own dog
jumped over the Iazy fox. The quick
b_own dog jumped over the Iazy tox.

GOCR делал ошибки в тестовом файле даже при нормальном разрешении.

acheron ★★★★
() автор топика
Ответ на: комментарий от Rumata

>> 7) Не поддерживается арабская вязь.

> Какой ужос!

Ну да, пункты 6 и 7 -- тяжёлое препятствие на пути гугла к мировому господству :)

acheron ★★★★
() автор топика
Ответ на: комментарий от anonymous

>FineReader не только разбирает буквы, но и сохраняетформатирование В 9 будет ещё многоразных вкусностей

Не подскажешь, где можно купить версию под GNU/Linux и MacOSX? Я бы взял.

А пока такой возможности нет, ABBYY может взять свои виндовые "вкусности", свернуть их трубочкой и засунуть обратно в свою шикарную задницу.

magesor ★☆
()

А эти словари куда-то отправляют? То есть может благодаря добровольцам через год получиться распознавание русского из коробки?

georgii
()
Ответ на: комментарий от MuZHiK-2

>>FineReader не только разбирает буквы, но и сохраняетформатирование

> Ой, вот только не надо про форматирование - уж лучше бы его там вообще не было.

до 7й версии это отключается, 8-ю я не видел

vadiml ★★★★★
()
Ответ на: комментарий от Evgueni

>Есть распознавалка под Linux стоимостью примерно в 1000 буказоидов - если _действительно_ нужно.

Что за зверь такой? И, главное, как у этого зверя с русским?

А вообще косарь - это действительно сильно, дешевле венду с файнридером купить, и ещё дофига на пиво останется =) Или зверь фичастей/распознаёт лучше (сомневаюсь)?

magesor ★☆
()
Ответ на: комментарий от magesor

> Не подскажешь, где можно купить версию под GNU/Linux и MacOSX? Я бы взял.

FR под wine работает, правда сканера не видит. Надежда только на то, что в wine twain допилят

vadiml ★★★★★
()
Ответ на: комментарий от magesor

>>Есть распознавалка под Linux стоимостью примерно в 1000 буказоидов - если _действительно_ нужно.

> Что за зверь такой? И, главное, как у этого зверя с русским?

это FR без GUI

vadiml ★★★★★
()
Ответ на: комментарий от vadiml

>FR под wine работает, правда сканера не видит

не смешно =) И не факт, что _пока_ работает, до следующей версии wine/FR. Факт в том, что официально перечисленные платформы _не_поддерживаются_

magesor ★☆
()
Ответ на: комментарий от georgii

Ну сделайте, выложите для начала куда-нибудь, хоть на rapidshare. Попробуем сделать базу. А то все мечтают, а добровольцев нема.

welkam ★★
()
Ответ на: комментарий от vadiml

> это FR без GUI

1000? Мне казалось ~2500. SDK для создания своей OCR системы. С возможностью обучения, распознавания рукописного шрифта, иероглифов...

acheron ★★★★
() автор топика
Ответ на: комментарий от magesor

http://www.abbyy.ru/sdk/?param=60343

ABBYY FineReader Engine 8.0 EPS – это наиболее мощный и универсальный инструментарий разработчика приложений для Mac OS X (Intel), FreeBSD и Linux, заинтересованного в эффективной реализации функций распознавания печатных символов (OCR) и штрих-кодов, а также преобразования PDF-файлов. По возможностям данный продукт превосходит все альтернативные средства, способные работать на указанных платформах.

magesor ★☆
()
Ответ на: комментарий от magesor

>> Есть распознавалка под Linux стоимостью примерно в 1000 буказоидов - если _действительно_ нужно.

> Что за зверь такой? И, главное, как у этого зверя с русским?

Заявлено что есть. Смотреть сюда: http://www.vividata.com/ - первая строка в google на запрос "Linux OCR" Вроде, можно скачать пробную 30-дневную версию.

> А вообще косарь - это действительно сильно, дешевле венду с файнридером купить, и ещё дофига на пиво останется =) Или зверь фичастей/распознаёт лучше (сомневаюсь)?

Как я понял функционалом оно побогаче будет, хотя говорю как наблюдатель со стороны. Мне пока подобные программы не нужны были и в обозримом будущем тоже не будут. Так что моё мнение может быть ошибочным.

Evgueni ★★★★★
()
Ответ на: комментарий от magesor

> Или зверь фичастей/распознаёт лучше (сомневаюсь)?

> http://www.abbyy.ru/sdk/?param=60343 ABBYY FineReader Engine 8.0 EPS

По идее там есть возможности, заблокированные в FineReader 7-8, то есть да, фичастее. С чего я решил, что он стоит 2500 у.е. -- ума не приложу :)

acheron ★★★★
() автор топика

Кстати, никто не знает хорошие статьи про распознавание символов? А то мне надо курсач для распознавания номеров с изображения, поступающего с вёб-камеры написать. И препод просил делать это без нейросетей. =( Ссылкой киньте, если знаете что-нить.

anonymous
()
Ответ на: комментарий от magesor

> Был на этом сайте когда-то, но так и не понял что у них с русским.

Там написано что поддерживается (слова russian присутствует).

> И да, цены у них злые =))

Начиная от килобуказоида - если для фирмы это действительно надо, то нормальная цена - дешевле скажем AutoCAD

> Я так понимаю, эта штука предназначена немного для других задач, нежели FR =)

Я не спец, но IMHO распознавалка и в Африке распознавалка.

Если эта тема интересна, то утащи пробную версию и дай знать сообществу о её функционале и качестве.

Evgueni ★★★★★
()

Щас заценю. Кто-нибудь поможет прикрутить эту прогу к djvused? (чтобы автоматом включатиь текст в djvu-файл)

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от magesor

Vividata OCR Shop XTR

>Есть распознавалка под Linux стоимостью примерно в 1000 буказоидов >>Что за зверь такой? И, главное, как у этого зверя с русским?

Vividata OCR Shop XTR

С русским нормально. Есть триал. Как его кракать известно интернету.

Loh ★★
()
Ответ на: комментарий от Evgueni

>Есть распознавалка под Linux стоимостью примерно в 1000 буказоидов

За эти деньги можно купить отдельный комп с лицензионными виндой и файнридером. И даже со сканером в качестве бонуса :)

KRoN73 ★★★★★
()
Ответ на: комментарий от anonymous

Скачай реферат, всего-то делов.

anonymous
()
Ответ на: комментарий от Evgueni

>Да, было бы интересно если кто-то это попробует и выскажет своё мнение.

Что конкретно?

Vividata OCR? Что "толстая", что "легкая" версия работают нормально. GUI не замечено.

Tesseract и руководство по обучению? Ну повозился с ним сейчас минут эдак 30. Русскому научить можно. Будет свободное время (а оно у меня вряд-ли будет) попробую подбить его под себя и свои нужды.

ZloySergant
()
Ответ на: комментарий от magesor

>>FR под wine работает, правда сканера не видит

>не смешно =) И не факт, что _пока_ работает, до следующей версии wine/FR. Факт в том, что официально перечисленные платформы _не_поддерживаются_

Поэтому я и боюсь обновлять wine... Впрочем, Виста тоже официально не поддерживается

maraudeur
()
Ответ на: комментарий от Evgueni

>Есть распознавалка под Linux стоимостью примерно в 1000 буказоидов - если _действительно_ нужно.

А кто-нибудь пробовал FineFeader Home Edition под Wine'ом? Он AFAIR 25-30$ стОит, если действительно надо - то не так уж и дорого

Led ★★★☆☆
()
Ответ на: комментарий от acheron

>1) Интерфейс Tesseract -- командная строка. Хотя, думаю, можно взять одну из существующих "морд". А для автоматизации командная строка даже удобнее.

У Файнридера тоже есть морда с командной строкой: FineOCR.exe

>5) Создаваемый при обучении шрифт -- пока не более 256 символов. В старых версиях Файнридера возможность обучения была, в новых убрали.

Неправда. В 8-й есть возможность обучения, просто вызывается оно не напрямую из меню

>6) Не поддерживается письмо справа налево и сверху вниз. >7) Не поддерживается арабская вязь.

Файнридер тоже не поддерживает. И по-моему и в остальных OCR-ах это идёт за отдельную плату.

maraudeur
()
Ответ на: комментарий от maraudeur

> У Файнридера тоже есть морда с командной строкой: FineOCR.exe

Сильно урезанная по возможностям по сравнению с GUI.

> В 8-й есть возможность обучения, просто вызывается оно не напрямую из меню

Видимо, не во всех версиях. Как её вызвать?

>> письмо справа налево и сверху вниз... арабская вязь.

> Файнридер тоже не поддерживает.

ABBYY FineReader Engine 8.0 EPS -- кроссплатформенный SDK, обсуждавшийся выше, умеет всё, что упомянуто в моём списке. Если верить рекламе. Именно с ним я и сравнивал Tesseract.

acheron ★★★★
() автор топика
Ответ на: комментарий от acheron

>> У Файнридера тоже есть морда с командной строкой: FineOCR.exe

>Сильно урезанная по возможностям по сравнению с GUI.

не спорю

>> В 8-й есть возможность обучения, просто вызывается оно не напрямую из меню

>Видимо, не во всех версиях. Как её вызвать?

Сервис > Опции > Вкладка "2. Распознать" > установить "Распознавать с обучением". Дальше запустить процесс распознавания, появится "Ручное обучение эталона". И вперёд :). Версия 8.0 Pro

>>> письмо справа налево и сверху вниз... арабская вязь.

>> Файнридер тоже не поддерживает.

>ABBYY FineReader Engine 8.0 EPS -- кроссплатформенный SDK, обсуждавшийся выше, умеет всё, что упомянуто в моём списке. Если верить рекламе. Именно с ним я и сравнивал Tesseract.

Значит это я пропустил, слышал краем уха про китайский в 8.1 EPS, а про это нет.

maraudeur
()
Ответ на: комментарий от maraudeur

> Сервис > Опции > Вкладка "2. Распознать" > установить "Распознавать с обучением". Дальше запустить процесс распознавания, появится "Ручное обучение эталона". И вперёд :). Версия 8.0 Pro

Спасибо! В 7 (точнее не помню) этого не было, в 8 не стал искать.

acheron ★★★★
() автор топика

FineReader7 + CrossOver нормально работает....

anonymous
()
Ответ на: комментарий от vadiml

>> Не подскажешь, где можно купить версию под GNU/Linux и MacOSX? Я бы взял.

>FR под wine работает, правда сканера не видит. Надежда только на то, что в wine twain допилят

Кстати, странно. В http://www.winehq.org/site/winapi_stats написано, что twain_32 реализован на 100%. Может быть, там какие-нибудь libwine-twain и xsane не установлены? У меня сканера нет проверить не могу

maraudeur
()

Пробовал тессеракт. Имею сказать - говно. К реальному использованию непригоден. Ждём, пока у гугля дойдут руки.

yk4ever
()
Ответ на: комментарий от vadiml

>FR под wine работает, правда сканера не видит. Надежда только на то, что в wine twain допилят

А если открывать через рисунки? :)

FiXer ★★☆☆☆
()
Ответ на: комментарий от yk4ever

> Пробовал тессеракт. Имею сказать - говно.

Давно пробовал? Хотя да, резать колонки вручную заколебёшься.

acheron ★★★★
() автор топика
Ответ на: комментарий от anonymous

есть такая штука, называется морфологический анализ изображений. Насколько мне известно, книгу Пытьева еще не выпустили, если очень надо, могу покапаться, у меняя ее препринт был где-то.

MooNug
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.