LINUX.ORG.RU

Обучение OCR Tesseract русскому языку


0

0

На сайте opennet.ru появилась инструкция по обучению Tesseract русскому языку.

Tesseract — программа для распознавания текстов, разрабатывавшаяся Hewlett-Packard с середины 1980-х по середину 1990-х, а затем 10 лет "пролежавшая на полке". Не так давно Google купил её и открыл исходные тексты для продолжения разработки. В настоящий момент программа уже работает с UTF-8, но знает только английский, немецкий, французский, испанский, итальянский и голландский языки.

Руководство по обучению русскому языку: http://www.opennet.ru//base/rus/osr_t...

Руководство по обучению программы (на английском): http://code.google.com/p/tesseract-oc...

Страница Tesseract: http://code.google.com/p/tesseract-ocr/

>>> Группа tesseract-ocr-russian в группах Google

Ответ на: комментарий от magesor

> А пока такой возможности нет, ABBYY может взять свои виндовые "вкусности", свернуть их трубочкой и засунуть обратно в свою шикарную задницу.

+1 ABBYY игнорирует Linux - пользователи Linux игнорируют продукты ABBYY. Этот файнридер итак-то практически не нужен, а благодаря политике компании нужен еще меньше количеству пользователей.

anonymous
()
Ответ на: комментарий от yk4ever

> Пробовал тессеракт. Имею сказать - говно. К реальному использованию непригоден. Ждём, пока у гугля дойдут руки.

Думаю, они прикрутят его как вебсервис.

anonymous
()

Пробовал Тессеракт — говно редкостное, даже английский courier не умеет распознавать. В качестве альтернативы можно воспользоваться гуглем: выложить пдфку на свой сайт, пару неделек подождать, пока гугле не проиндексирует и не распознает эту пдфку, после чего качать распознанный текст.

annoynymous ★★
()
Ответ на: комментарий от magesor

На основе его есть гуевое приложение под МСВС.

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.