Графическая оболочка для системы распознавания текста tesseract

0

0

Программист с ником nguyenq написал простую графическую оболочку для OCR-системы tesseract. Оболочка написана на Java и находится в стадии ранней беты, но уже вполне пригодна для распознавания отдельных страниц текста.

К её достоинствам относится возможность автоматической конвертации распознаваемой картинки в понимаемый tesseract формат. Ранее все картинки приходилось вручную конвертировать в разновидность tiff.

Желающие дописать недостающий функционал и исправить баги могут связаться с автором в форуме http://groups.google.com/group/tesser...

Оболочка также способна использовать в качестве системы распознавания программу gocr, однако эта программа не способна распознавать русский шрифт, и в едва ли в ближайшее время этому научится.

В отличии от gocr, программа tesseract уже сейчас может быть обучена русскому, а в ближайшее время авторы обещают коренным образом исправить ситуацию с распознаванием неанглийских текстов.
Об обучении tesseract русскому языку см. http://groups.google.com/group/tesser...

(для работы оболочки необходимо указать в настройках каталог, содержащий бинарник tesseract)

>>> Подробности

Ссылка

←	Nokia, Trolltech и цифры

SlackPkg 2.70

→

А ведь близится открытие CuneiForm...

anonymous
(30.01.08 08:57:45 MSK)

Гуи, шмуи

лучше алгоритм посмотрел бы

anonymous
(30.01.08 09:11:32 MSK)

Ссылка

Ответ на: комментарий от anonymous 30.01.08 08:57:45 MSK

> А ведь близится открытие CuneiForm...

А мужики-то не знают :-)))

ysagat
(30.01.08 09:12:11 MSK)

Ссылка

java усё этим сказано

anonymous
(30.01.08 09:14:55 MSK)

1. жаба. Без комментариев

2. gocr тоже обучается русскому. По крайней мере пару лет назад я его ковырял - там надо просто при компиляции включить pattern-engine (или как там). Другое дело, что какчество распознавания никакое

geek ★★★
(30.01.08 09:23:34 MSK)

Ответ на: комментарий от anonymous 30.01.08 09:14:55 MSK

> А ведь близится открытие CuneiForm... Под wine`ом пока юзаю весьма доволен

anonymous
(30.01.08 09:23:51 MSK)

Ответ на: комментарий от anonymous 30.01.08 09:14:55 MSK

> java усё этим сказано

Эт' да.

anonymous
(30.01.08 10:21:27 MSK)

Ссылка

Ява -- зло. Представляю, как эта прога тормозит и сколько ей нужно памяти, чтобы запустить консольную утилиту.

anonymous
(30.01.08 10:21:33 MSK)

Ответ на: комментарий от anonymous 30.01.08 10:21:33 MSK

>Ява -- зло. Представляю, как эта прога тормозит и сколько ей нужно памяти, чтобы запустить консольную утилиту.

Приведите список Ваших gui-программ, мы посмотрим как надо писать это на чистом C.

anonymous
(30.01.08 10:25:15 MSK)

Отличная новость! Автору и джаве ура!

O-Ren_Ishii
(30.01.08 10:32:31 MSK)

Ссылка

Чего на жабку то накинулись, мож там труЪ swt с Gtk.

~~sabonez~~ ★☆☆☆
(30.01.08 10:35:41 MSK)

Ссылка

Ответ на: комментарий от anonymous 30.01.08 09:23:51 MSK

>Под wine`ом пока юзаю весьма доволен

Интересует прежде всего не юзание под вайном, а двигло. Мордаху на двигло можно любую натянуть. А можно и без оной. Из cmd.

anonymous
(30.01.08 10:42:14 MSK)

Ссылка

Ответ на: комментарий от geek 30.01.08 09:23:34 MSK

> 1. жаба. Без комментариев

Хоть в кой-то веки согласен с гиком. жаба (

~~AiFiLTr0~~ ★★★★★
(30.01.08 10:54:05 MSK)

Ссылка

ФайнРидерКапец!

laune
(30.01.08 10:54:05 MSK)

Ссылка

Ответ на: комментарий от anonymous 30.01.08 08:57:45 MSK

> близится открытие CuneiForm...

tesseractокапец?

VladimirP ★★★★
(30.01.08 11:07:25 MSK)

Ссылка

Ответ на: комментарий от anonymous 30.01.08 10:25:15 MSK

>>Ява -- зло. Представляю, как эта прога тормозит и сколько ей нужно памяти, чтобы запустить консольную утилиту.

>Приведите список Ваших gui-программ, мы посмотрим как надо писать это на чистом C.

+10 ЛОР = ОРАЛО все только орут, но реально мало кто че делает сам )

anonymous
(30.01.08 11:13:58 MSK)

Ссылка

Ответ на: комментарий от anonymous 30.01.08 10:25:15 MSK

> Приведите список Ваших gui-программ, мы посмотрим как надо писать это на чистом C.

Чем gtk+ не устраивает? Пишешь gui на чистом C.

anonymous
(30.01.08 11:44:48 MSK)

Гыыыыыыыыыыыыы :)
Думаю, че не пашет! Укажи паф. укажи паф... Да до усера можно указывать, ибо tesseract.exe под линуксом не запускается без жервенных костров.

Опять же пример на вьетнамском языке. :)

2asdf128 Шутку понял. Смешно.

vada ★★★★★
(30.01.08 11:57:41 MSK)

Ссылка

Ну когда же наконец то?!?!? у меня книг фотканых немеряно и без них никуда..=(

bioreactor ★★★★★
(30.01.08 13:56:40 MSK)

Ответ на: комментарий от bioreactor 30.01.08 13:56:40 MSK

>у когда же наконец то?!?!? у меня книг фотканых немеряно и без них никуда..=(

Читай по фоткам. Эта шняга никогда...

vada ★★★★★
(30.01.08 14:03:00 MSK)

Ссылка

Было на лоре в галерее про тессеракт этот и русский - там вроде всё очень грустно.

Я вот пользовался cuneiform под вайном - распознает очень даже неплохо, нормально отсканированнный текст распознавало без ошибок. Осталось дождаться открытия исходных кодов:) Тогда никакой тессеракт не нужен будет.

anonymous
(30.01.08 15:34:39 MSK)

Ссылка

Ответ на: комментарий от anonymous 30.01.08 10:21:33 MSK

>Представляю, как эта прога тормозит и сколько ей нужно памяти, чтобы запустить консольную утилиту.

Сколько?

r ★★★★★
(30.01.08 17:23:35 MSK)

Ссылка

Ответ на: комментарий от anonymous 30.01.08 11:44:48 MSK

>Чем gtk+ не устраивает? Пишешь gui на чистом C.

Все ждут когда ты морду к тесерракту на нем напишешь.

r ★★★★★
(30.01.08 17:24:41 MSK)

Ответ на: комментарий от r 30.01.08 17:24:41 MSK

у меня прекрасно запустилась эта гуй-морда к тессеракту, пришлось только линки прописать - см. мою переписку с автором в форуме проекта tesseract. После прописывания программа увидела тессеракт и прекрасно распознала несколько очень страниц из серии "плохой факс на дрянной бумаге на которую ставили кружку с кофе".

asdf128
(30.01.08 21:26:14 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 30.01.08 08:57:45 MSK

> А ведь близится открытие CuneiForm.

Скорее всё отдаляется и отдаляется. После предъявы и перевода CuneiForm на freeware основу никаких телодвижений кроме создания дырявого неоформленного говнофорума "для управления open-source проектом" сделано не было.

anonymous
(30.01.08 21:31:39 MSK)