LINUX.ORG.RU

Проект распознавания символов OCRopus


0

0

Представлен новый проект по распознаванию символов OCRopus, исходный код которого уже доступен под лицензией Apache и спонсируется Google.

Домашняя страница проекта: http://www.ocropus.org/

>>> Подробности

★★★★★

Проверено: Shaman007 ()

The current Subversion repository contains OCRopus with the following components (we already have a lot of additional components, and we will be testing and including many of them over the next few months): the Tesseract character recognizer RAST layout analysis a simple aspell-based language model initial testing and evaluation tools

Tesseract в этом списке наводит на грустные размышления о судьбе этого проекта.

dn2010 ★★★★★
()


...сели как-то орки под пивко да состряпали эдакий опус...

// wbr

klalafuda ★☆☆
()
Ответ на: комментарий от acheron

Tesseract is currently used as the character recognition engine (additional engines are in development)

В OCRopus, видимо, встроят возможность подключения движков для распознавания. На данный момент tesseract используется как основной:

The current Subversion repository contains OCRopus with the following components (we already have a lot of additional components, and we will be testing and including many of them over the next few months):

* the Tesseract character recognizer

* RAST layout analysis

* a simple aspell-based language model

* initial testing and evaluation tools

birdie ★★★★★
() автор топика
Ответ на: комментарий от anonymous

И что из этого? За действия, которые сильно противоречат УК тоже хорошо платят.

P.S. Найду - придушу.

Deleted
()

Наконец-то! Хорошо когда фирма бизнес делает на сервисах, а не на продаже софта: библиотеки разрабатывает и открывает, OCR спонсирует и разрабатывает...

GladAlex ★★★★★
()
Ответ на: комментарий от acheron

The OCRopus engine is based on two research projects: a high-performance handwriting recognizer developed in the mid-90's and deployed by the US Census bureau, and novel high-performance layout analysis methods.

OCRopus is development is sponsored by Google and is initially intended for high-throughput, high-volume document conversion efforts. We expect that it will also be an excellent OCR system for many other applications.

GladAlex ★★★★★
()

>1.0 Release (Q3 2008)

Если к этому времени подтянутся Photoshop, AutoCAD, то наступит... ;)

GladAlex ★★★★★
()

A commercial quality OCR engine originally developed at HP between 1985 and 1995. In 1995, this engine was among the top 3 evaluated by UNLV. It was open-sourced by HP and UNLV in 2005. (NOTE: We're migrating to code.google.com. Please see the forums.)

причем тут гугл?

anonymous
()

Интересно как гугль собирается применить этот движок в своих сервисах. Вообще похоже просканить и скачать данные им сложнее чем их потом обработать/проиндексировать. Настолько сложнее что теперь они озадачились такой ресурсоемкой операцией как OCR 8-\ ...

Может быть нас ждет просто улучшенный поиск по картинкам и по (не)распознаным текстам из pdf... посмотрим

nikodll
()
Ответ на: комментарий от anonymous

>>За голову димеза тоже хорошо платят

Тока онаним никому нах не нужен?

sabonez ★☆☆☆
()

А что это даст простому пользователю вроде меня? И когда?

lemon_joe
()
Ответ на: комментарий от boombick

>С одной стороны фильтры, а с другой можно captcha распознавать :)

Ту что на лоре и человек не всегда распознает, куда уж там спамботам...

true
()
Ответ на: комментарий от anonymous

> за рассылку спама пока платят больше чем за борьбу с ним

Ногами бьют при поимке тоже больнее, правда.

anonymous
()
Ответ на: комментарий от prizident

>Файнридерокапец близится?
Нет, во-первых кирилицу никто из опенсырцовых ОСР НЕ ПОНИМАЕТ.(Поправьте меня если я не прав). Во-вторых файе ридер продаётся вместе со сканерами, и это удобнее чем какой-то там сервис в инете.
Так что фигня это всё ....

obp
()
Ответ на: комментарий от true

>Ту что на лоре и человек не всегда распознает, куда уж там спамботам...

++

anonymous
()
Ответ на: комментарий от obp

> Нет, во-первых кирилицу никто из опенсырцовых ОСР НЕ ПОНИМАЕТ.(Поправьте меня если я не прав).

Пока прав. Нелатинские шрифты в Тессеракт обещают добавить в начале 2008 года. Про планы других -- не знаю, но слышал что кто-то из присутствующих на ЛОРе что-то такое делает (вроде, с Кларой).

> Во-вторых файн ридер продаётся вместе со сканерами, и это удобнее чем какой-то там сервис в инете.

Это не онлайн-сервис, а обычная программа. Которую тоже смогут продавать в комплекте со сканерами. Или давать бесплатно :)

acheron ★★★★
()
Ответ на: комментарий от bdancer

> imated.sf.net

Спасибо за ссылку, но я слышал про что-то другое...

acheron ★★★★
()
Ответ на: комментарий от bdancer

>imated.sf.net

Интересное название. Только послушайте: "I mated!" :D

blaster999 ★★
()
Ответ на: комментарий от Vlad_Ts

картинки с виагрой gocr чудесно распознает

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.