LINUX.ORG.RU

Google дарит всем Open Source OCR


0

0

Компания Google открыла исходники системы по распознаванию текста Tesseract, которая разрабатывалась в лабораториях Hewlett-Packard с 1985 по 1995 годы. По словам Google, Tesseract, на данный момент, - лучшая Open Source система распознавания, которая, однако, поддерживает только английский язык.

>>> Подробности

★★★★★

Проверено: JB ()

лучшая из OS? а с комерческими системами, тем же файнридером, она сможет потягаться?

palach
()

Ну, русский язык - дело поправимое, если конечно реально кому-то нужно распознавать русские тексты. А мне и English хватит пока :) Виват гугля!

Hokum ☆☆☆☆
()

Латиницу то и до этого неплохо распознавали...

as33 ★☆☆
()

>Компания Google открыла исходники системы по распознаванию текста Tesseract, которая разрабатывалась в лабораториях Hewlett-Packard с 1985 по 1995 годы. По словам Google, Tesseract, на данный момент, - лучшая Open Source система распознавания, которая, однако, поддерживает только английский язык.

Надо сравнивать не с OpenSource OCR, а с теми, которые популярны у пользователей, с FineReader, например.

stellar
()

c FineReader'ом мало что может потягаться. А то, что русские буквы не распознаются - это действительно плохо

propheta
()

Почему только английский язык? Не един ли пёс, какой язык, если в его алфавите латинские буквы?

VladimirP ★★★★
()

У нас используется почти латинский алфавит, вот китайцам-японцам сложнее...

Ay49Mihas ★★★★
()

На самом деле, русский распознавать даже легче, чем английский.

Пример, как системе различить английскую маленькую L, i или 1? На некоторых шрифтах они просто совпадают.

1 l i

Хотя в русском есть свои прелести: буква Ю, например, которую старые версиии FinreReader'a норовили распознать как 1O.

birdie ★★★★★
() автор топика

забили на нее 10 лет назад
валялось валялось и вот решили отдать на растерзание красноглазым студентам
посмотрим чего там сделают
пользовался триальной 30 дневной версией файнридера без напряга

anonymous
()
Ответ на: комментарий от anonymous

>валялось валялось и вот решили отдать на растерзание красноглазым студентам посмотрим чего там сделают

сомневаюсь что ты что то стоящее сделаешь. не верю :)

>пользовался триальной 30 дневной версией файнридера без напряга

в этом иди на винфаке признавайся. к извращенцам

anonymous
()

пока русский не прикрутят, не интересно. хотя и после прикручивания ей до Файн ридера еще далеко...

cleg
()
Ответ на: комментарий от Arceny

> УРа! В общем радует. Русский прикрутят :-))

Подобных OCR со свободным кодом уже несколько лет несколько штук. С русским что-то успехов не видно. Что прикручивать то?

Evgueni ★★★★★
()

Google порабощает Планету, и это здорово!

plm ★★★★★
()
Ответ на: комментарий от Evgueni

Забыл добавить: В общем, как всегда нужен герой :)

Evgueni ★★★★★
()

Page layout не понимает, с grayscale и цветом не работает... Не, ребята, это очень и очень слабая штука. Оно может и "аккуратнее", чем большинство GPL продуктов, но вот с функционалом напряг изрядный. И два девелопера. В общем, надо в сырцы посмотреть на пример используемого метода, но первое впечатление - слабовато, определённо слабовато. Zoning - он должон быть прежде всего, распознать букву - практически элементарно, как ни странно (отдельную, да, не в слове ;)

anonymous
()


забавно. содержимое директории doc/ конечно же поражает своей полнотой. да и расширение .cpp у чисто сишного кода несколько удивляет. прелестная похоже штучка :-/

// wbr

klalafuda ★☆☆
()

Может суперспециалисты ЛОРа прикрутят к этому делу русский язык?

birdie ★★★★★
() автор топика
Ответ на: комментарий от propheta

>c FineReader'ом мало что может потягаться. А то, что русские буквы не распознаются - это действительно плохо

были бы "кости", а "мясо" нарастет ;)

AcidumIrae ★★★★★
()
Ответ на: комментарий от Orlangoor

Вычислительной мощности хватит если. Ведь с таким делом даже кластер из ананимусов с трудом справляется...

bugmaker ★★★★☆
()
Ответ на: комментарий от birdie

Обязательно прикрутим! Вот и подходящий OCR движок для sK1(http://sk1.sf.net) - думали ocrad попользовать, но раз такая шара катит... Оч хорошо!

Linfan ★★★★★
()
Ответ на: комментарий от Sun-ch

> А вроде файнридер портировали под линакс?

Движок только. Да и то старый, да и еще килобаксы за него хотят :(

ser_bur ★★
()
Ответ на: комментарий от birdie

>Хотя в русском есть свои прелести: буква Ю, например
А ещё замечательная буква "Ы" = "Ь" + "1". :)

А насчёт какая разница какой язык, если буквы почти латинские, так оно и нужно для того, чтобы такие "прелести" отлавливать. Попробовали распознать, проверили по словарику, если лажа - попробовали другие буквы. :)

anonymous
()
Ответ на: комментарий от Sun-ch

Продают только движок для создание коммерческих продуктов, что _сильно_ дороже FineReader, который идёт с каждым сканером.

Evgueni ★★★★★
()
Ответ на: комментарий от palach

Re: Google дарит всем Open Source OCR ->

palach >а с комерческими системами, тем же файнридером, она сможет потягаться?

Уже сколько раз повторяю: ОЕПНСОРС НЕ ИСКЛЮЧАЕТ КОММЕРЦИЮ!!!! И, кстати, этот файнридер весело распознаёт чистый, незапачканный текст =) Например вместо слова "неедля" выдавал "педеля" =) Подобных примеров огромное количество. Так что про файнридер ты зря... Если это лучшая OCR, то всё остальное нормально текст распозначать не может.

Hokum >если конечно реально кому-то нужно распознавать русские тексты.

А как тогда рефераты писать? От руками? ;)

Ay49Mihas >У нас используется почти латинский алфавит

Ну не сказал бы... Как никак немало из греческого алфавита. А почти латинский - это уже тюркские народы.

Quasar ★★★★★
()
Ответ на: комментарий от Evgueni

И что же? За все это время ни одного коммерческого продукта так и не было создано? Может они цены сильно задрали, или качество движка не очень высокое?

Sun-ch
()
Ответ на: комментарий от Sun-ch

> И что же? За все это время ни одного коммерческого продукта так и не было создано? Может они цены сильно задрали, или качество движка не очень высокое?

Ничего слышно не было. Кроме того продукт необязательно продавать как программную систему распознавания. Вон в тех-же ручках-переводчиках (провёл по бумаге - она тебе ответ высветила) кто знает что-там сидит.

Evgueni ★★★★★
()

а капчи гугла оно распознает?

anonymous
()

У каждой бумажной копии есть электронный исходник. Если это, конечно. не "Слово о полку игореве". Надо делиться исходниками. Распознавалки - проприетарская фтопочная отрыжка.

anonymous
()
Ответ на: комментарий от anonymous

>У каждой бумажной копии есть электронный исходник.

Не все книги издавались в XXI веке.

KRoN73 ★★★★★
()
Ответ на: комментарий от anonymous

Не у всех бумажных копий есть электронный исходник. К сожалению. На меня вот тут недавно свалилось счастье по распознаванию скольки-то там тысяч страниц, битком набитых мелкими циферками... Статистика с какого-то там года и по сегодняшний день... По эн страниц на год... На пишущей машинке печатали... а потом цифровой камерой криво снимали :) :*-( (жалобным голосом) Хочу OCR!!! Чтобы как в имджмэджике, скриптом... ну, т.е. автоматизировать процесс... Да только не тянет никто... ocrad выдает такое что лучше не видеть... файнридеру даже местами ахинея какая-то мерещится...

fiowro ★★
()
Ответ на: комментарий от Sun-ch

> А вроде файнридер портировали под линакс? Или я опять чего то не так понял?

SDK для разработчика и за немерянное бабло.

fernik
()
Ответ на: комментарий от birdie

>На самом деле, русский распознавать даже легче, чем английский.

конечно, избыточность русского текста намного больше, чем английского, надо только научить машину её использовать

shafff
()
Ответ на: комментарий от shafff

>>Надо делиться исходниками.

Ага, конечно-конечно.

попробуй-скачай любое более-менее современное произведение.. - шиш

Lockywolf ★★★
()
Ответ на: комментарий от anonymous

>пользовался триальной 30 дневной версией файнридера без напряга

И как? Копирование в буфер работает? И сохранение тоже? Лучше сразу признайся в каком году дело было. Или всё-таки это была честно взломаная коммерческая версия?

acheron ★★★★
()
Ответ на: комментарий от fernik

> А вроде файнридер портировали под линакс? Или я опять чего то не так понял?

AFAIK, обещают, что следующая версия нормально будет работать под вайном. И всё.

acheron ★★★★
()
Ответ на: комментарий от fiowro

> Не у всех бумажных копий есть электронный исходник. К сожалению. На меня вот тут недавно свалилось счастье по распознаванию скольки-то там тысяч страниц, битком набитых мелкими циферками... Статистика с какого-то там года и по сегодняшний день... По эн страниц на год... На пишущей машинке печатали... а потом цифровой камерой криво снимали :) :*-( (жалобным голосом) Хочу OCR!!! Чтобы как в имджмэджике, скриптом... ну, т.е. автоматизировать процесс... Да только не тянет никто... ocrad выдает такое что лучше не видеть... файнридеру даже местами ахинея какая-то мерещится...

А можно пример странички?

syomin
()

вопрос в тему и не совсем :)

буквально вчера возился я с этим самым finereader'ом (под оффтопик) -- так он, зараза, прекрасно паспознанный русский текст сохраняет крякозябрами -- толи какя-то извращённая форма uft, толи хз что. В любом случае не читабельно (сплошные квадратики) :(

ни кто не сталкивася?

beastie ★★★★★
()
Ответ на: комментарий от Orlangoor

>А ЛОРовские буковки он взломает?

Я их даже трезвый взломать не могу. Так что одним анонимусом меньше

SatanClaus ★★★
()
Ответ на: комментарий от Evgueni

> Подобных OCR со свободным кодом уже несколько лет несколько штук. С русским что-то успехов не видно. Что прикручивать то?

AFAIK, большинство самописных OCR программ жёстко ориентированы на конкретный язык и добавление ещё одного алфавита/языка - задача нетривиальная. Пример - gocr (со слов разработчиков). Вроде, clara - такая же. Остальные, имхо, для работы ещё непригодны.

Дорогие коммерческие системы вроде FineReaderа часто, наоборот, предусматривает расширение и обучение новым символам. Правда иероглифам FineReader так пока и не смогли научить, ABBY говорит, что для этого нужно сильно переделать движок. Поэтому есть надежда, что чего-то смогут добиться с бывшей коммерческой системой.

acheron ★★★★
()
Ответ на: комментарий от beastie

> finereader паспознанный русский текст сохраняет крякозябрами

Защита от копирования в новых версиях. Недоломаная. Подробнее - на http://www.abbyy.ru/finereader/forum/ Кстати, копирование в буфер и вставка тоже дадут крякозябры. Если FineReader покупал - иди ругаться с продавцом, что продал "пиратку" (или сразу заявление в ФСБ :) ), если нет - ищи ещё один кряк. Что-то типа "finereader crack normal characters in saved files".

acheron ★★★★
()
Ответ на: комментарий от acheron

Нормальный кряк к файнридеру есть, насколько помню, на ру-борде. Линков давать не буду, ибо потрут как варез.

Ramen ★★★★
()
Ответ на: комментарий от acheron

> AFAIK, большинство самописных OCR программ жёстко ориентированы на конкретный язык и добавление ещё одного алфавита/языка - задача нетривиальная. Пример - gocr (со слов разработчиков). Вроде, clara - такая же.

Не вроде, а не такая же. Ффпоеск :)

AP ★★★★★
()
Ответ на: комментарий от vasaka

> я только не понял, а под какой лицензией они открыли эти исходники

В исходниках сказано, что под Apache License.

Это не C, а C++. Сделал "./configure; make". Получил много warnings (игнорировал) и несколько ошибок компиляции. Не стал долго разбираться. В ccutil/getopt.h добавил #ifndef GLOBALS_H, #endif вокруг проблематичных деклараций, аналогично в ccmain/tfacep.h. Собрался бинарник ccmain/tesseract, который перенёс директорией выше (иначе потом не найдёт данных). Запустил, тот требует /usr/bin/X11/xterm, которого у меня в системе нет, зато есть /usr/bin/xterm. Создал wrapper. Комманда запуска xterm была ошибочна. Заменил сначала xterm wrapper на: echo "$@". Исправил wrapper /usr/bin/X11/xterm, чтобы xterm держался, а не выпадал по ошибке (так и не понял пока для чего это нужно, возможно издержки дебагинга). Запустил: "./tesseract /tmp/my-xterm-screenshot.tiff output batch", получил 3 пустых файла output.*. На этом решил прерваться.

Кто-то заставил tesseract работать?

mihalych ★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.