LINUX.ORG.RU
ФорумTalks

Ситуация с Opensource OCR закритическая


0

1

Ситуация с Opensource OCR закритическая и это мягко сказано. Подававший надежды OpenOCR уже 3 года как сдох и болъше не предлагается для скачивания, тесеракт рухнет, когда у гугла закончатся деньги или когда ему надоест. OpenOCR как первый «кандидат» на замену Finereader в российском корпоративном секторе не выдерживает никакой критики. Его технологии топчется на месте уже 16 лет и будет топтаться еще 30 лет и никому он не будет нужен. Постепенно Abbyy нанесет и уже начинает наносить удар с другой стороны - рынка онлайн решений. На этом рынке OpenOCR точно проиграет Finereader. Таким образом, OpenOCR останется поделкой для мальчуганов с грязного «unix-way», у которых цена Finereader - месячная зарплата стипуха пособие по безработице. И всем понятно, что OpenOCR это никакая не конкуренция Finereader. Это миф. Очень печально, что вокруг него развелись много шума из ничего, типа присвоение статуса «самого лучшего OpenSource проекта России» и «ключевое событие 2007-го года». А что предлагают народу, правильно, кота в мешке, который даже табличные блоки не умеет распознавать. Поэтому скоро эйфория с ним закончится, он всем надоест, и Opensource OCR останется символом выкидывания на помойку в Opensource по принципу «на тебе боже, что нам не гоже» и красноглазия. И это хорошо, товарищи. Никакого Opensource OCR, товарищи!

За то время, за которое ты писал это сообщение, можно было отправить разработчикам Tesseract маленький, но полезный патч.

h31 ★★★★
()

OCR - бесперспективная технология в цифровую эпоху. Ничего удивительного, что ненужной технологией никто не занимается. Имхо, конечно же :)

ollowtf ★★★
()

Зато бесплатно!

O02eg ★★★★★
()
Ответ на: комментарий от ollowtf

Вполне даже перспективная. И алгоритмов уйма. Просто никому особо не хочется этим заниматься, т.к. основные применения OCR выходят за рамки обычных повседневных нужд.

P.S. а разве cuneiform не является отличным конкурентом finereader'а? ЕМНИП, cuneiform уже и с русским научили работать…

Eddy_Em ☆☆☆☆☆
()

Ни разу в последнее время не видел серьёзной надобности в OCR для себя. Если бы сильно нужная штука была - её бы пилили.

Quasar ★★★★★
()
Ответ на: комментарий от Eddy_Em

ЕМНИП, если использовать xsane как графическую морду к движкам, то можно даже наклонный текст сканировать. Проблема в том, что это представляет из себя кучу разрозненных утилит.

valentin_v13 ★★★
()

Уже не помню, когда мне это было необходимо. Но когда пару раз было, я без зазрений совести скачал бесплатный лицензионный Fineкeader через православный bittorrent.

Panic_At_The_Kernel
()
Ответ на: комментарий от valentin_v13

А зачем их вместе объединять?

Сканируем при помощи xsane книжку в набор, скажем, tiff-файлов. Затем при помощи простенького скриптика распознаем каждую страничку в cuneiform. Затем собираем полученный текст. Естественно, без доводки вручную не обойтись. Но и finereader не позволит в полностью автоматическом режиме получить на выходе чистый текст. Особенно если это - техническая литература с формулами, картинками, да еще и в две колонки.

Eddy_Em ☆☆☆☆☆
()

OCR

Оно не нужно. Ситуация с ненужными технологиями действительная закритическая.

shahid ★★★★★
()
Ответ на: комментарий от Eddy_Em

Для кого перспективная? Бизнесу оно не надо, он уже перешёл на электронный документооборот в разных формах. Академические задачи типа оцифровки фондов? Сомнительная перспектива, имхо.

ollowtf ★★★
()
Ответ на: комментарий от ollowtf

Бизнесу оно не надо

Часто бывает надо сканировать отчетность бумажную, OCR очень помогает чтобы 100500 операторов для ввода данных не держать. У нас вроде Finereader используют, хотя я особо не вникал.

//бумажная отчетность нужна, когда у сотрудника ломается кпк например. он берет бумагу и начинает работать.

Loki13 ★★★★★
()
Ответ на: комментарий от ollowtf

ты хоть в бизнесе хоть был? или сидишь у компа с генту и делаешь выводы мирового масштаба и мировой же глупости.

Зы. а знаешь сколько стоит коплект ПО для распознавания результатов ЕГЭ?

djenterprise
() автор топика

Та ладно. Зато же у нас есть Гном3, Юнити и много аудиплееров! И ещё линукс можно переносить на другое железо!

P.S. А кстати, зачем вообще нужно сканирование и распознавание? Я всегда считал, что широким массам домашних пользователей на десктопах как бы не надо каждый день сканировать и распознавать, сканировать и распознавать. Зачем??? Если небольшой документ - проще набрать, а не мучить себя выправлением ошибок и артефактов. Если большой или книга - опять же, дома? Часто? Не понимаю. Если нужно по работе - купите венду, она недорого стоит щас.

Alve ★★★★★
()

пособие по безработице

учитывая, что в среднем пособие при отсутствии работы в течении года перед тем, как стать на учет составляет 800 рублей (максимум установлен в 1100 вроде), то купить лицензию файнридера можно будет спокойно и забить на опеноцр. кстать в гуглодоках же мона распознавать текст

skai-falkorr
()
Ответ на: комментарий от Loki13

бумажная отчетность также ненужна, как и OCR. афаик даже наша украинская налоговая уже научилась в электронном виде всю инфу принимать.
бумажные источники информации, документы и т.д - это мало того что вчерашний день, да и еще и вредно для зеленых легких планеты. так что, оно таки не нужно.

Komintern ★★★★★
()
Ответ на: комментарий от Loki13

Часто бывает надо сканировать отчетность бумажную,

Как бы электронный документооборот более перспективен. Зачем печатать и затем распознавать, если можно договориться о формате обмена? Источник информации цифровой и получатель тоже цифровой.

он берет бумагу и начинает работать.

OCR распознает рукописный текст? о_О Даже если распознает, обосновывать форс-мажорами нужность технологии как-то не очень.

ollowtf ★★★
()
Ответ на: комментарий от ollowtf

OCR распознает рукописный текст?

Цифры в конкретных ячейках таблицы жестко заданной, да распознаёт

Loki13 ★★★★★
()
Ответ на: комментарий от ollowtf

Для кого перспективная?

Для криминалистов, например; для разработчиков планшетов (чтобы можно было писать при помощи стило); распознавание всяких археологических текстов (клинопись и т.п.) с автоматическим переводом.

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от djenterprise

ты хоть в бизнесе хоть был?

Внезапно, да. Выбрось свой libastral.

а знаешь сколько стоит коплект ПО для распознавания результатов ЕГЭ?

Бизнес здесь причём?

ollowtf ★★★
()
Ответ на: комментарий от Eddy_Em

Естественно, без доводки вручную не обойтись.

Ключевая фраза.
Я-то и без скрипа справлюсь и настроить смогу, наверное, если надо. Тут дело в том, что большинству надо, взять и работать, а не разбираться, что куда прописывать. Честно говоря, мне бы тоже так хотелось бы, особенно, когда времени мало.

Особенно забавляет ситуация, когда всякие минтостроители вкорячивают свои велосипеды, мотивируя тем чтобы «менюшка удобненькая был». Да какая, б***ь, менюшка, когда нужных программ нет как единого целого!?

valentin_v13 ★★★
()
Ответ на: комментарий от Eddy_Em

Но и finereader не позволит в полностью автоматическом режиме получить на выходе чистый текст. Особенно если это - техническая литература с формулами, картинками, да еще и в две колонки.

В Finereader можно МЫШКОЙ указать какая область является картинкой, а какая текстом и получить на выходе вполне читаемую книжку с иллюстрациями и возможностью поиска.

yurikoles ★★★
()

Поддержу тех, которые «не нужно». Лично мне OCR в последний раз был нужен года два назад. И то для какой-то ерунды на пять минут.

Deleted
()
Ответ на: комментарий от yurikoles

В Finereader можно МЫШКОЙ указать какая область является картинкой, а какая текстом и получить на выходе вполне читаемую книжку с иллюстрациями и возможностью поиска.

Сомневаюсь, что такое нужно в наше время.

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от Eddy_Em

для разработчиков планшетов (чтобы можно было писать при помощи стило);

Спорно. Больших преимуществ оно не даёт.

распознавание всяких археологических текстов (клинопись и т.п.) с автоматическим переводом.

Совсем спорно.

ollowtf ★★★
()
Ответ на: комментарий от ollowtf

Ну, насчет планшетов согласен: вводить тексты в читалки электронных книжек может лишь полным извращенцам понадобиться; а вот с археологией что-то ведь надо делать! Как «оцифрить» какую-нибудь египетскую надпись? Хранить картинкой - не очень-ть...

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от Eddy_Em

Мне кажется, что даже лучше 3Д-сканы. С максимальным разрешением. Может у них там в клинописях глубина штриха значение имела? ;)

ollowtf ★★★
()
Ответ на: комментарий от Eddy_Em

Это американские издательства в последнее время начали продавать современные книжки в PDF, до рфских это только начинает доходить. Есть огромное количество литературы, которая не переиздавалась в последние несколько лет. Как её читать на цифровых устройствах?

yurikoles ★★★
()

В гуглдоксах есть распознавалка. Ей и пользуйся.

Polugnom ★★★★★
()
Ответ на: комментарий от yurikoles

Я всякую попсню почти не читаю, а техническая литература распознаванию не подлежит. И читать ее можно лишь в распечатанном виде, либо на десятидюймовых читалках.

Eddy_Em ☆☆☆☆☆
()

OCR - вымирающее нишевое решение, типа как ПО для факсов и сети FIDO. С чего это в 2012 году это могло бы быть проблемой?

Кстати, существующие библиотеки, типа tesseract, вполне себе выполняют нужные разработчикам и спонсорам функции. Это намек.

plm ★★★★★
()
Ответ на: комментарий от vostrik

Примеры можно? А то я в своём отечественном ынтырпрайзе только задачи электронной интеграции встречаю.

ollowtf ★★★
()

Постепенно Abbyy нанесет и уже начинает наносить удар с другой стороны - рынка онлайн решений.

ерунда, не потянут. туда уже хрен влезешь. чего точно стоит опасаться - это вот этого: http://www.abbyy.com/mobileocr/

vostrik ★★★☆
()
Ответ на: комментарий от vostrik

есть куча прикладных задач, где нужен таки OCR. особенно на ведроидах и особенно в ынтырпрайзе

Взлом капчи?

plm ★★★★★
()
Ответ на: комментарий от plm

в ынтырпрайзе

Взлом капчи?

беспощадный российский ынтырпрайз

vostrik ★★★☆
()
Ответ на: комментарий от ollowtf

штрихкодов уже маловато. QR и DM коды могут спасти, конечно, но у них есть свои грабли. судя по тому, что я вижу в этой области, скоро вернутся банальные наклейки с текстом

vostrik ★★★☆
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.