LINUX.ORG.RU
ФорумTalks

Ситуация с Opensource OCR закритическая


0

1

Ситуация с Opensource OCR закритическая и это мягко сказано. Подававший надежды OpenOCR уже 3 года как сдох и болъше не предлагается для скачивания, тесеракт рухнет, когда у гугла закончатся деньги или когда ему надоест. OpenOCR как первый «кандидат» на замену Finereader в российском корпоративном секторе не выдерживает никакой критики. Его технологии топчется на месте уже 16 лет и будет топтаться еще 30 лет и никому он не будет нужен. Постепенно Abbyy нанесет и уже начинает наносить удар с другой стороны - рынка онлайн решений. На этом рынке OpenOCR точно проиграет Finereader. Таким образом, OpenOCR останется поделкой для мальчуганов с грязного «unix-way», у которых цена Finereader - месячная зарплата стипуха пособие по безработице. И всем понятно, что OpenOCR это никакая не конкуренция Finereader. Это миф. Очень печально, что вокруг него развелись много шума из ничего, типа присвоение статуса «самого лучшего OpenSource проекта России» и «ключевое событие 2007-го года». А что предлагают народу, правильно, кота в мешке, который даже табличные блоки не умеет распознавать. Поэтому скоро эйфория с ним закончится, он всем надоест, и Opensource OCR останется символом выкидывания на помойку в Opensource по принципу «на тебе боже, что нам не гоже» и красноглазия. И это хорошо, товарищи. Никакого Opensource OCR, товарищи!

Ответ на: комментарий от vurdalak

Греческие капчи давать только в Греции

греческие буквы встречаются в формулах по всему миру. Если там формула из квантовой хромодинамики то автоматически перенаправлять ее выпускникам физфака? =)

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от vurdalak

И как по-твоему OCR распознает то, что человек не может прочитать?

иногда кстати может, специалиста в теме текста кончено не заменит, но неспециалиста иногда таки превосходит.

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от DNA_Seq

Греческие буквы в формуле и школьник может прочитать. Студент - тем более. А уж если это известная формула...

Другое дело - древние книги на мертвых языках. Но и OCR надо как-то приучать к этим языкам.

vurdalak ★★★★★
()
Ответ на: комментарий от vurdalak

Греческие буквы в формуле и школьник может прочитать.

Это если скан хороший, на плохом может быть не понятно, что там над иксом - штрих или степень, вот спец по контексту и догадается.

А плоский текст коммерческий OCR уже лет 10 распознает без ошибок, даже отличает тире от дефиса

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от vurdalak

Как добиться высокой популярности такой капчи? Нужны ведь миллионы пользователей. Единственный путь, который вижу - платить размещателям этой капчи, но слишком дорого и кто будет платить?

Deleted
()
Ответ на: комментарий от DNA_Seq

OCR != спец по контексту. В данный момент OCR равны неспециалистам, поэтому аналоги рекапчи вполне заменяют OCR и превосходят его по скорости. А если сделать годный алгоритм выбора «разборщиков» для капчи, чтобы он старался подсунуть нужный скан нужному специалисту, капча будет лучше.

vurdalak ★★★★★
()
Ответ на: комментарий от Deleted

Разместителям капчи выгодно ее использовать. Это не реклама, которая только мешает, а способ оградить себя от ботов. Если твоя капча будет уметь давать на матан-форуме матан, а на сайте по CS названия оружия, то это будет цениться как дополнительная атмосфера для сайта.

vurdalak ★★★★★
()
Ответ на: комментарий от vurdalak

ну как минимум наделаешь очепяток в терминологии, не говоря уже о различении кириллицы и латиницы по контексту. Вот попадется какая-нибудь B-изоформа, и как ты догадаешься что за буква, в или b? Там где пасует современный OCR пасует обычно и 99% человеков.

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от vurdalak

поэтому аналоги рекапчи вполне заменяют OCR и превосходят его по скорости.

Ты малость загнул. Во первых в рекапче напрочь исчезает форматирование, а во вторых походу OCR последний раз ты видел году так в 96м

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от DNA_Seq

Человек знает, что обычно в таких терминах используются латинский символы. И да, что ты этим хотел сказать? Это не довод в пользу OCR, она тоже пасует.

vurdalak ★★★★★
()
Ответ на: комментарий от DNA_Seq

Увеличить размер капчи - и будет тебе форматирование. Сделать особую капчу, где надо не распознать текст, а выделить мышкой блок изображения или формулы.

OCR видел году в 2002-2003. Пользовался раза 2, потом уже появился интернет, в котором все отсканировали и распознали за меня.

vurdalak ★★★★★
()
Ответ на: комментарий от vurdalak

Человек знает, что обычно в таких терминах используются латинский символы.

«обычно» не значит всегда, в молекулярной биологии например используются греческие буквы, некоторые из которых похожи на латинские. Да к тому же ты переоцениваешь интеллект среднего пользователя интернетов.

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от vurdalak

Увеличить размер капчи - и будет тебе форматирование.

Как много людей могут определить кегель на глаз?

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от DNA_Seq

Я не говорю, что надо оценивать по среднему пользователю. Просто тут, в отличие от OCR, надо развивать не распознавалку, а правильную оценку пользователей и рассылку капч на тематические сайты, где специалистов больше.

vurdalak ★★★★★
()
Ответ на: комментарий от vurdalak

Так и запишем - Пастернака не читал а осуждаю.

PS Я как раз из тех кто распознает и сканирует.

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от DNA_Seq

Я не про кегель, я про выделение картинок и схем. Кегель распознать уже и OCR сможет, оценить размер строки текста - это тебе не распознавать.

vurdalak ★★★★★
()
Ответ на: комментарий от vurdalak

Я не говорю, что надо оценивать по среднему пользователю.

Если ты хочешь вывешивать это в инет то надо оценивать именно по среднему пользователю, причем по низу средних.

Просто тут, в отличие от OCR, надо развивать не распознавалку, а правильную оценку пользователей и рассылку капч на тематические сайты, где специалистов больше.

И получишь распознавание текста со скоростью сто слов в неделю. На тематических сайтах флудить не принято, пишут мало и по-делу.

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от DNA_Seq

Вот на лоре можно английские технические тексты и маны давать для распознавания. А флуда тут столько, что книжную полку за день распознаешь.

vurdalak ★★★★★
()
Ответ на: комментарий от Eddy_Em

cuneiform уже и с русским научили работать…

он тут до нового года вообще без мейнтейнера был, если чо.
забросили его. последний коммит был в апреле 2010 года.

aol ★★★★★
()
Ответ на: комментарий от vurdalak

Насмешил.Ты походу никогда не читал английский технических текстов. Ну а маны зачем распознавать? Их переводить надо.

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от ollowtf

штрихкоды не внедряли бы, если бы сразу была возможность распознать текст на наклейке, а такая возможность появилась не так давно. возможность же сделать это в масштабах крупного предприятия за приемлемые деньги - только вырисовывается.
а единость информационного пространства когда существует по меньшей мере пяток различных двумерных штрихкодов - это смешно.

vostrik ★★★☆
()
Ответ на: комментарий от vostrik

Мне до балды, если честно. Я просто вижу, что, к примеру, трекинг международной почты работает и посылки со штрихкодами приходят.

ollowtf ★★★
()
Ответ на: комментарий от different_thing

Ты книжки-то читаешь? Небось не пробовал, поди

Лично я читаю только электронные книжки на e-ink и Вам рекомендую.

По сабжу: Cuneiform+YAGF более-менее справляется в простых случаях.

vilisvir ★★★★★
()
Ответ на: комментарий от plm

Кстати, существующие библиотеки, типа tesseract, вполне себе
выполняют нужные разработчикам и спонсорам функции. Это намек.

Толкового HOWTO по применения тессеракта нету.
Его открытость ничего не значит по большому счету.

pacify ★★★★★
()
Ответ на: комментарий от DNA_Seq

Аналитики лора такие аналитики. Я вполне нормально читал и переводил тексты, маны и научные статьи (в том числе не по моей специальности вообще). Правда, не знаю, зачем их распознавать, если тексты уже давно должны выпускаться в первую очередь в электронном виде, и только в каком-то особенном случае (чертежи, которые нужно использовать на объекте в таком формате, что на читалке/планшете он не влезет) можно их распечатывать. А то, что в этих странах все наоборот, не должно волновать разработчиков.

vurdalak ★★★★★
()

я не знаю как там всякие опеносиэр, но по мне так, написать нормальны PyGTK интервейс - ничего сложного. та даже с нуля написать новую осиэрилку на PIL - проще паренной репы. единственная проблема для меня - 'проблема мотивации' (ↄ)

AGUtilities ★★★
()
Ответ на: комментарий от vurdalak

аналитик лора он такой аналитик.

технологии OCR нужны. Точка. Хотя бы мне. И другим миллионам пользователей. И они за это готовы отдавать деньги.

djenterprise
() автор топика
Ответ на: комментарий от djenterprise

Т.е. с OpenSource OCR проблема потому, что вы на эти деньги покупаете проприетарные решения, вместо развития свободных?

O02eg ★★★★★
()
Ответ на: комментарий от djenterprise

Если это энтерпрайзно и пользователи готовы отдавать деньги, что ж никто не оплатил команду кодеров, которые напишут линуксовую OCR?

vurdalak ★★★★★
()
Ответ на: комментарий от ollowtf

личный пример: пришла бумага по почте, я ее отсканировал, распознал, анонимизировал выложил на спец форуме с вопросами

djenterprise
() автор топика
Ответ на: комментарий от djenterprise

В мире opensource тебе никто ничего не должен, ага :)

ollowtf ★★★
()

Из треда я узнал три вещи:
1. CuneiForm теперь называется OpenOCR
2. Кроме него у нас есть няшный Tesseract
3. В школы для детей с задержками умственного развития провели интернеты.

redgremlin ★★★★★
()

выход очевиден, государству нужно купить Abbyy и открыть его))) Тем самым поддержать СПО))

sendel
()
Ответ на: комментарий от Eddy_Em

Ну я по высказыванию «Отлично распознает!» подумал, что может и таблицы уже прикрутили, т.к. последний раз и пользовался cuneiform во время скриншота по ссылке.

amorpher ★★★★★
()
Ответ на: комментарий от Eddy_Em

Бала как-то необходимость (в то время где-то) формуляр распознать, так там таблиц полно.

amorpher ★★★★★
()

Еще один все понял.

Школьники не могут написать OCR, задача другого уровня. А вот десять раз переписать три разных DE — это запросто.

Igron ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.