LINUX.ORG.RU
ФорумTalks

Ситуация с Opensource OCR закритическая


0

1

Ситуация с Opensource OCR закритическая и это мягко сказано. Подававший надежды OpenOCR уже 3 года как сдох и болъше не предлагается для скачивания, тесеракт рухнет, когда у гугла закончатся деньги или когда ему надоест. OpenOCR как первый «кандидат» на замену Finereader в российском корпоративном секторе не выдерживает никакой критики. Его технологии топчется на месте уже 16 лет и будет топтаться еще 30 лет и никому он не будет нужен. Постепенно Abbyy нанесет и уже начинает наносить удар с другой стороны - рынка онлайн решений. На этом рынке OpenOCR точно проиграет Finereader. Таким образом, OpenOCR останется поделкой для мальчуганов с грязного «unix-way», у которых цена Finereader - месячная зарплата стипуха пособие по безработице. И всем понятно, что OpenOCR это никакая не конкуренция Finereader. Это миф. Очень печально, что вокруг него развелись много шума из ничего, типа присвоение статуса «самого лучшего OpenSource проекта России» и «ключевое событие 2007-го года». А что предлагают народу, правильно, кота в мешке, который даже табличные блоки не умеет распознавать. Поэтому скоро эйфория с ним закончится, он всем надоест, и Opensource OCR останется символом выкидывания на помойку в Opensource по принципу «на тебе боже, что нам не гоже» и красноглазия. И это хорошо, товарищи. Никакого Opensource OCR, товарищи!

Понадобилось на работе сотруднице распознать несколько листов - нарыл в интернете обзор, _чтоб выбрать_, поставил из репозитария 14 федоры. Что за программа - уже не помню, раньше не было нужно и в будущем вряд-ли скоро понадобится, но никаких претензий к качеству не было.

Anonymous ★★★★★
()
Ответ на: комментарий от Komintern

та даже Толстого можно найти в электронке, было бы желание.

Т.е. все уже перевели, и больше это не потребуется.

TGZ ★★★★
()
Ответ на: комментарий от Komintern

Конечно можно, а кому надо спасибо сказать? Вариант с «просто отсканированием» тоже годится, конечно, но с текстовым слоем было бы лучше, особенно в научной или технической литературе

different_thing
()
Ответ на: комментарий от Komintern

То есть отсканировали, распознали один раз - все, дальше OCR не нужен, да? А что делать с теми книжками, которые ещё не распознали?

tiandrey ★★★★★
()
Ответ на: комментарий от different_thing

ну в том и дело, что OCR - это одноразовый конвертор, который нет смысла вылизывать и доводить до совершенства, т.к с каждым годом потребность в нем все меньше.

Komintern ★★★★★
()
Ответ на: комментарий от tiandrey

один раз отсканировать и распознать. и больше он не нужен, да. на даный момент в электронке есть, не побоюсь сказать, процентов 98% всей мировой литературы.

Komintern ★★★★★
()
Ответ на: комментарий от Komintern

на даный момент в электронке есть, не побоюсь сказать, процентов 98% всей мировой литературы.

Без пруфов ты сам знаешь кто. Хотя, с другой стороны, у меня их тоже нет ^_^

tiandrey ★★★★★
()
Ответ на: комментарий от ollowtf

с таким успехом что угодно является двумерным штрихкодом, но суть не в этом. если ты имел в виду, что там, где нет rfid, есть какой-либо штрихкод (который может быть двумерным) - это не сильно упрощает логистику. во-первых не всегда можно остановиться на каком-то одном коде, во-вторых, сканеры этих кодов должны быть по всей цепочке, а это сильно усложняет жизнь.
обычная наклейка, которая может быть обработана без специального оборудования и при этом может быть автоматически распознана в крупном узле, гораздо удобнее для этих целей.

vostrik ★★★☆
()
Ответ на: комментарий от Komintern

Кстати, не стоит забывать, что сейчас многие книжки выпускаются только в бумажном виде, поэтому пока вся литература не будет выпускаться в электронном виде, надобность в OCR не отпадёт.

tiandrey ★★★★★
()
Ответ на: комментарий от Komintern

Ещё как есть. Ты недооцениваешь как объём ещё оставшегося материала, так и того, который будет, ибо электронный документооборот ещё далек от повсеместного использования.

different_thing
()

Вброшу.

Рекапча вроде как сделана какими-то предприимчивыми людьми для оцифровки бумажных фондов. Там 2 слова. Одно системе известно и является по сути капчей, второе - скан из книги. Пользователь вводит оба слова, сервер получает «распознанный» вариант слова. И так пока всё не оцифруют. Так что для оцивровки фондов уже всё придумали, и ни ОЦР ни абби нам не нужны.

ЗЫ както видел призыв от ололо-дибилов вычислять какое из слов хотят распознать и вводить вместо него чушь. Сервер все-равно проглотит.

chenger ★★
()
Ответ на: комментарий от tiandrey

Кстати, не стоит забывать, что сейчас многие книжки выпускаются только в бумажном виде

в этом случае изначально текст в электронном виде уже есть, бумага выступает как средство DRM а OCR - как средство взлома - но это общество менять надо, а не только программы совершенствовать...

Anonymous ★★★★★
()
Ответ на: комментарий от Eddy_Em

для разработчиков планшетов (чтобы можно было писать при помощи стило)

И оно будет безошибочно разбирать любой почерк? Сомневаюсь. Тем более сейчас, с целью подражания самизнаетекому, делают сенсорные экраны, на которых затруднительно писать стилусом.

Ttt ☆☆☆☆☆
()

А Abby и не знали, что не нужно.

В общем как всегда в линуксе. Если нет, значит не нужно.

HunOL ★★★★
()
Ответ на: комментарий от Ttt

Тем более сейчас, с целью подражания самизнаетекому, делают сенсорные экраны

Не сенсорные, а емкостные. Они все сенсорные.

unlog1c ★★★
()
Ответ на: комментарий от unlog1c

Я говорю «сенсорные экраны, на которых затруднительно писать стилусом», а уж про то, что к таким экранам относятся ёмкостные, это и так понятно будет.

Ttt ☆☆☆☆☆
()
Ответ на: комментарий от yurikoles

+ промежуточные варианты, более близкие к тому, либо другому.

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от Ttt

Я говорю «сенсорные экраны, на которых затруднительно писать стилусом», а уж про то, что к таким экранам относятся ёмкостные, это и так понятно будет.

Ок, не распарсил. Или точнее сказать - не расOCRил.

unlog1c ★★★
()
Ответ на: комментарий от Anonymous

Ну так мне в любом случае проще воспользоваться программой-распознавалкой, чем безрезультатно «бороться» с DRM.

tiandrey ★★★★★
()
Ответ на: комментарий от Ttt

лучше задайся вопросом, как много людей одновременно юзают планшеты и привыкли писать от руки.

vostrik ★★★☆
()
Ответ на: комментарий от different_thing

Для этого одного mplayer достаточно.

shahid ★★★★★
()

Полгода назад распознавал отсканированные страницы русского текста. С помощью coneiform. Всё распознала. Что я делаю не так.

zhekas
()

OpenSource OCR

Tesseract и Cuneiform. Оба работают. Оба хуже FR.

Deleted
()
Ответ на: комментарий от Eddy_Em

ЕМНИП, cuneiform уже и с русским научили работать…

Давно. В целом он юзабелен, но по качеству сливает даже старым FR.

Deleted
()
Ответ на: комментарий от vostrik

Если бы обычная наклейка была удобнее, штрихкоды бы не внедряли. Почитай про современные центры сортировки почты и подобное. Единое информационное пространство и штрихкоды упрощают жизнь.

ollowtf ★★★
()
Ответ на: комментарий от Eddy_Em

В обиходе OCR нужно лишь школоте, не умеющей с интернетом работать.

Школота сейчас ленивая а обучение поиску информацию в бумажных книгах требует большего времени и мозгов чем поиск в гугле. Даже на лоре две трети «критиков» бумажных книг не умеют работать с индексами. Скорее OCR полезен тем кто работает с научной/технической литературой изданный в золотые годы ибо современные книжки по большей части кривое переписывание книжек в лучшем случае 80х.

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от Komintern

на даный момент в электронке есть, не побоюсь сказать, процентов 98% всей мировой литературы.

только если речь о худлите. Научная литература часто издается тиражами в 1000 экземпляров и меньше. Как-то разбирал шкаф со старыми книгами - более половины из них нет даже на library genesis

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от vostrik

судя по тому, что я вижу в этой области, скоро вернутся банальные наклейки с текстом

Что же ты видишь в этой области?

power
()
Ответ на: комментарий от Alve

P.S. А кстати, зачем вообще нужно сканирование и распознавание?

Чтобы иметь возможность взять напечатанный документ, электронного оригинала которого давно нет, распознать, поправить и снова распечатать.

Я всегда считал, что широким массам домашних пользователей на десктопах как бы не надо каждый день сканировать и распознавать, сканировать и распознавать.

Не часто. Раз в несколько месяцев.

Если небольшой документ - проще набрать, а не мучить себя выправлением ошибок и артефактов.

FineReader в нормальных документах, нормально отсканированных, ошибок не допускает почти. И работает под wine. Поэтому им и пользуюсь.

Deleted
()
Ответ на: комментарий от valentin_v13

Если ничего другого не умеют, то пусть хоть это делают :) А кто умеет, тот пилит такие дистрибутивы разве что just for lulz (тем более, что у минта почти 100% пакетов - убунта, а у LMDE - почти 100% пакетов - Debian, поэтому вряд ли она отбирает уж очень много ценного времени).

Deleted
()
Ответ на: комментарий от Deleted

Если ничего другого не умеют, то пусть хоть это делают :)

facepalm.png
С их упрямством давно можно было какие-нибудь костыли хоть на баше написать для того же OCR.
:-/

valentin_v13 ★★★
()

Та же рекапча лучше любого OCR. 6 миллиардов обезьянок за час распознают тебе всю библиотеку :3

vurdalak ★★★★★
()
Ответ на: На баше ... OCR от Deleted

Да, меня, кажется, уносит куда-то. Хотя консольные команды-то есть, только неподготовленный человек вряд ли разберётся, а вот какой-нибудь скирпт типа какого-нибудь «wizard» (или как там программы называются для пошагового выполнения каких-нибудь деёстивй?) можно было написать.

//Хватит мне тут об этом рассуждать.

valentin_v13 ★★★
()
Ответ на: комментарий от vurdalak

Проблема в том что как минимум половина обезьянок не знает языка, а значительная часть имеет проблемы с грамотностью.

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от DNA_Seq

Несложный алгоритм позволяет с большой вероятностью выявить наиболее правильный вариант. Для большей точности пускать один и тот же фрагмент распознавания, пока достоверность не будет выше N процентов.

vurdalak ★★★★★
()
Ответ на: комментарий от Deleted

Так надо пилить открытый аналог гугловской рекапчи, где все распознанное раздается свободно и для распознания документы загружаются свободно. Это актуальнее, чем пилить OCR.

vurdalak ★★★★★
()
Ответ на: комментарий от vurdalak

не знающий слова может не отличить например j от i, не говоря уже о греческих буквах, надстрочных и подстрочных символах и спецзнаков которые в рекапчу ввести просто невозможно. Так что рекапча годится только для оцифровки газет.

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от DNA_Seq

Греческие капчи давать только в Греции, с остальными аналогично. И как по-твоему OCR распознает то, что человек не может прочитать? Оно по определению не может распознавать лучше человека. Только быстрее вводит текст.

vurdalak ★★★★★
()
Ответ на: комментарий от DNA_Seq

например j от i

более сложный пример - l маленькая и I большая

DNA_Seq ★★☆☆☆
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.