Ситуация с Opensource OCR закритическая

0

1

Ситуация с Opensource OCR закритическая и это мягко сказано. Подававший надежды OpenOCR уже 3 года как сдох и болъше не предлагается для скачивания, тесеракт рухнет, когда у гугла закончатся деньги или когда ему надоест. OpenOCR как первый «кандидат» на замену Finereader в российском корпоративном секторе не выдерживает никакой критики. Его технологии топчется на месте уже 16 лет и будет топтаться еще 30 лет и никому он не будет нужен. Постепенно Abbyy нанесет и уже начинает наносить удар с другой стороны - рынка онлайн решений. На этом рынке OpenOCR точно проиграет Finereader. Таким образом, OpenOCR останется поделкой для мальчуганов с грязного «unix-way», у которых цена Finereader - месячная ~~зарплата~~ ~~стипуха~~ пособие по безработице. И всем понятно, что OpenOCR это никакая не конкуренция Finereader. Это миф. Очень печально, что вокруг него развелись много шума из ничего, типа присвоение статуса «самого лучшего OpenSource проекта России» и «ключевое событие 2007-го года». А что предлагают народу, правильно, кота в мешке, который даже табличные блоки не умеет распознавать. Поэтому скоро эйфория с ним закончится, он всем надоест, и Opensource OCR останется символом выкидывания ~~на помойку~~ в Opensource по принципу «на тебе боже, что нам не гоже» и красноглазия. И это хорошо, товарищи. Никакого Opensource OCR, товарищи!

Ссылка

←	Деньги - время

ощущение что google придуриваются

→

← 1 2 3 →

Ответ на: комментарий от vostrik 15.01.12 18:21:00 MSK

А QR, часом, не является двумерным штрихкодом? :)

ollowtf ★★★
(15.01.12 18:25:20 MSK)

Понадобилось на работе сотруднице распознать несколько листов - нарыл в интернете обзор, _чтоб выбрать_, поставил из репозитария 14 федоры. Что за программа - уже не помню, раньше не было нужно и в будущем вряд-ли скоро понадобится, но никаких претензий к качеству не было.

Anonymous ★★★★★
(15.01.12 18:26:29 MSK)

Ссылка

Ответ на: комментарий от Komintern 15.01.12 18:21:04 MSK

та даже Толстого можно найти в электронке, было бы желание.

Т.е. все уже перевели, и больше это не потребуется.

~~TGZ~~ ★★★★
(15.01.12 18:27:57 MSK)

Ссылка

Ответ на: комментарий от Komintern 15.01.12 18:21:04 MSK

Конечно можно, а кому надо спасибо сказать? Вариант с «просто отсканированием» тоже годится, конечно, но с текстовым слоем было бы лучше, особенно в научной или технической литературе

~~different_thing~~
(15.01.12 18:32:49 MSK)

Ответ на: комментарий от Komintern 15.01.12 18:21:04 MSK

То есть отсканировали, распознали один раз - все, дальше OCR не нужен, да? А что делать с теми книжками, которые ещё не распознали?

tiandrey ★★★★★
(15.01.12 18:34:03 MSK)

Ответ на: комментарий от different_thing 15.01.12 18:32:49 MSK

ну в том и дело, что OCR - это одноразовый конвертор, который нет смысла вылизывать и доводить до совершенства, т.к с каждым годом потребность в нем все меньше.

Komintern ★★★★★
(15.01.12 18:34:15 MSK)

Ответ на: комментарий от tiandrey 15.01.12 18:34:03 MSK

один раз отсканировать и распознать. и больше он не нужен, да. на даный момент в электронке есть, не побоюсь сказать, процентов 98% всей мировой литературы.

Komintern ★★★★★
(15.01.12 18:35:02 MSK)

Ответ на: комментарий от Komintern 15.01.12 18:35:02 MSK

на даный момент в электронке есть, не побоюсь сказать, процентов 98% всей мировой литературы.

Без пруфов ты сам знаешь кто. Хотя, с другой стороны, у меня их тоже нет ^_^

tiandrey ★★★★★
(15.01.12 18:37:05 MSK)

Ссылка

Ответ на: комментарий от ollowtf 15.01.12 18:25:20 MSK

с таким успехом что угодно является двумерным штрихкодом, но суть не в этом. если ты имел в виду, что там, где нет rfid, есть какой-либо штрихкод (который может быть двумерным) - это не сильно упрощает логистику. во-первых не всегда можно остановиться на каком-то одном коде, во-вторых, сканеры этих кодов должны быть по всей цепочке, а это сильно усложняет жизнь.
обычная наклейка, которая может быть обработана без специального оборудования и при этом может быть автоматически распознана в крупном узле, гораздо удобнее для этих целей.

~~vostrik~~ ★★★☆
(15.01.12 18:38:46 MSK)

Ответ на: комментарий от Komintern 15.01.12 18:35:02 MSK

Кстати, не стоит забывать, что сейчас многие книжки выпускаются только в бумажном виде, поэтому пока вся литература не будет выпускаться в электронном виде, надобность в OCR не отпадёт.

tiandrey ★★★★★
(15.01.12 18:38:58 MSK)

Ответ на: комментарий от Komintern 15.01.12 18:34:15 MSK

Ещё как есть. Ты недооцениваешь как объём ещё оставшегося материала, так и того, который будет, ибо электронный документооборот ещё далек от повсеместного использования.

~~different_thing~~
(15.01.12 18:45:14 MSK)

Ссылка

Вброшу.

Рекапча вроде как сделана какими-то предприимчивыми людьми для оцифровки бумажных фондов. Там 2 слова. Одно системе известно и является по сути капчей, второе - скан из книги. Пользователь вводит оба слова, сервер получает «распознанный» вариант слова. И так пока всё не оцифруют. Так что для оцивровки фондов уже всё придумали, и ни ОЦР ни абби нам не нужны.

ЗЫ както видел призыв от ололо-дибилов вычислять какое из слов хотят распознать и вводить вместо него чушь. Сервер все-равно проглотит.

chenger ★★
(15.01.12 18:59:03 MSK)

Ссылка

Ответ на: комментарий от tiandrey 15.01.12 18:38:58 MSK

Кстати, не стоит забывать, что сейчас многие книжки выпускаются только в бумажном виде

в этом случае изначально текст в электронном виде уже есть, бумага выступает как средство DRM а OCR - как средство взлома - но это общество менять надо, а не только программы совершенствовать...

Anonymous ★★★★★
(15.01.12 18:59:43 MSK)

Ответ на: комментарий от Eddy_Em 15.01.12 17:40:29 MSK

для разработчиков планшетов (чтобы можно было писать при помощи стило)

И оно будет безошибочно разбирать любой почерк? Сомневаюсь. Тем более сейчас, с целью подражания самизнаетекому, делают сенсорные экраны, на которых затруднительно писать стилусом.

~~Ttt~~ ☆☆☆☆☆
(15.01.12 19:03:11 MSK)

А Abby и не знали, что не нужно.

В общем как всегда в линуксе. Если нет, значит не нужно.

HunOL ★★★★
(15.01.12 19:10:14 MSK)

Ссылка

Ответ на: комментарий от Ttt 15.01.12 19:03:11 MSK

Тем более сейчас, с целью подражания самизнаетекому, делают сенсорные экраны

Не сенсорные, а емкостные. Они все сенсорные.

unlog1c ★★★
(15.01.12 19:11:06 MSK)

Ответ на: комментарий от unlog1c 15.01.12 19:11:06 MSK

Я говорю «сенсорные экраны, на которых затруднительно писать стилусом», а уж про то, что к таким экранам относятся ёмкостные, это и так понятно будет.

~~Ttt~~ ☆☆☆☆☆
(15.01.12 19:15:20 MSK)

Ответ на: комментарий от yurikoles 15.01.12 18:10:48 MSK

+ промежуточные варианты, более близкие к тому, либо другому.

~~Eddy_Em~~ ☆☆☆☆☆
(15.01.12 19:21:15 MSK)

Ссылка

Ответ на: комментарий от Ttt 15.01.12 19:15:20 MSK

Ок, не распарсил. Или точнее сказать - не расOCRил.

unlog1c ★★★
(15.01.12 19:26:36 MSK)

Ссылка

Ответ на: комментарий от Anonymous 15.01.12 18:59:43 MSK

Ну так мне в любом случае проще воспользоваться программой-распознавалкой, чем безрезультатно «бороться» с DRM.

tiandrey ★★★★★
(15.01.12 19:28:18 MSK)

Ссылка

Кому нужны OCR в XXI веке?

~~Alex_A_V~~ ★★
(15.01.12 19:53:04 MSK)

Ссылка

Ответ на: комментарий от Ttt 15.01.12 19:03:11 MSK

лучше задайся вопросом, как много людей одновременно юзают планшеты и привыкли писать от руки.

~~vostrik~~ ★★★☆
(15.01.12 19:59:48 MSK)

Ссылка

OCR нужен для роботов, чтобы читать указатели.

Evgueni ★★★★★
(15.01.12 20:12:26 MSK)

Ответ на: комментарий от different_thing 15.01.12 17:25:19 MSK

Для этого одного mplayer достаточно.

shahid ★★★★★
(15.01.12 20:24:59 MSK)

Ссылка

Ответ на: комментарий от Evgueni 15.01.12 20:12:26 MSK

и захватить мир.

chenger ★★
(15.01.12 20:48:07 MSK)

Ссылка

Полгода назад распознавал отсканированные страницы русского текста. С помощью coneiform. Всё распознала. Что я делаю не так.

zhekas ★
(15.01.12 21:10:48 MSK)

Ссылка

OpenSource OCR

Tesseract и Cuneiform. Оба работают. Оба хуже FR.

Deleted
(15.01.12 21:16:08 MSK)

Ссылка

Ответ на: комментарий от valentin_v13 15.01.12 16:31:21 MSK

???

Deleted
(15.01.12 21:16:43 MSK)

Ответ на: комментарий от ollowtf 15.01.12 16:56:36 MSK

Иногда таки нужная. Хотя с каждым днем нужна все реже и реже.

Deleted
(15.01.12 21:17:17 MSK)

Ответ на: комментарий от Eddy_Em 15.01.12 16:58:58 MSK

ЕМНИП, cuneiform уже и с русским научили работать…

Давно. В целом он юзабелен, но по качеству сливает даже старым FR.

Deleted
(15.01.12 21:18:07 MSK)

Ссылка

Ответ на: комментарий от vostrik 15.01.12 18:38:46 MSK

Если бы обычная наклейка была удобнее, штрихкоды бы не внедряли. Почитай про современные центры сортировки почты и подобное. Единое информационное пространство и штрихкоды упрощают жизнь.

ollowtf ★★★
(15.01.12 22:16:08 MSK)

Ответ на: комментарий от Eddy_Em 15.01.12 17:53:46 MSK

В обиходе OCR нужно лишь школоте, не умеющей с интернетом работать.

Школота сейчас ленивая а обучение поиску информацию в бумажных книгах требует большего времени и мозгов чем поиск в гугле. Даже на лоре две трети «критиков» бумажных книг не умеют работать с индексами. Скорее OCR полезен тем кто работает с научной/технической литературой изданный в золотые годы ибо современные книжки по большей части кривое переписывание книжек в лучшем случае 80х.

DNA_Seq ★★☆☆☆
(15.01.12 22:18:36 MSK)

Ссылка

Ответ на: комментарий от Komintern 15.01.12 18:35:02 MSK

на даный момент в электронке есть, не побоюсь сказать, процентов 98% всей мировой литературы.

только если речь о худлите. Научная литература часто издается тиражами в 1000 экземпляров и меньше. Как-то разбирал шкаф со старыми книгами - более половины из них нет даже на library genesis

DNA_Seq ★★☆☆☆
(15.01.12 22:23:13 MSK)

Ссылка

Ответ на: комментарий от Deleted 15.01.12 21:17:17 MSK

Поэтому и не перспективная.

ollowtf ★★★
(15.01.12 22:24:56 MSK)

Ссылка

Ответ на: комментарий от vostrik 15.01.12 18:21:00 MSK

судя по тому, что я вижу в этой области, скоро вернутся банальные наклейки с текстом

Что же ты видишь в этой области?

~~power~~ ★
(15.01.12 22:25:41 MSK)

Ссылка

Ответ на: комментарий от Alve 15.01.12 17:26:56 MSK

P.S. А кстати, зачем вообще нужно сканирование и распознавание?

Чтобы иметь возможность взять напечатанный документ, электронного оригинала которого давно нет, распознать, поправить и снова распечатать.

Я всегда считал, что широким массам домашних пользователей на десктопах как бы не надо каждый день сканировать и распознавать, сканировать и распознавать.

Не часто. Раз в несколько месяцев.

Если небольшой документ - проще набрать, а не мучить себя выправлением ошибок и артефактов.

FineReader в нормальных документах, нормально отсканированных, ошибок не допускает почти. И работает под wine. Поэтому им и пользуюсь.

Deleted
(15.01.12 22:30:10 MSK)

Ссылка

Ответ на: комментарий от Deleted 15.01.12 21:16:43 MSK

Я к тому, что вместо того, чтобы доделать что-то полезное, делают точно такой же дистрибутив с другими обоями.

valentin_v13 ★★★
(15.01.12 23:33:27 MSK)

Ответ на: комментарий от valentin_v13 15.01.12 23:33:27 MSK

Если ничего другого не умеют, то пусть хоть это делают :) А кто умеет, тот пилит такие дистрибутивы разве что just for lulz (тем более, что у минта почти 100% пакетов - убунта, а у LMDE - почти 100% пакетов - Debian, поэтому вряд ли она отбирает уж очень много ценного времени).

Deleted
(15.01.12 23:36:03 MSK)

Ответ на: комментарий от Deleted 15.01.12 23:36:03 MSK

Если ничего другого не умеют, то пусть хоть это делают :)

facepalm.png
С их упрямством давно можно было какие-нибудь костыли хоть на баше написать для того же OCR.
:-/

valentin_v13 ★★★
(15.01.12 23:48:17 MSK)

Ответ на: комментарий от valentin_v13 15.01.12 23:48:17 MSK

На баше ... OCR

Deleted
(15.01.12 23:51:43 MSK)

Та же рекапча лучше любого OCR. 6 миллиардов обезьянок за час распознают тебе всю библиотеку :3

~~vurdalak~~ ★★★★★
(16.01.12 00:00:33 MSK)

Ответ на: На баше ... OCR от Deleted 15.01.12 23:51:43 MSK

Да, меня, кажется, уносит куда-то. Хотя консольные команды-то есть, только неподготовленный человек вряд ли разберётся, а вот какой-нибудь скирпт типа какого-нибудь «wizard» (или как там программы называются для пошагового выполнения каких-нибудь деёстивй?) можно было написать.

//Хватит мне тут об этом рассуждать.

valentin_v13 ★★★
(16.01.12 00:00:52 MSK)

Ссылка

Ответ на: комментарий от vurdalak 16.01.12 00:00:33 MSK

Кстати, да :-)

valentin_v13 ★★★
(16.01.12 00:01:40 MSK)

Ссылка

Ответ на: комментарий от vurdalak 16.01.12 00:00:33 MSK

Проблема в том что как минимум половина обезьянок не знает языка, а значительная часть имеет проблемы с грамотностью.

DNA_Seq ★★☆☆☆
(16.01.12 00:06:25 MSK)

Ответ на: комментарий от DNA_Seq 16.01.12 00:06:25 MSK

Несложный алгоритм позволяет с большой вероятностью выявить наиболее правильный вариант. Для большей точности пускать один и тот же фрагмент распознавания, пока достоверность не будет выше N процентов.

~~vurdalak~~ ★★★★★
(16.01.12 00:08:26 MSK)

Ответ на: комментарий от vurdalak 16.01.12 00:00:33 MSK

Распознают гуглу библиотеку. А мне не распознают. Потому OCR таки нужен.

Deleted
(16.01.12 00:13:08 MSK)

Ответ на: комментарий от Deleted 16.01.12 00:13:08 MSK

Так надо пилить открытый аналог гугловской рекапчи, где все распознанное раздается свободно и для распознания документы загружаются свободно. Это актуальнее, чем пилить OCR.

~~vurdalak~~ ★★★★★
(16.01.12 00:14:07 MSK)

Ответ на: комментарий от vurdalak 16.01.12 00:08:26 MSK

не знающий слова может не отличить например j от i, не говоря уже о греческих буквах, надстрочных и подстрочных символах и спецзнаков которые в рекапчу ввести просто невозможно. Так что рекапча годится только для оцифровки газет.

DNA_Seq ★★☆☆☆
(16.01.12 00:15:10 MSK)

Ответ на: комментарий от DNA_Seq 16.01.12 00:15:10 MSK

Греческие капчи давать только в Греции, с остальными аналогично. И как по-твоему OCR распознает то, что человек не может прочитать? Оно по определению не может распознавать лучше человека. Только быстрее вводит текст.

~~vurdalak~~ ★★★★★
(16.01.12 00:16:33 MSK)

Ответ на: комментарий от DNA_Seq 16.01.12 00:15:10 MSK

например j от i

более сложный пример - l маленькая и I большая

DNA_Seq ★★☆☆☆
(16.01.12 00:16:56 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 →

←	Деньги - время

Talks

ощущение что google придуриваются

→

OpenSource OCR

На баше ... OCR

Похожие темы