Запланировано открытие исходных текстов CuneiForm

Ответ на: комментарий от gigabito 08.12.07 09:00:13 MSK

Справки, скажем, в налоговой Вы тоже абсолютно все в электронном виде получаете? Это не нужно каждому (мне, например), но тем кому нужно - это необходимо.

Ну нет пока повсеместного электронного документооборота. В подавляющем большинстве случаев используется исключительно для увеличение числа бумаг, а не для их подавления. Электронные архивы - это один из способов исправить эту ситуацию.

Evgueni ★★★★★
(08.12.07 09:25:20 MSK)

Ответ на: комментарий от Evgueni 08.12.07 09:25:20 MSK

давно уже всё в електронном виде. прямо в емейл всю свою хренотень присылают. так что лучше не OCR разрабатывать а бюрократическую систему в порядок приводить. кстате насколько я вкурсе, в россии всё тоже самое давно. и справки присылаются и налоги через инет платятся.

gigabito ☆
(08.12.07 09:47:50 MSK)

Ссылка

Ответ на: комментарий от Evgueni 08.12.07 09:25:20 MSK

справки от налоговой, кстате если они бумажные, гораздо лучше просто в картинки сваливать. их же никто править наверное не собирается. а так распознал - подкорректировал - сохранил - вах потом читаеш а пара слов пропала. всякое случается.

gigabito ☆
(08.12.07 09:49:58 MSK)

Ответ на: комментарий от anonymous 07.12.07 23:24:24 MSK

anonymous> А сколько сейчас есть OpenSource OCR систем с поддержкой русского?..

Одна. Tesseract называется

~~Quasar~~ ★★★★★
(08.12.07 10:13:01 MSK)

Ссылка

Ответ на: комментарий от anonymous 08.12.07 00:09:48 MSK

anonymous> При всем моем уважении, не стоит так о FineReader.

Ага. Особенно когда он частенько на чистом отсканированном тексте делает ляпы вроде "педеля" вместо "неделя". Говно этот файнридер. Как был тупой поделкой, так и останется.

~~Quasar~~ ★★★★★
(08.12.07 10:16:19 MSK)

Ссылка

Ответ на: комментарий от gigabito 08.12.07 09:49:58 MSK

Ключевая фраза: полнотекстовый поиск - это значительно увеличивает ценность электронной копии. Бумажных справок пока на порядки к сожалению больше. Про то, что от этого следует уходить очевидно, но это счастливое будущее будет позже, а пока имеем кучу бумаги с текстом без возможности добраться до источника.

Ну и мелочи типа проектов перевода всех книг которые это допускают в электронную форму (к примеру архивы Штази - около 1000 мешков с документами нарезанных лапшой).

Evgueni ★★★★★
(08.12.07 10:47:49 MSK)

Ссылка

Ответ на: комментарий от DOKA 08.12.07 01:10:31 MSK

>> А сколько сейчас есть OpenSource OCR систем с поддержкой русского?..

> Нисколько. Зато есть куча блокнотов, мульон тетрисов, более сотни дистров и бездарный римейк Джавы. Заняты, короче все изобретением велосипедов, на полезные вещи времени нет.

Этот OCR *действительно* нужнен единицам из десятков/сотен тысяч (+ в российских школах зачем-то). Признаюсь, я в свои 20 лет видел только один раз, когда распознавали текст: один знакомый поставил просто "на посмотреть" что это такое: поигрался денек-другой, показал другим и успешно удалил за ненадобностью (ибо есть гугл, где уже всё распознано давно).

shahid ★★★★★
(08.12.07 11:20:10 MSK)

Ответ на: комментарий от Evgueni 08.12.07 09:25:20 MSK

>тем кому нужно - это необходимо

потрясающая своей глубиной мысль

anonymous
(08.12.07 11:40:56 MSK)

Ссылка

Толку сейчас говорить? 12-ого декабря и посмотрим.... что и как... и под какой лицензией откроют... и всё ли откроют...

а вообще за OCR на русском линуксе уже давно пора конкурентную борьбу вести... Вот через несколько лет переведут на линукс школы, а там OCR уже от Cognitive Technologies по умолчанию в комплекте. FineReader - нах не нужен

Только всё это мечты... даже и не вериться что русский OCR под линух может быть... качественный OCR

AlexzAK
(08.12.07 11:42:33 MSK)

Ответ на: комментарий от AlexzAK 08.12.07 11:42:33 MSK

>Тем не менее, FineReader -- популярнейший. По крайней мере, у тех, кто книги сканирует и в IRC выкладывает.

Винда тоже популярна, и что? Она от этого становится хорошим продуктом?

Jaga ★★★
(08.12.07 12:21:40 MSK)

ABBYY в пролёте! Со стардиктом уже пролетели, на очереди CuneiForm!

GladAlex ★★★★★
(08.12.07 13:44:30 MSK)

Ссылка

Ответ на: комментарий от DOKA 08.12.07 01:10:31 MSK

>Нисколько. Зато есть куча блокнотов, мульон тетрисов, более сотни дистров и бездарный римейк Джавы. Заняты, короче все изобретением велосипедов, на полезные вещи времени нет.

+1 :) Горькая, но правда! ;)

GladAlex ★★★★★
(08.12.07 13:50:13 MSK)

Ссылка

И почему ни кто так и не вспомнил о том что OCR как часть проекта "электронное зрение" очень важна в робототехнике?

SLiDER ★
(08.12.07 13:52:34 MSK)

Ссылка

Вот тут лучше новость описана: http://news.mail.ru/economics/1516199/

GladAlex ★★★★★
(08.12.07 13:57:33 MSK)

Просветите: чем это - http://www.cognitive.ru/products/cuneiform.htm, от вот этого - http://www.ocr.com/ отличается?! Названия фирм и продуктов одинаковые!

GladAlex ★★★★★
(08.12.07 14:02:22 MSK)

Ссылка

Ответ на: комментарий от GladAlex 08.12.07 13:57:33 MSK

>Вот тут лучше новость описана: http://news.mail.ru/economics/1516199/

Черный PR? o_O

anonymous
(08.12.07 14:03:08 MSK)

Ссылка

Ответ на: комментарий от GladAlex 08.12.07 13:57:33 MSK

Видимо, Абби боятся конкуренции :-)

GFORGX ★★★
(08.12.07 14:05:13 MSK)

Ответ на: комментарий от GFORGX 08.12.07 14:05:13 MSK

я думаю что в ближайшее время, если они не хотят разорится, будут вынуждены хотя бы начать _продавать_ свой бесценный продукт под линукс.

вообще в их нежелании выпускать платный продукт под вторую по распространенности ось в мире просто наводит на какие то мысли о срочном визите к психиатру топ менеджера данной компании... или о ликвидации не позволяющих начать продажи комплексов каким то другим популярным методом --- например удлинением члена до достаточно длины ;)

PS

anonymous
(08.12.07 14:23:47 MSK)

Ответ на: комментарий от Jaga 08.12.07 12:21:40 MSK

>>Тем не менее, FineReader -- популярнейший.

> Винда тоже популярна, и что? Она от этого становится хорошим продуктом?

Винда захватила рынок из-за того, что её продавали в комплекте с компьютерами. Здесь ситуация иная -- в середине 90-х обычто со сканерами шла какая-нибудь триальная версия Recognita. CuneiForm и FineReader требовали прилагать какие-то дополнительные усилия и доплачивать. Тем не менее, FineReader вытеснил подавляющее большинство конкурентов. Если верить гуглу, реальных конкурентов у него сейчас всего 2.

acheron ★★★★
(08.12.07 14:25:21 MSK)

Ответ на: комментарий от GFORGX 08.12.07 14:05:13 MSK

>Видимо, Абби боятся конкуренции :-)

Ну, девятый reader жестко сливает, даже своему предшественнику :) [ http://offline.computerra.ru/2007/709/340366/ ]

anonymous
(08.12.07 14:26:34 MSK)

Ответ на: комментарий от acheron 08.12.07 14:25:21 MSK

>Тем не менее, FineReader вытеснил подавляющее большинство конкурентов. Если верить гуглу, реальных конкурентов у него сейчас всего 2.

Интересно, кто? Какой-нибудь IRIS?...

anonymous
(08.12.07 14:28:44 MSK)

Ответ на: комментарий от anonymous 08.12.07 14:23:47 MSK

>вообще в их нежелании выпускать платный продукт под вторую по распространенности ось в мире просто наводит на какие то мысли о срочном визите к психиатру топ менеджера данной компании...

Точно! :)

GladAlex ★★★★★
(08.12.07 14:29:48 MSK)

Ссылка

Ответ на: комментарий от shahid 08.12.07 11:20:10 MSK

> ибо есть гугл, где уже всё распознано давно

А как насчет официальных документов, которые (в России, по крайней мере) издаются на бумаге? Их электронные версии существуют только благодаря деятельности таких компаний, как Консультант, Гарант, Кодекс.

И за одну из этих компаний я могу сказать достаточно точно - там порядка 200 человек занимаются _только_ переводом документов из бумажной в электронный вид (сканирование -> FineReader -> несколько этапов вычитки). Плюс еще человек 200 занимаются вводом этих документов в документарные базы, добавлением атрибутов (без которых, кстати, эти документы в электронном виде имеют не очень высокую ценность для пользователей).

Так вот, у этих компаний _очень_ много пользователей. Так что не надо насчет ненужности распознавания.

Надо сказать, что в этой компании с удовольствием бы отказались от FineReader'а, если бы что-то другое умело распознавать на сходном с ним уровне. Потому как дурацкая политика ABBY с USB-ключами лицензий, которые имеют лимит на кол-во распознаваемых страниц в месяц и не имеют драйверов подо что-то иное, нежели 32-битная Windows, достала. Да, есть еще "программная лицензия", но она тоже не сахар. И судя по тому, как трудно выбить из отдела связи с ABBY новый ключ (хотя бы для разработки внутренних решений на базе FineReader'а), стоят эти лицензии немало.

anonymous
(08.12.07 14:45:30 MSK)

Ответ на: комментарий от anonymous 08.12.07 14:28:44 MSK

> Какой-нибудь IRIS?

Он. И OmniPage.

acheron ★★★★
(08.12.07 14:48:41 MSK)

Ссылка

Ответ на: комментарий от anonymous 08.12.07 14:45:30 MSK

>А как насчет официальных документов, которые (в России, по крайней мере) издаются на бумаге? Их электронные версии существуют только благодаря деятельности таких компаний, как Консультант, Гарант, Кодекс.

Хм, а это как http://www.rg.ru/ ?

maraudeur
(08.12.07 15:56:40 MSK)

Ответ на: комментарий от DOKA 08.12.07 01:10:31 MSK

> Нисколько. Зато есть куча блокнотов, мульон тетрисов, более сотни дистров и бездарный римейк Джавы. Заняты, короче все изобретением велосипедов, на полезные вещи времени нет.

А че ты хотел от джаст фор фан? Как это часто бывает - сделал блокнот или велосипед, развлекся и затем занялся полезным делом - клепанием проприетарщины за зарплату.

anonymous
(08.12.07 15:59:40 MSK)

Ссылка

Ответ на: комментарий от sv75 08.12.07 02:46:36 MSK

Это тормознутый ГеЦеЦе Жаба, быдло.

Собсно ГеЦеЦе - весь тормоз.

anonymous
(08.12.07 16:35:56 MSK)

Ссылка

>Запланировано открытие исходных текстов CuneiForm

Ура, не поверите, я думал об этом :-)

Работать с CuneiForm мне больше нравилось, чем с ридером.

Ждем.

record ★★★★★
(08.12.07 16:43:37 MSK)

Ссылка

Если это портируют в Линукс (что нихрена не факт), то это будет на 100% лучшим OCR. Готов заняться GUI.

oguretz ★
(08.12.07 17:49:10 MSK)

Ответ на: комментарий от oguretz 08.12.07 17:49:10 MSK

Лучшим нативным OCR для Линукса в смысле.

oguretz ★
(08.12.07 17:53:30 MSK)

Ссылка

Ответ на: комментарий от maraudeur 08.12.07 15:56:40 MSK

> Хм, а это как http://www.rg.ru/ ?

Примерно также, судя по всему, только документов на порядок меньше. Понятно, что переводом документов в электронный вид занимаются многие. Я назвал самых крупных. Кстати, довольно часто на официальных сайтах выкладываются электронные версии документов, подготовленные кем-то из озвученной выше тройки. Вот, например, результаты работы "Кодекса": http://www.assembly.spb.ru/manage/page?tid=633200014&nd=706127730&pre... http://13aas.arbitr.ru/index?tid=633200015&nd=781836834

Но в публичный доступ выкладывается далеко не все. Часть - за деньги, часть в интернете вообще не появляется.

anonymous
(08.12.07 17:54:48 MSK)

Ссылка

Ответ на: комментарий от shahid 08.12.07 11:20:10 MSK

>Этот OCR *действительно* нужнен единицам из десятков/сотен тысяч

Да ну?

>Признаюсь, я в свои 20 лет видел только один раз

Мсье не учится, и работает в области, где печатной информации не водится вовсе?

>ибо есть гугл, где уже всё распознано давно

Твои слова да гуглу бы в уши. :) Да только вот я чуть ли не еженедельно сталкиваюсь с ситуациями, когда гугл с присными не выдают ссылок на нужный текст ни на публичных реурсах, ни в платных библиотеках/реферато-диссертационных помойках. И в p2p тоже шиш, бо искомый текст просто не распознавался, либо распознавался кем-то для личных нужд и не выкладывался никуда.

bigc ★★
(08.12.07 18:22:54 MSK)

Ответ на: комментарий от bigc 08.12.07 18:22:54 MSK

> Мсье не учится

А вот тем кто учится OCR противопоказан по определению. Лекции и рефераты нужно самим писать.

Evgueni ★★★★★
(08.12.07 18:32:12 MSK)

Ответ на: комментарий от anonymous 08.12.07 14:26:34 MSK

>Ну, девятый reader жестко сливает, даже своему предшественнику :) [ http://offline.computerra.ru/2007/709/340366/ ]

Козловский аки всегда беллетристики понаписал :D

Я с этим поделием в порядке написания обзора тоже немало повозился. И как раз движок OCR весьма порадовал, посравнению с 8-кой. Ну или допиленные надстройки над движком в самой софтине, особенно по части сложных таблиц, Х3. Зато в отальном -- мрак натуральный: жрет память гигами, тормозит как тварь распоследняя, интерфейс в своей неконсистентности аналогов не имеет...

bigc ★★
(08.12.07 18:34:02 MSK)

Ссылка

Ответ на: комментарий от home_user 07.12.07 23:51:26 MSK

>две _работающих_ программы для распознавания текстов.

Пока они две _фигово_ работающих.

dn2010 ★★★★★
(08.12.07 18:40:29 MSK)

Ссылка

Ответ на: комментарий от Evgueni 08.12.07 18:32:12 MSK

>Лекции и рефераты нужно самим писать.

Ага :)

>тем кто учится OCR противопоказан по определению

Только вот, пара-тройка десятков страничек из _единственного_ наличествующего экземпляра книжки на пяток человек в виде сканов jpg/png тоже не назовешь удачным решением.

bigc ★★
(08.12.07 18:40:50 MSK)

Ответ на: комментарий от bigc 08.12.07 18:40:50 MSK

>Только вот, пара-тройка десятков страничек из _единственного_ наличествующего экземпляра книжки на пяток человек в виде сканов jpg/png тоже не назовешь удачным решением.

Исходя из этого, придём к выводу что обучение в РФ и Linux несовместимы в полной мере. Обучение у нас не организовано соответствующим образом, а разработчики ПО не хотят делать софт под Линукс, облегчающий эту проблему.

oguretz ★
(08.12.07 19:22:35 MSK)

Ответ на: комментарий от bigc 08.12.07 18:40:50 MSK

> Только вот, пара-тройка десятков страничек из _единственного_ наличествующего экземпляра книжки на пяток человек в виде сканов jpg/png тоже не назовешь удачным решением.

Ксерокопию отменили уже?

anonymous
(08.12.07 20:11:53 MSK)

Ответ на: комментарий от anonymous 08.12.07 20:11:53 MSK

IMHO здесь правильнее ставить вопрос о доступности литературы необходимой для учебного процесса, если конечно искомая книжка не антидемидович.

Evgueni ★★★★★
(08.12.07 20:56:48 MSK)

Ответ на: комментарий от oguretz 08.12.07 19:22:35 MSK

>Исходя из этого, придём к выводу что обучение в РФ и Linux несовместимы в полной мере. Обучение у нас не организовано соответствующим образом, а разработчики ПО не хотят делать софт под Линукс, облегчающий эту проблему.

Выражаясь менее радикально: наличие открытого OCR было бы крайне нелишним. Без него не летально, но частенько хреновенько. В.т.ч. и в образовании.

З.Ы. <dream>И еще ссылочку "в виде html" у гугеля в поиске для сответсвующих графических файлов с текстовой информацией</dream> :)

bigc ★★
(08.12.07 21:06:03 MSK)

Ссылка

Ответ на: комментарий от anonymous 08.12.07 20:11:53 MSK

>Ксерокопию отменили уже?

Нет, равно как и рассылку оных ксерокопий голубиной почтой. Plain text и email быстрее и удобнее.

bigc ★★
(08.12.07 21:08:21 MSK)

Ответ на: комментарий от Evgueni 08.12.07 20:56:48 MSK

>IMHO здесь правильнее ставить вопрос о доступности литературы необходимой для учебного процесса

Возможно. Но по факту часто имеется дефицит той или иной литературы, в том числе и в бибилиотеках. OCR тут здорово в помощь.

bigc ★★
(08.12.07 21:12:13 MSK)

Ответ на: комментарий от bigc 08.12.07 21:12:13 MSK

Есть два правильных пути

а) ликвидировать дефицит литературы в библиотеке

б) менять курс в соответствии с наличествующей литературой

Понятно, что в условиях резкого недостатка ресурсов делается не то, что надо, а то, что необходимо. Это ужасно плохо :(

Evgueni ★★★★★
(08.12.07 21:22:25 MSK)

Ссылка

Ответ на: комментарий от bigc 08.12.07 21:08:21 MSK

>>Ксерокопию отменили уже?

>Нет, равно как и рассылку оных ксерокопий голубиной почтой.

Как же ж ви учитесь/работаете, если до библиотеки только голубки летают?

anonymous
(08.12.07 21:39:13 MSK)

Ответ на: комментарий от anonymous 08.12.07 02:36:45 MSK

>> Демо-версия под wine не заработала. Жалуется на msvcrt и kernel.

> А если скачать нужные Dll'ки и попробовать "override"'нуть их?

Скачать kernel32.dll? По-моему это невозможно :) Тогда уж лучше сразу Windows в эмуляторе.

Да и последнее время замечаю, что программы с большей вероятностью падают на wine с библиотеками от MS, чем на голом wine...

acheron ★★★★
(08.12.07 21:53:08 MSK)

Ссылка

Ответ на: комментарий от anonymous 08.12.07 21:39:13 MSK

>Как же ж ви учитесь/работаете, если до библиотеки только голубки летают?

Почему же ж сразу таки до библиотеки? Вот есть у Васи книжка на руках, а у меня и еще четырех рыл нету. Как и времени лишнего нету тоже. Варианты: в теплой обстановке встретиться и отксерить, отсканировать и выслать мейлом килограмм картинок, отсканировать, распознать и выслать мейлом пару-тройку КБайт текста. Какой предпочитаете лично вы?

bigc ★★
(08.12.07 22:00:44 MSK)

Ответ на: комментарий от Black_Shadow 07.12.07 23:25:29 MSK

crossover-office+finereader

anonymous
(08.12.07 23:34:04 MSK)

Ответ на: комментарий от anonymous 08.12.07 23:34:04 MSK

>crossover-office+finereader

Жестко, уж лучше нативное :)

X-Pilot ★★★★★
(08.12.07 23:37:31 MSK)

Ссылка

Ответ на: комментарий от bigc 08.12.07 22:00:44 MSK

> Почему же ж сразу таки до библиотеки? Вот есть у Васи книжка на руках, а у меня и еще четырех рыл нету. Как и времени лишнего нету тоже. Варианты: в теплой обстановке встретиться и отксерить, отсканировать и выслать мейлом килограмм картинок, отсканировать, распознать и выслать мейлом пару-тройку КБайт текста. Какой предпочитаете лично вы?

с этой целью djvu + фотоаппарат на 6 мегапикселей + две настольные лампы + стойка от старого фотоувеличителя ;)

PS

anonymous
(09.12.07 00:19:24 MSK)

Ответ на: комментарий от bigc 08.12.07 22:00:44 MSK

>Почему же ж сразу таки до библиотеки? Вот есть у Васи книжка на руках, а у меня и еще четырех рыл нету. Как и времени лишнего нету тоже. Варианты: в теплой обстановке встретиться и отксерить, отсканировать и выслать мейлом килограмм картинок, отсканировать, распознать и выслать мейлом пару-тройку КБайт текста. Какой предпочитаете лично вы?

Интересно, а сколько времени, даже с очень хорошим OCRом займет распознавание и даводка до более-менее читаемого вида технической литературы?

Swappp ★
(09.12.07 01:13:12 MSK)

Похожие темы