LINUX.ORG.RU

Запланировано открытие исходных текстов CuneiForm


0

0

Компания Cognitive Technologies намерена открыть исходные тексты популярной системы распознавания CuneiForm. Официально об открытии исходных кодов будет объявлено 12 декабря. Одновременно с открытием исходников системы компания также презентует новую программу "Распознавание должно быть на каждом компьютере".

>>> Подробности

★★★

Проверено: Shaman007 ()
Ответ на: комментарий от gigabito

Справки, скажем, в налоговой Вы тоже абсолютно все в электронном виде получаете? Это не нужно каждому (мне, например), но тем кому нужно - это необходимо.

Ну нет пока повсеместного электронного документооборота. В подавляющем большинстве случаев используется исключительно для увеличение числа бумаг, а не для их подавления. Электронные архивы - это один из способов исправить эту ситуацию.

Evgueni ★★★★★
()
Ответ на: комментарий от Evgueni

давно уже всё в електронном виде. прямо в емейл всю свою хренотень присылают. так что лучше не OCR разрабатывать а бюрократическую систему в порядок приводить. кстате насколько я вкурсе, в россии всё тоже самое давно. и справки присылаются и налоги через инет платятся.

gigabito
()
Ответ на: комментарий от Evgueni

справки от налоговой, кстате если они бумажные, гораздо лучше просто в картинки сваливать. их же никто править наверное не собирается. а так распознал - подкорректировал - сохранил - вах потом читаеш а пара слов пропала. всякое случается.

gigabito
()
Ответ на: комментарий от anonymous

anonymous> А сколько сейчас есть OpenSource OCR систем с поддержкой русского?..

Одна. Tesseract называется

Quasar ★★★★★
()
Ответ на: комментарий от anonymous

anonymous> При всем моем уважении, не стоит так о FineReader.

Ага. Особенно когда он частенько на чистом отсканированном тексте делает ляпы вроде "педеля" вместо "неделя". Говно этот файнридер. Как был тупой поделкой, так и останется.

Quasar ★★★★★
()
Ответ на: комментарий от gigabito

Ключевая фраза: полнотекстовый поиск - это значительно увеличивает ценность электронной копии. Бумажных справок пока на порядки к сожалению больше. Про то, что от этого следует уходить очевидно, но это счастливое будущее будет позже, а пока имеем кучу бумаги с текстом без возможности добраться до источника.

Ну и мелочи типа проектов перевода всех книг которые это допускают в электронную форму (к примеру архивы Штази - около 1000 мешков с документами нарезанных лапшой).

Evgueni ★★★★★
()
Ответ на: комментарий от DOKA

>> А сколько сейчас есть OpenSource OCR систем с поддержкой русского?..

> Нисколько. Зато есть куча блокнотов, мульон тетрисов, более сотни дистров и бездарный римейк Джавы. Заняты, короче все изобретением велосипедов, на полезные вещи времени нет.

Этот OCR *действительно* нужнен единицам из десятков/сотен тысяч (+ в российских школах зачем-то). Признаюсь, я в свои 20 лет видел только один раз, когда распознавали текст: один знакомый поставил просто "на посмотреть" что это такое: поигрался денек-другой, показал другим и успешно удалил за ненадобностью (ибо есть гугл, где уже всё распознано давно).

shahid ★★★★★
()
Ответ на: комментарий от Evgueni

>тем кому нужно - это необходимо

потрясающая своей глубиной мысль

anonymous
()

Толку сейчас говорить? 12-ого декабря и посмотрим.... что и как... и под какой лицензией откроют... и всё ли откроют...

а вообще за OCR на русском линуксе уже давно пора конкурентную борьбу вести... Вот через несколько лет переведут на линукс школы, а там OCR уже от Cognitive Technologies по умолчанию в комплекте. FineReader - нах не нужен

Только всё это мечты... даже и не вериться что русский OCR под линух может быть... качественный OCR

AlexzAK
()
Ответ на: комментарий от AlexzAK

>Тем не менее, FineReader -- популярнейший. По крайней мере, у тех, кто книги сканирует и в IRC выкладывает.

Винда тоже популярна, и что? Она от этого становится хорошим продуктом?

Jaga ★★★
()

ABBYY в пролёте! Со стардиктом уже пролетели, на очереди CuneiForm!

GladAlex ★★★★★
()
Ответ на: комментарий от DOKA

>Нисколько. Зато есть куча блокнотов, мульон тетрисов, более сотни дистров и бездарный римейк Джавы. Заняты, короче все изобретением велосипедов, на полезные вещи времени нет.

+1 :) Горькая, но правда! ;)

GladAlex ★★★★★
()

И почему ни кто так и не вспомнил о том что OCR как часть проекта "электронное зрение" очень важна в робототехнике?

SLiDER
()
Ответ на: комментарий от GFORGX

я думаю что в ближайшее время, если они не хотят разорится, будут вынуждены хотя бы начать _продавать_ свой бесценный продукт под линукс.

вообще в их нежелании выпускать платный продукт под вторую по распространенности ось в мире просто наводит на какие то мысли о срочном визите к психиатру топ менеджера данной компании... или о ликвидации не позволяющих начать продажи комплексов каким то другим популярным методом --- например удлинением члена до достаточно длины ;)

PS

anonymous
()
Ответ на: комментарий от Jaga

>>Тем не менее, FineReader -- популярнейший.

> Винда тоже популярна, и что? Она от этого становится хорошим продуктом?

Винда захватила рынок из-за того, что её продавали в комплекте с компьютерами. Здесь ситуация иная -- в середине 90-х обычто со сканерами шла какая-нибудь триальная версия Recognita. CuneiForm и FineReader требовали прилагать какие-то дополнительные усилия и доплачивать. Тем не менее, FineReader вытеснил подавляющее большинство конкурентов. Если верить гуглу, реальных конкурентов у него сейчас всего 2.

acheron ★★★★
()
Ответ на: комментарий от acheron

>Тем не менее, FineReader вытеснил подавляющее большинство конкурентов. Если верить гуглу, реальных конкурентов у него сейчас всего 2.

Интересно, кто? Какой-нибудь IRIS?...

anonymous
()
Ответ на: комментарий от anonymous

>вообще в их нежелании выпускать платный продукт под вторую по распространенности ось в мире просто наводит на какие то мысли о срочном визите к психиатру топ менеджера данной компании...

Точно! :)

GladAlex ★★★★★
()
Ответ на: комментарий от shahid

> ибо есть гугл, где уже всё распознано давно

А как насчет официальных документов, которые (в России, по крайней мере) издаются на бумаге? Их электронные версии существуют только благодаря деятельности таких компаний, как Консультант, Гарант, Кодекс.

И за одну из этих компаний я могу сказать достаточно точно - там порядка 200 человек занимаются _только_ переводом документов из бумажной в электронный вид (сканирование -> FineReader -> несколько этапов вычитки). Плюс еще человек 200 занимаются вводом этих документов в документарные базы, добавлением атрибутов (без которых, кстати, эти документы в электронном виде имеют не очень высокую ценность для пользователей).

Так вот, у этих компаний _очень_ много пользователей. Так что не надо насчет ненужности распознавания.

Надо сказать, что в этой компании с удовольствием бы отказались от FineReader'а, если бы что-то другое умело распознавать на сходном с ним уровне. Потому как дурацкая политика ABBY с USB-ключами лицензий, которые имеют лимит на кол-во распознаваемых страниц в месяц и не имеют драйверов подо что-то иное, нежели 32-битная Windows, достала. Да, есть еще "программная лицензия", но она тоже не сахар. И судя по тому, как трудно выбить из отдела связи с ABBY новый ключ (хотя бы для разработки внутренних решений на базе FineReader'а), стоят эти лицензии немало.

anonymous
()
Ответ на: комментарий от anonymous

>А как насчет официальных документов, которые (в России, по крайней мере) издаются на бумаге? Их электронные версии существуют только благодаря деятельности таких компаний, как Консультант, Гарант, Кодекс.

Хм, а это как http://www.rg.ru/ ?

maraudeur
()
Ответ на: комментарий от DOKA

> Нисколько. Зато есть куча блокнотов, мульон тетрисов, более сотни дистров и бездарный римейк Джавы. Заняты, короче все изобретением велосипедов, на полезные вещи времени нет.

А че ты хотел от джаст фор фан? Как это часто бывает - сделал блокнот или велосипед, развлекся и затем занялся полезным делом - клепанием проприетарщины за зарплату.

anonymous
()
Ответ на: комментарий от sv75

Это тормознутый ГеЦеЦе Жаба, быдло.

Собсно ГеЦеЦе - весь тормоз.

anonymous
()

>Запланировано открытие исходных текстов CuneiForm

Ура, не поверите, я думал об этом :-)

Работать с CuneiForm мне больше нравилось, чем с ридером.

Ждем.

record ★★★★★
()

Если это портируют в Линукс (что нихрена не факт), то это будет на 100% лучшим OCR. Готов заняться GUI.

oguretz
()
Ответ на: комментарий от maraudeur

> Хм, а это как http://www.rg.ru/ ?

Примерно также, судя по всему, только документов на порядок меньше. Понятно, что переводом документов в электронный вид занимаются многие. Я назвал самых крупных. Кстати, довольно часто на официальных сайтах выкладываются электронные версии документов, подготовленные кем-то из озвученной выше тройки. Вот, например, результаты работы "Кодекса": http://www.assembly.spb.ru/manage/page?tid=633200014&nd=706127730&pre... http://13aas.arbitr.ru/index?tid=633200015&nd=781836834

Но в публичный доступ выкладывается далеко не все. Часть - за деньги, часть в интернете вообще не появляется.

anonymous
()
Ответ на: комментарий от shahid

>Этот OCR *действительно* нужнен единицам из десятков/сотен тысяч

Да ну?

>Признаюсь, я в свои 20 лет видел только один раз

Мсье не учится, и работает в области, где печатной информации не водится вовсе?

>ибо есть гугл, где уже всё распознано давно

Твои слова да гуглу бы в уши. :) Да только вот я чуть ли не еженедельно сталкиваюсь с ситуациями, когда гугл с присными не выдают ссылок на нужный текст ни на публичных реурсах, ни в платных библиотеках/реферато-диссертационных помойках. И в p2p тоже шиш, бо искомый текст просто не распознавался, либо распознавался кем-то для личных нужд и не выкладывался никуда.

bigc ★★
()
Ответ на: комментарий от bigc

> Мсье не учится

А вот тем кто учится OCR противопоказан по определению. Лекции и рефераты нужно самим писать.

Evgueni ★★★★★
()
Ответ на: комментарий от anonymous

>Ну, девятый reader жестко сливает, даже своему предшественнику :) [ http://offline.computerra.ru/2007/709/340366/ ]

Козловский аки всегда беллетристики понаписал :D

Я с этим поделием в порядке написания обзора тоже немало повозился. И как раз движок OCR весьма порадовал, посравнению с 8-кой. Ну или допиленные надстройки над движком в самой софтине, особенно по части сложных таблиц, Х3. Зато в отальном -- мрак натуральный: жрет память гигами, тормозит как тварь распоследняя, интерфейс в своей неконсистентности аналогов не имеет...

bigc ★★
()
Ответ на: комментарий от home_user

>две _работающих_ программы для распознавания текстов.

Пока они две _фигово_ работающих.

dn2010 ★★★★★
()
Ответ на: комментарий от Evgueni

>Лекции и рефераты нужно самим писать.

Ага :)

>тем кто учится OCR противопоказан по определению

Только вот, пара-тройка десятков страничек из _единственного_ наличествующего экземпляра книжки на пяток человек в виде сканов jpg/png тоже не назовешь удачным решением.

bigc ★★
()
Ответ на: комментарий от bigc

>Только вот, пара-тройка десятков страничек из _единственного_ наличествующего экземпляра книжки на пяток человек в виде сканов jpg/png тоже не назовешь удачным решением.

Исходя из этого, придём к выводу что обучение в РФ и Linux несовместимы в полной мере. Обучение у нас не организовано соответствующим образом, а разработчики ПО не хотят делать софт под Линукс, облегчающий эту проблему.

oguretz
()
Ответ на: комментарий от bigc

> Только вот, пара-тройка десятков страничек из _единственного_ наличествующего экземпляра книжки на пяток человек в виде сканов jpg/png тоже не назовешь удачным решением.

Ксерокопию отменили уже?

anonymous
()
Ответ на: комментарий от anonymous

IMHO здесь правильнее ставить вопрос о доступности литературы необходимой для учебного процесса, если конечно искомая книжка не антидемидович.

Evgueni ★★★★★
()
Ответ на: комментарий от oguretz

>Исходя из этого, придём к выводу что обучение в РФ и Linux несовместимы в полной мере. Обучение у нас не организовано соответствующим образом, а разработчики ПО не хотят делать софт под Линукс, облегчающий эту проблему.

Выражаясь менее радикально: наличие открытого OCR было бы крайне нелишним. Без него не летально, но частенько хреновенько. В.т.ч. и в образовании.

З.Ы. <dream>И еще ссылочку "в виде html" у гугеля в поиске для сответсвующих графических файлов с текстовой информацией</dream> :)

bigc ★★
()
Ответ на: комментарий от anonymous

>Ксерокопию отменили уже?

Нет, равно как и рассылку оных ксерокопий голубиной почтой. Plain text и email быстрее и удобнее.

bigc ★★
()
Ответ на: комментарий от Evgueni

>IMHO здесь правильнее ставить вопрос о доступности литературы необходимой для учебного процесса

Возможно. Но по факту часто имеется дефицит той или иной литературы, в том числе и в бибилиотеках. OCR тут здорово в помощь.

bigc ★★
()
Ответ на: комментарий от bigc

Есть два правильных пути

а) ликвидировать дефицит литературы в библиотеке

б) менять курс в соответствии с наличествующей литературой

Понятно, что в условиях резкого недостатка ресурсов делается не то, что надо, а то, что необходимо. Это ужасно плохо :(

Evgueni ★★★★★
()
Ответ на: комментарий от bigc

>>Ксерокопию отменили уже?

>Нет, равно как и рассылку оных ксерокопий голубиной почтой.

Как же ж ви учитесь/работаете, если до библиотеки только голубки летают?

anonymous
()
Ответ на: комментарий от anonymous

>> Демо-версия под wine не заработала. Жалуется на msvcrt и kernel.

> А если скачать нужные Dll'ки и попробовать "override"'нуть их?

Скачать kernel32.dll? По-моему это невозможно :) Тогда уж лучше сразу Windows в эмуляторе.

Да и последнее время замечаю, что программы с большей вероятностью падают на wine с библиотеками от MS, чем на голом wine...

acheron ★★★★
()
Ответ на: комментарий от anonymous

>Как же ж ви учитесь/работаете, если до библиотеки только голубки летают?

Почему же ж сразу таки до библиотеки? Вот есть у Васи книжка на руках, а у меня и еще четырех рыл нету. Как и времени лишнего нету тоже. Варианты: в теплой обстановке встретиться и отксерить, отсканировать и выслать мейлом килограмм картинок, отсканировать, распознать и выслать мейлом пару-тройку КБайт текста. Какой предпочитаете лично вы?

bigc ★★
()
Ответ на: комментарий от anonymous

>crossover-office+finereader

Жестко, уж лучше нативное :)

X-Pilot ★★★★★
()
Ответ на: комментарий от bigc

> Почему же ж сразу таки до библиотеки? Вот есть у Васи книжка на руках, а у меня и еще четырех рыл нету. Как и времени лишнего нету тоже. Варианты: в теплой обстановке встретиться и отксерить, отсканировать и выслать мейлом килограмм картинок, отсканировать, распознать и выслать мейлом пару-тройку КБайт текста. Какой предпочитаете лично вы?

с этой целью djvu + фотоаппарат на 6 мегапикселей + две настольные лампы + стойка от старого фотоувеличителя ;)

PS

anonymous
()
Ответ на: комментарий от bigc

>Почему же ж сразу таки до библиотеки? Вот есть у Васи книжка на руках, а у меня и еще четырех рыл нету. Как и времени лишнего нету тоже. Варианты: в теплой обстановке встретиться и отксерить, отсканировать и выслать мейлом килограмм картинок, отсканировать, распознать и выслать мейлом пару-тройку КБайт текста. Какой предпочитаете лично вы?

Интересно, а сколько времени, даже с очень хорошим OCRом займет распознавание и даводка до более-менее читаемого вида технической литературы?

Swappp
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.