LINUX.ORG.RU

Cuneiform-Qt — графический интерфейс к Cuneiform

 ,


0

0

Вышла версия 0.1.1 программы Cuneiform-Qt — графического интерфейса к программе распознавания текстов Cuneiform — лучшей на сегодня из свободных программ OCR под Линукс.

Интерфейс использует библиотеку Qt4. Пока программа работает только с файлами изображений и не умеет взаимодействовать с SANE.

Автор — Андрей Черепанов, участник команды Alt Linux.

Сообщение в блоге автора

Исходный текст

>>> Страница программы

★★★★★

Проверено: Dimez ()
Ответ на: комментарий от GreyDoom

GreyDoom а что плохого в пеаре? что еще может получить от общества программист работающий в опенсорсе, кроме удовлетворения собственного тщеславия практически ничего :) я серьезно...

angel_il ★★★★
()
Ответ на: комментарий от Deleted

Тролли EmStudio и GotDotNetMono "не нужны"(с). Ударьте их лопатой, выройте яму и "закопайте"(с). Совершенно бесполезные злостные потребители. Сами хоть что-нибудь путевого в жизни сделали, кроме трепания нервов родителям и остальным?

My_quest ★★★★★
()
Ответ на: комментарий от angel_il

Пеар может быть надоедлив. К примеру пеар грегоре не только надоедлив, но и смешон. Пеар проприетарщиков как правило противен из-за лжи и передёргиваний. Пеар опенсорсовского неприятен, т.к. обычно это проявление непомерного ЧСВ автора. Всё написанное - имхо.

GreyDoom ★★★★
()
Ответ на: комментарий от EmStudio

> А вот делать бесполезные формочки для ниасиляторов - это не мой удел, извините.

Оставайтесь и дальше в своей прекрасной башне из слоновой кости. Я, да и обычные пользователи Вам ни капли не угрожают своим существованием.

Skull ★★★★★
()
Ответ на: комментарий от GotDotNetMono

> В Finereader есть понятие "неуверенно распознанного символа". А в Cuneifrom?

Есть. В выводе HTML он выделяется полужирным или курсивом. Если копнуть глубже, то, думаю, через API это можно выяснить.

Skull ★★★★★
()
Ответ на: комментарий от TI_Eugene

> Черепанов в своей манере - даже URL git - c "исподвыподвертом": git clone "http://git.altlinux.org/people/cas/packages/?p=cuneiform-qt.git;a=summary "

Зачем показывать всем свою некомпетентность? По ссылке даётся адрес для Git:

git clone git://git.altlinux.org/people/cas/packages/cuneiform-qt.git

Skull ★★★★★
()
Ответ на: комментарий от malices_gossips

> если я в wiki отмечусь, это в todo внесете?

Да, конечно.

> По сравнению с консолью ее полезность это как полезность juk, dragon player в сравение с mplayer.

У неё есть неоспоримое преимущество: интерактивность. Хотя бы просмотр изображения и готового текста. Да и на платформу GUI проще интегрировать дополнения без требований к пользователю экспоненциально увеличивать свои знания о параметрах и программах.

Skull ★★★★★
()
Ответ на: комментарий от angel_il

> что еще может получить от общества программист работающий в опенсорсе, кроме удовлетворения собственного тщеславия практически ничего :)

Много чего (как и в любом сообществе):
- опыт
- репутацию
- пиар
- связи
- возможность брать деньги за внедрения, техподдержку и (при достижении определённого уровня) консультации
- уважение
- свободу

Skull ★★★★★
()
Ответ на: комментарий от angel_il

> и что готнетдотком не по делу сказал? по моему вполне адекватная критика...

...совсем другой программы :)

Хвастался удачно купленной немецкой (sic) версией файнридера (фактически оплаченной подпиской на журнал), долго и однообразно ругал программу названием похожую на обсуждаемую, вещал о очевидные вещи о необходимости GUI, пытался спровоцировать флейм GUI против CLI. Совершенно не разобрался в теме новости. Я счёл его невнимательным человеком в "сумеречном состоянии". Dimez счёл иначе.

question4 ★★★★★
() автор топика

по-моему такие новости даже в толксы стыдно постить. или это в опенсорсе всегда так: че-то наваял и сразу кричать, что оно свободное. кунеиформ надо переписывать, если есть кому. там еще серьезные вопросы к ядру, как он распознает. ведь 15 лет в собственном соку лабораторные крысы че-то ваяли, ваяли, а распознает хреновенько, я вам скажу :-(. вообщем наверно останется глючным недоподелием.

Tu3eK
()
Ответ на: комментарий от EmStudio

> Или брать пример с файнридера: свою распознавалку они тоже ниасилили (сделали, но криво), зато в нем есть ручная разметка для таблиц.

Вылазти из анабиоза? В FR есть даже DA, а в следующей версии обещали даже наклоные строки

namezys ★★★★
()
Ответ на: комментарий от Skull

>> Это вобще что за ужас? Файнридер самых первых версий имел возможностей в десятки раз больше.

> Сколько он разрабатывался до этого?

Если не ошибаюсь, то год

namezys ★★★★
()
Ответ на: комментарий от Skull

> Где можно скачать нативную сборку под Linux? Что, нету?

Есть желающие писать морду к Fine Reader Engine? Неберите инициативную группу, пообщатесь с ABBYY. Движок уже давно работает и под linux, и под фряху

namezys ★★★★
()

попытался задать срочный вопрос по программе Cuneiform

1) Форум не работает
2) support@cognitive.ru ответили - мы этим не занимаемся
3) e-mail info@openocr.org, указанный на openocr.org не существует.

в итоге застрял на распознавании - тупиковая ситуация - дальше никак.

пошел покупать Finereader.

Tu3eK
()
Ответ на: комментарий от question4

я так понял, нужно один номер журнала купить

Tu3eK
()
Ответ на: комментарий от Skull

а как связать это с участком изображения? это ведь самое главное!

Tu3eK
()
Ответ на: комментарий от Tu3eK

> попытался задать срочный вопрос по программе Cuneiform

> 1) Форум не работает

> 2) support@cognitive.ru ответили - мы этим не занимаемся

> 3) e-mail info@openocr.org, указанный на openocr.org не существует.


Ещё один невнимательный. Новость про морду к линуксовой программе, управляемой из командной строки. Сайт https://launchpad.net/cuneiform-linux. К сайтам openocr.org и cognitive.ru отношение опосредованное.

question4 ★★★★★
() автор топика
Ответ на: комментарий от Tu3eK

Я честно говоря в программировании не разбираюсь в принципе, но в свое время читал на нескольких форумах(на Abby'вском кажется тоже), что Cuneiform написан мягко говоря через одно место и после начала работы над ним как OpenSource проектом многие высказывались за то, что проще переписать с нуля, чем допиливать, то что есть, в связи с этим вопрос к знающим людям - есть ли реальные перспектива у сабжа? Просто пока единственное, что удерживает в дуалбуте на моем десктопе ХР - это отсутствие драйверов на сканер и адекватной альтернативы FineReader'у.(был бы нативный - денег не пожалел бы)

Riksh
()
Ответ на: комментарий от question4

а какое отношение имеет тогда российская фирм Cognitive Technologies ко всему этому?


Кто хозяин?

У OpenOffice - Sun плюс Novell и российская Infra-Ресурс.

Все - коммерческие фирмы.

Кто стоит за openocr, Cuneiform, фронтендом для Windows, фронтендом для Linux?

Cognitive Technnologies (http://www.cgntv.com/) как я понимаю не при делах?

Tu3eK
()
Ответ на: комментарий от Tu3eK

> по-моему такие новости даже в толксы стыдно постить

Я постил единственно чтобы привлечь внимание. Чем больше народу будет знать про морду^Wинтерфейс, тем больше вероятность, что разовьётся до рабочего состояния.

> кунеиформ надо переписывать

Почему?

> серьезные вопросы к ядру, как он распознает

Какие?

> 15 лет в собственном соку лабораторные крысы че-то ваяли, ваяли, а распознает хреновенько

С Tesseract не путаешь? Cuneiform бурно развивался в 1990-х, но FineReader потом его заслонил. Это только в последние годы руководство компании постановило, что далее улучшать качество распознавания нет необходимости.

question4 ★★★★★
() автор топика
Ответ на: комментарий от Tu3eK

> Кто стоит за openocr,

http://openocr.org/about/

«Проект реализуется сообществом разработчиков Open Sources и компанией Cognitive Technologies»

> Cuneiform,


1. Оригинальный создали они же.
2. Один из открытых ковыряют при их же участии.
3. Над другим открытым (Cuneiform-linux) работает независимая от них группа: https://launchpad.net/cuneiform-linux/+topcontributors

> фронтендом для Windows,


Не знаю, видимо команда с openocr.org

> фронтендом для Linux?


Правильнее сказать «фронтендом на Qt». Андрей Черепанов, сотрудник Alt Linux (если не путаю).

question4 ★★★★★
() автор топика
Ответ на: комментарий от question4

> кунеиформ надо переписывать

потому уже несколько десятков человек уже посмотрели на исходные тексты

>Какие?


смотрим исходные тексты

>Cuneiform бурно развивался в 1990-х


то были 90-е. С 99 года продукт не развивается никак.

Finereader уже 4 раза с 99 года улучшал технологию распознавания, а у Cuneiform она не изменялась по сути с 97-го года.

Вы думаете прогресс остановился на месте?

Tu3eK
()
Ответ на: комментарий от question4

>команда с openocr.org

кто эти люди? и где они?
они имееют обширный опыт в написании систем распознавания образов; используя в т.ч. и нейронные сети?

Tu3eK
()
Ответ на: комментарий от Tu3eK

>..там еще серьезные вопросы к ядру, как он распознает. ведь 15 лет в собственном соку лабораторные крысы че-то ваяли, ваяли, а распознает хреновенько, я вам скажу :-(. вообщем наверно останется глючным недоподелием.

Помочь не хотите им? В ваших словах так и читается, что вы можете и знаете как.. Или предложите что-нибудь свое, не требующее использование wine, скажем..

My_quest ★★★★★
()
Ответ на: комментарий от Deleted

> в общем, я жду от господ GotDotNetMono и EmStudio работающий бесплатный и свободный

"в общем, я жду от господ GotDotNetMono и EmStudio написания работающего бесплатного и свободного..." и далее по тексту.

Deleted
()
Ответ на: комментарий от Tu3eK

>> кунеиформ надо переписывать

> потому уже несколько десятков человек уже посмотрели на исходные тексты

Объясни, что тебе не нравится. "Всё плохо" — не ответ. Примеры давай!

>> Какие?

> смотрим исходные тексты

То же самое. Файл, строка, краткое пояснение, что в ней не нравится. Голословное поливание помоями невысоко котировалось даже во времена Тургенева.

> Вы думаете прогресс остановился на месте?

Нет, я тоже не считаю правильным мнение руководства компании прекратить разработки алгоритма.

question4 ★★★★★
() автор топика
Ответ на: комментарий от Tu3eK

>> команда с openocr.org

> кто эти люди? и где они? они имееют обширный опыт в написании систем распознавания образов; используя в т.ч. и нейронные сети?

Не знаю. А какое отношение они имеют к Cuneiform-Qt? Новость не про их ветку.

Почему ты всё время пытаешься свести разговор к охаиванию openocr.org? GotDotNetMono перелогинившийся?

question4 ★★★★★
() автор топика
Ответ на: комментарий от Tu3eK

> Finereader уже 4 раза с 99 года улучшал технологию распознавания, а у Cuneiform она не изменялась по сути с 97-го года.

Открытие кода Cuneiform — отличный повод его улучшить. Только для этого приложение сначала нужно сделать популярным. А для этого нужно сделать его удобным для конечного пользователя. А для этого см. текст новости.

Будет весело, если сообщество сделает модуль распознавания таблиц лучше, чем в так и не открытом родном коде.

AP ★★★★★
()
Ответ на: комментарий от EmStudio

>Быстрее набить с нуля, чем такое править. В топку такой опенсорс.

ну.... я один раз распознавал текст. в файнридере.

и пришел,увы, к такому же выводу.

надо бы глянуть этот кунеиформ.

samy_volosaty ★★★★★
()
Ответ на: комментарий от samy_volosaty

Блин, ды сделайте вы хотя бы примитивное сравнение качества распознавания. Возьмите отсканированный текст, распознайте его сначала в FR, потом с помощью cuneiform, посчитайте общее число символов и сколько удалось распознать с помощью одной OCR, и сколько с помощью другой. И сделайте вывод что cuneiform распознает на xx% хуже чем распиареный FR. Вот тогда и можно будет говорить какое это УГ, а так это голословное поливание грязью. Я бы сам сделал, да нет сканера и FR.

Lampus
()
Ответ на: комментарий от Lampus

Так не сравнить. Боюсь всё слишком сильно повязанно будет на конкретных примерах. Там же много всяких эвристик.

theos ★★★
()

IMHO полезное начинание. Меня давно удивляло, что никто подобного не начал.

Evgueni ★★★★★
()
Ответ на: комментарий от Lampus

> Блин, ды сделайте вы хотя бы примитивное сравнение качества распознавания. Возьмите отсканированный текст, распознайте его сначала в FR, потом с помощью cuneiform, посчитайте общее число символов и сколько удалось распознать с помощью одной OCR, и сколько с помощью другой. И сделайте вывод что cuneiform распознает на xx% хуже чем распиареный FR. Вот тогда и можно будет говорить какое это УГ, а так это голословное поливание грязью. Я бы сам сделал, да нет сканера и FR.

доберусь на выходных до анлима качну cuneiform

FR на работе есть. (может старый конечно) посмотрим что и как в %

samy_volosaty ★★★★★
()
Ответ на: комментарий от GreyDoom

> Пеар опенсорсовского неприятен, т.к. обычно это проявление непомерного ЧСВ автора. Всё написанное - имхо.

Про пирамиду Маслоу почитай на досуге :)

Признание нужности того, что ты делаешь, — очень важная составляющая часть мотивации. Ну и кроме того масса интересных проектов загибается потому, что разработчики не умеют довести до сведения окружающих сам факт существования проекта или же не умею преподнести эту информацию достаточно интересно.

В то же время куча всякого хлама занимает верхние места в рейтингах и отхватывает призы журналов.

Делай выводы :)

AP ★★★★★
()
Ответ на: комментарий от namezys

> Если не ошибаюсь, то год

Вооот. Вообще лучше мне было сразу поинтересоваться, сколько ушло у них на интерфейс первой версии человеко-лет.

Skull ★★★★★
()
Ответ на: комментарий от namezys

> Движок уже давно работает и под linux, и под фряху

Вы знаете условия его распространения?

Skull ★★★★★
()
Ответ на: комментарий от AP

>Про пирамиду Маслоу почитай на досуге :)

>Признание нужности того, что ты делаешь, — очень важная составляющая часть мотивации.

А ещё Just for fun Линуса нашего Торвальдса, там это ооочень хорошо показано ;)

MageasteR ★★★★★
()
Ответ на: комментарий от GreyDoom

>Dimez, +100.

>..Бан анонимусов не избавил ЛОР от клинических случаев.


А я всегда говорил: анонимус не обязательно источник зла.

Hellor
()

Хорошая вещь, ибо гуй пригодится новичкам в линуксе и прочим домохозяйкам с офисным планктоном.

MMouXe
()
Ответ на: комментарий от AP

>Для забаненных в гугле и на лончпаде: периодически выходят новые версии :)

Серьезно? O.O Хоть тресни - не нашел. На сайте как лежала V.12 так и лежит.

Hellor
()
Ответ на: комментарий от GotDotNetMono

> 3) сборка под Lin НЕ работает.

> НИЧЕГО НЕ РАБОТАЕТ!

4.2. Работает. Правь руки.

trapezoid
()
Ответ на: комментарий от question4

http://openocr.org/forum/viewtopic.php?f=2&t=1399


1. Куча исходников ядра на C++, которые не представляют для нас никакого интереса.
2. Некий сервер автоматизации COM, который должен собираться в проекте ядра, но сборка ядра - задача чрезвычайно запутанная (я потратил два дня, выкачал из инета SDK, но так и не сумел справится, между нами, чем дольше я пытался собрать проект, тем ниже у меня опускались руки и больше пропадал интерес, возникало ощущение маразма). Вариант - установить CunieForm и дальше использовать сервер автоматизации не подходит. Необходимо иметь четко определенный набор фалов, которые будут поставляться с конечным решением и разворачиваться деплой-проектом нашего приложения.
3. Отсутствие напрочь какой-либо документации по проекту (эти заметки на полях тетради непонятно кому адресованные никакой пользы не несут). Инструкция по сборке ядра - полный мусор.
4. Чрезвычайно странные примеры и описание их работы и запуска.

Так же вопрос к людям, приближеным к управляющим проектом: а будет ли некая структурированная система, ориентированная на разработчиков, содержащая:
1. Внятную документация
2. Четкую структуру и компоненты (вот здесь ядро, которое собирается за пол часа при следовании нашим чутким рекомендациям, здесь собранное ядро,готовое к применению, здесь интерфейс, который тоже собирается).

http://openocr.org/forum/viewtopic.php?f=2&t=2866

http://openocr.org/forum/viewtopic.php?f=2&t=2893
http://openocr.org/forum/viewtopic.php?f=2&t=1307


Tu3eK
()
Ответ на: комментарий от Tu3eK

> http://openocr.org/forum/viewtopic.php?f=2&t=1399

Почему хочется переписать понял :) И что имелось в виду под "жёстко прописано в коде" — тоже. Поправимо, но для этого нужно перерыть все 14 мегабайт исходников.

2 оратора. У одного 4 поста, у другого 8. Говорят, что проще написать с нуля по имеющемуся алгоритму. За год никакого результата, исчезли бесследно. Симптоматично.

> 2. Некий сервер автоматизации COM, который должен собираться в проекте ядра, но сборка ядра - задача чрезвычайно запутанная

В версии на launchpad от него отказались. Пока собирается простая программа с заглушками, управляемая из командной строки. Сборка: cmake, make, make install. Можно использовать и GCC, и MSVC.

> http://openocr.org/forum/viewtopic.php?f=2&t=2866

ZYV хорошо объяснил: фирма открыла исходники, надеясь получить бесплатный рефакторинг и новую систему сборки. А быстро такие дела не делаются, тем более бесплатно. И самая вылизанная на сегодня версия — на лончпаде: без графики, COM и ActiveX.

> Так же вопрос к людям, приближеным к управляющим проектом

Здесь их нету :)

Кстати, о распознавании таблиц по состоянию на 26.08.2008: https://bugs.launchpad.net/cuneiform-linux/+bug/260327/comments/7

«В текущей версии выделение и распознавание таблиц отключено, т.к. открытие этого набора исходников отложило бы опубликования всего кода под BSD-like лицензией на длительный срок (не менее 9-12 месяцев). Открытие кода по таблицам в планах стоит, но о сроках я ничего конкретного сказать не могу.»

То есть даже открытая версия под Windows с openocr.org не содержит всего функционала закрытой v12.

question4 ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.