LINUX.ORG.RU

Вышла новая версия web-системы распознавания текста CuneWebForm

 


0

0

CuneWebForm — web-система распознавания текста, использующая в качестве движка проект CuneIForm-Linux.

Основные возможности:

  • Пакетное распознавание документов.
  • Загрузка набора изображений в zip-архивах.
  • Выгрузка распознанного текста в формате odt.
  • Постраничное распознавание с выводом текста в соседний фрейм.
  • Работает в большинстве существующих операционных систем.
  • Не требует установки дополнительного ПО на компьютер пользователя.

Проект начинался как дипломная работа студента Нижегородского РадиоТехнического Колледжа. На данный момент, развивается усилиями сотрудников Вычислительного Центра НРТК. Активно используется сотрудниками и студентами Колледжа.

>>> Скачать новую версию
>>> Рабочая система на сайте Нижегородского РадиоТехнического Колледжа

>>> Сайт проекта

★★★

Проверено: Shaman007 ()
Ответ на: комментарий от terminat0r

> с таблицами у CuneIForm совсем худо.

Соответствующие части исходного кода ещё не открыли (по состоянию на весну 2009-го). Обещали открыть где-нибудь через год после основной части: https://bugs.launchpad.net/cuneiform-linux/+bug/260327/comments/7 .

question4 ★★★★★
()
Ответ на: комментарий от terminat0r

>Нда, с таблицами у CuneIForm совсем худо.

Только у Linux-версии. Оригинальное приложение от Cognative Technologies хорошо работает с таблицами. Ждем когда ребята из CuneIForm-Linux портируют и эту функцию.

gumanoed ★★★
() автор топика
Ответ на: комментарий от gumanoed

Очень странно, почему никто не пишет об успешных процессах распознавания. Я вижу время от времени народ загружает договора и страницы из книг, которые распознаются со 100% результатом вплоть до сохранения форматирования и «жирности» текста в нужных местах.

gumanoed ★★★
() автор топика

Работает и распознаёт. Молодцы, развивайте дальше.

Lucius
()

Идея хороша, но работает пока коряво!

И где кнопка-«Распознать документ» ?

anonymous
()
Ответ на: комментарий от anonymous

круто) закинул пару картинок, все отлично и быстро распознал!

ExpertOff
()
Ответ на: комментарий от anonymous

>И где кнопка-«Распознать документ» ?

А зачем вам кнопка? Щелкайте слева по картинке, которую хотите распознать.

Или по кнопке «Распознать Все», если хотите пакетно распознать все загруженные изображение.

Можете так же, нахать «Выгрузить в ODT» что тоже запустит процесс распознавания и выдаст вам odt документ с текстом.

gumanoed ★★★
() автор топика
Ответ на: комментарий от sergey_be

по поводу кривизны кода, Хочу выступить в защиту! обратиться ко всем не «быдлокодерам» особенно тем у кого есть предложения а еще лучше руки и хоть не много времени, на сколько я понимаю к данному проекту можно присоединиться http://fireforge.net/projects/cunewebform/ и не просто от души обгадить проект в коментах а предложить или сделать как надо.

З.Ы. а так идея очень интересная и востребованная, надеюсь достойная реализация общими усилиями не заставит долго ждать.

nomorrison
()

Попробовал распознать скриншот текста на английском (72 dpi) - распознался практически без ошибок

nvl ★★★
()
Ответ на: комментарий от nvl

У меня прекрасно всё распозналось! Хорошее начинание, если туда набежит разработчиков и всё зарефакторит, будет неплохо.

anonymous
()
Ответ на: комментарий от gumanoed

> А «Колледж» - это ПТУ, или техникум?

Это место, где людей учат как делать а не как красиво рассказывать как это делается :)


Техникум.


Не может быть! Я сам в колледже учился, даже диплом есть.
Со всей ответственностью могу сказать: колледж - это ПТУ.

Хотя верно, там учат как делать.

valich ★★★
()
Ответ на: комментарий от valich

>Со всей ответственностью могу сказать: колледж - это ПТУ.

Молодой человек, в случае с НРТК вы совершенно не правы. В Нижегородском РадиоТехническом Колледже студенты учатся 4 года и получают диплом о средне-специальном образовании с квалификацией «Техник».

gumanoed ★★★
() автор топика

Эх, жаль djvu загружать нельзя. Так бы совсем красота была скажем для онлайн-библиотек. Загрузил файл в библиотеку, если нет в дежавюшке текстового слоя он сам добавляется и индексируется... Тем более экспорт в djvu есть

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от DNA_Seq

>Эх, жаль djvu загружать нельзя.

На самом деле экспорт в djvu пока лиш в планах. Мы просто попросили Михаила Солуянова сделать картинки для всех запланированных опций :)

Идея описанная вами интересная. Я думаю мы это сделаем в будующем.

gumanoed ★★★
() автор топика
Ответ на: комментарий от gumanoed

>На самом деле экспорт в djvu пока лиш в планах.

Я уже заметил. Как я понимаю вы и есть автор? А интерфейс между прочим довольно приятный, сейчас про фреймы все как-то позабыли

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от gumanoed

> Так случилось, что в ubuntu /bin/sh по умолчанию указывает на /bin/dash. Но в таком варианте CuneIForm не срабатывает корректно. Так что, пользуемся тем что имеется!

И правильно, если нужен bash то и пишем #!/bin/bash. А то задолбали своим #!/bin/sh когда вовсю юзаются фичи bash3.

gloomdemon
()
Ответ на: комментарий от DNA_Seq

>Как я понимаю вы и есть автор?

Как я написал на http://fireforge.net/mediawiki/index.php/Cunewebform/%D0%98%D1%81%D1%82%D0%BE... я являюсь инициатором проекта и автором первоначального концепта интерфейса. Нынешние картиночки для нас сделал Михаил Солуянов, наш художник и эксперт по InkScape и Blender.

А интерфейс между прочим довольно приятный, сейчас про фреймы все как-то позабыли

Спасибо, мы старались сделать его простым и удобным. А вот по поводу фреймов нынешние разработчики говорят что сессии будет проце реализовавыть с div'ами. Так что, видимо, новая версия CuneWebForm будет выглядеть так же, но без фреймов :)

gumanoed ★★★
() автор топика
Ответ на: комментарий от anonymous

>Что не так? Картинки свои вижу.

Скорее всего CuneIForm не может распознать ваши картинки и не выдаеть ничего на выходе. Мы пока не обрабатываем ошибки.

Попробуйте удалить с взображения все посторонние элементы оформления и оставить только текст.

gumanoed ★★★
() автор топика
Ответ на: комментарий от anonymous

>Что не так? Картинки свои вижу.

В вашем случае это не актуально, но часто загружают картинки с русскими именами.

Постарайтесь имена картинок делать латиницей!

gumanoed ★★★
() автор топика
Ответ на: комментарий от panoptus

>http://panoptus.mk.ua/?category=ubuntu&altname=raspoznavanie_teksta_v_ubuntu_...

Замечательный проект, отлично работает в Школьном Linux. Пользуем даже в Ubuntu кое где. Но он требует установки на компьютер и использует процессор вашего компьютера. И, помоему, не делает пакетное распознавание.

gumanoed ★★★
() автор топика
Ответ на: комментарий от gumanoed

получают диплом о средне-специальном образовании с квалификацией «Техник».

У меня был знакомый «Техник» с дипломом.

«Технология и искусственное осеменение самок».

Sun-ch
()
Ответ на: комментарий от Sun-ch

> У меня был знакомый «Техник» с дипломом. ...

Ну что я могу сказать, я рад за его замечательную специальность. Надеюсь он повышает свою квалификацию.

gumanoed ★★★
() автор топика

Прикрутить к сканеру и принтсерверу и цены этому продукту не будет.

ei-grad ★★★★★
()
Ответ на: комментарий от sergey_be

> Пиарится научились, а код писать еще нет. А вроде не малолетки-школьники.

Мы исправимся. У нас сейчас Aceler читает курс по «Командной разработке», результаты должны улучшиться в ближайшее время :)

gumanoed ★★★
() автор топика
Ответ на: комментарий от gumanoed

Давайте, ребята! Доведите эту фигнь до нормального рабочего состояния. Удачи!

sergey_be
()

По поводу http://cunewebform.nntc.nnov.ru/

Для каких целей пингвина с рванным контуром влепили в страницу? - он совсем не к месту. Что это и зачем? Логотип? Не понятно. Это web - т.е. зависимости от ОС нету.

Влепите лучше какой значек из клинописи (cuneiform) в качестве логотипа и его же используйте для favicon (ее нет - очень не удобно в табах выискивать).

Вот..

nvl ★★★
()
Ответ на: комментарий от Vovanchic

Not Found

The requested URL /convert/cunei1.JPG.html was not found on this server.

ЛОР-эффект детектед? В левой колонке показывает загруженный файл, но при по пытке распознать выдает приведенное выше. Кстати, наблюдаю еще такой эффект. Загружаю файл с именем cunie.jpg. потом удаляю. Делаю еще один скан с таким же именем. При попытке загрузить, все якобы грузиться. Но содержимое осталось от старого файла... :(

Milker
()
Ответ на: комментарий от Milker

> При попытке загрузить, все якобы грузиться. Но содержимое осталось от старого файла... :(

Спасиба, завтра проверим.

gumanoed ★★★
() автор топика
Ответ на: комментарий от nvl

> Для каких целей пингвина с рванным контуром влепили в страницу? - он совсем не к месту. Что это и зачем? Логотип? Не понятно. Это web - т.е. зависимости от ОС нету

Нам так больше нравиться :) Все разработчики пользуются Linux и нам нравятся связанные с ним вещи.

gumanoed ★★★
() автор топика
Ответ на: комментарий от Vovanchic

>Кстати, cuneiform-linux умеет работать с дореволюционным текстом?

Не совсем вас понял. Ленин дал Советскому народу письменность?

gumanoed ★★★
() автор топика
Ответ на: комментарий от gumanoed

> У CuneIForm свои алгоритмы распознавания, как мне известно, на базе фракталов. Некоторые пользователи этой системы говорят что увеличение файла в размерах приводит к некоторому улучшению в распознавании. Сам пока не пробовал, но допускаю такую возможность.

Попробовал. Двухуровневую страницу 300 dpi (44 строки текста из книги, 5,5 тысяч знаков) уменьшил вдвое и втрое, затем увеличил до первоначального размера, затем увеличил всё вдвое. Интерполяцией и более сложными преобразованиями не пользовался.

Изначальный скан Cuneiform распознал с 1 ошибкой.

На 100 dpi правильно не распознало ничего, на утроенном и ушестерённом 100 dpi — читаемый текст, правда по нескольку ошибок на строку.

Мин. разрешение     300 300 100  100 100 150 150 150
Распознавал при     300 600 100  300 600 150 300 600
Ошибок              1   2   5500 131 339 34  9   21
Строк с ошибками    1   1   44   38  41  9   2   4
Неразборчивых строк 0   0   44   0   0   1   0   0

Получается, алгоритм позволяет «вытянуть» текст из плохой картинки, но если этим злоупотреблять, полезут ошибки. Наверное, можно осуществить это в самой программе, чтобы избежать возни с созданием нескольких картинок? Использовать какой-нибудь статистический критерий, чтобы оценивать, где остановиться...

Кстати, время от времени происходят сбои при преобразовании cp1251->UTF-8, отдельные слова преобразуются как cp1252. Почему-то на качественных сканах такой глюк не встречается :)

question4 ★★★★★
()
Ответ на: комментарий от ls-h

>>Кстати, cuneiform-linux умеет работать с дореволюционным текстом?

Видимо имеется ввиду старославянский/церковнославянский.

Сомнительно что cuneiform это умеет, коммерческие, наверное, и то не умеют.

Finereader умеет работать и с дореволюционной орфографией, и с церковнославянским языком, но там это оформлено как отдельные от русского языки. То есть можно и для Cuneiform создать такой язык, но в версии 0.7.0 «дореволюционного русского» языка не было.

question4 ★★★★★
()
Ответ на: комментарий от question4

>Попробовал. Двухуровневую страницу 300 dpi

Огромное спасибо за статистику. Мы как раз обсуждали вопрос добавления функции автоматического увеличения размера маленьких изображений, но не знали по каким критериям определять необходимость увеличения и необходимый конечный размер.

Полученные тобой данные очень помогут! Еще раз, спасибо.

gumanoed ★★★
() автор топика
Ответ на: комментарий от gumanoed

> Мы как раз обсуждали вопрос добавления функции автоматического увеличения размера маленьких изображений, но не знали по каким критериям определять необходимость увеличения и необходимый конечный размер.

По-моему должны быть какие-то статистические критерии наподобие дисперсии адекватности, «goodness of fit» и т.п. Определённое соотношение числа параметров, степеней свободы, экспериментальных точек. Не знаю точнее.

В моих экспериментах количество ошибок от размера шрифта зависело немонотонно, на каждом тексте было несколько минимумов и выбросов. Лучше всего получалось при высоте строчных букв 10-30 пикселов. Ниже 8 практически не распознаёт. Если символы слишком крупные — начинает бредить, но чётко установить границу я не смог.

question4 ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.