LINUX.ORG.RU

Вышла новая версия web-системы распознавания текста CuneWebForm

 


0

0

CuneWebForm — web-система распознавания текста, использующая в качестве движка проект CuneIForm-Linux.

Основные возможности:

  • Пакетное распознавание документов.
  • Загрузка набора изображений в zip-архивах.
  • Выгрузка распознанного текста в формате odt.
  • Постраничное распознавание с выводом текста в соседний фрейм.
  • Работает в большинстве существующих операционных систем.
  • Не требует установки дополнительного ПО на компьютер пользователя.

Проект начинался как дипломная работа студента Нижегородского РадиоТехнического Колледжа. На данный момент, развивается усилиями сотрудников Вычислительного Центра НРТК. Активно используется сотрудниками и студентами Колледжа.

>>> Скачать новую версию
>>> Рабочая система на сайте Нижегородского РадиоТехнического Колледжа

>>> Сайт проекта

★★★

Проверено: Shaman007 ()

Капчу понимает?

anonymous
()
Ответ на: комментарий от gumanoed

>>Рабочая система на сайте Нижегородского РадиоТехнического Колледжа

Посмотрите сами!

похоже лор эффект, лежит родимый

p.s. колледж IMHO техникум

real_maverick ★★★
()

подкинул ей довольно сложный текст (качество скана не лучшее). думал очень долго, пока сервер не вернул timeout.

пускай пилят, идея хорошая, особенно веб-интерфейс

но к сожалению нерабочая пока

anonymous
()

Инструкция по установке для убунты

rm /bin/sh

ln -s /bin/bash /bin/sh

Фигассе методы!

anonymous
()
Ответ на: комментарий от anonymous

> УЬУНТА НЕ НУЖНА!!!11!

этому анонимусу следует немного похудеть, как считаете?

хотя в целом, согласен ;)

anonymous
()

Блин, надо было тоже на лоре новость написать, я такую тоже писал на monkeyweb + bash (причём ash-совместимо).

Это ещё раз доказывает, что только написание консольных программ и уже сверху навешивание на них gui приблизит вендекапец. Если бы prawda была бы консольной - это бы сейчас было бы ОГОГО приложение, а так - просто заглохло.

anonymous
()
Ответ на: комментарий от anonymous

я такую тоже писал на monkeyweb + bash (причём ash-совместимо).


Мы писали, мы писали
Наши пальчики устали
......

Ну и где, ash-совместимо?

vada ★★★★★
()

The requested URL /convert/dogovor1.jpg.html was not found on this server.

yoghurt ★★★★★
()

Идея хороша, молодцы. Нужная вещь, но реализация никакая. Тихий ужас.

Из исходников:

...
<FRAMESET COLS="180px,*"> 
   <FRAMESET rows="180px,*"> 
      <frame src='logo.php' name='frame1'> 
      <frame src='list_images.php' name='frame2'> 
</FRAMESET>^ 
...

Вот еще. Наприашивается вопрос: А зачам нужен PHP?

...
exec('rm '.SYSTEM_PATH.'/convert/*.zip');
exec('cd '.SYSTEM_PATH.'/convert/; cat ./*.html > ALL.html; mv ALL.html ALL.html.ALL; rm *.html; mv ALL.html.ALL ALL.html');
exec('cd '.SYSTEM_PATH.'/convert/; zip -r '.SYSTEM_PATH.'/convert/out.zip ./*');
print "<script>window.open('convert/out.zip')</script>";
...
Из инструкции... это вообще шокировало... :(
rm /bin/sh
ln -s /bin/bash /bin/sh
Ребята давайте сначала читать книги по программированию, а потом уж писать программы. А так просто страшно смортеть.

sergey_be
()
Ответ на: комментарий от sergey_be

> Ребята давайте сначала читать книги по программированию, а потом уж писать программы. А так просто страшно смортеть.

Золотые слова! Это я как быдлокодер говорю. Посоветуйте, что-бы такого почитать?

valich ★★★
()

А говорили что синеформ на помойку выкинули и разработки не будет

Однако же развивается

bioreactor ★★★★★
()
Ответ на: комментарий от valich

> Золотые слова! Это я как быдлокодер говорю. Посоветуйте, что-бы такого почитать?

SICP - таблетка от быдлокодерства

anonymous
()
Ответ на: комментарий от anonymous

он пытается быть sh, но не гарантирует.

[root:debian bin]$ cat sc
#!/bin/sh

for i in {1..10}; do echo $i; done

[root:debian bin]$ ls -l /bin/sh
lrwxrwxrwx 1 root root 4 Мар 22  2009 /bin/sh -> dash
root:debian bin]$ ./sc
{1..10}

[root:debian bin]$ ls -l /bin/sh
lrwxrwxrwx 1 root root 4 Дек  1 22:03 /bin/sh -> bash
[root:debian bin]$ ./sc
1
2
3
4
5
6
7
8
9
10
alex_custov ★★★★★
()
Ответ на: комментарий от Unclown

>> фаил не загружен или уже существует. 5й раз загружаю, в чем подвох?

+1

Atmega64
()
Ответ на: комментарий от anonymous

> SICP - таблетка от быдлокодерства

О великий анонимный разум ЛОРа! Прими благодарность ничтожного быдлокодера! И да сопутствует тебе удача во всем!

http://newstar.rinet.ru/~goga/sicp/sicp.ps.gz

valich ★★★
()
Ответ на: комментарий от Sun-ch

>А «Колледж» - это ПТУ, или техникум?

Это место, где людей учат как делать а не как красиво рассказывать как это делается :)

Техникум.

gumanoed ★★★
() автор топика
Ответ на: комментарий от anonymous

rm /bin/sh

ln -s /bin/bash /bin/sh

Фигассе методы!

Так случилось, что в ubuntu /bin/sh по умолчанию указывает на /bin/dash. Но в таком варианте CuneIForm не срабатывает корректно. Так что, пользуемся тем что имеется!

gumanoed ★★★
() автор топика
Ответ на: комментарий от Unclown

фаил не загружен или уже существует

5й раз загружаю, в чем подвох?

Подвох, как всегда, в любителях показать что они умнее всех (предположительно, они же троли с LOR). Ребята умудрились на мегабитном канале залить туда 7 Гб информации за пару часов. Место под загружаемые изображение и закончилось.

Поправил, можно пробовать дальше!

gumanoed ★★★
() автор топика
Ответ на: комментарий от bohm

>Да зачем вообще это вебчудо? Лучше бы сам Cuneiform развивали...

Ну давайте начнем с того что сам CuneIForm-Linux это все же платформа для прикладных программ с функцией распознавания текста. Секретарь не будет пускать в консольке программу.

Потом, CuneWebForm все же расширяет возможности CuneIForma за счет автоматизации процесса пакетного распознавания текста. Вы конечно можете написать bash скрипты, но приятнее когда это уже сделано, да и процесс распознавания идет на 4 ядерном сервере, а не на вашем net-book'е.

gumanoed ★★★
() автор топика

что то совсем плохо

[code]Бозио >нн и ,>ру>ир способы Бор з>и способы сни >аю> разрешение изобра >рнии ни >р,>ифракционно>о праце~>а, нрзц. исполизур>си HpHoI pppHl Hop с ~>о к нир изобра к н>и Ч>обн спрс 1>1 к минимуму коррр>шцию спрклон,,>ос>а>очно onðín нрболишо>о цни кении, >ак ч>о, сохранил о,>ин из рассрина>рлри нрпо,>ни >ннм и при ')10111, нрашаи или IlppplllpHlB>l н>оров, мо >но Itolt) OHIO изобра >рнир, по сушрс>ну снобо>нор ol спрклон за с Jp1 усрр,>нрнии по нррмрни

Влияние усрецнию>цезо цейс!вин приемной аперзуры на величину флукзуаций рассеянно!о ко!еров!но!о излучении. LOIIH размрр прирмнои апрр>урн болишр, 'Jplll cppHHHJJ размрр спркла, с>а>ис>шса измрррннои ин>рнсиннос>и у>кр Hp по,!чинар>си закону Б ) Itp>I '",орошри а>шроксимацири >акоп ин>р>риронаннои ин>рнсиннос>и nit) J>HI IBIIJIIJB распрел.лрнир Б ')10111 clt)HBp кон>рас> спркл с>рук>урн ух>рнишар>си из за усрр,>нрнии спрклон, попа,>аюших H облас >и прирмнои апрр>урн Банно H ')10111 clt) чар )I>lplh оленина>и ух>рнишрнир кон>рас>а из за усрр,!ненни, Hhttto>JH>tpt>toto прирмнои апрр>урон Из»>рррннаи ин>рнсиннос>и ннра>кар>си чрррз ин>рнсиннос>и спркл кар>инн как сарр>ка с функцири Ll(>,,»L о>шсннаюшри форму прирмнои апрр>урн[/code]

timth ★☆
()
Ответ на: комментарий от gumanoed

Я смотрю кое кто уже пробует распознать свои документы.

Призываю вас читать информацию на странизе загрузки изображений внимательнее!!!

Используйте изображение отсканированные в 300dpi

Если у вас маленькое изображение - увеличьте его самостоятельно, результат распознавания должен улучшиться.

gumanoed ★★★
() автор топика
Ответ на: комментарий от timth

Вот пример распознавания отсканированного мной документа

[code]

Станции являются важнейшими элементами железнодорожного транспорта. На них расположены парки путей, пассажирские и грузовые устройства, локомотивное и вагонное хозяйства, устройства энергоснабжения и водоснабжения, материальные склады, служебно-технические строения и остальные сооружения и устройства.

... [/code]

gumanoed ★★★
() автор топика
Ответ на: комментарий от timth

>что то совсем плохо

Попробуйте увеличить размер вашего изображения в 2 или 3 раза и попробовать снова. Разработчики CuneIForm говорят это помогает :)

gumanoed ★★★
() автор топика
Ответ на: комментарий от timth

>что то совсем плохо

Опытным путем установлено, что самый хороший результат получается при распознавании А4, отсканированного с разрешением 300dpi

gumanoed ★★★
() автор топика
Ответ на: комментарий от gumanoed

> Так случилось, что в ubuntu /bin/sh по умолчанию указывает на /bin/dash. Но в таком варианте CuneIForm не срабатывает корректно.

А прописывать правильный шабанг для слабаков?

sin_a ★★★★★
()
Ответ на: комментарий от ip1981

> Так трудно написать на POSIX Shell?

А что тут такого странного? Те же сравнения неудобные.

или даже - #!/bin/bash ?

А вот это, действительно, странно :)

question4 ★★★★★
()
Ответ на: комментарий от bioreactor

> А говорили что синеформ на помойку выкинули и разработки не будет

Однако же развивается

Владельцы не хотят дальше развивать алгоритм распознавания, но продолжают клепать для него различные интерфейсы. И сторонним разработчикам не мешают.

question4 ★★★★★
()

> Нижегородского РадиоТехнического Колледжа

Ничего не имею против колледжа, его талантливого выпускника и проекта в целом. Но всё же замечу, что в русском языке слово «радиотехнический» пишется без выделения буквы Т в центре. Это я как выпускник РРТИ говорю :)

hobbit ★★★★★
()
Ответ на: комментарий от gumanoed

> Попробуйте увеличить размер вашего изображения в 2 или 3 раза и попробовать снова. Разработчики CuneIForm говорят это помогает :)

Если просто увеличить изображение, без повторного сканирования с бОльшим DPI, FineReader-у, GOCR и Tesseract-у это не поможет. Проверял неоднократно. С Cuneiform не пробовал, правда.

question4 ★★★★★
()
Ответ на: комментарий от hobbit

>Но всё же замечу, что в русском языке слово «радиотехнический» пишется >без выделения буквы Т в центре. Это я как выпускник РРТИ говорю :)

Это сделано для большей очевидности аббревиатуры НРТК :)

gumanoed ★★★
() автор топика

И таки да, в первую очередь хотелось бы, чтоб сам проект CuneiForm продолжал развиваться и порвал жмотский Finereader. А уж какие к нему будут «морды» - дело не первой важности, морду нарисовать всегда можно.

hobbit ★★★★★
()
Ответ на: комментарий от question4

>Если просто увеличить изображение, без повторного сканирования с бОльшим DPI, FineReader-у, GOCR и Tesseract-у это не поможет. Проверял неоднократно.

Полностью с вами согласен, им не помогает.

С Cuneiform не пробовал, правда.

У CuneIForm свои алгоритмы распознавания, как мне известно, на базе фракталов. Некоторые пользователи этой системы говорят что увеличение файла в размерах приводит к некоторому улучшению в распознавании. Сам пока не пробовал, но допускаю такую возможность.

P.s. Но все же лучше сканировать в 300dpi :)

gumanoed ★★★
() автор топика
Ответ на: комментарий от hobbit

>И таки да, в первую очередь хотелось бы, чтоб сам проект CuneiForm продолжал развиваться и порвал жмотский Finereader. А уж какие к нему будут «морды» - дело не первой важности, морду нарисовать всегда можно.

Это точно. Чем лучше будет распознавать CuneIForm - тем лучше будет работать и наша система.

А вот по поводу морд я бы не согласился. Интерфейс - это единственное что видит пользователь. Будет больше пользователей у систем с базой на cuneIForm - будет больший интерес у разработчиков проекта CuneIForm-Linux.

gumanoed ★★★
() автор топика
Ответ на: комментарий от gumanoed

Да я не против интерфейса. Наоборот, я за их разнообразие: Qt, GTK, Web, консольщиков тоже не надо забывать...

hobbit ★★★★★
()

no internet - no work cuneiform-linux + yagf - true

anonymous
()
Ответ на: комментарий от gumanoed

Я смотрю у кого то документы распознаются лучше, у кого то хуже.

Пожалуйста, постарайтесь не загружать документы с русскими именами. Используйте латиницу.

gumanoed ★★★
() автор топика
Ответ на: комментарий от gumanoed

у меня распознал только первую строчку, потом обломался

anonymous
()
Ответ на: комментарий от gumanoed

Посмотрел исходники. И так не понял где там распознаётся текст =) есть функция загрузки, изменения ширины высоты файла а где распознавание?

Честно говоря в коде много ошибок Я так понял по ссылки на upload.php передаётся переменная $name с именем файла для распознавания - так вот этого там нет =( спрашивается зачем исходники =))) ставить я это дело не стал

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.