LINUX.ORG.RU

Cuneiform 1.0

 ,


0

0

Вышла первая стабильная версия системы распознавания текста Cuneiform для платформы Linux. В новой версии проведена большая работа по исправлению ошибок и чистке исходных текстов, что дало разработчикам основание полагать о стабилизации кодовой базы проекта. Код Cuneiform для Linux распространяется под упрощенной лицензией BSD и основан на коде, открытом компанией Cognitive Technologies в 2007 году.

OCR Cuneiform может распознавать любые полиграфические и машинописные гарнитуры всех начертаний, а также шрифты, получаемые с принтеров, за исключением декоративных и рукописных. В систему встроены специальные алгоритмы для распознавания текста с матричного принтера, плохих ксерокопий, факсов и машинописи. Поддерживается более 20 языков. Отдельно стоит отметить отличную поддержку распознавания текста на русском и украинском языках. Результат распознавания может быть сохранен в форматах HTML, hOCR, RTF или PDF с сохранением особенностей начертания оригинала (выделение жирным, курсивом и т.д.).

>>> Подробности (opennet)



Проверено: annoynimous ()
Последнее исправление: lodin (всего исправлений: 2)

Рад слышать что проект развивается. Хотя в последний раз, наверно с год назад, пробовал пользоваться — жалкое было зрелище.

nikotyn
()
Ответ на: комментарий от nikotyn

Стоит сейчас 0.9 что-то там. Качество распознавания паршивое, даже до уровня fr6 не дотягивает. Если они к 1.0 только код чистили, как написано в новости, то не думаю, что что-то всерьез изменилось. Полного чейнджлога нигде не найти.

petrosyan ★★★★★
()

Объясните мне кто-нибудь, она CuneiForm или Cuneiform? В рассылке одно, на офсайте другое. Пока что сделал хотя бы одинаково в тексте новости.

?!

lodin ★★★★
()
Ответ на: комментарий от petrosyan

Под вендой пользовался лицензионным шедшим со сканером fr5 и не жалуюсь.

CrossFire ★★★★★
()

Хорошая новость.надо попробоват.стоит 0.9 и работает нормально.плохо что с таблицами не работает-очень серьезный минус.

ratte
()

пользоваться можно, НО если от сканированный материал хорошего качества и нет таблиц(с таблицами вообще не умеет работать). надеюсь оно и дальше будет развиваться...

ps1h ★★★
()
Ответ на: комментарий от lodin

>Объясните мне кто-нибудь, она CuneiForm или Cuneiform? В рассылке одно, на офсайте другое.

Лучше скажите, оно действительно читается так, как /me подумал?

anonymous
()
Ответ на: комментарий от abraziv_whiskey

>Черные буквы

Рядами становятся.

Как тепло в пузе!


Пятничным вечером о


Вендекапце думаю.



Вы ошиблись сайтом, психиатор сидит на другом.

Dimanc ★★
()
Ответ на: комментарий от Dimanc

>Вы ошиблись сайтом, психиатор сидит на другом.

Зато логопед здесь. Вылезай, але ти москалю вже приїхав.

derrix
()
Ответ на: комментарий от lodin

> Объясните мне кто-нибудь, она CuneiForm или Cuneiform?

Кунилингформ.
гы :)

matumba ★★★★★
()

Без таблиц и полного форматирования (включая картинки) нафик не нужно.
Кому действительно надо распознавать, давно юзает FineReader.
В своё время игрался с обоими, CF даже что-то там выигрывал, но сейчас FR рвёт CF как тузик грелку.

matumba ★★★★★
()
Ответ на: комментарий от matumba

Пропаганда гомосексуализма проприетарщины на ЛОРе!

derrix
()

/me рад! Прикручивал к нему YAGF. Работало терпимо.

anonymous
()
Ответ на: комментарий от matumba

> В своё время игрался с обоими, CF даже что-то там выигрывал, но сейчас FR рвёт CF как тузик грелку.
Лицензия BSD, говорите? Может они просто себе код заюзали какой-то?

Xenius ★★★★★
()

потестил сегодня, прекрасная альтернатива finereader'у, качество распознования - хорошее

alexqwesa
()

Распознавал текст с фотографий (по учёбе надо было). Фотографии листа А4 на 2Мп-камеру мобильника. Распознаёт очень хорошо (стоит 0.9), почти без ошибок. Картинки он вроде тоже пытался вставлять, но я их выкидывал. Пользовался YAGF в качестве фронт-энда.

Zombieff ★★
()

Кьюниформ

Для тех, кто не владеет английским и не умеет читать статьи в Википедии (там всегда транскрипция и произношение есть). Ударение на первый слог.

Zombieff ★★
()
Ответ на: Кьюниформ от Zombieff

Да мы уже поняли, что куни

Зачем так орать-то?

derrix
()

Кстати распознавалку таблиц и блоков текста сделать намного проще, чем распознавалку символов. Поэтому думаю, что этот функционал будет скоро реализован.

Evtomax
()

Устроим небольшой тестдрайв. Одно и то же изображение. 600 dpi, бинаризована в ScanTailor. Короче, почти идеальные условия для распознавания. Сверху результат распознавания cuneiform 0.9.0+bzr475.1 (1.0 влом собирать)

http://itmages.ru/image/view/42235/09881a2a

В общем-то, комментарии излишни. У файнридера я насчитал 4 ошибки, три из которых со знаками препинания (одна в кадр не вошла)

petrosyan ★★★★★
()
Ответ на: комментарий от anonymous

> fine reader`у капец?

К сожалению, вряд ли... Имхо, не очень к лицу технического вуза когда альтернативой научной деятельности становится экономическая (причем, не в лучшем смысле этого слова) [можно еще Lingvo вспомнить, та еще проприетарщина]... Печаль...

// scoliosis those

anonymous
()
Ответ на: комментарий от Evtomax

> Кстати распознавалку таблиц и блоков текста сделать намного проще, чем распознавалку символов. Поэтому думаю, что этот функционал будет скоро реализован.

его вроде-бы пилят в tesseract/ocropus, к сожелению они никак не связаны с CF

qwerky
()
Ответ на: комментарий от petrosyan

> Одно и то же изображение. 600 dpi

а выглядит как 200. на развороте буквы очень хреновые. адаптивную бинаризацию применить не пробовали ?

qwerky
()
Ответ на: комментарий от Dimanc

> Вы ошиблись сайтом, психиатор сидит на другом.

Зато злой дяденька Спелл Чекер всегда здесь, и в паре с дяденькой Граммар Наци готов надавать тебе по гласным, согласным и несогласным :)

AP ★★★★★
()

по-моему оно ни фига не BSD, а какая-то проприетарщина. На сайте лицензия есть

annulen ★★★★★
()
Ответ на: комментарий от qwerky

> его вроде-бы пилят в tesseract/ocropus, к сожелению они никак не связаны с CF

Эти 2 алгоритма (распознавание символов и распознавание таблиц) можно использовать независимо друг от друга. Так что не всё так плохо :)

Evtomax
()
Ответ на: комментарий от pevzi

Если верить их сайту в архив.орг, последнее значимое обновление у неё было в январе 2002г. И из отзывов на сайте можно подумать, что оно было лучше fr4/5. А потом ,вполне реально, что разрабы перетекли к главному конкуренту.

anonymous
()
Ответ на: комментарий от AP

Первая запятая не нужна, сложного предложения там нет. Точка в конце пропущена. Лишить дяденьку квартальной премии.

Oleaster ★★★
()
Ответ на: комментарий от anonymous

Даже пятого не лучше. Распознавали одну и ту же книгу на плохой бумаге, не расшивая, с помощью FR 5 Sprint и CF последней версии (той, которую открыли как раз). Как только страница ложится чуть неровно — CF пасует, FR справляется.

Но будем надеяться на положительные сдвиги.

Oleaster ★★★
()
Ответ на: комментарий от petrosyan

В общем-то, комментарии излишни.


В то что Петросян дебил, конечно, излишне, а в том что все ошибки это плохое распознавание переносов, откомментить стоит.

vtVitus ★★★★★
()
~ $ eix cunei
* app-text/cuneiform
     Available versions:  ~0.7 ~0.8.0 {debug (+)imagemagick}
     Homepage:            https://launchpad.net/cuneiform-linux
     Description:         An enterprise quality OCR engine developed in USSR/Russia in the 90's.
ados ★★★★★
()
Ответ на: комментарий от Smacker

>Oleaster

Мне бы вполне подошел cuneiform, на 300 и 600 dpi он двухбитные сканы вполне хорошо распознаёт.

Двухбитные сканы в чём сохраняешь? В png али tiff?

baaba ★★★
()
Ответ на: комментарий от Oleaster

Я в мае как раз на местную студенческую конференцию готовил доклад по компенсации скашивания изображений при распознавании)

hexenlord
()
Ответ на: комментарий от vtVitus

Да, большинство ошибок вызвано именно переносами. Делаем вывод, что плейнтекст сабж распознает хорошо, а на оформлении в виде переносов, картинок и таблиц спотыкается. Надеюсь, еще допилят.

pevzi ★★★★★
()
Ответ на: комментарий от vtVitus

У тебя с глазами все в порядке? Или кроме кривой обработки переносов ты ничего больше не видишь?

petrosyan ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.