LINUX.ORG.RU

Запланировано открытие исходных текстов CuneiForm


0

0

Компания Cognitive Technologies намерена открыть исходные тексты популярной системы распознавания CuneiForm. Официально об открытии исходных кодов будет объявлено 12 декабря. Одновременно с открытием исходников системы компания также презентует новую программу "Распознавание должно быть на каждом компьютере".

>>> Подробности

★★★

Проверено: Shaman007 ()
Ответ на: комментарий от Swappp

> Интересно, а сколько времени, даже с очень хорошим OCRом займет распознавание и даводка до более-менее читаемого вида технической литературы?

У команды из 2-3 профессиональных вычитывателей (ну или как там называются те, кто занимается вычиткой документов) на технический документ из 30-50 страниц (ГОСТ, СНиП) уходит несколько дней.

anonymous
()
Ответ на: комментарий от bigc

>Только вот, пара-тройка десятков страничек из _единственного_ наличествующего экземпляра книжки на пяток человек в виде сканов jpg/png тоже не назовешь удачным решением.

Ну я одному камраду, уехавшему на пятом курсе в Москву, скидывал отсканенные лекции, в нераспознанном djvu.

dn2010 ★★★★★
()

Почитаешь, тут некоторых ораторов и становится ясно, что Линуксу кроме консоли, текстового редактора и браузера программы вообще не нужны!

anonymous
()
Ответ на: комментарий от Swappp

> Интересно, а сколько времени, даже с очень хорошим OCRом займет распознавание и даводка до более-менее читаемого вида технической литературы?

Игорь Загуменнов ("Сам себе Гутенберг") утверждал, что сканирование и вычитка художественной книги ~600 килобайт занимали у него 4-6 часов. С обычным для второй половины 1990-х сканером и программами. Но с техническими текстами, по моему опыту, добавляют мороки таблицы (не сильно), чертежи (с этим хуже), спецсимволы (бывает туго) и формулы (с ними хуже всего).

acheron ★★★★
()
Ответ на: комментарий от Evgueni

> Ну для ксеренья лаб замечательно используется и альтернативная система.

Для ксеренья лаб замечательно используется та ембедед что зашита в любой копир :)

h4tr3d ★★★★★
()
Ответ на: комментарий от anonymous

> с этой целью djvu + фотоаппарат на 6 мегапикселей + две настольные лампы + стойка от старого фотоувеличителя ;)

Серьзено, схемку организации всего этого добра можешь набросать? оч. интересно :)

h4tr3d ★★★★★
()
Ответ на: комментарий от acheron

> Но с техническими текстами, по моему опыту, добавляют мороки таблицы (не сильно), чертежи (с этим хуже), спецсимволы (бывает туго) и формулы (с ними хуже всего).

Чертежи выдирал в gimp'е или при помощи imagemagic (если можно было закономерности расположения выделить), таблицы, спецсимволы и формулы - перебивал сам. Вестку делал в LaTeX. долго. муторно, но хоть результат радовал. Запускал FR6 в wine. Иногда легче оказывалось попросить подругу подиктовать, в технических текстах хорошо использовать сокращения - к ним быстро привыкаешь при набивке, единственно учитываешь окончания, а потом просто заменой по тексту. Читать готовый документ в любом случае лучше давать другому человеку, со свежими силами.

h4tr3d ★★★★★
()
Ответ на: комментарий от h4tr3d

а чего там схемку... из фотоувеличителя выкидывается вся оптика, накладка под фотик делается что бы не царапался и лежал устойчиво. На фотике ручная экспозиция и диафрагма поуже. спуск дистанционный, если есть программа для дистанционной съемки, то через нее. Фотографировать разворот целиком, книгу придавливать сверху стеклом "витринным", что бы не ерзала --- ложить в коробку "от конфет", которая закреплена на столике. ;). Скорость ввода равна скорости перелистывания страниц.

В линуксе перегонять в djvu известным скриптиком, валяется везде в инете.

PS да лампы по сторонам для бестеневого освещения, лучше что бы не грелось экономические 25 ватки.

anonymous
()
Ответ на: комментарий от vlbel

> надо еще придумать систему для автоматизированного перелистывания страниц

В Google эту проблему решили самым оригинальным способом: наняли бригаду перелистывателей :) см. http://www.opennet.ru/opennews/art.shtml?num=10438

yaleks
()
Ответ на: комментарий от myst

> Интересно, а как дела с распознаванием в других системах письма?

Кст, да. Если оно с нашим русским плохо уживается, то как оно вообще к теми же иероглифами справляется? Там ведь вообще их туева куча, со всякими палочками...

anonymous
()
Ответ на: комментарий от AlexzAK

> 12ое декабря наступило.... ждём...

http://www.cuneiform.ru/news/2007/12_12_2007.html

Пока CuneiForm перешел в разряд freeware и готовится открытие бесплатного он-лайн сервиса по распознаванию документов www.Cueiform.ru

А собственно исходники откроют в марте 2008 года.

temarez
()
Ответ на: комментарий от temarez

>Пока CuneiForm перешел в разряд freeware и готовится открытие бесплатного он-лайн сервиса по распознаванию документов www.Cueiform.ru А собственно исходники откроют в марте 2008 года.

Пока что не густо (неужели придется через wine?!), надеюсь что теперь уж точно откроют :-|

X-Pilot ★★★★★
()
Ответ на: комментарий от X-Pilot

Хм а в вайне то он и не работает :( вайн 0.9.51 при нажатии на кнопку "Распознать" выводит сообщение "Ошибка в модуле <kernel32.dll> обратитесь к разработчику" :(

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.