День добрый!
Представляю на суд широкой общественности простенький движок для распознавания отсканированных изображений текстовых документов. Предупреждаю сразу - пока что все весьма и весьма сыро, но первые результаты есть.
Достоинства:
1. Движок оформлен в виде библиотеки, написанной на языке C. Честно говоря, сейчас бы я предпочел плюсы... С другой стороны, такую библиотеку можно использовать и из других языков программирования.
2. Для распознавания символов используется нейросеть, поэтому достаточно легко можно обучить движок новому языку распознавания.
Что можно увидеть сейчас:
1. В архиве лежит библиотека каталог libocr), простенькая консольная программа для распознавания (tools/ocr), программа-тренер для обучения нейросети (tools/trainer) и несколько тестовых страничек (pages).
2. Движок обучен на распознавание прописных букв киррилического алфавита: заглавные буквы, цифры, знаки препинания - не распознаются!
Что нужно для успешной компиляции:
GLib версии 2.10.x (с более старой скорее всего не собирется)
libtiff
http://www.radico.ru/syomin/ocr-r55.tar.bz2
Желаю успеха!
Ответ на:
комментарий
от logIN
Ответ на:
комментарий
от bik
Ответ на:
комментарий
от syomin
Ответ на:
комментарий
от AP
Ответ на:
комментарий
от syomin
Ответ на:
комментарий
от unDEFER
Ответ на:
комментарий
от unDEFER
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.