LINUX.ORG.RU

Какие существуют средства автоматической/автоматизированной обработки сканированных документов?


0

0

Доброго времени суток!

Какие существуют открытые средства автоматической или автоматизированной обработки сканированных документов? Т.е. есть документ, в основном - печатный текст, возможно картинки (черно-белые или в градациях серого), его сканируют и превращают в набор графических файлов. Теперь надо провести обработку - выровнять крен, очистить от мусора, обрезать поля, отрегулировать контрастность, уменьшить кол-во цветов (если в градациях серого), разрезать сдвоенные страницы и т.д.

Пока нашел только unpaper - есть ли еще что-нибудь? Для массовой обработки предназначенное, графические редакторы общего назначения не интересуют.

Вообще, интересуют любые инструменты для облегчения процесса перевода документов в электронный формат. А также библиотеки реализации различных алгоритмов обработки подобных изображений.

anonymous

а какже электронный документооборот?

dimon555 ★★★★★
()
Ответ на: комментарий от Bod

> Это вроде специально создавалось для таких целей
> http://www.bible-mda.ru/soft/scankromsator/1-sergeev_v-scankromsator-start-gu...


Кстати, описание от автора к одной из предыдущих версий. Ссылка http://bolega.hotmail.ru пустая, но по ссылке выше её можно скачать.

Тут спрашивали о программе по автоматической
чистке и обработке сканов.
Можете использовать мою.
Называется ScanKromsator.
Последняя версия 2.0.
Возможности:
- конвертация формата и DPI изображений;
- разворот изображений на 90, -90, 180 градусов;
- автоматическое исправление наклона страниц, стандартный и Antialiasing-методы;
- разрезание разворотов страниц на две отдельные страницы;
- автоматическое определение ширины книги и приведение размеров всех ее страниц к единому значению, автоматическое исправление полей страниц;
- убирание лишних или «грязных» полей;
- убирание черных полос на развороте страниц;
- автоматическая чистка черных полос (как правило, на развороте), «налезающих» на текст;
- очистка страниц от шума и мелкого «мусора» (despeckle), мягкий режим очистки для «песочного» текста;
- гибкие правила по именования выходных файлов (добавление префикса, нумерация с шагом, нумерация начиная с определенного значения);
- smart-сортировка имен исходных файлов: правильно расположит файлы типа
[xxx]1.tif, [xxx]1[x].tif, [xxx]2.tif, …, [xxx]100.tif, …
где [xxx] – произвольный опциональный префикс, [x] – произвольный опциональный однобуквенный суффикс;

Поддерживаемый формат исходных файлов: BMP (сжатый и несжатый), TIFF (все форматы включая многостраничные), GIF.
Поддерживаемый формат конечных файлов: BMP (несжатый), TIFF (сжатый и несжатый), PDF (Portrait,
two pages on one, booklet, smallbook, compression)

Программа работает в пакетном режиме, но с полной визуализацией исходного и конечного результатов. Процесс обработки проходит в два этапа: на первом этапе пользователь формирует задание: задает для каждой станицы или целой группы страниц определенное правило обработки. На втором этапе происходит собственно сама обработка изображений в соответствии с построенными правилами. Процесс составления задания полностью интерактивный и визуальный. Задания можно сохранять в файл для повторного использования или корректировки. После завершения обработки задания пользователь имеет возможность тут же просмотреть результат, сверить его с оригиналом, и при необходимости вернуться к заданию и отредактировать его правила, целиком, или для любых выборочных страниц.

Пользуйтесь на здоровье!
лежит на http://bolega.hotmail.ru
(дока там пока от 1-й версии, но скоро будет новая).

Bod ★★★★
()
Ответ на: комментарий от Bod

Я это видел, хотя на djvu-soft давно не был, кажется, там что-то новое появилось.

СканКромсатор - (а) закрытая (исходников я не видел), (б) виндовая программа. Мне нужна (а) открытая, (б) под Линукс (или кроссплатформенная). Запуск через wine не интересует.

anonymous
()
Ответ на: комментарий от anonymous

> СканКромсатор - (а) закрытая (исходников я не видел), (б) виндовая программа. Мне нужна (а) открытая, (б) под Линукс (или кроссплатформенная). Запуск через wine не интересует.

Боюсь, тогда только самописными скриптами. Мне ничего готового пригодного не попадалось. Ты ведь не написал о своих предубеждениях ;).
Жаль что автор исходники не выложил. Раз сам потерял интерес к проекту..

Bod ★★★★
()
Ответ на: комментарий от Bod

Для начала по ссылке, которую я давал. Можно дополнять под свои нужды.
------------------------
Для сканирования рукописного одноцветного текста в Linux удобно использовать сканер с автоматической подачей бумаги, сканировать в .pdf, а напоследок -->

для начала -- разбираем нужный файл на странички:
pdftoppm -gray file.pdf tmp

mkdir new
for i in *.pgm ; do convert $i -white-threshold 60000 -black-threshold 50000 -monochrome new/$i ; done
<-- для чётких записей (ручкой)

или:
for i in *.pgm ; do convert $i -white-threshold 71000 -black-threshold 60000 -monochrome new/$i ; done
<-- для карандашных записей

Потом выполняем
cd new
for i in *.pgm ; do cjb2 -lossy $i $(basename $i .pgm).djvu ; done
djvm -c ../file.djvu *.djvu

Результат: file.djvu занимает по 14 кбайт на страничку.

Для эстетов: всё-таки лучше записи от руки выглядят в векторном формате. Возьмём для примера одностраничный file.djvu (полученный путём вышеописанных
манипуляций) и перекодируем его в векторный file.pdf:
ddjvu -format=ppm -page=1 -size=1756x1343 file.djvu file.pbm
convert file.pbm -monochrome file-1.pbm
potrace --opttolerance 1 --unit .5 -b pdf file.pbm
Да, file.pdf получился в 3 раза больше file.djvu, но распечатайте и сравните...

Bod ★★★★
()
Ответ на: комментарий от Bod

То, что нужна открытая, я написал, а Линукс тут как бы подразумевается.

Есть unpaper, но я с ним не разбирался, т.к. сотня (или около того) ключей командной строки меня в первый раз отпугнули. Ну и исходники в виде одного сишного файла из энного числа строк тоже не внушают оптимизм. Но надо взять себя в руки и изучить это средство повнимательнее.

Коли речь зашла о DjVu - как там сейчас у свободных инструментов со сжатием? Не только JB2, но и IW44 (так, кажется у них зовется сжатие цветных слоев)? Раньше, насколько я помню, свободные средства заметно проигрывали коммерческим по эффективности сжатия.

anonymous
()
Ответ на: комментарий от anonymous

> Есть unpaper, но я с ним не разбирался

Хм. Будет настроение - посмотрю.. Спасибо.

> Коли речь зашла о DjVu - как там сейчас у свободных инструментов со сжатием? Не только JB2, но и IW44 (так, кажется у них зовется сжатие цветных слоев)? Раньше, насколько я помню, свободные средства заметно проигрывали коммерческим по эффективности сжатия.


Если честно, не знаю. Жму на работе под вендой. Дома только смотрю.
Не попробуешь - не узнаешь ;)

Bod ★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.