LINUX.ORG.RU

Чем создавать PDF-ы из картинок и текстового слоя?


0

0

Есть отсканированные документы в виде графических файлов, они распознаются в автоматическом режиме и нужно сделать PDF-ы, внешний вид которых определяется графическими файлами и есть скрытый текстовый слой с привязкой символов в координатам в графическом слое.

Вопрос: чем это можно сделать? В автоматическом режиме, разумеется.

P.S. Вопрос именно про PDF, про другие форматы я знаю и не интересуюсь.

anonymous

pdf поддерживает слои да ещё и скрытые?

Если без скрытых слоев то просто распечатать в ps, затем сконвертить ps2pdf.

gena2x ★★★
()

В таком случае лучше djvu, он как раз под такую вешь заточен. Имеется возможность текстового слоя. Как минимум Beagle и Google его даже индексирует.

Но внедрить этот слой - через Жо. Нужно распознать в файнридере и затем запустить какую-то наколенную виндовую поделку. Ещё можно найти по запросу OCR+djvu.

anonymous_num_0
()
Ответ на: комментарий от anonymous_num_0

Гм. Мне казалось, я написал по-русски, что вопрос про PDF и только про PDF. С DjVu все замечательно и элементарно без всяких "поделок".

anonymous
()
Ответ на: комментарий от gena2x

Имеется в виду - в PDF закладывается изображение документа и скрытый текстовый слой для поиска с привязкой символов к точкам на изображении. Насколько я знаю, PDF это может.

anonymous
()
Ответ на: комментарий от marsijanin

Нужно не поверх, нужен скрытый текстовый слой только для поиска. Пользователь видит только картинку, но может искать по текстовому слою.

anonymous
()
Ответ на: комментарий от anonymous

>Гм. Мне казалось, я написал по-русски, что вопрос про PDF и только про PDF. С DjVu все замечательно и элементарно без всяких "поделок".

Распечатай djvu -> pdf, будет тоже элементарно

anonymous
()
Ответ на: комментарий от anonymous_num_0

> Если не сложно - расскажите

В проекте djvulibre есть утилита djvused, которая может редактировать в том числе и текстовый слой. Входной формат очень простой - нужен текст с координатами. Можно указывать координаты всей страницы, абзацев, строк, слов и символов (вроде еще есть какие-то виды блоков, можно в исходниках djvulibre посмотреть). Текст - в UTF-8, не-ASCII символы кодируются в виде \323. В общем, эта часть элементарна. Ну, а текст с координатами получаем от любого OCR, который умеет выдавать это. Я использовал Fine Reader Engine, у него API очень простой, программка, управляющая FRE, djvused и прочими инструментами для автоматического преобразования документов из картинок в DjVu с текстом, в первом приближении пишется за день.

anonymous
()
Ответ на: комментарий от baaba

> есть скрипт ps2pdf, а ps сваять наверное есть много способов

А разве в PostScript есть такое понятие, как скрытый текстовый слой? Мне казалось, это язык для печати.

anonymous
()
Ответ на: комментарий от anonymous

> Распечатай djvu -> pdf, будет тоже элементарно

Чем? При печати будет передан текстовый слой с координатами?

anonymous
()

Поставь любую смотрелку с браузером, и печатай несколько документов (т.е. картинок) в PDF-фаил.

anonymous
()
Ответ на: комментарий от anonymous

> Поставь любую смотрелку с браузером, и печатай несколько документов (т.е. картинок) в PDF-фаил

А какие "смотрелки" умеют при таком действии закладывать в формируемый PDF скрытый текстовый слой?

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.