LINUX.ORG.RU

выдирание текста из pdf

 , ,


0

1

есть необходимость сохранять в пдф всё что печатается
для этого регистрировал в cups, nonameprinter со скриптом примерно следующего содержания

#!/bin/bash
#...
ps2pdf $6 > /путь/somename.pdf
#...
/usr/lib/filter/hpscript $*
Всё работало как надо, но тут случилось, что принтер hp уехал в отпуск, и теперь стоит матричный epson 1170, который наверное старше меня. Этот монстр понимает только текст. Кириллице вроде бы его научил, но вот тут проблема, как посылать на матричный принтер информацию в съедобном виде? т.к. он печатет ps как есть
нужен только текст, без картинок
тут либо преобразовывать Постскрипт, либо ПДФ
Постскрипт преобразовать не получилось, выдавал следующее
ps2ascii.ps ./file.ps -c quit >./file.txt
GPL Ghostscript 9.05: Unrecoverable error, exit code 1
в случае с ps2txt таже ошибка
С ПДФ ругани при конвертации не было, но текстовый файл содержит только это, ни текста, ничего
^L^L^L
использую pdftotext из набора poputils
Гугление не помогает, есть вариант печатать растр пдф, но это долго и некрасиво, а текст выдирать никак не получается. В чём может быть проблема? Прилагаю примеры файлов пдф (90,70 кб) и посткрипта (35,94 кб) (статья «хранение мёда» версия для печати)


поставить нормальный принтер.

MikeDM ★★★★★
()
Ответ на: комментарий от sdio

прикол в том, что ввожу в консоли

ps2pdf raw.ps out.pdf
pdftotext -layout out.pdf result.txt
и всё работает! result.txt содержит весь тот текст что надо Но абсолютно те же строчки в скрипте cups/interfaces, не пашут.
!#/bin/bash
raw=$6
ps2pdf $raws out.pdf
pdftotext -layout out.pdf result.txt
cat ./result.txt
:'(

MikeDM, как только вы остановите все войны, ложь и не справедливость во всем мире, только после этого.

Zhopin
() автор топика

и теперь стоит матричный epson 1170

Зашибись... Супер скоростной матричник - уже проблема ? А что, в CUPS драйвера нет ? :-)

На него вполне можно растровую графику выводить. Соответственно, всё должно печататься. Да, ps не понимает, конечно, но драйвер должен решать этот вопрос и печатать всё, что угодно. Да, конечно, растр он печатать будет дольше, чем если ему просто текст скормить.

AS ★★★★★
()
Ответ на: комментарий от sdio

первое что подумал, проверено. Дело вроде не в этом.

AS растр не вариант, на порядок дольше, нагрузка на головку высокая, да иногда текст попросту не читаемый

Супер скоростной матричник - уже проблема ?

видимо не сталкивались с бюджетными организациями

Zhopin
() автор топика
Ответ на: комментарий от Zhopin

растр не вариант, на порядок дольше

Дольше - это да. Но разные шрифты из документа иначе никак, думаю. Шрифты у 1170 загружаемые, наверное, но это совсем не те шрифты, которые в современных документах используются.

нагрузка на головку высокая

Это с чего бы ? Если, конечно, фон белый.

видимо не сталкивались с бюджетными организациями

Вообще, я помню времена, когда лазерный принтер был дорогой диковинкой. Диплом я на Star NX-1500 печатал. ;-)

AS ★★★★★
()

Прилагаю примеры файлов пдф (90,70 кб)

В этом pdf нет текста. В нём картинка, потому и не выдирается. Тут только попробовать какой-нибудь cuneiform использовать. Но проще печатать, как есть.

AS ★★★★★
()
Ответ на: комментарий от AS

всё прекрасно выдирается
нужно печатать текст с минимальным форматированием, дефолтный шрифт принтера годиться. Насчёт растра, это нужно просто увидеть)
Я помню времена АЦПУ ЕС7040, хотя совсем молод, они тут просто до сих пор не прошли)

в общем всё прекрасно стало работать, когда вынес обработку в отдельный скрипт и работал с файлами в /tmp

Всем спасибо, особенно анонимусу)

Zhopin
() автор топика
Ответ на: комментарий от Zhopin

всё прекрасно выдирается

Нет. «pdftotext -layout result.pdf result.txt» не выдаёт ничего хорошего в result.txt. result.pdf - это скачано по ссылке из изначального сообщения.

AS ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.