LINUX.ORG.RU

Быстро вырезать отдельные участки из pdf

 , ,


1

3

Добрый день. Есть pdf на приблизительно сто страниц, требуется из него вырезать отдельные участки с целью распечатать. Я мог бы разобрать его постранично на изображения, каждое обработать отдельно и потом склеить, но это будет очень медленно. Идеальное решение проблемы я вижу так: pdf преобразуется в километровое непрерывное изображение, я в любимом графическом редакторе выбрасываю ненужные куски, каким-то образом утрамбовываю получившееся «дырявое» изображение, печатаю обратно в pdf. Подскажите, пожалуйста, как можно быстрее всего это выполнить. Конкретно беспокоит преобразование в непрерывное изображение и утрамбовка для заполнения пустых областей. Заранее спасибо.

★★

https://stackoverflow.com/questions/21605262/convert-multipage-pdf-to-a-singl...

Насчет утрамбовывания не до конца понял, ты собираешся стирать произвольные по длине куски (которые могут затрагивать несколько страниц из оригинальной pdf) из получившегося монолитного изображения? Может, проще будет их просто закрасить?

Ну или разобрать на изображения/страницы и собрать их подредактированное подмножество обратно, это также не трудно реализовать через тот же convert.

Karthago ★★
()
Последнее исправление: Karthago (всего исправлений: 2)

pdf преобразуется в километровое непрерывное изображение

А не проще рассыпать его на страницы pdfseparate, кропнуть страницы в редакторе и собрать обратно pdfunite?

massimus ★★★
()

А для извлечения изображений из pdf можно применять pdfimages.

kostik87 ★★★★★
()
Ответ на: комментарий от kostik87

Ну да, то же самое можно с pdftk burst/cat, или с pdfchain, если хочется гуя, или с помощью pdfsam, если хочется ещё больше гуя)
Суть та же. Я про то, что не надо склеивать пдф в простыню, чтоб кропать.
Но на самом деле из топика не ясно, что именно ТС надо взять из пдф и что он хочет отрезать. Не исключено, что он хочет картинки да колонтитулы отрезать, текст взять и ему вообще хватило бы pdftotext.

massimus ★★★
()
Последнее исправление: massimus (всего исправлений: 1)
Ответ на: комментарий от massimus

Я хочу получить из pdf новый pdf, из которого выброшены некоторые области произвольного размера (ширина каждой равна ширине страницы, длина - произвольная). Закрашивать - не вариант. Если выполнять такую процедуру на уровне каждой отдельной страницы, то получится медленно. Текст содержит и картинки, и колонтитулы, и формулы, но они в контексте задачи не играют особой роли.

Norong ★★
() автор топика
Последнее исправление: Norong (всего исправлений: 2)

километровое непрерывное изображение, я в любимом графическом редакторе

Не знаю, какой у тебя любимый графический редактор, но gimp с «километровым изображением» будет сильно тормозить.

greenman ★★★★★
()
Ответ на: комментарий от Norong

Если эти области одинаковы для каждой страницы, то можно сгенерировать одну PDF страницу, в которой будет одно прозрачное изображение и сделать в нём области, например, белого цвета в тех местах где надо скрыть данные.

Затем посредством pdftk наложить эту страницу как multistamp (stamp) сразу на все страницы одной командой, будет добавлено сразу на все страницы и размер нового файла почти не увеличится.

Если вариантов закрашиваемых областей несколько, то нужно будет разрезать pdf документ и применять эти шаблоны.

kostik87 ★★★★★
()
Последнее исправление: kostik87 (всего исправлений: 1)
Ответ на: комментарий от kostik87

Я лучше юзкейс тогда опишу, потому что это тоже не то, что нужно. Есть методичка в pdf на >100 страниц, содержащая полезной и бесполезной информации примерно поровну. Я хочу сделать на базе этой методички бумажные шпоры (шпаргалки) только с полезной информацией. Если распечатать всё сразу и нарезать в реальности, получится разброс по формам и размеру, для шпор - непрактично, соответственно, нужно сначала получить электронный вариант, содержащий только необходимое, а потом печатать в нужном формате. Копировать каждый полезный блок информации по отдельности выглядит довольно медленным путём. Хотелось бы промотать перед собой эти 100 страниц, выделяя нужные (или ненужные области), потом сделать пару телодвижений - и либо получить полезные области в виде одного непрерывного файла без пропусков, либо в виде множества отдельных файликов, из которых можно легко получить непрерывный файл - главное, чтобы быстро.

Norong ★★
() автор топика
Ответ на: комментарий от Norong

Распознай PDF посредством Abby FineReader, получи word и обработай там как тебе надо.

А вообще списывать плохо, используй голову.

kostik87 ★★★★★
()
Последнее исправление: kostik87 (всего исправлений: 1)
Ответ на: комментарий от Norong

Там где картинки и формулы ты выделишь этот блок как картинку, тогда он не будет пытаться его распознать, а в word документ поместит как изображение.

А где текс - выделишь блоком текста.

kostik87 ★★★★★
()
Ответ на: комментарий от Norong

Если выполнять такую процедуру на уровне каждой отдельной страницы, то получится медленно

Если обрезается контент в начале или конце страницы, делается просто кроп и сохранить. Если нужно наоборот сохранить начало и конец, а середину вырезать, — кроп начало, сохранить как, отмена, кроп конец, сохранить как. Потом все страницы собираются обратно одной командой, как одной командой разбирались. Вырезать куски внутри одной картинки и внутри неё же их двигать вряд ли выйдет быстрее в части «двигать». Честно говоря, не знаю, как это автоматизировать.

Вот тебе ещё вариант:

pdf2htmlEX --embed cfijo --optimize-text 1 input.pdf

Полученную хтмльку правишь любым редактором и распечатываешь.
Тут момент «двигать» вообще исключается.

massimus ★★★
()
Ответ на: комментарий от kostik87

По поводу этической стороны вопроса - я и так в учёбе делаю всё, что могу. Если времени не хватает - первыми блокируются личная жизнь, отдых, спорт. Сейчас даже с учётом этого времени не хватает и требуются альтернативные пути, плюс я не очень верю в методическую ценность зазубривания тонны материала, лучше бы задачи решал.

Norong ★★
() автор топика
Ответ на: комментарий от Norong

Зазубривать и не нужно, нужно понять. Межде прочим, грамотная подготовка шпор, не просто распечатывание методички в мелком формате, а обработка материала, переработка, получения из неё сути, материала, который и поместится на маленькую шпору большой труд, который позволит тебе понять и выучить материал.

Так что шпора, возможно, и не понадобится.

kostik87 ★★★★★
()
Последнее исправление: kostik87 (всего исправлений: 1)
Ответ на: комментарий от massimus

pdf2htmlEX выдал html'ку из 156 строк чего-то страшного. Попробую FineReader'ом, если не пойдёт - последую совету из первой части твоего последнего сообщения. Спасибо!

Norong ★★
() автор топика
Ответ на: комментарий от kostik87

Я один курс уже отучился и две сессии сдал, что-то про методы подготовки понял. Сейчас времени не хватает даже на то, чтобы просто один раз вдумчиво прочитать весь тот материал, который с меня могут спросить. Может быть, успею, но не факт. До того уровня понимания, который позволит без подсказки выдать любую теорию - ещё далеко. В сессию я целые программы курсов самостоятельно с нуля осваивал, но там мне ничто не мешало, в 8 утра сел, в 9 вечера встал. Сейчас ситуация иная - надо выполнять домашние задания, посещать пары... В некотором смысле, сессия проще, чем коллоквиум в середине семестра.

Norong ★★
() автор топика
Ответ на: комментарий от Norong

Я один курс уже отучился и две сессии сдал, что-то про методы подготовки понял.

Наивность. Готовить шпоры по предложенному алгоритму - бессмысленно. С них даже списать не получится, т.к. ты в них не ориентируешся.

aquadon ★★★★★
()
Ответ на: комментарий от aquadon

Я рассчитываю успеть прочитать процентов 80 этой методички, к тому же, там повествование в том же порядке, что и в курсе, который нам читался. Думаю, с ориентированием проблем не будет.

Norong ★★
() автор топика
Ответ на: комментарий от Norong

Тогда не трать время на фигню, читай пока есть время и списывай сразу из методички (в электронном варианте). Проще в читалке на смартфоне закладок наделать с номером билета в заголовке.

aquadon ★★★★★
()
Ответ на: комментарий от aquadon

Спасибо, приму во внимание. По ходу чтения буду закладки ставить.

Norong ★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.