LINUX.ORG.RU
ФорумTalks

pdf — висит груша, нельзя скушать


1

1

Маты добавить по вкусу:
Есть pdf. С текстом. Выделить текст могу, но при копировании в буфер вставляется мусор. Pdf2html сказал что-то про какую-то защиту.
Перепечатывать руками — долго и нудно.
Какие есть варианты (виндовые тоже рассматриваются — сейчас не жира)?

★★☆

В okular выделить область и скопировать как текст. Он вроде как просто текст с картинки распознаёт.

Myau ★★★★
()
Ответ на: комментарий от abraziv_whiskey

Я принципиально отказываюсь распознавать файнридером текст (текст! в ПДФке текст, а не картинка) чтобы получить текст.

Stahl ★★☆
() автор топика
Ответ на: комментарий от Stahl

Страдай. Ну или тупо поищи кусочек этого текста в интернете, может, уже кто-то выложил.

abraziv_whiskey ★★★★★
()
Ответ на: комментарий от Stahl

PDF разные бывают и внутри там все перекручено.

Короче, распознать pdf - это на практике самый простой и быстрый способ преобразовать его в текст, даже при отсутствии каких-либо защит. Кстати, думаю защиты у тебя на самом деле нет или есть, но только от печати на принтере, а мусор в буфере следствие общей кривизны формата.

praseodim ★★★★★
()
Ответ на: комментарий от praseodim

Попробовал «распечатать» в постскрипт и другой pdf — тоже мусор какой-то. В общем я заношу pdf в список говна.

Stahl ★★☆
() автор топика

Там не мусор, там просто «вендо»-проблемы с кодировкой символов в шрифте. Запихай этот мусор в декодер кодировок темыча, порадуешься

n_play
()

Я за файнридер. Тем более, он правильные pdf не распознаёт, а считывает, а распознаёт только вёрстку.

Shadow ★★★★★
()
Последнее исправление: Shadow (всего исправлений: 1)
Ответ на: комментарий от Shadow

Формат, препятствующий тривиальным и очевидным действиям, причём препятствующий целенаправленно, не может называться хорошим.

Stahl ★★☆
() автор топика
Ответ на: комментарий от Stahl

Ты его в векторе не видел... Этто то же, что PS - годится только для принтера/просмотра. Всё остальное - через файнридер.

Shadow ★★★★★
()

Это не совсем текст скорее всего, а неупорядоченый набор букв в разных строчках, где буквы расположены в правильных координатах. Без распознавания у тебя маленькие шансы

vertexua ★★★★★
()
Ответ на: комментарий от Stahl

В общем я заношу pdf в список говна.

Проблема в том, что альтернативы как-то и не просматривается. А кроме того, в РФ официально признан стандартом для документации.

praseodim ★★★★★
()
Ответ на: комментарий от vertexua

Плохо, поскольку я не могу найти более вменяемых источников.
Какое же всё-таки говно этот ваш 21 век. Здравый смысл не в почёте.

Stahl ★★☆
() автор топика
Ответ на: комментарий от Stahl

Формат, препятствующий тривиальным и очевидным действиям,

например, защите информации внутри документа :3

stevejobs ★★★★☆
()
Ответ на: комментарий от Stahl

ааа. Если это pdf без тектового слоя (наверно какой-то дебил сканировал книжку), то да, там мусор будет. Ничего неподелаешь.

просто бывает что текст на месте, просто кодировка уехала куда-то, мне помогало.

n_play
()
Ответ на: комментарий от stevejobs

в древнем kpdf есть галочка в опциях на этот счет. Можно отключать например =)

n_play
()
Ответ на: комментарий от vertexua

Не получилось — он выбросил половину страниц вообще (как раз нужных)

Stahl ★★☆
() автор топика

А где сам объект для издевательств????

justAmoment ★★★★★
()

Всё! Отставить! Какой-то несчастный уже сделал эту работу и есть html кусок (без табуляций и прочих переводов кареток, но это дело такое)
Как же я устал от арабства — тут арабы, там арабы. И многим же нравится. Оно же арабистое такое и блестящее...

Stahl ★★☆
() автор топика
Ответ на: комментарий от Stahl

pdf не предназначен для редактирования или копирования текста. Он предназначен для печати документации и, опционально, чтению с экрана. Со своими задачами он справляется. Для всего остального есть масте docx txt.

atrus ★★★★★
()

Отключи в okular «соблюдение авторских прав».

ptah_alexs ★★★★★
()

Сначала проверь, есть на самом деле защита от копирования. В pdf она очень слабая и ломается нужными виндовыми утилитами в пару кликов.

Lordwind ★★★★★
()
Ответ на: комментарий от Lordwind

спрошу тут. Есть некоторое количество pdf у которых на каждой странице написано красным «держи вора». Как бы все это вычистить чтобы красного не было? Сколько не искал ничего не нашел.

yax123 ★★★★★
()
Ответ на: комментарий от Stahl

В общем я заношу pdf в список говна.

Он всегда там был, не? Зачем в цифровую эпоху эта бумажная параша — не понятно.

Deleted
()
Ответ на: комментарий от yax123

Отредактировать pdf в акробате. Это который не ридер, а полноценный редактор.

Lordwind ★★★★★
()
Ответ на: комментарий от Stahl

В общем я заношу pdf в список говна

и линукс добавь... когда я сканировал и собирал книги, на винде была куча софта под все нужды

вы фанатики со своей швабодкой вечно носитесь как сейчас талибы и гомосеки, то вам ОС не та, то лицензия неправильная, то тулкит вражеский, то ШГ мерещится... советую выкинуть комп и пойти бабу снять

Lordwind ★★★★★
()
Ответ на: комментарий от Stahl

Устал, не расстроен, колбаса давно съедена, водки нормальной все равно нет. Смешно что у тебя проблема в ОС и софте, а виноват формат документа.

Lordwind ★★★★★
()
Ответ на: комментарий от Lordwind

У меня нет проблем с ОС и софтом. У меня есть проблема лишь в том, что нужная мне информация доступна только в формате, препятствующем копированию.

Смешно

Это, кажется, у тебя проблема. Но я не хочу об этом говорить.

Stahl ★★☆
() автор топика

pdf бы хоть показал, если не секрет. а то гадания на кофейной гуще сплошные

ananas ★★★★★
()

В настройках поищи пункт про защиту.

ymuv ★★★★
()
Ответ на: комментарий от Stahl

нужная мне информация доступна только в формате, препятствующем копированию

какая гнусная ложь, pdf не препятствует копированию, просто предоставляет механизмы для защиты от печати и копирования, как их обойти уже все сказали.

Lordwind ★★★★★
()

К твоему сведению, то же самое можно делать в HTML.

А люди с отключённым JS при этом вообще пойдут лесом.

Miguel ★★★★★
()
Ответ на: комментарий от Lordwind

pdf не препятствует копированию, просто предоставляет механизмы для защиты от печати и копирования

Мерзкая демагогия.

Stahl ★★☆
() автор топика
Ответ на: комментарий от roman77

Афигенно!!! То что нужно. Правда тут в доке 1000 страниц, и на каждой про вора 4 блока. Руками удалять можно упариться.

yax123 ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.