Есть способ восстановить формат текста из пдф?

0

2

У гугла неудобная читалка, приходится конвертить гуглобуки гугл->пдф->фб2 чтобы нормально читать. Но естественно это ломает разбивку на абзацы, что уже начинает подбешивать.

Есть какой-нить скрипт чтобы распарсить абзацы по отступам и корректно учесть переносы строк при вытаскивании текста?

Ссылка

←	Связь между init и daemon

Astra Linux + Аладдин JaCarta + AD

→

pdf - это уже «скомпилированный» формат и пытаться вытащить из него «абзацы текста» - почти то же самое, что пытаться восстановить исходники по бинарю. это возможно, но оно того не стоит. если хочешь, то можно попробовать распознать скриншоты страничек тессерактом.

гугл->пдф->фб2

почему нельзя просто гугл->фб2?

anonymous
(18.12.23 16:57:59 MSK)

Нельзя. Только распознаванием. Даже если там остался живой нерастеризованный текстовый слой, то буквы там могут быть расположены в рандомном порядке.

PPP328 ★★★★★
(18.12.23 17:29:57 MSK)

Ссылка

Существуют какие-то коммерческие программы, которые специализируются на вытряхивании информации из pdf, но все какие я тыкал палочкой с кириллицей в общем случае не дружат. Исключение составляют специально приготовленные pdf, но как правило никто этим не заморчивается. Так что в общем случае нет. Ищи уже готовый fb2.

Evgueni ★★★★★
(18.12.23 18:03:11 MSK)

Ответ на: комментарий от anonymous 18.12.23 16:57:59 MSK

Технически это сложнее т.к. гугл вообще не поддерживает экспорт куда либо. Но возможно к тому приду в результате.

ya-betmen ★★★★★
(18.12.23 18:03:34 MSK) автор топика

Ссылка

Ответ на: комментарий от Evgueni 18.12.23 18:03:11 MSK

Ищи уже готовый fb2.

Пираты не любят пиратить англоязычную литературу к сожалению. А переводы ждать можно долго.

ya-betmen ★★★★★
(18.12.23 18:06:22 MSK) автор топика

Ответ на: комментарий от ya-betmen 18.12.23 18:06:22 MSK

А, то есть у тебя даже не исходный pdf, а сканы. Ну тогда только ручками после OCR. Сам себе переплётчик.

Evgueni ★★★★★
(18.12.23 18:12:21 MSK)

Ответ на: комментарий от Evgueni 18.12.23 18:12:21 MSK

Не сканы. В том то и дело, что из гугла можно вытащить (с помощью мата, автокликера и такой-то матери) страницу на печать, но это не человеческих хтмл, а что-то близкое к пдф.

ya-betmen ★★★★★
(18.12.23 18:15:31 MSK) автор топика

Ответ на: комментарий от Evgueni 18.12.23 18:12:21 MSK

Ну тогда только ручками после OCR.

В нулевых ABBYY хорошо распозновала и форматировала. Почему сейчас «ручками»?

TPPPbIHDELj ★
(18.12.23 18:15:52 MSK)

Ответ на: комментарий от TPPPbIHDELj 18.12.23 18:15:52 MSK

блоки она не 100 % отгадывает где таблица, где картинка с буковками. если просто текст из книжки - то нет вопросов…

anonymous
(18.12.23 18:19:28 MSK)

Ссылка

В теории можно, но таких конверторов я не видел, хотя возможно это fb2 сложную разметку не поддерживает. Парсить в целом pdf не проблема, иначе как бы ты его в просмоторщике открывал. Есть правда где вместо текста картинки, или текст обфусцирован, но если ты сам текст смог сконвертить, то проблема только в разметке, которую не стали переносить в fb2. Вот если ты захочешь конвертировать в другой формат типа odf или docx, то скорей всего разметка перенесется

screamager ★
(18.12.23 18:23:43 MSK)

конвертить гугл->пдф->фб2

«гугл» это что за формат такой?

firkax ★★★★★
(18.12.23 20:27:20 MSK)
Последнее исправление: firkax 18.12.23 20:27:37 MSK (всего исправлений: 1)

Ответ на: комментарий от firkax 18.12.23 20:27:20 MSK

Гуглобуки же, я хз, там что-то огороженное.

ya-betmen ★★★★★
(18.12.23 20:44:26 MSK) автор топика

Ответ на: комментарий от screamager 18.12.23 18:23:43 MSK

На уровне пдф нет абзаца, есть текстовые блоки с разным положением на странице (иногда по блоку на слово). Но общая логика разбиения есть в отступах/красных строках, которые тоже сделаны через координаты. Поэтому выдирание текста превращает каждую строку в отдельный абзац. Вот думаю вдруг кто озаботился уже.

ya-betmen ★★★★★
(18.12.23 20:47:06 MSK) автор топика
Последнее исправление: ya-betmen 18.12.23 20:47:51 MSK (всего исправлений: 1)

Тебе нужна не «какая-нибудь», а «надёжно срабатывающая», а это две большие разницы…

Shushundr ★★★★★
(18.12.23 21:42:29 MSK)

Ответ на: комментарий от Shushundr 18.12.23 21:42:29 MSK

При наличии никакой какая-нибудь уже лучше.

ya-betmen ★★★★★
(18.12.23 21:47:31 MSK) автор топика

Ссылка

Там же есть экспорт в epub.

anonymous
(18.12.23 23:38:00 MSK)

Называется напиши сам

rtxtxtrx ★★★
(18.12.23 23:42:25 MSK)

Ссылка

Ответ на: комментарий от ya-betmen 18.12.23 20:47:06 MSK

Чем тут озаботиться, если логической разметки нет вообще? А так вроде pdf2html раскидывал текстовые блоки в div с соответствующим css. В браузере получалось похоже на иcходный pdf. Обучи какой-нибуть ChatGPT делать логическую разметку получившегося html.

Tigger ★★★★★
(19.12.23 00:00:51 MSK)

Ссылка

Ответ на: комментарий от ya-betmen 18.12.23 18:15:31 MSK

Так, короче, дай пример такой страницы.

PPP328 ★★★★★
(19.12.23 00:45:53 MSK)

Ссылка

Ответ на: комментарий от anonymous 18.12.23 16:57:59 MSK

текст можно вытащить, если найти описание формата

rtxtxtrx ★★★
(19.12.23 01:55:12 MSK)

Ответ на: комментарий от anonymous 18.12.23 23:38:00 MSK

Такой себе экспорт

Экспортированный ACSM-файл можно будет открывать только в Adobe Digital Editions. Он защищен от использования в другом ПО

ya-betmen ★★★★★
(19.12.23 03:28:13 MSK) автор топика

Ответ на: комментарий от ya-betmen 19.12.23 03:28:13 MSK

https://py-pdf-parser.readthedocs.io/en/latest/examples/simple_memo.html#step-3-extract-the-data

rtxtxtrx ★★★
(19.12.23 03:33:09 MSK)

Ответ на: комментарий от rtxtxtrx 19.12.23 03:33:09 MSK

Хм, надо глянуть. Ааа, фигня какая-то, я думал там скрипт чтобы дерьмо снести.

ya-betmen ★★★★★
(19.12.23 03:34:00 MSK) автор топика
Последнее исправление: ya-betmen 19.12.23 03:48:41 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от ya-betmen 18.12.23 20:44:26 MSK

Гуглобуки

Он тебе книги целиком даёт читать?

И вообще в ОП надо подчеркнуть, что гуглобуки.

greenman ★★★★★
(19.12.23 04:21:24 MSK)
Последнее исправление: greenman 19.12.23 04:22:52 MSK (всего исправлений: 1)

Ответ на: комментарий от greenman 19.12.23 04:21:24 MSK

Он тебе книги целиком даёт читать?

Да, купленные.

И вообще в ОП надо подчеркнуть, что гуглобуки.

Ну, апдейтнул.

ya-betmen ★★★★★
(19.12.23 04:47:48 MSK) автор топика

Ответ на: комментарий от ya-betmen 19.12.23 04:47:48 MSK

А не скажешь, в случае «для ознакомления», когда даёт прочесть некоторые страницы, из них как-то можно сделать pdf? (У меня получалось только скриншот сделать, и не средствами браузера, а внешней скриншотилкой)

greenman ★★★★★
(19.12.23 05:18:50 MSK)
Последнее исправление: greenman 19.12.23 05:20:52 MSK (всего исправлений: 1)

Ответ на: комментарий от greenman 19.12.23 05:18:50 MSK

Нормальную - нет, там емнип на подложке картинка с не самым высоким разрешением, а сверху подгружаются слова по координатам и всё это рисуется на канвасе. Если есть желание заморочиться - можно попробовать вклиниться в функцию обработки и дампить текст. Но я с канваса картинку просто выдирал - к сожалению там обычно процентов 10 страниц.

ya-betmen ★★★★★
(19.12.23 05:52:22 MSK) автор топика
Последнее исправление: ya-betmen 19.12.23 05:52:46 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от TPPPbIHDELj 18.12.23 18:15:52 MSK

В случае сложного форматирования (формулы, картинки, таблицы, библиография и т.д.) было не очень. Так что вычитка и правка была обязательна при любых раскладах. Я не к тому, что это невозможно, я к тому, что никто из коммерческих авторов этим не заморачивался ибо не особо то и нужно (как минимум не нужно платежеспособным клиентам).

Evgueni ★★★★★
(19.12.23 11:19:48 MSK)
Последнее исправление: Evgueni 19.12.23 11:21:06 MSK (всего исправлений: 2)

Ответ на: комментарий от Evgueni 19.12.23 11:19:48 MSK

Я художественную читаю. Там формул нет.

ya-betmen ★★★★★
(19.12.23 14:01:43 MSK) автор топика

Ссылка

Ответ на: комментарий от rtxtxtrx 19.12.23 01:55:12 MSK

текст можно вытащить, если найти описание формата

Но это описание формата может оказаться таким сложным, что даже готовая библиотека на любимом языке (вроде pdf.js) не приблизит к решению задачи.

Shushundr ★★★★★
(20.12.23 02:00:35 MSK)

Ссылка

Для того чтобы оставить комментарий войдите или зарегистрируйтесь.

←	Связь между init и daemon

General

Astra Linux + Аладдин JaCarta + AD

→

Похожие темы