LINUX.ORG.RU
решено ФорумTalks

Вытащить текст из PDF с невидимыми лишними пробелами

 


1

2

Имеется PDF, при копировании/извлечении текста он получается с многочисленными лишними пробелами в словах. Есть что-нибудь готовое для решения задачи? Логика вроде бы проста: если координата whitespace-символа совпадает с координатой другого символа, также попавшего в selection, символ следует выкинуть.

★★

На крайний случай есть OCR.

Sadler ★★★
()
Ответ на: комментарий от cnupm

pdf2text | sed

echo «м а м а м ы л а р а м у» | sed .... ???

что именно там надо написать?

Rastafarra ★★★★
()

С этим говном нормально справляться только через OCR, увы.

hungry_ewok
()
Ответ на: комментарий от cnupm

Внезапно, pdftotext извлекает все правильно, даже переносы слов убирает. Спасибо

shatsky ★★
() автор топика
Ответ на: комментарий от Rastafarra

Ctrl+C, например. Проблема в том, что в тексте действительно есть эти пробелы. Не знаю, как посмотреть внутренности PDF, там PostScript-подобный язык, но если конвертировать в SVG - в содержимом tspan'ов эти лишние пробелы есть, а их координаты совпадают с координатами символов перед ними.

shatsky ★★
() автор топика

poppler, https://en.wikipedia.org/wiki/Poppler_(software)

poppler-utils is a collection of tools builds on poppler library API, to manage PDF and extract contents.
pdfdetach extract embedded documents from a PDF
pdffonts lists the fonts used in a PDF
pdfimages extract all embedded images at native resolution from a PDF
pdfinfo list all infos of a PDF
pdfseparate extract single pages from a PDF
pdftocairo convert single pages from a PDF to vector or bitmap formats using cairo
pdftohtml convert PDF to HTML format retaining formatting
pdftoppm convert a PDF page to a bitmap
pdftops convert PDF to printable PS format
pdftotext extract all text from PDF
pdfunite merges several PDF
pacify ★★★★★
()
Ответ на: комментарий от shatsky

Кстати, можно же конвертировать в SVG, почистить tspan'ы и конвертировать обратно в PDF.

shatsky ★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.