pdf to txt

0

0

Есть такая задача: конвертировать 100-мегабайтный pdf-файл, состоящий из отсканированного, но не распозанного текста (т.е. просто картинки, загнанные в pdf), в plain-text. У меня под cxoffice стоит ABBYY FineReader Sprint 5.0. Но он, похоже, pdf открывать не может. Тогда нужно как-то перегнать pdf в картинку и только тогда распознавать.

Внимание вопрос: Как сделать pdf => bmp или что-нибудь похожее?

Ссылка

←	xemacs + xmanager..

В ASPLinux была такая штука...

→

ghostscript

anonymous
(24.01.04 17:03:53 MSK)

Ссылка

Самый простой способ - 6-й FineReader.
И больше таких глюпых pdf не делай :)
Для нераспознанного текста хорош djvu

Shadow ★★★★★
(24.01.04 17:28:37 MSK)

Ответ на: комментарий от Shadow 24.01.04 17:28:37 MSK

>Самый простой способ - 6-й FineReader.

Только он у меня под crossover office не ставится :(

K48 ★★★★
(25.01.04 00:41:03 MSK) автор топика

Ссылка

pdfimages, pdf2bmp и т.п.

jackill ★★★★★
(25.01.04 17:05:03 MSK)

Ответ на: комментарий от jackill 25.01.04 17:05:03 MSK

Спасибо, но: Error: Copying of images from this document is not allowed.

Что делать?

K48 ★★★★
(25.01.04 19:18:24 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	xemacs + xmanager..

В ASPLinux была такая штука...

→