Собственно, нужно научится конвертировать PDF в TXT (или HTML) без разрыва строк в абзацах. Давно у же мучаюсь и не знаю как это сделать.
Пробовал pdf2htmlEX и pdftotext с различными опциями. Ни то ни другое не умеет, или я опций не нащупал.
Я понимаю, что PDF - следствие версточного формата, и разрывы строк у него принудительные. Но может быть есть какой-то конвертор который интеллектуально видит абзацы и не разрывает строки на них?
Образец текста: http://mcst.ru/files/5616f6/f20cd8/50d174/000000/doklad_ao_mtsst_i_pao_ineum_...




Ответ на:
комментарий
от bookman900


Ответ на:
комментарий
от anonymous

Ответ на:
комментарий
от bookman900

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.
Похожие темы
- Новости Релиз texinfo 5.0 (2013)
- Форум Чем сконвертировать pdf в html? (2010)
- Форум HTML => TXT (2002)
- Форум pdf to txt (2004)
- Форум html to txt (2004)
- Форум Добавить разрывы строк? (2013)
- Форум html → pdf (2014)
- Форум русский pdf в txt (2006)
- Форум Markdown -> PDF & HTML (2015)
- Форум wget: html to txt (2010)