LINUX.ORG.RU

История изменений

Исправление saahriktu, (текущая версия) :

plaintext'ы, как уже писал выше, можно конвертировать в родную кодировку при помощи enca. А другие форматы более сложные и содержат дополнительную инфу. HTML и FB2, например, содержат поля с указанием кодировки (не всегда корректно, но что поделать, тут и у юзера UTF-8 такая же ситуация). pdftotext знает как извлекать текст из PDF файлов в указанную кодировку. Внутри EPUB, DOCX и DJVU (в DJVU очень часто ещё и текстовый слой, да) файлов почти всегда UTF-8. catdoc знает как извлекать текст из DOC файлов в текущую кодировку. xls2csv знает как извлекать текст из XLS файлов в текущую кодировку. catppt знает как извлекать текст из PPT файлов в текущую кодировку. Внутри CHM файлов HTML файлы. ... И т.д. Так что, можно автоматизировать конвертацию всего в plaintext в кодировке локали.

И это не говоря уже о том, что другие кодировки спокойно определяются на глаз (писал выше).

Исходная версия saahriktu, :

plaintext'ы, как уже писал выше, можно конвертировать в родную кодировку при помощи enca. А другие форматы более сложные и содержат дополнительную инфу. HTML и FB2, например, содержат поля с указанием кодировки (не всегда корректно, но что поделать, тут и у юзера UTF-8 такая же ситуация). pdftotext знает как извлекать текст из PDF файлов в указанную кодировку. Внутри EPUB, DOCX и DJVU (в DJVU очень часто ещё и текстовый слой, да) файлов почти всегда UTF-8. catdoc знает как извлекать текст из DOC файлов в текущую кодировку. xls2csv знает как извлекать текст из XLS файлов в текущую кодировку. catppt знает как извлекать текст из PPT файлов в текущую кодировку. Внутри CHM файлов HTML файлы. ... И т.д. Так что, можно автоматизировать конвертацию всего в plaintext в кодировке локали.