История изменений
Исправление saahriktu, (текущая версия) :
plaintext'ы, как уже писал выше, можно конвертировать в родную кодировку при помощи enca. А другие форматы более сложные и содержат дополнительную инфу. HTML и FB2, например, содержат поля с указанием кодировки (не всегда корректно, но что поделать, тут и у юзера UTF-8 такая же ситуация). pdftotext знает как извлекать текст из PDF файлов в указанную кодировку. Внутри EPUB, DOCX и DJVU (в DJVU очень часто ещё и текстовый слой, да) файлов почти всегда UTF-8. catdoc знает как извлекать текст из DOC файлов в текущую кодировку. xls2csv знает как извлекать текст из XLS файлов в текущую кодировку. catppt знает как извлекать текст из PPT файлов в текущую кодировку. Внутри CHM файлов HTML файлы. ... И т.д. Так что, можно автоматизировать конвертацию всего в plaintext в кодировке локали.
И это не говоря уже о том, что другие кодировки спокойно определяются на глаз (писал выше).
Исходная версия saahriktu, :
plaintext'ы, как уже писал выше, можно конвертировать в родную кодировку при помощи enca. А другие форматы более сложные и содержат дополнительную инфу. HTML и FB2, например, содержат поля с указанием кодировки (не всегда корректно, но что поделать, тут и у юзера UTF-8 такая же ситуация). pdftotext знает как извлекать текст из PDF файлов в указанную кодировку. Внутри EPUB, DOCX и DJVU (в DJVU очень часто ещё и текстовый слой, да) файлов почти всегда UTF-8. catdoc знает как извлекать текст из DOC файлов в текущую кодировку. xls2csv знает как извлекать текст из XLS файлов в текущую кодировку. catppt знает как извлекать текст из PPT файлов в текущую кодировку. Внутри CHM файлов HTML файлы. ... И т.д. Так что, можно автоматизировать конвертацию всего в plaintext в кодировке локали.