Собственно надо обработать около 1 000 000 текстовых файлов в 99% которых русский или английский текст, а иногда смешанный. Но вот кодировки могут быть совершенно разные. Тарахтеть будет скрипт на питоне, скорость обработки не шибко важна (и я не хочу чтобы после суток работы скрипта на выходе была фигня с кракозябрами). А вот определение кодировки очень важно. Собственно какие есть варианты, чтобы кириллицу хорошо детектило, а не так как в этом вашем gedit-е, который половину файлов весёлыми кракозябрами показывает?
Ответ на:
комментарий
от vvn_black
Ответ на:
комментарий
от vvn_black
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.
Похожие темы
- Форум кодировка в кодировке (2007)
- Форум Кодировка (2011)
- Форум кодировка (2010)
- Форум кодировка (2011)
- Форум Кодировки (2010)
- Форум кодировки (2006)
- Форум Кодировка (2006)
- Форум Кодировки (2007)
- Форум Кодировка. (2008)
- Форум кодировка (2007)