LINUX.ORG.RU

Про кодировки

 ,


0

1

Собственно надо обработать около 1 000 000 текстовых файлов в 99% которых русский или английский текст, а иногда смешанный. Но вот кодировки могут быть совершенно разные. Тарахтеть будет скрипт на питоне, скорость обработки не шибко важна (и я не хочу чтобы после суток работы скрипта на выходе была фигня с кракозябрами). А вот определение кодировки очень важно. Собственно какие есть варианты, чтобы кириллицу хорошо детектило, а не так как в этом вашем gedit-е, который половину файлов весёлыми кракозябрами показывает?

★★★★★

Последнее исправление: peregrine (всего исправлений: 1)

Ответ на: комментарий от vvn_black

Мне не надо гуглить. Мне опыт нужен именно тех, кто с кириллицей работает. Так то я про это знаю, как и про UnicodeDammit с libmagic.

peregrine ★★★★★
() автор топика
Ответ на: комментарий от vvn_black

chardet иногда может назвать cp1251-текст кодированным в MacCyrillic или ISO-8859-2

Ford_Focus ★★★★★
()

Если «по опыту», то вряд ли у тебя более 1..2-х кодировок в исходных данных.

Пре-процессишь всё в utf-8 и уж только потом натравливаешь свою тулзу на эти подготовленные данные.

beastie ★★★★★
()

лично я использую enca для определения кодировок.

sigurd ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.