Про кодировки

python, кодировка

0

1

Собственно надо обработать около 1 000 000 текстовых файлов в 99% которых русский или английский текст, а иногда смешанный. Но вот кодировки могут быть совершенно разные. Тарахтеть будет скрипт на питоне, скорость обработки не шибко важна (и я не хочу чтобы после суток работы скрипта на выходе была фигня с кракозябрами). А вот определение кодировки очень важно. Собственно какие есть варианты, чтобы кириллицу хорошо детектило, а не так как в этом вашем gedit-е, который половину файлов весёлыми кракозябрами показывает?

Ссылка

←	испортили самый удобный diff viewer :(

Как проитерировать ключи в словаре неизвестной вложенности в python

→

Погуглил за тебя https://pypi.org/project/chardet/

vvn_black ★★★★★
(27.01.20 11:41:19 MSK)

Ответ на: комментарий от vvn_black 27.01.20 11:41:19 MSK

Мне не надо гуглить. Мне опыт нужен именно тех, кто с кириллицей работает. Так то я про это знаю, как и про UnicodeDammit с libmagic.

peregrine ★★★★★
(27.01.20 11:57:22 MSK) автор топика

Ссылка

Ответ на: комментарий от vvn_black 27.01.20 11:41:19 MSK

chardet иногда может назвать cp1251-текст кодированным в MacCyrillic или ISO-8859-2

Ford_Focus ★★★★★
(27.01.20 12:20:58 MSK)

Ссылка

если не найдешь готового инструмента, можешь налабать свой по https://hsto.org/storage2/61b/e7a/455/61be7a4552a6650bd19b526db63d4779.png

Ford_Focus ★★★★★
(27.01.20 12:24:08 MSK)

Ссылка

Если «по опыту», то вряд ли у тебя более 1..2-х кодировок в исходных данных.

Пре-процессишь всё в utf-8 и уж только потом натравливаешь свою тулзу на эти подготовленные данные.

beastie ★★★★★
(27.01.20 12:24:51 MSK)

Ссылка

лично я использую enca для определения кодировок.

sigurd ★★★★★
(27.01.20 14:33:39 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	испортили самый удобный diff viewer :(

Как проитерировать ключи в словаре неизвестной вложенности в python

→