LINUX.ORG.RU

Кириллица в Python: regular expressions


0

0

Как правильно указывать множества "[А-Яа-я]" и т.д. при работе 
с сабжем (уникод)? Биндинги типа r"\w" ОК, интервалы не работают.
Workaround приблизительно такой:

buffer = unicode(open("file.txt", "r").read(), "cp1251")
pattern = re.compile(r"[А-Яа-я]", re.UNICODE)
print pattern.findall(buffer)

Причем ur"[А-Яа-я] не помогает. Коды символов? А какие и как их вводить?

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.