Задача - поиск в файлах с русским текстом в кодировке cp1251.
Не получается искать интервалы, составленные кириллицей.
Кто сталкивался, подскажите, как исправить функцию или выражение:
#!/usr/local/bin/python
# -*- coding: utf-8
import re
import codecs
def grab_ru(files=[]):
found=[]
if files !=None:
txtsrch=re.compile(r"фы")# такое выражение находит,
## txtsrch=re.compile(r"[фы]")# а такое НЕ находит,
for file in files:
for line in open(file, 'r'):
## без перекодировки тоже не работает с русским
line=codecs.getdecoder('cp1251')(line)[0]
line=codecs.getencoder('utf8')(line)[0]
found.extend(mailsrch.findall(line))
u={}
for item in found:
u[item] =1
return u.keys()
print grab_ru(files=['ru.txt'])
Спасибо
Ответ на:
комментарий
от anonymous
Ответ на:
комментарий
от anonymous
Ответ на:
комментарий
от watashiwa_daredeska
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.
Похожие темы
- Форум solution: qcad шрифты 2 (cp1251) (2009)
- Форум Зацените скрипт на питоне, по перекодировке mp3 тэгов. (2006)
- Форум [python] Помогите оптимизировать маленькую прогу, пж. (2009)
- Форум Python, регулярные выражения (2018)
- Форум python регулярное выражение (2017)
- Новости Python 3.7 (2018)
- Форум Python регулярные выражения [:graph:] (2006)
- Форум Ткните носом в косяки (2009)
- Форум Python поиск по регулярным выражениям (2014)
- Форум регулярное выражение (2012)