питон: отдельные символы в строке(часть 2) или следует выбрать другой язык?

0

0

Задача: есть текствой файл в почти весь в DOS кодировке
с вкраплениями ввида <<текст>>, где текст имеет специальную кодировку(имеется
таблица соотвествия юникоду).
Надо перевести все в одну кодировку(какой-нибудь unicode) , а потом обработать.

хочется чтобы это выглядело

convert_table = { 'a': unichr(....) }

f = open(args[0], 'r')

for line in f.readlines():
replace(line, '<<.*>>'->convert_table else convert_from('cp866'))
#handle line

f.close()

но как я понимаю
1)f.readlines() использовать нельзя, т.к. строки неявно преобразуются
из локальной кодировки во внутренее представление строк питона,
т.е. если локально ru_RU.UTF-8, то будет по умолчанию считаться что строки
в utf-8
2)чего-то подобного replace не существует, да и невозможно сказать,
типа все что в "<<" ">>" переконвертировать так-то, а все остальное так-то.
3)для того чтобы работать со строкой как с массивом байт, надо использовать
черную магию типа pack, unpack.

т.е. имеется желание написать только алгоритм, а не скатываться до описания
алгоритма поиска '<<', проверки следует ли за ним '>>' и т.д.

Возможно ли это на питоне, если нет может следует обратить внимание
на perl, ruby, ...?

Ссылка

←	Disassembler -> Edit ->Assembler

to klalafuda & alexru: devel on base arm7, TRUE=(cost(arm7)==cost(8bit))

→

>хочется чтобы это выглядело

Кошернее было бы написать encoder/decoder, как его хочет видеть питон, а потом писать f.readline.decode('МояКодировка').

>1)f.readlines() использовать нельзя, т.к. строки неявно преобразуются

Насколько мне известно неявно строки никуда не преобразуются, если не звать unicode.

>2)чего-то подобного replace не существует, да и невозможно сказать

Если сильно хочется, можно обойтись regexp-ами, типа

esc=re.compile('<<(.*)>>')
dosenc=esc.split(line)
specenc=esc.findall(line)
rez=''.join([x.decode('cp866')+y.decodeПоСвоему() for (x,y) in zip(dosenc,specenc)])

Но это неправильно.

>3)для того чтобы работать со строкой как с массивом байт, надо использовать черную магию типа pack, unpack.

Неправильно.

DonkeyHot ★★★★★
(30.10.05 15:52:41 MSK)

Ответ на: комментарий от DonkeyHot 30.10.05 15:52:41 MSK

>Но это неправильно.

неправильно использовать regexp? а что тогда правильно?

anonymous
(30.10.05 20:02:44 MSK)

Ответ на: комментарий от anonymous 30.10.05 20:02:44 MSK

>а что тогда правильно

п.1 - написать правильный декодер. Приведеный пример с регекспами с большой вероятностью будет плохо работать во всяких крайних случаях - типа лишних "<<>>", неуместный перевод строки, пр.

DonkeyHot ★★★★★
(30.10.05 21:51:35 MSK)

Ссылка

>f.readlines() использовать нельзя, т.к. строки неявно преобразуются из локальной кодировки во внутренее представление строк питона

Неправда.

>для того чтобы работать со строкой как с массивом байт, надо использовать черную магию типа pack, unpack.

Неправда. Строка - это и есть массив байт. И UTF-8 тут не причем.

ps. (я бы еще со split("<<", 1) поигрался, если бы точно знал, что в <</>> нет нарушения порядка.)

smartly ★★★
(30.10.05 23:01:39 MSK)

Ссылка

Re:

>f = open(args[0], 'r') 
agrs[0] ето имя программы, нужен args[1]:-)

Вообще такие вещи делаются через фильры, читаешь входной поток, перекодируешь, пишешь в выходной - куда гибче и проще.

Про строки и readlines - кто Вам это сказал? readlines это список векторов байт, ничего никуда не перекодируется, даже \n в конце висят...
Всякие split, replace и тд есть в полном объеме, наберите dir('')
Очень мощный оператор форматирования %, позволяет выводить значения из словаря по ключу и тд, очень развесисистая штука.

Как конкретно ловить << >>... смотрите сами, я бы обошелся и без регэспов наверное...

~~AIv~~ ★★★★★
(02.11.05 12:45:53 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Disassembler -> Edit ->Assembler

Development

to klalafuda & alexru: devel on base arm7, TRUE=(cost(arm7)==cost(8bit))

→

Re:

Похожие темы