[python][XML] Направьте в верном направлении

0

1

Суть такова:

Я получаю по ссылке XML, и его надо распарсить, рассовав по массивам то, что хранится в тэгах. Перегуглил все, что только можно, ничерта не выходит.

Собственно, вот так вот я получаю саму страницу:

url = "https://api.vkontakte.ru/method/audio.get.xml?uid=403273&access_token=bf3a7de2f16a2552bf636d0684bf1db4ef3bf3cbf3c5aa345a8d964cc68c273"
page = urllib2.urlopen(url)
html = page.read()

(Да да, вконтакте не нужен, вы все такие правильные, об этом мне говорите, ага) Собственно, если потом сделать print html, то выводится XML в нормальном виде, т.е.

<response list="true">
<audio>
<aid>115640729</aid>
<owner_id>403273</owner_id>
<artist>Lordi</artist>
<title>Monster monster</title>
<duration>203</duration>
<url>http://cs4693.vkontakte.ru/u84488867/audio/7228a16e0c2a.mp3</url>
</audio>
<audio>
<aid>115640436</aid>
<owner_id>403273</owner_id>
<artist>Lordi</artist>
<title>This is Heavy Metal</title>
<duration>181</duration>
<url>http://cs4713.vkontakte.ru/u5339245/audio/d12656a247ce.mp3</url>
</audio>

Теперь надо выдернуть из нее инфу по тэгам artist, title, url и засунуть в соответствующие массивы это все, откуда потом будет дергаться дальше.

Вопрос - как?

Гуглю уже часа 2, нифига не выходит. Вот примерный мой код, писал по примеру с официальной документации питона.

for node in f.getElementsByTagName("audio"):
	L = node.getElementsByTagName("title")
	for node2 in L:
		aid = ""
		for node3 in node2.childNodes:
			if node3.nodeType == Node.TEXT_MODE:
				aid += node3.data
			print aid

Что-то мне подсказывает, что в коде у меня туфта...

Специалисты по питону, подскажите! Уже весь мозг поломал...

Ссылка

←	Можно ли отличить строки UTF-8 и ISO-8859-1 кодировок?

Подскажите чайнику как быстро читать с диска

→

Раз питон, можно посмотреть в сторону `scrapy'.

n01r ★★
(24.08.11 22:41:22 MSK)

Что-то мне подсказывает, что в коде у меня туфта...

По шагам выполнять пробовал? Что мне подсказывает, что нет. Попробуй.

Специалисты по питону, подскажите! Уже весь мозг поломал...

Скажи мне, как по-твоему люди специалистами становятся?

Begemoth ★★★★★
(24.08.11 22:46:19 MSK)

Ссылка

пеп8 тебя раздери.
http://lxml.de/tutorial.html вот это почитай

anonymous
(24.08.11 22:52:33 MSK)

Ссылка

import lxml.html
html  = lxml.html.fromstring(html)
audio = html.cssselect("audio")
for i in audio:
    aid, url, artist = i.cssselect("aid, url, artist")

rival ★★
(24.08.11 23:00:21 MSK)

Ссылка

Ответ на: комментарий от n01r 24.08.11 22:41:22 MSK

> Направьте в верном направлении

Раз питон, можно посмотреть в сторону `в жопу'.

anonymous
(24.08.11 23:19:50 MSK)

Ответ на: комментарий от anonymous 24.08.11 23:19:50 MSK

Извиняюсь, не распарсил, разверите cвою `мысль' пошире, может пойдет.

n01r ★★
(24.08.11 23:34:36 MSK)

Ссылка

from xml.etree import ElementTree

response = ElementTree.fromstring(string)
for audio in response:
    artist = audio.find('artist').text
    # etc

ntp ★
(24.08.11 23:35:58 MSK)

Ссылка

Всем спасибо, вечерком опять пойду насиловать питон и мозг.

Zhbert ★★★★★
(25.08.11 09:07:25 MSK) автор топика

Юзай пулл-парсеры, Люк!

yoghurt ★★★★★
(25.08.11 09:39:53 MSK)

Ссылка

Ответ на: комментарий от Zhbert 25.08.11 09:07:25 MSK

пойду насиловать питон и мозг.

До кучи посношай xpath.

~~baverman~~ ★★★
(25.08.11 15:07:45 MSK)

Ссылка

Почему бы просто не использовать JSON (модуль simplejson для скорости, json вместо xml в адресе)? Ответ от сервера можно будет перевести в python dict одной строчкой — json.loads().

vden ★★
(25.08.11 23:27:56 MSK)

Ответ на: комментарий от vden 25.08.11 23:27:56 MSK

Да, собственно, я уже сделал с помощью lxml, реально две строчки кода и все работает. Я просто тупил поначалу, видел мануалы по ней, но думал, что «Вот еще, дополнительную хрень ставить!». Идиот =)

Zhbert ★★★★★
(26.08.11 08:53:39 MSK) автор топика

Ответ на: комментарий от Zhbert 26.08.11 08:53:39 MSK

Правильно, зачем использовать готовую библиотеку, когда можно потрахаться с велосипедом! :)

strangeman ★★★★
(26.08.11 09:06:38 MSK)

Ответ на: комментарий от strangeman 26.08.11 09:06:38 MSK

Ну вот как-то так, да =) Но я вовремя остепенился.

Zhbert ★★★★★
(26.08.11 09:07:44 MSK) автор топика

Ссылка

Такое обычно решают через sax. Будет и быстрее и читабельнее если парсишь сложных xml.

anonymous
(27.08.11 13:33:31 MSK)

Ссылка

         o Python



                        o XML
             /
            /
           /
          /
         /
        /
      |_
           Верное направление

legolegs ★★★★★
(27.08.11 14:08:11 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Можно ли отличить строки UTF-8 и ISO-8859-1 кодировок?

Development

Подскажите чайнику как быстро читать с диска

→

from xml.etree import ElementTree

Похожие темы