Сразу признаюсь, да, я не осилил документацию.
начал с html5lib — http://code.google.com/p/html5lib/wiki/UserDocumentation
потом нашел нечто про lxml — http://codespeak.net/lxml/dev/
наткнулся на это, немного не в тему — http://softwaremaniacs.org/forum/django/2350/
А задача стоит так — у меня есть некий код, к примеру вот:
<code lang="bash">
[[ abc =~ ^ab ]] && echo "good"
patch -p1 < filename.txt
</code>
<user id="1" />
<article id="243">название статьи</article>
И хотелось бы уметь заменить lang=«bash» на какой-нибудь class=«highlight[bash]», а так же сделать strip(), а потом django.utils.html.escape() для текста между <code>. Ну и другие преобразования с тэгами. И да, я совершенно не понимаю, куда смотреть и с чего начать. Пожалуйста, тыкните, пускай грубо, но тыкните. Спасибо за внимание!