[pyqt, lxml] Затеял писать читалку ЛОРа, как лучше обработать html

1

3

В качестве учебного задания при освоении гуи тулкитов решил сделать читалку лора. Изначально решил использовать pygtk, но модуль python-gtkhtml помер, и соответственно отобразить html нет возможности. Конечно можно сделать разбор тегов и более менее похожее форматирование в gtk.textview, но все равно получится фигня. Поэтому я решил сменить тулкит на pyqt.

Руками выдрал одно сообщение из треда, загрузил в QTextBrowser, ссылки кажет, форматирование есть, короче говоря - то, что нужно.

html я решил обрабатывать следующим образом:
Качаем страницы тредов и выкусываем из них минимально необходимый html отдельного сообщения для отображения в QTextBrowser, строим дерево пост-ответ-на-пост и т.д. и отображаем его в QTreeView. При выборе строки в qtreeview берем соответствующий кусок html и отображаем его в QTextBrowser.

Для разбора html я использую lxml, тут то и встает вопрос - как при помощи lxml получить по xpath необходимый кусок сырого html содержащий пост?

Если с lxml не выйдет, то что из родного кутишного позволит осуществить это?

Ссылка

←	[python] epydoc - оно актуально?

Написание демона на php

→

pywebkitgtk ты конечно не заметил, да?!

fat_angel ★★★★★
(25.12.10 13:41:55 MSK)

Гениально. http://code.google.com/p/pywebkitgtk/

~~vertexua~~ ★★★★★
(25.12.10 13:43:11 MSK)

А для получения «сырого» html из lxml рекомендую использовать pretty print соответствующей ветки дерева.

fat_angel ★★★★★
(25.12.10 13:44:40 MSK)

Ответ на: комментарий от vertexua 25.12.10 13:43:11 MSK

А чего гениального то? Биндинг как биндинг. Есть еще gtkmozembed-python для зулранера.

fat_angel ★★★★★
(25.12.10 13:46:32 MSK)

Ответ на: комментарий от fat_angel 25.12.10 13:46:32 MSK

Я твоего поста не заметил. Это я топикстартеру отвечал

~~vertexua~~ ★★★★★
(25.12.10 13:47:29 MSK)

Ссылка

Ответ на: комментарий от fat_angel 25.12.10 13:41:55 MSK

webkit это полноценный движок браузера, я хочу отделаться малой кровью - просто виджетом который показывает html. использование вебкита не отменяет тот факт, что нужно как-то выбирать пост из страницы для отображения (читалку то я хочу с древовидным отображением).

PoMbl4 ★
(25.12.10 13:53:56 MSK) автор топика

Ответ на: комментарий от PoMbl4 25.12.10 13:53:56 MSK

Ну ты сказал что тебе нужно отображать html. Мы тебе сказали как, при том что тут будет весь функционал, а если городить велосипеды, то может случится bump и прийдется все переписывать.

А html парсить - самое кривое решение. Если уж хочешь читалку ЛОРа, то это опенсорц, можешь предложить свой патч к исходниками ЛОРа, который добавляет доступ через вебсервис

~~vertexua~~ ★★★★★
(25.12.10 13:57:33 MSK)

Ссылка

Ответ на: комментарий от PoMbl4 25.12.10 13:53:56 MSK

>webkit это полноценный движок браузера

А не пофиг ли? HTML отображает и ладно, хотя потребление памяти… <fat>Но кто, кроме красноглазых, в наше время обращает на такие мелочи внимание.</fat>

fat_angel ★★★★★
(25.12.10 14:00:07 MSK)

Лучше гейт в NNTP сделайте.

Теги: платиновые треды ЛОР

anonymous
(25.12.10 14:02:13 MSK)

Ответ на: комментарий от fat_angel 25.12.10 14:00:07 MSK

Зато он корректно работает, а не как всякие поделки костыльные

~~vertexua~~ ★★★★★
(25.12.10 14:06:30 MSK)

Ссылка

Ответ на: комментарий от fat_angel 25.12.10 13:44:40 MSK

Спасибо, pretty print помог.

vertexua (25.12.2010 13:57:33)

Ну ты сказал что тебе нужно отображать html. Мы тебе сказали как, при том что тут будет весь функционал, а если городить велосипеды, то может случится bump и прийдется все переписывать.

Это прежде всего учебная задача, и сразу погружаться в вебкиты мне совсем не хочется.

А html парсить - самое кривое решение. Если уж хочешь читалку ЛОРа, то это опенсорц, можешь предложить свой патч к исходниками ЛОРа, который добавляет доступ через вебсервис

Патч я предложить не могу, ибо не владею явой. Так что остается только парсить html и ждать спасителя.

PoMbl4 ★
(25.12.10 14:23:20 MSK) автор топика

Ссылка

как при помощи lxml получить по xpath необходимый кусок сырого html содержащий пост?

etree.tostring(elem) ?

~~baverman~~ ★★★
(25.12.10 15:12:41 MSK)

Ответ на: комментарий от baverman 25.12.10 15:12:41 MSK

И да, я бы на твоем месте не пользовался html движком, а почитал про xslt преобразования, если затея связана с учебой.

~~baverman~~ ★★★
(25.12.10 15:15:26 MSK)

pyqt4 webkit

ggrn ★★★★★
(25.12.10 15:17:56 MSK)

Ссылка

Ответ на: комментарий от baverman 25.12.10 15:15:26 MSK

А на ЛОРе всегда нормальный XML?

~~vertexua~~ ★★★★★
(25.12.10 15:23:33 MSK)

Ответ на: комментарий от vertexua 25.12.10 15:23:33 MSK

У ТС же lxml, он строит вполне удобоваримые деревья для косого контента.

~~baverman~~ ★★★
(25.12.10 15:29:04 MSK)

Ответ на: комментарий от baverman 25.12.10 15:29:04 MSK

Ааа... Не знал. Теперь буду знать, может когда-то воспользуюсь

~~vertexua~~ ★★★★★
(25.12.10 15:31:25 MSK)

Ссылка

Ответ на: комментарий от baverman 25.12.10 15:29:04 MSK

Более того, я предполагал использовать xslt только для форматирования постов, например в pango markup. Процессинг всей страницы делать как-то слишком трудоемко, да и не нужно, и хрупковато к тому же.

~~baverman~~ ★★★
(25.12.10 15:32:16 MSK)

Ссылка

Мне пришлось написать свой конечный автомат чтобы парсить ЛОР. Стандартный пистоновский парсер html - бажный и отваливается посреди некоторых документов.

Absurd ★★★
(25.12.10 16:23:46 MSK)