html-entities

python, sax

Парсю небольшой кусок хтмла с python.sax, начались проблемы с сабжем, притом довольно избирательные: > например парситься нормально, а на падает с «SAXParseException: <unknown>:29:3: undefined entity». Попробовал сделать кусок документа валидным, обернув в

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html>
<head></head>
<body>
...
</body></html>

- работает, но аж две минуты почему-то (скачивается dtd?). С доктайпом «html» всё тоже падает.

Насколько, я понимаю, можно добавить

<!DOCTYPE[ 
<!ENTITY nbsp "&#160;"> 
]>

, но мне не хочется перебирать их все. Как нормально указать парсеру как ресолвить стандартные хтмл-сущности?

Ссылка

← QPrinter + QPainter динамическое формирование документа

Статусбар к dwm как внешняя программа. →

XML парсер? В XML есть по дефолту только lt, gt и quot. Скорми ему все объявления. У Оперы, например, такой файл есть в «/usr/share/opera/html40_entities.dtd».

Deleted
(10.12.12 23:31:41 MSK)

скачивается dtd

Опции навроде nonet нет? Не пользуюсь питоном, так что…

Deleted
(11.12.12 00:02:23 MSK)

Ссылка

Ответ на: комментарий от Deleted 10.12.12 23:31:41 MSK

Костыльно же, хочется прямее. Но за файл спасибо, хоть не надо искать их.

Kalashnikov ★★★
(11.12.12 00:21:27 MSK) автор топика

Ответ на: комментарий от Kalashnikov 11.12.12 00:21:27 MSK

Костыльно

Если парсер XML'ный, то это как бы Ъ вей, ничего не поделать, т.к. в XML такие entity вообще не должны попадаться в принципе (^ ^)

Deleted
(11.12.12 00:24:57 MSK)

Ответ на: комментарий от Deleted 11.12.12 00:24:57 MSK

Ну, эээ… по дефолту. XML это всё же общая разметка.

Deleted
(11.12.12 00:26:14 MSK)

Ссылка

just my 5 cents - sax актуален если тебе важна производительность, или документ, который ты парсишь, очень большой... для всего остального есть lxml или beautifulsoup (если html совсем плохой), или regexp'ы (если он вообще ни разу не валидный, но структура сохраняется и данные вытащить всё-таки хочется)

ei-grad ★★★★★
(13.12.12 08:33:41 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← QPrinter + QPainter динамическое формирование документа

Development

Статусбар к dwm как внешняя программа. →

Похожие темы