Парсю небольшой кусок хтмла с python.sax, начались проблемы с сабжем, притом довольно избирательные: > например парситься нормально, а на падает с «SAXParseException: <unknown>:29:3: undefined entity». Попробовал сделать кусок документа валидным, обернув в
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html>
<head></head>
<body>
...
</body></html>
Насколько, я понимаю, можно добавить
<!DOCTYPE[
<!ENTITY nbsp " ">
]>