Немного запутался с xml-парсером. ЯП - Java, использую SAX-парсер.
Есть довольно сложный и запутанный xml-файл (если точнее, это RSS-лента). Основная сложность в том, что он содержит такие теги (для примера сильно упростил):
<tag1>value1</tag1>
<tag2>value2</tag2>
....
<bigtag><b>Bold Text</b>
<a href="http://google.com">
<img src="http://example.com/image.png">
</bigtag>
В общем, по сути внутри xml-тега целая html-страница (ну не страница, но код в разметке html, естественно с кучей угловых скобок. они экранированы (<, >).
Проблема в том, что SAX-parser (по умолчанию в Java) «не берёт» всё содержимое тега, а «откусывает» только до первого амперсанда. (речь о методе handler.characters())
Использовал примерно такой простой рецепт (изменил под себя) http://www.mkyong.com/java/how-to-read-xml-file-in-java-sax-parser/
Какой наиболее безболезненный способ эту проблему решить?
(задача вообще в чём - xml имеет вполне определённую структуру - мне надо его распарсить и сохранить в простой Plain old java object (все поля обычные String), ну и потом сохранить в базу данных, это уже тонкости. То есть этот html код тоже сохранить в виде строки (потом подумаю, как его использовать, пока это не важно), или в неизменном виде, или заменить все < и > на < и > соответственно.