LINUX.ORG.RU
ФорумTalks

[bydlo][fb2]Битый XML и FBReader

 


0

0

Нашел на просторах несколько книжиц в этом формате, открываю FBReader'ом и бац... только первая страница, ну я открыл его в kate и... о увидел такое...
значит пояснение к тексту было поставлено в <пояснение> вот так, в результате парсинг XML на этом обрывался, оставлю при себе мнение о том, что бы я сделал с теми кто нарушает спецификацию XML FastBook и пихает текст между полу-тегов.

Вот пример из всем известной книжки...
------
<p>From: Linus Torvalds <torvalds@transmeta.com> To: </p>
------

Тут аддрес запихнут против формата и еще в начале был знак амперсанда на котором тоже парсинг валится.


Конкретный вопрос, как поправить такие файлы автоматом?
Имеется ввиду как отсеить в XML битые места, заменить "<", ">" на кавычки.

anonymous

> Имеется ввиду как отсеить в XML битые места, заменить "<", ">" на кавычки.

perl и regexpы тебе в помощь, тэгов много и параметры у них разные ...

phasma ★☆
()

в XSLT шаблоне

<xsl:value-of disable-output-escaping="yes" select="Text"/>

и ещё
def make_cdata(str):
return "<![CDATA["+str+"]]>"

fMad ★★★
()
Ответ на: комментарий от anonymous

>Одному мне здесь что-то не нравится?

Ну, мало ли форматов напридумывали :) Может быть «FastBook» - это FictionBook с такими, вот, некодированными «<» и «>» в данных :) Типа, настолько быстро кодируется, что преобразовывать не получается :D

KRoN73 ★★★★★
()
Ответ на: комментарий от anonymous

Дык перепутал, почему-то давно думал что фаст (хотя он довольно слоу), а не фикшн, в два часа ночи мозги не фурычат.

anonymous
()
Ответ на: комментарий от FiXer

Притом что быдло те кто выкладывает книги в битом виде.

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.