[bydlo][fb2]Битый XML и FBReader

0

0

Нашел на просторах несколько книжиц в этом формате, открываю FBReader'ом и бац... только первая страница, ну я открыл его в kate и... о увидел такое...
значит пояснение к тексту было поставлено в <пояснение> вот так, в результате парсинг XML на этом обрывался, оставлю при себе мнение о том, что бы я сделал с теми кто нарушает спецификацию XML FastBook и пихает текст между полу-тегов.

Вот пример из всем известной книжки...
------
<p>From: Linus Torvalds <torvalds@transmeta.com> To: </p>
------

Тут аддрес запихнут против формата и еще в начале был знак амперсанда на котором тоже парсинг валится.

Конкретный вопрос, как поправить такие файлы автоматом?
Имеется ввиду как отсеить в XML битые места, заменить "<", ">" на кавычки.

Ссылка

←	Firefox 3 от Яндекса

[вещества]

→

man sed, нет?

~~Muromec~~ ☆☆
(18.06.08 03:38:08 MSD)

Ссылка

> Имеется ввиду как отсеить в XML битые места, заменить "<", ">" на кавычки.

perl и regexpы тебе в помощь, тэгов много и параметры у них разные ...

~~phasma~~ ★☆
(18.06.08 03:49:25 MSD)

Ссылка

в XSLT шаблоне

<xsl:value-of disable-output-escaping="yes" select="Text"/>

и ещё
def make_cdata(str):
return "<![CDATA["+str+"]]>"

fMad ★★★
(18.06.08 08:25:55 MSD)

Ссылка

>спецификацию XML FastBook

Одному мне здесь что-то не нравится?

anonymous
(18.06.08 12:07:34 MSD)

Ответ на: комментарий от anonymous 18.06.08 12:07:34 MSD

>Одному мне здесь что-то не нравится?

Ну, мало ли форматов напридумывали :) Может быть «FastBook» - это FictionBook с такими, вот, некодированными «<» и «>» в данных :) Типа, настолько быстро кодируется, что преобразовывать не получается :D

~~KRoN73~~ ★★★★★
(18.06.08 12:47:53 MSD)

Ссылка

Ну если излишним фанатизмом не страдаешь, то попробуй прогнать через это: http://www.fictionbook.org/forum/viewtopic.php?t=5575&sid=513f1bfc14128cb... Программа должна запускаться также из под Mono последних версий.

gremlin2
(18.06.08 12:54:50 MSD)