Qt:: парсинг .xml

0

1

Всем привет!

Такая вот простая незадача: есть до умопомрачения простейшая xml, но не могу найти внятного пояснения в стандартных Qt библиотек для этого случая


<тэг1>
   Текст 1.
   <тэг2>
	Текст 4.
   </тэг2>
   Текст 2.
   <тэг3>
	Текст 5.
   </тэг3>
   Текст 3.
</тэг1>

Суть в том, что сначала надо прочитать тэг1 с текст1, текст2, текст3, потом, соответственно, тэг2 с текст4 и тэг3 с текст5. QXmlStreamReader явно не подходит, хотя и пробовал нагородить с запоминанием пройденный тэгов. Теперь мучаю QDomNode, но он ведет себя так же, как предыдущий: либо читает только текст находящийся в самом верху(текст1, текст4 и текст5), либо методом text() выдает все тексты внутри каждого тэга (т.е, для тэг1 выдает все тексты в порядке 1,4,2,5,3 и т.д.). Подскажите, кто знает, пожалуйста, как этого добиться, желательно, примером

код:

void MyClass::parse_xml(QDomNode &node)
{
    QDomNode domNode = node.firstChild();
    while (!domNode.isNull())
    {
        qDebug() << "el";
        if(domNode.isElement())
        {
            QDomElement domElement = domNode.toElement();
            if (!domElement.isNull())
            {
                qDebug() << "tagname: " << domElement.tagName();
                if (domElement.hasAttributes())
                {                    
                    QDomNamedNodeMap attrmap = domElement.attributes();
                    for (int i = 0; i < attrmap.count(); i++)
                    {
                        qDebug() << "attribute: " <<  attrmap.item(i).toAttr().name()
                                 << ", value:" << attrmap.item(i).toAttr().value();
                    }
                }
                qDebug() << "tagbody: " << domElement.text().simplified();
            }
        }        
        parse_xml(domNode);
        domNode = domNode.nextSibling();
    }
}

Ссылка

←	sysctl.conf не устанавливает параметр ядра после загрузки в Gentoo

Просьба для тех, у кого FreeBSD

→

сначала надо прочитать тэг1 с текст1, текст2, текст3

XML не так устроен.

Но если сильно хочется - берём QDomDocument, и затем бегаем по QDomNode::childNodes().

~~RazrFalcon~~ ★★★★★
(01.12.18 14:08:56 MSK)

до умопомрачения простейшая xml

Которую стОит предварительно провалидировать соответстующим XSD, иначе, если тебе подадут херь, то программа твоя сломается.

не могу найти внятного пояснения в стандартных Qt

Потому, что сам не понимаешь что творишь.

сначала надо прочитать тэг1 с текст1, текст2, текст3, потом, соответственно, тэг2 с текст4 и тэг3 с текст5

Что это за страшная бздня и кто придумал такую структуру хранения данных? Гнать ссаными тряпками!

мучаю QDomNode

Который нужно мучать уже после валидации, будучи уверенным, что структура DOM верна и все ожидаемые узлы в ней присутствуют.

код

Лапша из говна, пытающаяся валидировать безструктурную бздню.

Подскажите, кто знает, желательно, примером

Вот на основе полученных выше пинков, переосмысли задачу и попробуй написать код сам.

deep-purple ★★★★★
(01.12.18 14:09:12 MSK)

Ссылка

Ответ на: комментарий от RazrFalcon 01.12.18 14:08:56 MSK

бегаем по QDomNode::childNodes()

Где нет никакой гарантии, что, в потоке между тегами-элементами будет всегда одна текстовая нода, там может быть и несколько (пробелы, переводы строк, отдельные слова).

deep-purple ★★★★★
(01.12.18 14:16:04 MSK)
Последнее исправление: deep-purple 01.12.18 14:18:51 MSK (всего исправлений: 1)

Ответ на: комментарий от deep-purple 01.12.18 14:16:04 MSK

Не понял о чём вы.

~~RazrFalcon~~ ★★★★★
(01.12.18 14:24:29 MSK)

Ответ на: комментарий от RazrFalcon 01.12.18 14:24:29 MSK

Текст, не интерпретируемый как теги и комментарии, может быть представлен больше чем одной текстовой нодой. Это зависит от парсера и наличия в тексте пробелов, табуляции и переводов строк и их кол-ва.

deep-purple ★★★★★
(01.12.18 14:30:50 MSK)

Ответ на: комментарий от deep-purple 01.12.18 14:30:50 MSK

Я, конечно, «обожаю» абстракцию и философию там, где нужна конкретика, но раз уж вы так сильно знаете про XML, возможно, вы должны знать и выход из этого положения или вы признаете, что не знаете, как это сделать.

С пробелами и переводами строк я справляюсь. Вы, наверное, должны понимать, что я и многие здесь спрашивают кусок задачи, в которой имеется затык, а не выставляют на обозрение проект века. Не имея начальных данных, не надо говорить, что такое решение не имеет смысла, в крайнем случае, оно просто может быть, и не спрашивать вашего разрешения.

Tumyq
(01.12.18 14:51:17 MSK) автор топика

Ответ на: комментарий от Tumyq 01.12.18 14:51:17 MSK

не знаете

Знаю, потому, что делал.

С пробелами и переводами строк я справляюсь

С такой структурой данных — нет. Когда напорешься — вспомнишь мои слова.

кусок задачи, в которой имеется затык

Затык, не в задаче. И об этом не только я тебе сказал (XML не так устроен). Задача сама рассосется, если решить проблему в правильном месте.

а не проект века

А ты любитель хоп хоп и в продакшн?

не надо говорить, что такое решение не имеет смысла

Повторю: XML не так устроен.

оно просто может быть, и не спрашивать вашего разрешения

Кто-то и посреди красной площади туалет устроить может.

deep-purple ★★★★★
(01.12.18 15:03:04 MSK)

Ссылка

Ответ на: комментарий от deep-purple 01.12.18 14:30:50 MSK

Не сталкивался с такими парсерами. В спеке XML, коряво, но описано как нужно обрабатывать текст.

~~RazrFalcon~~ ★★★★★
(01.12.18 15:16:14 MSK)

Ответ на: комментарий от RazrFalcon 01.12.18 15:16:14 MSK

https://stackoverflow.com/questions/30500827/xml-indent-and-newline-for-new-c...

http://xmlsoft.org/FAQ.html

In XML all characters in the content of the document are significant including blanks and formatting line breaks.
The extra nodes you are wondering about are just that, text nodes with the formatting spaces which are part of the document but that people tend to forget. There is a function xmlKeepBlanksDefault () to remove those at parse time, but that's an heuristic, and its use should be limited to cases where you are certain there is no mixed-content in the document.

deep-purple ★★★★★
(01.12.18 15:28:27 MSK)
Последнее исправление: deep-purple 01.12.18 15:35:25 MSK (всего исправлений: 1)

Ответ на: комментарий от deep-purple 01.12.18 15:28:27 MSK

А, так вы про чисто «пустые» строки. Да, их трогать нельзя. Я думал пробелы между текстом.

~~RazrFalcon~~ ★★★★★
(01.12.18 15:41:54 MSK)

Ответ на: комментарий от RazrFalcon 01.12.18 15:41:54 MSK

Так пустые строки могут содержать и пробелы и табы. Нельзя просто так взять и испортить данные. Неверно прочитав мы покажем не то, что было на самом деле, а неверно перезаписав — испортим в конец без возможности восстановить.

deep-purple ★★★★★
(01.12.18 15:47:33 MSK)

Ответ на: комментарий от deep-purple 01.12.18 15:47:33 MSK

Да. Под пустыми я подразумевал whitespaces. Поэтому в кавычках.

PS: У меня есть самописный xml парсер, ибо нормальных не нашёл, поэтому немного в теме.

~~RazrFalcon~~ ★★★★★
(01.12.18 15:58:48 MSK)

Может тебе стоит вместо while сделать if, а

parse_xml(domNode)

заменить на

parse_xml(domNode.nextSibling())

spock74
(01.12.18 16:01:24 MSK)

Ссылка

Меня выше отписавшиеся регистранты закидают ссаными тряпками, но https://pastebin.com/UzX1Yzzi
Вывод:

"тэг1"
"\n    Текст 1.\n    "
"\n    Текст 2.\n    "
"\n    Текст 3.\n"
"тэг2"
"\n        Текст 4.\n    "
"тэг3"
"\n        Текст 5.\n    "

ox55ff ★★★★★
(01.12.18 16:24:07 MSK)

Ответ на: комментарий от ox55ff 01.12.18 16:24:07 MSK

Спасибо, товарищ 😊👍 ссаные тряпки беру на себя)

Tumyq
(01.12.18 16:43:25 MSK) автор топика

Ссылка

Ответ на: комментарий от RazrFalcon 01.12.18 15:58:48 MSK

Я же тогда говорил что libxml2 справляется со всем. Да, там инопланетный интерфейс (по началу). Ну и ладно, раз свой, так свой. Не осуждаю. Возможно, если бы я делал похожую либу, то и задумался бы о написании своего, но т.к. не было схожих задач — пользовал готовое.

ox55ff прям наколенное решение синтетической задачки с хакатона. Зачем приучаешь к плохому? Не делай так больше.

deep-purple ★★★★★
(01.12.18 17:21:30 MSK)

Ответ на: комментарий от deep-purple 01.12.18 17:21:30 MSK

libxml2 слишком жирный для моих задач. Ну и с распространением морока.

~~RazrFalcon~~ ★★★★★
(01.12.18 17:25:57 MSK)

Ссылка

Ответ на: комментарий от deep-purple 01.12.18 17:21:30 MSK

Кто бы что ни говорил, а pugixml рулит

annulen ★★★★★
(01.12.18 17:57:14 MSK)
Последнее исправление: annulen 01.12.18 17:57:27 MSK (всего исправлений: 1)

Ответ на: комментарий от annulen 01.12.18 17:57:14 MSK

DTD не умеет, как я понимаю.

~~RazrFalcon~~ ★★★★★
(01.12.18 18:00:19 MSK)

Ответ на: комментарий от RazrFalcon 01.12.18 18:00:19 MSK

А на кой он сдался

annulen ★★★★★
(01.12.18 18:03:21 MSK)

Ответ на: комментарий от annulen 01.12.18 18:03:21 MSK

Ну вот для моих задач нужен. Хотя бы минимальная поддержка ENTITY. Поэтому и пришлось писать свой велосипед.

~~RazrFalcon~~ ★★★★★
(01.12.18 18:04:12 MSK)

Ответ на: комментарий от RazrFalcon 01.12.18 18:04:12 MSK

Тогда не в кассу, pugi про скорость, а не про фичи

annulen ★★★★★
(01.12.18 18:06:14 MSK)

Ответ на: комментарий от annulen 01.12.18 18:06:14 MSK

Ну я с сишными либами не сравнивал, но моя реализация тоже не шибко медленная.

~~RazrFalcon~~ ★★★★★
(01.12.18 18:06:53 MSK)

Ответ на: комментарий от RazrFalcon 01.12.18 18:06:53 MSK

pugi не копирует строки при парсинге

annulen ★★★★★
(01.12.18 18:07:33 MSK)

Ответ на: комментарий от RazrFalcon 01.12.18 18:06:53 MSK

https://pugixml.org/benchmark.html

annulen ★★★★★
(01.12.18 18:08:17 MSK)

Ответ на: комментарий от annulen 01.12.18 18:07:33 MSK

Я тоже. Только если нужно.

Нужно будет ради забава потестить.

~~RazrFalcon~~ ★★★★★
(01.12.18 18:11:37 MSK)

Ссылка

Ответ на: комментарий от annulen 01.12.18 18:08:17 MSK

Сами xml-файлы не смог найти. Сайт походу угнали: http://www.xml-benchmark.org/

~~RazrFalcon~~ ★★★★★
(01.12.18 18:17:41 MSK)

Ссылка

Ответ на: комментарий от annulen 01.12.18 18:08:17 MSK

Да, на средних файлах (300КБ) в 10 раз быстрее. Солидно. Но учитывая какой он примитивный - не удивительно. Он даже namespaces не поддерживает. И CDATA не обрабатывает.

~~RazrFalcon~~ ★★★★★
(01.12.18 18:58:48 MSK)

Ответ на: комментарий от RazrFalcon 01.12.18 18:58:48 MSK

Дык подсмотри в его сорцы, может там какое ноу-хау есть, которое к себе упереть сможешь, что даст прирост. А вдруг?

deep-purple ★★★★★
(01.12.18 19:06:07 MSK)

Ответ на: комментарий от deep-purple 01.12.18 19:06:07 MSK

Так суть в том, что он ничего не умеет. Вот и быстрый.

~~RazrFalcon~~ ★★★★★
(01.12.18 19:06:39 MSK)

Ответ на: комментарий от RazrFalcon 01.12.18 19:06:39 MSK

Есть вероятность что реализация там не последнюю роль для скорости играет.

deep-purple ★★★★★
(01.12.18 19:17:46 MSK)

Ответ на: комментарий от deep-purple 01.12.18 19:17:46 MSK

Так в том-то и суть, что мне упрощать особо нечего. У меня большая часть времени уходит на валидацию.

~~RazrFalcon~~ ★★★★★
(01.12.18 19:22:39 MSK)

Ответ на: комментарий от RazrFalcon 01.12.18 19:22:39 MSK

А что там валидировать? Парсер же тупо по токенам едет, а если что, то останавливается и говорит линию и символ.

deep-purple ★★★★★
(01.12.18 19:25:54 MSK)

Ответ на: комментарий от deep-purple 01.12.18 19:25:54 MSK

Например, что символы подпадают под ограничения xml (https://www.w3.org/TR/xml/#NT-Char). То есть я проверяю, что tagname содержит только допустимые символы и прочее.

Ну и моя либа всего 3 KLOC, а pugi - 10KLOC. Правда у меня на кошерном расте, а не на плюсах.

~~RazrFalcon~~ ★★★★★
(01.12.18 19:28:50 MSK)
Последнее исправление: RazrFalcon 01.12.18 19:30:50 MSK (всего исправлений: 1)

Ответ на: комментарий от RazrFalcon 01.12.18 19:28:50 MSK

я проверяю, что tagname содержит только допустимые символы и прочее

Можно ссылку с якорем на конкретное место в сорцах?

deep-purple ★★★★★
(01.12.18 19:33:39 MSK)

Ответ на: комментарий от deep-purple 01.12.18 19:33:39 MSK

https://github.com/RazrFalcon/xmlparser/blob/dd5c805eb761117ace5d47f4520f3115... ?

А проверку первого символа я уже где-то похерил...

~~RazrFalcon~~ ★★★★★
(01.12.18 19:36:57 MSK)
Последнее исправление: RazrFalcon 01.12.18 19:39:41 MSK (всего исправлений: 1)

Ответ на: комментарий от RazrFalcon 01.12.18 19:36:57 MSK

Перешел к fn is_xml_name*

match *self as u32

Не шарю в расте. Это чар который всегда 4 байта? Это конвертится в рантайме или *self уже и есть u32? Если нет, и там утф-8 с переменной длиной, то, возможно, получится ускорить, т.к. без конвертации в u32.

deep-purple ★★★★★
(01.12.18 19:46:41 MSK)

Ответ на: комментарий от deep-purple 01.12.18 19:46:41 MSK

Да, всегда 4 байта. Сложно объяснить как оно работает, но да, в итоге utf-8 итерируется по utf-32: https://doc.rust-lang.org/src/core/str/mod.rs.html#502

Как оно будет работать без конвертации в uft-32 - без понятия, ибо по спеке XML я должен проверять utf-32.

~~RazrFalcon~~ ★★★★★
(01.12.18 20:15:54 MSK)

У меня сомнения в том, что этот XML валиден

XMs ★★★★★
(01.12.18 20:38:55 MSK)

Ссылка

Ответ на: комментарий от RazrFalcon 01.12.18 20:15:54 MSK

по спеке XML я должен проверять utf-32

Пишут что кроме утф-8 парсер обязан кушать и утф-16. Ладно, я так глубоко там не лазил. И что, вот прям вынь да полож, внутри утф-32 хотят?

Как оно будет работать без конвертации в uft-32 - без понятия

По первому байту уже понятно аскии это или нет. Вот полный набор условий на длину символа в байтах для утф-8:

if (firstByte < 128) {
    moreLen = 0;
} else if (firstByte < 224) {
    moreLen = 1;
} else if (firstByte < 240) {
    moreLen = 2;
} else if (firstByte < 248) {
    moreLen = 3;
} else if (firstByte < 252) {
    moreLen = 4;
} else {
    moreLen = 5;
}

Но, учитывая что я прочитал, что парсер обязан кушать и утф-16, то, действительно, для внутреннего представления требуется текст уже преобразованный в утф-32, чтобы не мудрить с условиями кодировок при валидации. Но если твой парсер умеет только утф-8 — можешь попробовать работать на основе условий что я скинул выше, как для валидации, так и для скачков позиции в потоке символов.

deep-purple ★★★★★
(01.12.18 20:40:16 MSK)

Ответ на: комментарий от deep-purple 01.12.18 20:40:16 MSK

Мне простота реализации пока важнее.

~~RazrFalcon~~ ★★★★★
(01.12.18 21:02:04 MSK)

Ответ на: комментарий от RazrFalcon 01.12.18 21:02:04 MSK

Да я не настаиваю. Как руки дойдут — вспомни о чем говорили.

deep-purple ★★★★★
(01.12.18 21:03:37 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	sysctl.conf не устанавливает параметр ядра после загрузки в Gentoo

General

Просьба для тех, у кого FreeBSD

→

Похожие темы