lexbor 2.2.0 - библиотека парсинга HTML и CSS

4

1

6 апреля, после 20 месяцев разработки, состоялся выпуск 2.2.0 библиотеки парсинга HTML и CSS lexbor, написанной на языке C.

Что нового:

добавлены функции клонирования узлов DOM и HTML;
добавлена возможность переопределения функций управления памятью;
добавлен парсинг CSS стилей, деклараций и свойств;
для элементов HTML добавлены события вставки, удаления и уничтожения;
добавлен парсинг стилей внутри тега style;
при изменении элемента его стиль вычисляется заново;
добавлены примеры парсинга стилей.

Исправления:

исправлена сериализация текстовых нод HTML без «родителя»;
исправлены поиск и получение тега title;
исправлено добавление атрибутов для сторонних элементов HTML;
устранены различные утечки памяти;
исправлена возможность сборки в Windows.

Изменения:

минимальная версия CMake — 2.8.12;
полностью изменён подход к парсингу CSS;
удалены файлы XCode.

Лицензия: Apache 2.0.

Сайт проекта: https://lexbor.com.

Пример использования:

#include <lexbor/html/parser.h>
#include <lexbor/dom/interfaces/element.h>


int main(int argc, const char *argv[])
{
    lxb_status_t status;
    const lxb_char_t *tag_name;
    lxb_html_document_t *document;

    static const lxb_char_t html[] = "<div>Work fine!</div>";
    size_t html_len = sizeof(html) - 1;

    document = lxb_html_document_create();
    if (document == NULL) {
        exit(EXIT_FAILURE);
    }

    status = lxb_html_document_parse(document, html, html_len);
    if (status != LXB_STATUS_OK) {
        exit(EXIT_FAILURE);
    }

    tag_name = lxb_dom_element_qualified_name(lxb_dom_interface_element(document->body), 
                                               NULL);

    printf("Element tag name: %s\n", tag_name);

    lxb_html_document_destroy(document);

    return EXIT_SUCCESS;
}

Исходный текст: https://github.com/lexbor/lexbor.

>>> Подробности

Ссылка

←	Tiny Core v14.0

STC 4.2 - библиотека алгоритмов и контейнеров для Си

→

Из более-менее сложных проектов, использующих эту библиотеку, я нашёл https://github.com/A3onn/mapptth:

A simple to use multi-threaded web-crawler written in C with libcURL and Lexbor

dataman ★★★★★
(14.04.23 14:14:28 MSK) автор топика
Последнее исправление: dataman 14.04.23 14:14:48 MSK (всего исправлений: 1)

ИксПуть жэ есть на щях, да и на многих ЯП тоже… иль не торт уже?

qbbr ★★★★★
(14.04.23 15:22:31 MSK)

Ответ на: комментарий от qbbr 14.04.23 15:22:31 MSK

Даже Гугловский Gumbo давно не торт.

А специально «заточенные» парсеры лучше, чем XPath.

dataman ★★★★★
(14.04.23 15:31:36 MSK) автор топика

Ссылка

полностью изменён подход к парсингу CSS

Это как?

foror ★★★★★
(14.04.23 15:53:57 MSK)

Ответ на: комментарий от foror 14.04.23 15:53:57 MSK

https://github.com/lexbor/lexbor/commit/9677d13321faa00e9ecf85ee2830d305dd21100f

dataman ★★★★★
(14.04.23 16:08:33 MSK) автор топика

Ссылка

минимальная версия CMake — 2.8.12;

Когда поддержка GNU Autotools будет?

zx_gamer ★★★
(14.04.23 16:09:55 MSK)

Ссылка

Ответ на: комментарий от qbbr 14.04.23 15:22:31 MSK

ИксПуть жэ есть на щях

Топикастер судя по всему не в курсе что к чему. Изначальная цель этого проекта разработка веб-браузера на сях. Началась затея лет 5 назад, а может и того больше. Автор начал со всяких парсеров и на них же судя по всему закончил.

Но если нужно 100500 потоков в секунду на одном сервере не обмазываясь смузи и микросервисами, то наверное создавать дом дерево перед фильтрацией не самая лучшая затея. Но людям нравится, ну и Бог с ними… Хотя может что уже поменялось?

foror ★★★★★
(14.04.23 16:24:29 MSK)

Ответ на: комментарий от foror 14.04.23 16:24:29 MSK

не в курсе что к чему

В курсе. Автор библиотеки начинал с написания библиотек myhtml и Modest (LGPL).

Внезапно, но для написания браузера нужно закончить написание парсеров.

dataman ★★★★★
(14.04.23 16:54:39 MSK) автор топика

А где БНФ для этой выч.схемы?

i_am_not_ai
(14.04.23 17:10:54 MSK)

Ссылка

Ответ на: комментарий от dataman 14.04.23 14:14:28 MSK

целых 0 звёзд, это успех

Xant1k ★★
(14.04.23 20:44:02 MSK)

Ответ на: комментарий от Xant1k 14.04.23 20:44:02 MSK

Да, нехорошо. Одну добавил! :)

dataman ★★★★★
(14.04.23 20:45:23 MSK) автор топика

Ссылка

6 апреля, после 20 месяцев разработки, состоялся выпуск 2.2.0 библиотеки парсинга HTML и CSS lexbor, написанной на языке C.

Мда, такой парсер с нуля за неделю пишется... а то и быстрее. Надеюсь там хоть есть поддержка штук вида <b>1<u>2</b>3</u> и прочих отклонений от строгости, а не тупо конвертер текста в dom.

минимальная версия CMake — 2.8.12;

Ещё раз мда.

firkax ★★★★★
(14.04.23 22:09:23 MSK)

Ответ на: комментарий от foror 14.04.23 16:24:29 MSK

Изначальная цель этого проекта разработка веб-браузера на сях.

Учитывая, что html-парсер это меньше 1% от сложности браузера, и занял он 5 лет, браузер стоит ждать не раньше 2500 года.

firkax ★★★★★
(14.04.23 22:12:18 MSK)

Ссылка

Ответ на: комментарий от firkax 14.04.23 22:09:23 MSK

такой парсер с нуля за неделю пишется…

Пишется? Наверное, да…

Напишется? Наверняка — нет.

Somebody ★★
(15.04.23 01:16:35 MSK)

Ответ на: комментарий от Somebody 15.04.23 01:16:35 MSK

Было стыдновато прогать копипастой из стековерфлоу, теперь прогрессивно и почётно копипастой из чатгпт и прочих копилотов. С таким подходом можно за вечер набыдлокодить

Logopeft ★★
(15.04.23 02:36:31 MSK)

Ответ на: комментарий от Somebody 15.04.23 01:16:35 MSK

Ты серьёзно думаешь что распарсить совершенно простой синтаксис html/css и построить по тегам дерево это какая-то сверхсложная задача? На чём там задержаться то вообще можно? Мне кроме того факта, что у html синтаксис разных тегов чуть отличается (ну там какие-то с закрывающими, какие-то без, у каких-то надо автоматически проставлять закрывающие если в коде их нет, а где-то и открывающие, ну итд), ничего в голову не приходит. Но и это не так что бы большая проблема.

firkax ★★★★★
(15.04.23 03:04:41 MSK)

Ответ на: комментарий от dataman 14.04.23 16:54:39 MSK

Внезапно, но для написания браузера нужно закончить написание парсеров.

https://lexbor.com/roadmap
404 Not Found
nginx/1.14.0

Xintrea ★★★★★
(15.04.23 20:49:00 MSK)

Ответ на: комментарий от Xintrea 15.04.23 20:49:00 MSK

И почему я убрал слеш? 🤔

https://lexbor.com/roadmap/

dataman ★★★★★
(15.04.23 21:05:37 MSK) автор топика

Ответ на: комментарий от dataman 15.04.23 21:05:37 MSK

Вэб, он такой (капризный, ...).

~~Forum0888~~
(15.04.23 21:09:43 MSK)

Ответ на: комментарий от foror 14.04.23 16:24:29 MSK

Хотя может что уже поменялось?

да вроде всё по-старому

qbbr ★★★★★
(16.04.23 15:13:51 MSK)

Ссылка

Почитал комментарии, удивился.

Тот кто считает, что эффективный HTML парсер можно написать за неделю — показывает свой уровень некомпетентности. Организовать тесты, поддержка многих ОС, пакеты и прочее. Это большой технологический процесс.

К сожалению, или счастью, но браузерный движок состоит из кучи разнообразных парсеров (html, css, url, encoding, font and so on). Задача не только распарсить всё это эффективно, но и «скрестить» между собой.

Сейчас успешно «скрещены» DOM+HTML+CSS+ENCODING. Кто не ленивый уже может брать код и рисовать свой хтмл. Одна толко разработка эффективного парсера CSS с методиками тестирования используя грамматики для формирования тестов тянет на не малую статью.

Про «пять лет пишется». С определенного момента работы в NGINX (после продажи) я практически не занимался своим проектом lexbor. По своду разных причин. Сейчас всё активно разрабатывается. Скоро появится вменяемый layout.

Сайт lexbor.com давно не обновлялся, roadmap там сильно устаревший. Не хватает на всё времени. Обновлю на днях.

lexbor
(17.04.23 21:28:56 MSK)

Ссылка

Ответ на: комментарий от firkax 15.04.23 03:04:41 MSK

«Личным примером», пожалуйста.

Покажи твой «леХковозводимый» вариант библиотеки парсинга HTML и CSS — и я поаплодирую тебе стоя. :)

А так-то «не мешки таскать» у нас много «мастеров», сынок…

Somebody ★★
(18.04.23 03:54:39 MSK)

Ссылка

Ответ на: комментарий от Logopeft 15.04.23 02:36:31 MSK

А шоб ещё и работало? ;) За сколько… гмм.. «вечеров»?.. :)

Somebody ★★
(18.04.23 03:55:37 MSK)

Ссылка

Ответ на: комментарий от Forum0888 15.04.23 21:09:43 MSK

Вот еще пример

На главной странице https://uclibc.org/ скачать архив по «save as» не получается, а если щелкнуть по ссылке, то архив скачивается.

~~Forum0888~~
(18.04.23 11:05:42 MSK)

Ответ на: комментарий от Forum0888 18.04.23 11:05:42 MSK

В Firefox: локальное меню — «Сохранить объект как…» — скачивается…

Somebody ★★
(18.04.23 11:59:30 MSK)

Ответ на: комментарий от Somebody 18.04.23 11:59:30 MSK

Скорее всего проблема не в Chrome, а сети.
Как-то ради интереса посмотрел путь e-mail.
Стало ясно, что «всем кушать хочется».

~~Forum0888~~
(18.04.23 12:01:35 MSK)
Последнее исправление: Forum0888 18.04.23 12:08:15 MSK (всего исправлений: 5)

Ответ на: комментарий от Forum0888 18.04.23 12:01:35 MSK

Что-то я не улавливаю связи между Chrome, сетью, «путями e-mail» (???) и невозможностью сохранить файл… :)

Somebody ★★
(18.04.23 14:14:02 MSK)

Ответ на: комментарий от Somebody 18.04.23 14:14:02 MSK

Использую Chrome.
Что касаемо сети, то пакет TCP проходит через разные узлы прежде чем достигнет требуемого.
У вас запрос может быть успешен, а у меня нет.

~~Forum0888~~
(18.04.23 14:22:22 MSK)
Последнее исправление: Forum0888 18.04.23 14:27:21 MSK (всего исправлений: 3)

Ответ на: комментарий от Forum0888 18.04.23 14:22:22 MSK

Да это-то я знаю. мне азбуку «разжёвывать» нет нужды. Но какая тут связь с сохранением файла через «Save as»?? Это ведь так же далеко от сети, сетевых протоколов и маршрутизации, как… гмм… как чайная церемония от выпиливания лобзиком. :)

Somebody ★★
(18.04.23 14:54:27 MSK)
Последнее исправление: Somebody 18.04.23 14:54:40 MSK (всего исправлений: 1)

Ответ на: комментарий от Somebody 18.04.23 14:54:27 MSK

А файл, где находится?

<a href=«/downloads/uClibc-0.9.33.2.tar.xz»>0.9.33.2 release</a>

Кстати попробовал еще раз «Сохранить как ...».
Файл сохраняется, а часа два назад «Сохранить как ...» не сохранял файл.

~~Forum0888~~
(18.04.23 15:10:31 MSK)
Последнее исправление: Forum0888 18.04.23 15:21:42 MSK (всего исправлений: 4)

Ответ на: комментарий от Forum0888 18.04.23 15:10:31 MSK

А файл, где находится?

0.9.33.2 release

Это был вопрос или ответ? :)

Да, именно там, и именно этот. Другие с той же страницы, впрочем, тоже загружались-сохранялись без проблем.

Кстати попробовал еще раз «Сохранить как …».

Файл сохраняется, а часа два назад «Сохранить как …» не сохранял файл.

Ну вот видите! А у меня сразу же сохранялось всё оттуда. Думаю, что это «проблемы на местах», а не на сайте…

Somebody ★★
(19.04.23 05:36:18 MSK)

Ответ на: комментарий от Somebody 19.04.23 05:36:18 MSK

Думаю, что это «проблемы на местах»,

Безусловно.
Для анализа логи нужны, ...
Капризный вэб однако (это конечно шутка).

~~Forum0888~~
(19.04.23 06:51:12 MSK)
Последнее исправление: Forum0888 19.04.23 07:00:53 MSK (всего исправлений: 2)

Ссылка

Это чтобы кто-то отважился допиливать Dillo?

zx_gamer ★★★
(19.04.23 20:52:09 MSK)

Ответ на: комментарий от zx_gamer 19.04.23 20:52:09 MSK

Лучше NetSurf. :)

dataman ★★★★★
(19.04.23 21:10:18 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Tiny Core v14.0

Open Source

STC 4.2 - библиотека алгоритмов и контейнеров для Си

→

Похожие темы