Компания Google выпустила под лицензией Apache 2.0 библиотеку Gumbo, представляющую собой реализацию разбора HTML5 на языке программирования C.
В качестве причин для её создания указывается на фрагментацию существующих уже библиотек, либо их неоптимальность. Так, большинство реализаций привязаны к определённым браузерам или движкам, а некоторые были написаны на весьма специфичных скриптовых языках, что сильно усложняло их интеграцию в развивающиеся проекты.
Gumbo представляет собой простую и легковесную библиотеку, не имеющую зависимостей от сторонних приложений и библиотек.
Возможности, на которые указывают разработчики:
- Полная совместимость со спецификациями HTML 5
- Качественный обработчик ошибок
- Простой API с возможностью интегрирования в различные языки программирования
- Легковесность и отсутствие зависимостей
- Прохождение html5-tests
- Возможность получения обратных ссылок на исходный код фрагмента
- Тщательно протестировано на более чем 2.5 миллиардах страниц из поискового индекса Google