Требуется использовать какой-нибудь фреймворк или либу для парсинга HTML. Что посоветует великий ЛОР?
Имеется нерегулярный документ HTML, сохраненный, к примеру, с какого-то бложика. Содержащий текст на любом европейском/восточном языке, с/без форматирования, с/без ошибок в тегах, с/без прочим информационным мусором. Браузеры (webkit, в частности) его отображают нормально.
Требуется распарсить документ, вытаскивая из него строки отображаемого текста, например в виде абзацев/параграфов. Модифицировать эти строки, затем обратно вставлять их в текст. Требуется это делать не разрушая форматирование, хотя бы сохраняя его с точностью до границ выдранных параграфов.
Можно что-то, что будет загружать документ в дерево DOM, можно иные инструменты - неважно.
Пишется всё на c++ с qt4. Пробовал с qt-шным webkitом - не получается с ним анализировать все документы. Особенно где текст тупо набран и сверстан без использования div, span и p.
Ответ на:
комментарий
от baverman
Ответ на:
комментарий
от baverman
Ответ на:
комментарий
от Jetty
Ответ на:
комментарий
от Suigintou
Ответ на:
комментарий
от Suigintou
Ответ на:
комментарий
от Suigintou
Ответ на:
комментарий
от Suigintou
Ответ на:
комментарий
от baverman
Ответ на:
комментарий
от Jetty
Ответ на:
комментарий
от Suigintou
Ответ на:
комментарий
от unC0Rr
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.
Похожие темы
- Форум Парсинг html таблицы (2016)
- Форум Быстрый парсинг HTML (2019)
- Форум C++ парсинг HTML (2013)
- Форум [Qt] парсинг HTML (2012)
- Форум Bash парсинг html кода (2012)
- Форум Подскажите по парсингу HTML (2017)
- Форум HTML-парсинг андроид-маркета (2012)
- Форум Парсинг HTML через bash (2010)
- Форум Ищу библиотеку для парсинга html (2012)
- Форум Кроммплатформенная библиотека для парсинга HTML (2014)