Подскажите по парсингу HTML

0

1

С наступающим, ЛОР!

Встала тут передо мной задача — надо переводить дофига HTML-файлов в текстовый вид. Проблема в том, что нужная информация хранится во вложенных «дивах». То есть, мне по сути из этого:

<div id="Ненужный_ИД" class="MessageItem">
    <div class="ненужные_аттрибуты">
        <div class="ненужные_аттрибуты $ИСТОЧНИК ненужные_аттрибуты">
            <div class="MessageItemText"> $ТЕКСТ_СООБЩЕНИЯ </div>
        </div>
        <div class="ненужные_аттрибуты">
	    <span class="ненужные_аттрибуты">
		<span class="ненужные_аттрибуты">ненужный_текст</span>
            </span>
            <span class="ненужные_аттрибуты">
                <span class="TimeHandler">$ВРЕМЯ_СООБЩЕНИЯ</span>
            </span>
        </div>
    </div>
</div>

Нужно сделать вот это:

 $ВРЕМЯ_СООБЩЕНИЯ $ИСТОЧНИК $ТЕКСТ_СООБЩЕНИЯ

Как я понял, sed тут не справится. Пока безуспешно пытаюсь вкурить перловский HTML::TokeParser, но может быть есть более простой инструмент? Если да, то ткните носом в мануал...

Ссылка

←	Какой русский шрифт установить для LibreElec и Lubuntu

Настройка network

→

https://metacpan.org/pod/Web::Scraper умеет css и xpath или xpath в https://metacpan.org/release/XML-LibXML + https://metacpan.org/pod/HTML::Selector::XPath (если хочется перевести css селекторы в xpath)

anonymous
(28.12.17 15:16:24 MSK)

Ответ на: комментарий от anonymous 28.12.17 15:16:24 MSK

Спасибо, попробую освоить

voidmaster
(28.12.17 15:47:26 MSK) автор топика

Ссылка

самый простой способ - запустить headless браузер (либо взять любой shadow dom), и сделать

var parser = document.createElement("div")
parser.innerHTML = "контент html"
var plainText = parser.textContent

как вариант можно просто вычленять текст между тегами, удалять лишние пробелы и добавлять отступ по глубине вложенности тега (так работает просмотрщик html, кажется, в total commander, так же и отображают сайты консольные браузеры, где-то была статья о простом таком парсере)

trashymichael ★★★
(28.12.17 15:49:23 MSK)

Я бы xmlstarlet взял, он практически на это и заточен (хотя я бы взял python, но судя по тегам вам не подойдет).

micronekodesu ★★★
(28.12.17 15:49:34 MSK)

Ответ на: комментарий от trashymichael 28.12.17 15:49:23 MSK

скорее всего, трюк с innerHTML = ""; ... = ...textContent сработает в любом парсере, но как в случайном DOM назовут эти методы - зависит от реализации

trashymichael ★★★
(28.12.17 15:50:38 MSK)

Ссылка

вот разжеван алгоритм https://habrahabr.ru/post/304428/

trashymichael ★★★
(28.12.17 15:54:13 MSK)

Ссылка

попробуй любой инструмент с поддержкой xpath.

вот тебе очень неплохие шпаргалки: https://msdn.microsoft.com/en-us/library/ms256086(v=vs.110).aspx https://msdn.microsoft.com/en-us/library/ms256122(v=vs.110).aspx https://msdn.microsoft.com/en-us/library/ms256090(v=vs.110).aspx

~~neschastnyjj86~~
(28.12.17 16:00:01 MSK)

Ссылка

если отдельные файлы, присоединяюсь совету про xmlstarlet, как-то пользовался им.

xmlstarlet sel -t -v 'твой/xpath/тут' 1.xml

правда не знаю, съест ли он невалидный html.

ну и да - в перле должен уж быть какой-нибудь инструмент c xpath

~~neschastnyjj86~~
(28.12.17 16:07:49 MSK)

Я сейчас занимаюсь тем же самым.

Читаю посимвольно, ищу начало несовпадения потом ищу ближайший «<» и читаю данные. Всё это в цикле, коорый ещё в рекурсивном цикле.

sniper21 ★★★★★
(28.12.17 16:13:42 MSK)
Последнее исправление: sniper21 28.12.17 16:13:50 MSK (всего исправлений: 1)

На python есть хороший парсер lxml.html

ism ★★★
(28.12.17 16:58:25 MSK)

Ссылка

w3m -dump

anonymous
(28.12.17 17:37:51 MSK)

Ссылка

Ответ на: комментарий от neschastnyjj86 28.12.17 16:07:49 MSK

Похоже, то что надо. В перле наверняка полно подходящих инструментов, но я с ним пока на «Вы» )

voidmaster
(28.12.17 17:50:48 MSK) автор топика

Ответ на: комментарий от voidmaster 28.12.17 17:50:48 MSK

В перле наверняка полно подходящих инструментов, но я с ним пока на «Вы»

а, ну тогда попрубуй питон + lxml.etree (там есть метод .xpath('тратата'))

~~neschastnyjj86~~
(28.12.17 17:57:40 MSK)

Ответ на: комментарий от neschastnyjj86 28.12.17 17:57:40 MSK

ошибочка, как выше сказали есть lxml.html

~~neschastnyjj86~~
(28.12.17 17:58:37 MSK)

Ссылка

Не понятен принцип отделения $ИСТОЧНИК от ненужных атрибутов. Поэтому для начала можно перейти к обычному тексту чем-то вроде следующего, а там уже awk или к чему ещё душа лежит. Чтобы понять что тут происходит, нужно читать про XSLT и XPath.

$ cat src.html 
<?xml version="1.0"?>
<div id="Ненужный_ИД" class="MessageItem">
    <div class="ненужные_аттрибуты">
        <div class="ненужные_аттрибуты $ИСТОЧНИК ненужные_аттрибуты">
            <div class="MessageItemText"> $ТЕКСТ_СООБЩЕНИЯ </div>
        </div>
        <div class="ненужные_аттрибуты">
            <span class="ненужные_аттрибуты">
            <span class="ненужные_аттрибуты">ненужный_текст</span>
            </span>
            <span class="ненужные_аттрибуты">
                <span class="TimeHandler">$ВРЕМЯ_СООБЩЕНИЯ</span>
            </span>
        </div>
    </div>
</div>

$ cat template.xsl 
<?xml version="1.0"?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output method="text"/>

<xsl:template match="div[@class='MessageItem']/div">
<xsl:value-of select="div/span/span[@class='TimeHandler']"/>
<xsl:apply-templates/>
<xsl:text>
</xsl:text>
</xsl:template>

<xsl:template match="div[div/@class='MessageItemText']">
<xsl:text>|</xsl:text>
<xsl:value-of select="@class"/>
<xsl:text>|</xsl:text>
<xsl:value-of select="div[@class='MessageItemText']"/>
</xsl:template>

<xsl:template match="text()"/>

</xsl:stylesheet>

$ xsltproc template.xsl src.html 
$ВРЕМЯ_СООБЩЕНИЯ|ненужные_аттрибуты $ИСТОЧНИК ненужные_аттрибуты| $ТЕКСТ_СООБЩЕНИЯ

unterwulf ★
(28.12.17 18:50:32 MSK)

php / phpQuery

\phpQuery::newDocument(file_get_contents('/path/to/html/file.html'));
echo pq(".TimeHandler")->html().' '.pq(".MessageItemText")->html()

Ford_Focus ★★★★★
(28.12.17 19:19:33 MSK)

Ссылка

Mojo::DOM. Это составная часть большого проекта, но внешних зависимостей у него нет, только то что входит в core-packages perl'а.

Думаю тебе оттуда пригодится ещё как минимум Mojo::UserAgent.

anonymous
(29.12.17 02:24:13 MSK)

Если исходные файлы на XHTML (т.е. well-formed XML), то можно на xquery написать

annulen ★★★★★
(29.12.17 03:15:54 MSK)

Ссылка

Ответ на: комментарий от unterwulf 28.12.17 18:50:32 MSK

Беспощадный XSLT беспощаден

annulen ★★★★★
(29.12.17 03:16:47 MSK)

Ссылка

Не слушай их. Бери html-xml-utils. Он может частично пережевывать кривой html, но лучше его править перед скармливанием, конечно.
Там sed может быть и не нужен, надо смотреть на твои не нужные атрибуты. Ид для дива поставил div_id.

$ cat test.html | hxnormalize -x | tee >(hxselect -c ".MessageItemText" >> test.txt) >(hxselect "#div_id div div" | head -n1 | sed "s/.*\\$/\\$/;s/\s.*//;s/\\$/ \\$/" | tr --delete '\n' >> test.txt) >(hxselect -c ".TimeHandler" >> test.txt) >(echo >> test.txt) > /dev/null
$ cat test.txt
$ВРЕМЯ_СООБЩЕНИЯ $ИСТОЧНИК $ТЕКСТ_СООБЩЕНИЯ

crutch_master ★★★★★
(29.12.17 05:06:23 MSK)
Последнее исправление: crutch_master 29.12.17 05:09:27 MSK (всего исправлений: 2)