LINUX.ORG.RU

Сообщения voidmaster

 

Подскажите по парсингу HTML

Форум — General

С наступающим, ЛОР!

Встала тут передо мной задача — надо переводить дофига HTML-файлов в текстовый вид. Проблема в том, что нужная информация хранится во вложенных «дивах». То есть, мне по сути из этого:

<div id="Ненужный_ИД" class="MessageItem">
    <div class="ненужные_аттрибуты">
        <div class="ненужные_аттрибуты $ИСТОЧНИК ненужные_аттрибуты">
            <div class="MessageItemText"> $ТЕКСТ_СООБЩЕНИЯ </div>
        </div>
        <div class="ненужные_аттрибуты">
	    <span class="ненужные_аттрибуты">
		<span class="ненужные_аттрибуты">ненужный_текст</span>
            </span>
            <span class="ненужные_аттрибуты">
                <span class="TimeHandler">$ВРЕМЯ_СООБЩЕНИЯ</span>
            </span>
        </div>
    </div>
</div>
Нужно сделать вот это:
 $ВРЕМЯ_СООБЩЕНИЯ $ИСТОЧНИК $ТЕКСТ_СООБЩЕНИЯ 

Как я понял, sed тут не справится. Пока безуспешно пытаюсь вкурить перловский HTML::TokeParser, но может быть есть более простой инструмент? Если да, то ткните носом в мануал...

 , , ,

voidmaster
()

Debian 9 не стартует под Virtualbox

Форум — General

ЛОР, ай нид хелп.

Решил я тут на рабочей машине заиметь нормальную ОСь, а так как предустановленную сносить нельзя, то поставил для этого вирткоробку и взял свежий образ дебиан-нетинсталл.

Установка прошла как по маслу, а после ребута — меню grub'а и чёрный экран с курсором. Не хочет грузить ни дефолт, ни recovery mode =(

Добавил в опции загрузки 'debug', но мне это мало что прояснило — выдаёт вроде стандартные сообщения, а потом виснет на «Loading, please wait...» ( скриншот).

Что это может быть?.. Не грузится initramfs?.. Или ХЗ.

В общем, подскажите куда гуглить?

Хост: Win7x64
Гость: Debian-9.2.1-i386
Коробка: 5.2.0r118431

 ,

voidmaster
()

RSS подписка на новые темы