С наступающим, ЛОР!
Встала тут передо мной задача — надо переводить дофига HTML-файлов в текстовый вид. Проблема в том, что нужная информация хранится во вложенных «дивах». То есть, мне по сути из этого:
<div id="Ненужный_ИД" class="MessageItem">
<div class="ненужные_аттрибуты">
<div class="ненужные_аттрибуты $ИСТОЧНИК ненужные_аттрибуты">
<div class="MessageItemText"> $ТЕКСТ_СООБЩЕНИЯ </div>
</div>
<div class="ненужные_аттрибуты">
<span class="ненужные_аттрибуты">
<span class="ненужные_аттрибуты">ненужный_текст</span>
</span>
<span class="ненужные_аттрибуты">
<span class="TimeHandler">$ВРЕМЯ_СООБЩЕНИЯ</span>
</span>
</div>
</div>
</div>
$ВРЕМЯ_СООБЩЕНИЯ $ИСТОЧНИК $ТЕКСТ_СООБЩЕНИЯ
Как я понял, sed тут не справится. Пока безуспешно пытаюсь вкурить перловский HTML::TokeParser, но может быть есть более простой инструмент? Если да, то ткните носом в мануал...