Есть html страница внутри которой есть блоки вида:
<h3>
<a href="/foo/">Категория</a>
→
<a href="/foo/bar">Полезная ссылка 1</a>
<span class="post_mark"> </span>
</h3>
Я хочу выдрать все полезные ссылки и сформировать из них список. То есть взять каждую вторую ссылку внутри h3 и получить это:
/foo/bar1
/foo/bar2
/foo/bar3
Что лучше для этого использовать из стандартных утилит?
Как реализовать условие «внутри h3»? Насколько я знаю, ленивые регулярные выражения вида <h3>.+?</h3> в, например, sed и awk не работают.