LINUX.ORG.RU

Выдрать ссылки из html


0

0

Добрый день! Есть файл html, в котором есть ссылки вида http://somesite.com/*.htm

Надо получить все эти ссылки. Вопрос как?

Копал в сторону awk с регекспами, но не понял, как им словить все ссылки, а не только первую. В регекспами только познакомился.

★★★★★

быдлокодерское решение

<RTFM_ME>
man cat
man grep
man sed
man bash
</RTFM_ME>

cat <somefile>.html | sed 's/</\n</g' | grep "href=http:\/\/somesite\.com" | sed 's/.*href=//' | sed 's/htm.*/htm/'

как-то так...

wingless
()
Ответ на: быдлокодерское решение от wingless

>cat <somefile>.html | sed 's/</\n</g' | grep "href=http:\/\/somesite\.com" | sed 's/.*href=//' | sed 's/htm.*/htm/'

как-то так...


Спасибо! До sed 's/</\n</g' как-то не додумался.
</thread>

Pavval ★★★★★
() автор топика
Ответ на: комментарий от true_admin

Был когда-то такой сайт, rusmafia.org, сейчас он называется "ЛинСовет", там осталась заметка Ramok'а:

http://rusmafia.org/linux/zsh-lazy-run-url

Если нужно - могу написать тоже самое на Python'е.

И еще, есть man 7 uri ...

pacify ★★★★★
()
Ответ на: комментарий от true_admin

> dom ...

Предварительно проверив на соответствие синтаксису XML и соответствие заданной XML-схеме? :)

pacify ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.