LINUX.ORG.RU

awk чтобы вытащить ссылки со страницы


0

0

Вопрос боян конечно...

Есть страничка на ней куча ссылок на файлы, надо както пропарсить страницу и вытащить из нее эти ссылки в нормальном виде, т.е. там чтото типа: <td class="text_406" align="center" bgcolor="#e5f2f6" nowrap="nowrap" valign="middle"><a href="http:----------------САМА_ССЫЛКА--------------"><img src="vcat_files/pic1.gif" alt="download" border="0" height="17" width="19"></a></td>

а требуется достать оттуда http:----------------САМА_ССЫЛКА--------------

интересует как именно это сделать с помощью awk, вроде бы с основами его разобрался, но как в этом случае поступить ума не приложу, т.е интересуют именно примеры а то во всяких доках примитивные examples.

anonymous
Ответ на: комментарий от sdio

а как туда вставить еще например что бы отбиралось по расширению файла?

anonymous
()
Ответ на: комментарий от anonymous

Все эти поиски/вытаскивания надо делать regexp_oм и более подходящим инструментом (sed, grep -o, perl).

Делать это awk_ом неинтересно.

sdio ★★★★★
()
Ответ на: комментарий от sdio

То есть ,в принципе, awk для этого не предназначен?

anonymous
()

#!/usr/bin/nawk -f

BEGIN {
    regex="href=[^ ]+";
}
{
if (match($0,regex)) {
    str = substr($0,RSTART,RLENGTH);
    printf("%s\n", str);
}
}

Приближительно как нибудь так.
regexp НЕ правильный, меняйте под свой случай.

stwm
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.