awk чтобы вытащить ссылки со страницы

0

0

Вопрос боян конечно...

Есть страничка на ней куча ссылок на файлы, надо както пропарсить страницу и вытащить из нее эти ссылки в нормальном виде, т.е. там чтото типа: <td class="text_406" align="center" bgcolor="#e5f2f6" nowrap="nowrap" valign="middle"><a href="http:----------------САМА_ССЫЛКА--------------"><img src="vcat_files/pic1.gif" alt="download" border="0" height="17" width="19"></a></td>

а требуется достать оттуда http:----------------САМА_ССЫЛКА--------------

интересует как именно это сделать с помощью awk, вроде бы с основами его разобрался, но как в этом случае поступить ума не приложу, т.е интересуют именно примеры а то во всяких доках примитивные examples.

Ссылка

←	3D Acceleraton вдруг исчезло...

Как посмотреть нагрузку на жесткие диски ?

→

awk_ом муторно, бери sed.

~~sdio~~ ★★★★★
(22.03.07 20:44:49 MSK)

Ответ на: комментарий от sdio 22.03.07 20:44:49 MSK

Ну все же... просто хочется разобраться с awk на чем нить полезном.

anonymous
(22.03.07 20:51:19 MSK)

Ответ на: комментарий от anonymous 22.03.07 20:51:19 MSK

С ограничением: не более одной ссылки на строке.

awk -F 'href="'   '{split ($2,a,/"/); print a[1]}'

~~sdio~~ ★★★★★
(22.03.07 21:05:58 MSK)

Ответ на: комментарий от sdio 22.03.07 21:05:58 MSK

а как туда вставить еще например что бы отбиралось по расширению файла?

anonymous
(22.03.07 21:12:25 MSK)

Ссылка

Ответ на: комментарий от anonymous 22.03.07 20:51:19 MSK

Все эти поиски/вытаскивания надо делать regexp_oм и более подходящим инструментом (sed, grep -o, perl).

Делать это awk_ом неинтересно.

~~sdio~~ ★★★★★
(22.03.07 21:15:03 MSK)

Ответ на: комментарий от sdio 22.03.07 21:15:03 MSK

То есть ,в принципе, awk для этого не предназначен?

anonymous
(22.03.07 21:19:15 MSK)

Ссылка

#!/usr/bin/nawk -f

BEGIN {
    regex="href=[^ ]+";
}
{
if (match($0,regex)) {
    str = substr($0,RSTART,RLENGTH);
    printf("%s\n", str);
}
}

Приближительно как нибудь так.
regexp НЕ правильный, меняйте под свой случай.

stwm
(22.03.07 21:52:22 MSK)

Ответ на: комментарий от stwm 22.03.07 21:52:22 MSK

Чуть не забыл. RSTART, RLENGTH - начало, длина регекспа. Арифметические действия с ними приветсвуются.

stwm
(22.03.07 22:10:49 MSK)

Ответ на: комментарий от stwm 22.03.07 22:10:49 MSK

Ну с этим понятно, спасибо... а как это будет выглядеть с помощью sed?

anonymous
(23.03.07 00:02:24 MSK)

Ответ на: комментарий от anonymous 23.03.07 00:02:24 MSK

sed 's/^.*href="\([^"]*\).*$/\1/'

~~sdio~~ ★★★★★
(23.03.07 00:23:25 MSK)

Ответ на: комментарий от sdio 23.03.07 00:23:25 MSK

 | grep -Eo 'href="[^"]*' | cut -d\" -f2-

~~sdio~~ ★★★★★
(23.03.07 00:30:23 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	3D Acceleraton вдруг исчезло...

General

Как посмотреть нагрузку на жесткие диски ?

→

Похожие темы