recursive wget and grep

0

1

С одного сайта нужно достать где то 1000 названий компаний. Я могу через рекурсивный wget скачать html страницы и потом пройтись по ним grep-ом. Но получается небольшой overhead, т.к. это можно сделать не скачивая себе страницы на пк.

Проблема заключается в том что

 wget  -O - http://site.com | grep регулярка

работает ( но мне то нужен рекурсивный грип )
но

 wget -r http://site.com | grep регулярка

не работает.

Есть какой то хитрый способ?

Ссылка

←	Ошибка компиляции miro

D-Link DIR-300NRU rev.B6

→

С одного сайта нужно достать где то 1000 названий компаний. Я могу через рекурсивный wget скачать html страницы и потом пройтись по ним grep-ом. Но получается небольшой overhead

в чём?

т.к. это можно сделать не скачивая себе страницы на пк.

http via astral, что ли? никаким другим способом это недостижимо. ты вообще понимаешь, почему рекурсивное скачивание - рекурсивное?

~~feofil~~
(13.03.14 13:40:40 MSK)

я нормально отношусь к вопросам новичков, которые чего-то не знают...

но когда, что-то где-то услышав, начинают считать себя самыми умными, самоувернно исходя из неверных предпосылок... ПРИДУМЫВАЙТЕ С ЗЕНИТЧИКОМ, КАСАНДРОЙ и НАУЧНИКОМ СВОЙ ЛОР И ПОСТИТЕ ТАМ!

~~feofil~~
(13.03.14 13:41:54 MSK)

У меня в zsh и первый вариант не работает. Сохраняет страницу на диск.

Y ★★
(13.03.14 13:42:03 MSK)
Последнее исправление: Y 13.03.14 13:42:38 MSK (всего исправлений: 1)

запихнуть рекурсию в переменную и потом подсунуть грепу?

grep регулярка <<< "${переменная}"

и почему wget, а не, скажем, curl?

megabaks ★★★★
(13.03.14 13:42:13 MSK)

Ответ на: комментарий от feofil 13.03.14 13:40:40 MSK

http via astral, что ли? никаким другим способом это недостижимо. ты вообще понимаешь, почему рекурсивное скачивание - рекурсивное?

Я просто не хочу сохранять страницы себе на пк. Так яснее?

snaf ★★★★★
(13.03.14 13:42:43 MSK) автор топика

Ссылка

Ответ на: комментарий от Y 13.03.14 13:42:03 MSK

Сори. Писал по памяти. Починил

snaf ★★★★★
(13.03.14 13:44:54 MSK) автор топика

Ссылка

Ответ на: комментарий от megabaks 13.03.14 13:42:13 MSK

запихнуть рекурсию в переменную и потом подсунуть грепу?

К сожалению мне это ни о чем не говорит.

и почему wget, а не, скажем, curl?

А он умеет рекурсию?

snaf ★★★★★
(13.03.14 13:47:51 MSK) автор топика

Ответ на: комментарий от feofil 13.03.14 13:41:54 MSK

я нормально отношусь к вопросам новичков, которые чего-то не знают...

Спасибо. Очень познавательно.

snaf ★★★★★
(13.03.14 13:48:29 MSK) автор топика

Ссылка

Ответ на: комментарий от snaf 13.03.14 13:47:51 MSK

К сожалению мне это ни о чем не говорит.

плохо тебе, чо

ololo="$(wget -r http://site.com)"
grep регулярка <<< "${ololo}"

megabaks ★★★★
(13.03.14 13:51:54 MSK)

Ссылка

это можно сделать не скачивая себе страницы на пк.

не вдаваясь в регулярки, всё-таки рекомендовал бы сначала слить дамп нужных страниц к себе и потом уже пробегаться регуляркой по нему. Если вдруг в регулярке будет досадная ошибка - не придётся еще раз делать 1000 запросов к сайту.

Deleted
(13.03.14 14:00:45 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Ошибка компиляции miro

General

D-Link DIR-300NRU rev.B6

→

Похожие темы