LINUX.ORG.RU

recursive wget and grep

 ,


0

1

С одного сайта нужно достать где то 1000 названий компаний. Я могу через рекурсивный wget скачать html страницы и потом пройтись по ним grep-ом. Но получается небольшой overhead, т.к. это можно сделать не скачивая себе страницы на пк.

Проблема заключается в том что

 wget  -O - http://site.com | grep регулярка 
работает ( но мне то нужен рекурсивный грип )
но
 wget -r http://site.com | grep регулярка
не работает.

Есть какой то хитрый способ?

★★★★★

Последнее исправление: snaf (всего исправлений: 1)

С одного сайта нужно достать где то 1000 названий компаний. Я могу через рекурсивный wget скачать html страницы и потом пройтись по ним grep-ом. Но получается небольшой overhead

в чём?

т.к. это можно сделать не скачивая себе страницы на пк.

http via astral, что ли? никаким другим способом это недостижимо. ты вообще понимаешь, почему рекурсивное скачивание - рекурсивное?

feofil
()

я нормально отношусь к вопросам новичков, которые чего-то не знают...

но когда, что-то где-то услышав, начинают считать себя самыми умными, самоувернно исходя из неверных предпосылок... ПРИДУМЫВАЙТЕ С ЗЕНИТЧИКОМ, КАСАНДРОЙ и НАУЧНИКОМ СВОЙ ЛОР И ПОСТИТЕ ТАМ!

feofil
()

запихнуть рекурсию в переменную и потом подсунуть грепу?

grep регулярка <<< "${переменная}"
и почему wget, а не, скажем, curl?

megabaks ★★★★
()
Ответ на: комментарий от feofil

http via astral, что ли? никаким другим способом это недостижимо. ты вообще понимаешь, почему рекурсивное скачивание - рекурсивное?

Я просто не хочу сохранять страницы себе на пк. Так яснее?

snaf ★★★★★
() автор топика
Ответ на: комментарий от Y

Сори. Писал по памяти. Починил

snaf ★★★★★
() автор топика
Ответ на: комментарий от megabaks

запихнуть рекурсию в переменную и потом подсунуть грепу?

К сожалению мне это ни о чем не говорит.

и почему wget, а не, скажем, curl?

А он умеет рекурсию?

snaf ★★★★★
() автор топика
Ответ на: комментарий от feofil

я нормально отношусь к вопросам новичков, которые чего-то не знают...

Спасибо. Очень познавательно.

snaf ★★★★★
() автор топика
Ответ на: комментарий от snaf

К сожалению мне это ни о чем не говорит.

плохо тебе, чо

ololo="$(wget -r http://site.com)"
grep регулярка <<< "${ololo}"

megabaks ★★★★
()

это можно сделать не скачивая себе страницы на пк.

не вдаваясь в регулярки, всё-таки рекомендовал бы сначала слить дамп нужных страниц к себе и потом уже пробегаться регуляркой по нему. Если вдруг в регулярке будет досадная ошибка - не придётся еще раз делать 1000 запросов к сайту.

Deleted
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.