LINUX.ORG.RU

wget — как скачать все файлы с сайта по расширению?

 


0

1

Привет.

31 августа 2018 года все depot-файлы для Hp-UX ниже 11.31 будут удалены с сайта http://hpux.connect.org.uk , поэтому надо бы создать локальную копию, т.е. выкачать все depot-файлы.

Я делаю так:

wget -r -l 300 -H -nc  -A .depot.gz -e robots=off  --domains hpux.connect.org.uk  http://hpux.connect.org.uk/hppd/categories.html

Скачивается примерно ~3.5 ГБ depot.gz-файлов, но некоторых файлов я не вижу. Например, http://hpux.connect.org.uk/ftp/hpux/Sysadmin/rrdtool-1.7.0/rrdtool-1.7.0-ia64... не скачивается (со старницы http://hpux.connect.org.uk/hppd/hpux/Sysadmin/rrdtool-1.7.0/)

Можно ли как-нибудь скачать всё? И где я ошибся?

Спасибо!

★★★

Последнее исправление: iljuase (всего исправлений: 2)

Вроде команда правильная. Я бы включил .html файлы в список и запись лога в файл, чтобы потом было что посмотреть/почитать, может сайт сбоит.

mky ★★★★★
()

Нашёл другой способ: у них есть ftp, начал всё выкачивать с него, проблем нет (результат сразу сохраняется на yandex disk):

wget -r -l 300 -nc -P /media/yandex_disk/hp_ux/ ftp://hpux.connect.org.uk/hpux/

iljuase ★★★
() автор топика
Ответ на: комментарий от mky

Сайт вряд ли сбоит, т.к. запускал команду 5 раз, wget всегда упорно игнорирует rrdtool-1.7.0-ia64_32-11.31.depot.gz

Но если запустить ту же команду, но вместо http://hpux.connect.org.uk/ указать http://hpux.connect.org.uk/hppd/hpux/Sysadmin/rrdtool-1.7.0/ , то всё ОК, всё скачивается. С сайтом всё в порядке.

iljuase ★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.