LINUX.ORG.RU

Выкачать несколько сайтов


0

1

Нужно выкачать несколько сайтов - около сотни, и потом обновлять их переодически. Проблема в том, что при загрузки wget'ом он слишком долго ждёт отклика от хоста, т.е. пока php сформирует для него страницу. В итоге загрузка идёт рывками и очень медленно - за 6 часов вытянуло только 500мб. Как бы это дело ускорить?

У меня единственная идея - запускать несколько копий wget параллельно в фоне. Но как управлять количеством работающих копий, чтобы их не было слишком много, но использовался бы весь ресурс канала?

Да, и почему вот это:

wget -N --recursive --level=$DEPTH --relative --no-parent --wait=$SECWAIT --random-wait --force-directories --directory-prefix=$ROOTPREFIX --input-file=«$HOSTSFILE»

загружает ещё и изображения?

★★★★★

Последнее исправление: Suntechnic (всего исправлений: 1)
Ответ на: комментарий от ciiccii

Да - я прочитал man, но это слабо помогает когда есть просто список хостов и их надо отзеркалить...

Suntechnic ★★★★★
() автор топика
Ответ на: комментарий от Suntechnic

блин забыл: ниечего кроме wget'a не нувно. опция -R ;)

ciiccii
()

Может напишем с тобой ещё один велосипед: при помощи wget'a составим просто список URL'ов, а скормим его aria2? ;)
Как думаешь, получится?

adriano32 ★★★
()
Ответ на: комментарий от adriano32

А как использовать wget для составления ссылок (я уже думал про это)? Вроде httrack неплох...

Suntechnic ★★★★★
() автор топика

> Проблема в том, что при загрузки wget'ом он слишком долго ждёт отклика от хоста, т.е. пока php сформирует для него страницу.

У меня единственная идея - запускать несколько копий wget параллельно в фоне.

В результате твоих экспериментов по отзеркаливанию, ты положишь сервер... Подумай, почему страница долго формируется, в какой ресурс упирается сервер (проц, память, диск). Запустив параллельно несколько закачек, ты дашь еще большую нагрузку и сервер будет очень неторопливо обслуживать каждый твой запрос (их будет много) и почти никого другого.

Если у тебя под сотню доменов, можешь зеркалировать их все параллельно.

anonymous
()
Ответ на: комментарий от anonymous

Так именно об этом и речь - не один домен зеркалить, а скажем 5-10 параллельно - на один домен - один поток.

Suntechnic ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.