LINUX.ORG.RU

[wget][mirror] Сделать локальную копию сайта

 ,


0

1

Сделал вроде все по мануалу:

 bash$ cat dl-site.sh 
#!/bin/bash

WGET='/usr/bin/wget'
PARAMS="--mirror --convert-links --tries=inf"
REJLIST='exe,com,rar,zip,7z,gz,mpg,mpeg,avi,mp3'

$WGET $PARAMS --reject $REJLIST "$1"

bash$ ./dl-site.sh http://tes.ag.ru 

Качает пару файликов (где-то на 50Кб) и все. Может сайт лагает ??

PS: На других сайтах не пробовал

Добавь useragent, время ожидания и random-wait. На сайте может стоять проверка частоты запросов с целью фильтрации качалок.

Alan_Steel ★★
()
Ответ на: комментарий от Alan_Steel

Добавь useragent, время ожидания и random-wait. На сайте может стоять проверка частоты запросов с целью фильтрации качалок.

Не помогло

rumly111
() автор топика
Ответ на: комментарий от power

Сам сайт еще живой. Минуты 2 уже открывается.

Я знаю =). Но сайт мне крайне интересен, хотелось иметь его копию.

wget же спроектирован с учетом медленных соединений. Решение должно быть.

rumly111
() автор топика
Ответ на: комментарий от thesis

Что значит «и всё»? Виснет или просто завершается без ошибок?

Пишет, мол все ОК, я сделал все, никаких ошибок.

rumly111
() автор топика
Ответ на: комментарий от power

А если вместо '--mirror' попробовать '-r'

Сначала у меня так и было, типа

 bash$ wget -r -l inf ... 

Но ИМХО проблема в другом. --mirror только для удобства сделали, чтобы не писать другие 3 параметры

rumly111
() автор топика

вопрос


а нафига wget если есть специально заточенная под это дело httrack

wxw ★★★★★
()

httrack

Можно посмотреть выхлоп в консоли и посмотреть, чего забыл добавить.

kraftello ★★★★★
()

Запустил скрипт. Скорость закачки ~30 байт(!) в секунду =)

rumly111
() автор топика
Ответ на: комментарий от rumly111

wget --mirror --convert-links --tries=inf --reject 'exe,com,rar,zip,7z,gz,mpg,avi,mp3' http://tes.ag.ru

Тащит вроде. Версия 1.12. Кстати да, скорость никакая. Жди, тебя обязательно найдут и убьют за организацию ДДоСа.

thesis ★★★★★
()
Ответ на: комментарий от thesis

wget --mirror --convert-links --tries=inf --reject 'exe,com,rar,zip,7z,gz,mpg,avi,mp3' http://tes.ag.ru

Тащит вроде. Версия 1.12. Кстати да, скорость никакая. Жди, тебя обязательно найдут и убьют за организацию ДДоСа.

У меня просьба. Если удастся скачать хотя бы часть сайта — не удаляйте. Буду благодарен за архив.

rumly111
() автор топика

Мне обычно интересно сделать копию участка сайта с документацией и сохранением структуры ссылок wget -np -r

kraftello ★★★★★
()
Ответ на: вопрос от wxw

RE: httrack

Интересная утилита. Как только мой скрипт потерпит неудачу (он сейчас работает) — попробую

rumly111
() автор топика
Ответ на: комментарий от rumly111

Опоздал, уже остановил и грохнул скачанное (там было-то совсем чуть-чуть).

Подожди, пока сайт просрется до нормальных скоростей, да попробуй обновить wget. Или curl, или тот же httrack.

thesis ★★★★★
()
Ответ на: комментарий от kraftello

Мне обычно интересно сделать копию участка сайта с документацией и сохранением структуры ссылок wget -np -r

Мне тоже. Но этот сайт про вселенную The Elder Scrolls, там все — документация. Ну еще пару инсталяшек и патчей, которые я выбросил

rumly111
() автор топика

Утилита httrack не помогла. Другие предложения ??

rumly111
() автор топика
Ответ на: комментарий от rumly111

ясчетаю у тебя какая-то трабла с маршрутом до сайта
У thesis скачивается wgetом, у меня тоже нормально качалось httrackом. Выжал на пробу метров 20, а всего там, предположительно, около сотни. Скорость около 15 кб/с на поток.

wxw ★★★★★
()
Ответ на: комментарий от wxw

ясчетаю у тебя какая-то трабла с маршрутом до сайта У thesis скачивается wgetом, у меня тоже нормально качалось httrackом. Выжал на пробу метров 20, а всего там, предположительно, около сотни. Скорость около 15 кб/с на поток.

Грустно как-то получается. Вам сайт нафиг не нужен, а качается. Был бы рад конечно, за *.tar.gz. Но если не так, то попробую какой-нить русский прокси-сервер заюзать.

rumly111
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.