Наконец дошли руки попробовать новый Wget.
Дано: сайт на сильно допиленном Wordpress. Большая часть текста — в виде фоновых изображений. API заблокирован. Оглавления нет. Писать скрипт-паук для curl лень.
wget -m
качал сайт двое суток и не закончил. Как выяснилось, ходил кругами, комбинируя теги, режимы сортировки и таймстэмпы. Успел скачать 3 гигабайта страниц.
wget2 -m
скачал 2500 сгенерированных страниц (28 мегабайт) за неполные 4 минуты и остановился. На 60 мегабайт картинок ушло менее 1 минуты из этих 4.
Если я правильно понял, при редиректах wget считает 2 страницы по разным адресам разными, а wget2 — одной, и повторно не скачивает.
Заодно проверил мой «любимый» баг фильтра -R
. Wget2 не ходит по страницам из чёрного списка, wget скачивает их и сразу удаляет. Говорят, исправить это без переписывания с нуля было невозможно.
Как мне показалось, у wget2 заметно меньше паузы между скачиваемыми файлами, что в данном случае также дало кратное ускорение — старый wget скачал 4500 страниц (60 мегабайт) за 25 минут.