Wget vs. Wget2

wget, wget2, жж

1

3

Наконец дошли руки попробовать новый Wget.

Дано: сайт на сильно допиленном Wordpress. Большая часть текста — в виде фоновых изображений. API заблокирован. Оглавления нет. Писать скрипт-паук для curl лень.

wget -m качал сайт двое суток и не закончил. Как выяснилось, ходил кругами, комбинируя теги, режимы сортировки и таймстэмпы. Успел скачать 3 гигабайта страниц.

wget2 -m скачал 2500 сгенерированных страниц (28 мегабайт) за неполные 4 минуты и остановился. На 60 мегабайт картинок ушло менее 1 минуты из этих 4.

Если я правильно понял, при редиректах wget считает 2 страницы по разным адресам разными, а wget2 — одной, и повторно не скачивает.

Заодно проверил мой «любимый» баг фильтра -R. Wget2 не ходит по страницам из чёрного списка, wget скачивает их и сразу удаляет. Говорят, исправить это без переписывания с нуля было невозможно.

Как мне показалось, у wget2 заметно меньше паузы между скачиваемыми файлами, что в данном случае также дало кратное ускорение — старый wget скачал 4500 страниц (60 мегабайт) за 25 минут.

Ссылка

←	У кого имеется дома микроскоп?

Поддержка CUDA на Radeon

→

не знаю как сейчас, а раньше можно было получить бан от сервера даже за скачивание в более чем пару потоков или небраузерный юзерагент, т.е. неагрессивность вгета могла быть обусловлена этим фактом, а не убогостью

Syncro ★★★★★
(19.12.22 07:44:21 MSK)
Последнее исправление: Syncro 19.12.22 07:45:40 MSK (всего исправлений: 2)

Ответ на: комментарий от Syncro 19.12.22 07:44:21 MSK

В последнее время именно банов за небраузерный юзеркагент и тем более за скачивание в много потоков я не встречал. Но очень часто просто не отдают страницу вообще, если юзерагент небраузерный, и всё.

CrX ★★★★★
(19.12.22 09:26:04 MSK)

Ссылка

А теперь выкачай весь ЛОР по приколу

~~cocucka~~ ★★★★☆
(19.12.22 12:01:50 MSK)

Ссылка

Зато wget2 не поддерживает FTP. В этом смысле curl универсальнее. Он поддерживает и FTP и gopher.

saahriktu ★★★★★
(19.12.22 12:27:41 MSK)

Ответ на: комментарий от Syncro 19.12.22 07:44:21 MSK

неагрессивность вгета

В его конфиге я много лет назад выставил паузу в 0. Поток в обоих всего один.

Хотя возможно, что старые алгоритмы писались под ограниченную память, а новые память не экономят.

question4 ★★★★★
(19.12.22 12:49:03 MSK) автор топика

Ссылка

Ответ на: комментарий от saahriktu 19.12.22 12:27:41 MSK

Зато wget2 не поддерживает FTP.

Неоднократно об этом писал, и повторю ещё раз. Гады.

curl

Мне было интересно сравнить программы, требующие минимум усилий от пользователя.

question4 ★★★★★
(19.12.22 12:50:29 MSK) автор топика

Ссылка

Wget vs. Wget2

Побеждает aria2

vvn_black ★★★★★
(19.12.22 12:56:15 MSK)
Последнее исправление: vvn_black 19.12.22 12:56:34 MSK (всего исправлений: 1)

Ответ на: комментарий от saahriktu 19.12.22 12:27:41 MSK

FTP

Ненужно

Original_1
(19.12.22 17:45:08 MSK)

Ответ на: комментарий от Original_1 19.12.22 17:45:08 MSK

Нужно

~~cocucka~~ ★★★★☆
(19.12.22 17:46:14 MSK)

Ссылка

Ответ на: комментарий от vvn_black 19.12.22 12:56:15 MSK

кажется aria2 не качает сайты

~~Gennadevich~~ ★
(19.12.22 17:53:03 MSK)

Ответ на: комментарий от Gennadevich 19.12.22 17:53:03 MSK

Прям так вот в лоб, да, по-моему не умеет рекурсивно обходить, но умеет скачивать по заранее подготовленным спискам ссылок.

vvn_black ★★★★★
(19.12.22 18:16:41 MSK)

Ответ на: комментарий от Syncro 19.12.22 07:44:21 MSK

небраузерный юзерагент

Хромиумный юзерагент в конфиге качалок и поделок на webengine / blink - это по умолчанию вообще уже.

Suigintou ★★★★★
(19.12.22 18:19:42 MSK)

Ответ на: комментарий от Suigintou 19.12.22 18:19:42 MSK

Хромиумный юзерагент

Подавляющему большинству проверяющих сайтов хватает curl -e <корень сайта> -A Mozilla

Сейчас всё важнее становятся куки, которые приходится сохранять из браузера (спасибо Export cookies).

question4 ★★★★★
(19.12.22 18:31:03 MSK) автор топика

Ссылка

Ответ на: комментарий от Original_1 19.12.22 17:45:08 MSK

Иногда FTP нужно.

praseodim ★★★★★
(19.12.22 23:27:48 MSK)

Ссылка

Ответ на: комментарий от vvn_black 19.12.22 18:16:41 MSK

Я выше написал — сравнивал инструменты, требующие минимум подготовительной работы.

question4 ★★★★★
(21.12.22 08:15:07 MSK) автор топика

Ответ на: комментарий от question4 21.12.22 08:15:07 MSK

httrack не добавишь в сравнение?

greenman ★★★★★
(21.12.22 08:24:50 MSK)

Ответ на: комментарий от greenman 21.12.22 08:24:50 MSK

Я про него вообще впервые слышу. В гуёвых качалках разочаровался во времена ReGet-а и Teleport-а. Может быть, когда-нибудь… Но не сейчас.

question4 ★★★★★
(21.12.22 09:17:11 MSK) автор топика

Ответ на: комментарий от saahriktu 19.12.22 12:27:41 MSK

Кстати, только сейчас про этот тикет вспомнил: https://gitlab.com/gnuwget/wget2/-/issues/3

Итоговое решение: FTP будет.

question4 ★★★★★
(21.12.22 09:21:31 MSK) автор топика

Ссылка

Ответ на: комментарий от question4 21.12.22 09:17:11 MSK

Я про него вообще впервые слышу.

Он не гуёвый. И под линукс морда есть только в виде webhttrack.

greenman ★★★★★
(21.12.22 10:28:02 MSK)

Ответ на: комментарий от greenman 21.12.22 10:28:02 MSK

Вышла Aria2 1.8.0 (комментарий)

Значит, начисто забыл. Скорее всего потому, что ебилд не заработал.

question4 ★★★★★
(21.12.22 17:48:15 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	У кого имеется дома микроскоп?

Поддержка CUDA на Radeon

→