LINUX.ORG.RU

wget не видит часть ссылок

 


1

2

Пробую скачать страницу через wget, и он почему-то не видит ссылки вида

/index.php?action=dlattach;topic=175.0;attach=3326 , точнее не качает по ним вложения. А это необходимо.

Запускаю примерно так (куки предварительно получаю другим запросом)

wget -qO- -r --level=2 --load-cookies cookies.txt http://site.com/board/index.php?topic=175.0

Ответ на: комментарий от maxcom

Спасибо. Оказалось, еще и авторизация пропадает. Т.к. несколько страниц (?) оно качает с куками, а дальше почему-то от гостя.

Пробовал httrack, он не понимает файл куки вообще.

zer0cat
() автор топика
Ответ на: комментарий от zer0cat

я в свое время пользовался каким-то плагином к браузеру типа downthemall, из консольных круто качает aria2c, но конкретно на мирроринге с куками я ее не проверял

Syncro ★★★★★
()

Я тормоз. Джва дня дебажил, оказалось wget тупо переходит по ссылке action=logout, и соответственно сессия завершается.. Можно ли это как-то отключить, учитывая что мне нужно парсить action=dlattach? или все же брать другой инструмент?

zer0cat
() автор топика
Ответ на: комментарий от zer0cat

Можно ли это как-то отключить

-A acclist --accept acclist
-R rejlist --reject rejlist
   Specify comma-separated lists of file name suffixes or patterns to accept or reject. Note that if any of the wildcard characters, *, ?, [ or ], appear in an element of
   acclist or rejlist, it will be treated as a pattern, rather than a suffix.  In this case, you have to enclose the pattern into quotes to prevent your shell from expanding it,
   like in -A "*.mp3" or -A '*.mp3'.

--accept-regex urlregex
--reject-regex urlregex
   Specify a regular expression to accept or reject the complete URL.
dataman ★★★★★
()