LINUX.ORG.RU

История изменений

Исправление KRoN73, (текущая версия) :

Нет, httrack тоже задачу не решает :-/

Проблема в картинках, на которые ссылается страница. Т.е.:

<a href="/full-image"><img src="image" /></a>

Если ограничиваться глубиной выкачивания -r1, то превьюшка качается, полная картинка — нет. Если ставить -r2, то выкачиваются, порой, тысячи файлов — вплоть до всего сайта.

Если ставить фильтры по расширениям (-* +*.gif +*.jpg +*.png +*.css +*.js), то с -r2 результат сносный. Но у картинок часто вообще нет расширения и этот метод не работает.

Если ставить фильтры по MIME (-mime:*/* +mime:image/* +mime:text/*), то с -r2 опять качается [почти] весь сайт, только что кроме картинок и html ничего не останется, но прочего итак мало. Если в mime убирать text/html, то, болезнь wget, не качается и та страница, которую сказали выкачать.

Блин. Простейшая задача в рамках того, что уже умеют wget и httrack, но ни тот, ни другой, решить её не могут :D

Исходная версия KRoN73, :

Нет, httrack тоже задачу не решает :-/

Проблема в картинках, на которые ссылается страница. Т.е.:

<a href="/full-image"><img src="image" /></a>
[/img]

Если ограничиваться глубиной выкачивания -r1, то превьюшка качается, полная картинка — нет. Если ставить -r2, то выкачиваются, порой, тысячи файлов — вплоть до всего сайта.

Если ставить фильтры по расширениям (-* +*.gif +*.jpg +*.png +*.css +*.js), то с -r2 результат сносный. Но у картинок часто вообще нет расширения и этот метод не работает.

Если ставить фильтры по MIME (-mime:*/* +mime:image/* +mime:text/*), то с -r2 опять качается [почти] весь сайт, только что кроме картинок и html ничего не останется, но прочего итак мало. Если в mime убирать text/html, то, болезнь wget, не качается и та страница, которую сказали выкачать.

Блин. Простейшая задача в рамках того, что уже умеют wget и httrack, но ни тот, ни другой, решить её не могут :D