LINUX.ORG.RU

wget and web.archive.org

 


0

1

Здравствуйте

Столкнулся с проблемой и никак не могу ее решить, возможно здесь найду решение. Итак: нужно с помощью wget вытащить сайт из вебархива. Сам сайт _rosi.ru

Использовал ключи, которые не помогли. Некоторые из этих ключей просто скачиваю роботс и индексный (главную страницу сайта) файл хтмл. Вот сами ключи:

wget64.exe -m -HErkp -np -D web.archive.org -k -x -P -U «Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; QQ)» -o -nv -e robots=off

wget -r -k -l 7 -p -E -nc wget -k -x -P -np wget -r -l 12 wget -r -k -l 7 -p -E -nc http://site.com/ wget -k -x -P -U -o -nv -e robots=off

Сам работаю из под винды, но у меня установлен терминал как у самого линукса - mintty 2.8.5

UPD1: с помощью этого ключа вытянул всего 42 файла, но я то знаю, что там больше. Сам ключ: wget -np -e robots=off --mirror --domains=staticweb.archive.org,web.archive.org



Последнее исправление: alibaba07 (всего исправлений: 3)

Итак: нужно с помощью wget вытащить сайт из вебархива.

А чего не хочешь попробовать что-то типа такого?: https://github.com/hartator/wayback-machine-downloader
Если не хочешь гадить систему, то подними временную виртуалку, установить прогу, подмонтируй директорию а как скачает просто грохни.

V1KT0P ★★
()
Ответ на: комментарий от V1KT0P

Это уже стоит и выкачивает, но структура самого сайта - такая никакая. Оно что-то не то делает. Этой прогой выкачано более 6000 файлов, но то ли там все нужно переименовывать, то ли саму структуру вручную менять, а это не 100 файлов. Вот поэтому ищу как можно с помощью стандартной утилиты линукса вытянуть сам сайт.

alibaba07
() автор топика
Ответ на: комментарий от V1KT0P

на локалке сам сайт имеет вид: file:///D:/sites/websites/www.rosimed.ru/index.html

хочешь потом перейти по адрессу: file:///D:/sites/websites/products/medical/mrentgen - сайт падает: file not found

Падает так как структура поменялась, из последнего адресса выпала директория: _http://www.rosimed.ru (знак подчеркивание не в счет)

Должно быть:

file:///D:/sites/websites/http://www.rosimed.ru/products/medical/mrentgen но после такого адресса идет структура вот так:

D:/sites/websites/http://www.rosimed.ru/products/medical/mrentgen/index.html

И это во всех папках и подпапках

С помощью нотепад, поменять структуру - не получается. Все равно одно и то же.

alibaba07
() автор топика
Ответ на: комментарий от anonymous

Повесилил, молодец, садись - пять.

В том то и вся проблема, что весь не нужен, а нужно только определенное, а это уже становится почти невозможным. Вот поэтому и ищу, кто мог бы помочь, возможно и за не бесплатно. Главное, чтобы работало.

alibaba07
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.