LINUX.ORG.RU

Нужно выкачать сайт

 , , ,


0

2

Есть нужный мне для работы сайт.

Имеется необходимость позапускать на выложенных на нём текстах поиск с регекспами, так что для этого (и не только для этого) хотелось бы его каким-то образом скачать.

Я в скачивании сайтов вообще плохо понимаю, а здесь ситуация усложняется двумя факторами:

① сайт недоступен с большинства российских ip (через vpn-плагин прекрасно открывается) и

② сделан он ещё в прошлом веке и как-то криво: например, у разных страниц один и тот же url.

Есть ли возможность выкачать его с сохранением структуры и/или выкачать каждую страничку как txt? Буду благодарен за подробную инструкцию.

В противном случае придётся многие сотни (а то и тысячи) страниц копипастить вручную.

wget -r -k -l 7 -p -E -nc http://cal.huc.edu/text_browse.html
eikoninaru
()

или wget -m, или httrack

anonymous
()

Программа webhttrack или плагин для Firefox ScrapBook.

spbset
()

Просто купи Teleport Pro, всего лишь 50 баксов.

Тот сайт не доступен для меня ни с Российских, ни с Европейских айпи. Скорее всего типичные фашисты и тупо режут всех нежелательных посетителей.

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.