LINUX.ORG.RU

Что сегодня есть чтобы скачать сайт?

 


0

4

Есть сайт с технической инфой, использует MediaWiki. Есть боязнь, что выпилится в ближайшие несколько лет, а информация нужна.

Как его адекватно скачать чтобы локально можно было использовать? Не обязательно в html, главное чтобы работали кросс-ссылки и можно было смотреть изображения.

★★★★★

Кстати да, упомянутый kiwix — хороший инструмент для просмотра wiki в офлайне. Но как для него сделать zim архив из вебсайта… Гуглится zimit

https://github.com/ballerburg9005/wget-2-zim

https://wiki.openzim.org/wiki/Build_your_ZIM_file

greenman ★★★★★
()
Последнее исправление: greenman (всего исправлений: 3)

Действительно ли нужен сайт целиком?

Зная, что информация из Интернета часто пропадает без следа (изредка сохраняется в web archive, но по нему почти бесполезно искать), сохраняю важные статьи индивидуально. Использую для этого пару расширений Firefox: SingleFile и MarkDownload.

Раньше для Firefox существовали расширения, скачивающие сайты целиком (назывался, кажется, ScrapBook), но со временем, я понял, что скачивать сайты целиком в большинстве случаев напрасная трата времени и места на диске. Чаще всего нужна одна страница или даже вырезка, которую сохраняю в org-mode или ещё куда-нибудь.

Представить целый сайт с нужной информацией… Ну разве что Arch Wiki.

emorozov
()
Последнее исправление: emorozov (всего исправлений: 1)

Возможно такой список софта подойдёт, колонка Browse
https://docs.google.com/spreadsheets/d/1FqxwaZnIhhQ7jDCC-W64NMRf5rDeh2Shx3u01MsBmTQ/

Или свяжитесь с web.archive.org если у них ещё нет этого сайта в базе.

mydibyje ★★★★
()
Последнее исправление: mydibyje (всего исправлений: 1)
Ответ на: комментарий от emorozov

целый сайт с нужной информацией

это и есть определение справочной литературы, включая энциклопедии, словари, справочники, перечни. Когда отрасль известна, а какая именно тема всплывёт в неожиданный момент - невозможно предсказать.

token_polyak ★★★★★
()
Последнее исправление: token_polyak (всего исправлений: 1)

mwscrape, и если зайдет именно формат slob, то mw2slob. Экспорт XML естественно лучший вариант, но на публичных вики он обычно отключён.

Ну а самой массовой вариант - как уже указывали - формат ZIM и читалка Kiwix.

token_polyak ★★★★★
()
Последнее исправление: token_polyak (всего исправлений: 1)

Что сегодня есть чтобы скачать сайт?

Весь сайт можно загрузить с помощью HTTraQt (Qt-версия HTTrack) или WinHTTrack (WinAPI-версия HTTrack).

Как его адекватно скачать чтобы локально можно было использовать?

главное чтобы работали кросс-ссылки и можно было смотреть изображения

Расширение для интернет-браузеров SingleFile (есть версии для Chrome/Chromium based и Firefox/Firefox based) позволяет скачать страницу со всеми изображениями в один html-файл.

posixbit ★★
()
Последнее исправление: posixbit (всего исправлений: 6)
Ответ на: комментарий от emorozov

Действительно ли нужен сайт целиком?

Не так давно админ доброчана (палюсь, да) сделал простую и мерзкую вещь: погасил сервер и свалил. В итоге треды и общение людей за более чем 10 лет исчезли полностью.

tt
()
Ответ на: комментарий от tt

Не знаю, что такое доброчан. На web archive копий не осталось?

Чем так ценны эти треды?

Просто, например, в том же «устаревшем» ЖЖ были и есть десятки тысяч супер-интересных блогов от очень интересных людей (среди десятков миллионов менее интересных). И в каментах там иногда были и до сих пор встречаются очень интересные дискуссии.

Будет очень жалко, если когда-нибудь это исчезнет (я вот свой блог когда-то сам удалил не сделав резервную копию, сейчас об этом жалею).

Но скачать всё это к себе? Нереально, и понятно, что без ЖЖ я никогда не стану всё это перечитывать.

emorozov
()

Как его адекватно скачать чтобы локально можно было использовать

Учитывая что сейчас везде жабаскрипт, то это нетривиальная задача.

MediaWiki

Я б на твоём месте поискал граббер специально для MediaWiki, чтобы получить архив статей, пригодный для разворачивания на локально установленной MediaWiki.

Кроме того, если тебе интересно именно сохранить данные для использования, то там же должен быть экспорт статей в PDF. Этого недостаточно?

no-such-file ★★★★★
()
Последнее исправление: no-such-file (всего исправлений: 2)
Ответ на: комментарий от no-such-file

то там же должен быть экспорт статей в PDF. Этого недостаточно?

Я уже упомянул, что там несколько сотен статей и печатать их руками одну за другой, при этом как-то получив весь список - обезьянья работа.

PPP328 ★★★★★
() автор топика