Что сегодня есть чтобы скачать сайт?

0

4

Есть сайт с технической инфой, использует MediaWiki. Есть боязнь, что выпилится в ближайшие несколько лет, а информация нужна.

Как его адекватно скачать чтобы локально можно было использовать? Не обязательно в html, главное чтобы работали кросс-ссылки и можно было смотреть изображения.

Ссылка

←	Проблема с браузером на Linux

Lumina - отзывы

→

wget

Dog ★★★
(24.01.23 17:19:36 MSK)

Слышал, что Kiwix обрабатывает mediawiki.

Сам его использовал только минут 5 до того, как понял что там нет нужного мне ресурса. Но желаю удачи в поисках!

LibAccelerator ★
(24.01.23 17:19:38 MSK)
Последнее исправление: LibAccelerator 24.01.23 17:20:02 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Dog 24.01.23 17:19:36 MSK

А как с его помощью качать весь сайт?

~~R_He_Po6oT~~ ★★★★★
(24.01.23 17:21:44 MSK)

Ответ на: комментарий от R_He_Po6oT 24.01.23 17:21:44 MSK

Не помню точно, но это первый результат гугла по запросу «wget скачать сайт».

Dog ★★★
(24.01.23 17:25:34 MSK)

Ссылка

Кстати да, упомянутый kiwix — хороший инструмент для просмотра wiki в офлайне. Но как для него сделать zim архив из вебсайта… Гуглится zimit

https://github.com/ballerburg9005/wget-2-zim

https://wiki.openzim.org/wiki/Build_your_ZIM_file

greenman ★★★★★
(24.01.23 17:38:11 MSK)
Последнее исправление: greenman 24.01.23 17:46:23 MSK (всего исправлений: 3)

Ссылка

Действительно ли нужен сайт целиком?

Зная, что информация из Интернета часто пропадает без следа (изредка сохраняется в web archive, но по нему почти бесполезно искать), сохраняю важные статьи индивидуально. Использую для этого пару расширений Firefox: SingleFile и MarkDownload.

Раньше для Firefox существовали расширения, скачивающие сайты целиком (назывался, кажется, ScrapBook), но со временем, я понял, что скачивать сайты целиком в большинстве случаев напрасная трата времени и места на диске. Чаще всего нужна одна страница или даже вырезка, которую сохраняю в org-mode или ещё куда-нибудь.

Представить целый сайт с нужной информацией… Ну разве что Arch Wiki.

~~emorozov~~ ☆
(24.01.23 18:04:54 MSK)
Последнее исправление: emorozov 24.01.23 18:05:19 MSK (всего исправлений: 1)

Возможно такой список софта подойдёт, колонка Browse
https://docs.google.com/spreadsheets/d/1FqxwaZnIhhQ7jDCC-W64NMRf5rDeh2Shx3u01MsBmTQ/

Или свяжитесь с web.archive.org если у них ещё нет этого сайта в базе.

mydibyje ★★★★
(24.01.23 18:57:44 MSK)
Последнее исправление: mydibyje 24.01.23 18:58:41 MSK (всего исправлений: 1)

Ссылка

У mediawiki в левой колонке (или может ещё где-то) часто есть штатная ссылка на скачивание дампа. Потом поднимаешь свою и заливаешь.

firkax ★★★★★
(24.01.23 19:12:33 MSK)
Последнее исправление: firkax 24.01.23 19:13:36 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от emorozov 24.01.23 18:04:54 MSK

целый сайт с нужной информацией

это и есть определение справочной литературы, включая энциклопедии, словари, справочники, перечни. Когда отрасль известна, а какая именно тема всплывёт в неожиданный момент - невозможно предсказать.

token_polyak ★★★★★
(24.01.23 19:24:50 MSK)
Последнее исправление: token_polyak 24.01.23 19:28:50 MSK (всего исправлений: 1)

mwscrape, и если зайдет именно формат slob, то mw2slob. Экспорт XML естественно лучший вариант, но на публичных вики он обычно отключён.

Ну а самой массовой вариант - как уже указывали - формат ZIM и читалка Kiwix.

token_polyak ★★★★★
(24.01.23 19:25:24 MSK)
Последнее исправление: token_polyak 24.01.23 19:27:29 MSK (всего исправлений: 1)

Ссылка

Что сегодня есть чтобы скачать сайт?

Весь сайт можно загрузить с помощью HTTraQt (Qt-версия HTTrack) или WinHTTrack (WinAPI-версия HTTrack).

Как его адекватно скачать чтобы локально можно было использовать?

главное чтобы работали кросс-ссылки и можно было смотреть изображения

Расширение для интернет-браузеров SingleFile (есть версии для Chrome/Chromium based и Firefox/Firefox based) позволяет скачать страницу со всеми изображениями в один html-файл.

~~posixbit~~ ★★★
(24.01.23 20:37:12 MSK)
Последнее исправление: posixbit 24.01.23 20:56:37 MSK (всего исправлений: 6)

Ссылка

К диетологу.

t184256 ★★★★★
(24.01.23 21:42:36 MSK)

Ссылка

https://github.com/lahwaacz/arch-wiki-docs

там как раз для выкачивания медиавики

у неё есть апи, я когда-то писал сильно более тупой скрипт на баше

sergej ★★★★★
(24.01.23 21:49:33 MSK)

Ссылка

Ответ на: комментарий от emorozov 24.01.23 18:04:54 MSK

сохраняю важные статьи индивидуально

В этом и проблема, там несколько сотен страниц.

PPP328 ★★★★★
(24.01.23 23:25:00 MSK) автор топика

Ссылка

Pale Moon с расширением Scrapbook X.

damix9 ★★★
(24.01.23 23:35:45 MSK)

Ссылка

Ответ на: комментарий от token_polyak 24.01.23 19:24:50 MSK

Тема - камень 1975го года, там не будет ничего нового.

PPP328 ★★★★★
(24.01.23 23:50:14 MSK) автор топика

Ссылка

Ответ на: комментарий от R_He_Po6oT 24.01.23 17:21:44 MSK

Вот,нашел один из вариантов: wget -r -k -l 7 -p -E -nc http://site.com/

Dog ★★★
(25.01.23 00:02:46 MSK)

Ссылка

HTTrack раньше пользовался, удивлён, что давно не обновляется

One ★★★★★
(25.01.23 01:23:11 MSK)

Ссылка

Ответ на: комментарий от emorozov 24.01.23 18:04:54 MSK

Действительно ли нужен сайт целиком?

Не так давно админ доброчана (палюсь, да) сделал простую и мерзкую вещь: погасил сервер и свалил. В итоге треды и общение людей за более чем 10 лет исчезли полностью.

tt ★
(28.01.23 00:10:23 MSK)

httrack?

leave ★★★★★
(28.01.23 01:16:40 MSK)

Ссылка

Ответ на: комментарий от tt 28.01.23 00:10:23 MSK

Не знаю, что такое доброчан. На web archive копий не осталось?

Чем так ценны эти треды?

Просто, например, в том же «устаревшем» ЖЖ были и есть десятки тысяч супер-интересных блогов от очень интересных людей (среди десятков миллионов менее интересных). И в каментах там иногда были и до сих пор встречаются очень интересные дискуссии.

Будет очень жалко, если когда-нибудь это исчезнет (я вот свой блог когда-то сам удалил не сделав резервную копию, сейчас об этом жалею).

Но скачать всё это к себе? Нереально, и понятно, что без ЖЖ я никогда не стану всё это перечитывать.

~~emorozov~~ ☆
(28.01.23 09:09:35 MSK)

Ответ на: комментарий от emorozov 28.01.23 09:09:35 MSK

Но скачать всё это к себе?

Меня это интересует почти исключительно как технический мануал.

PPP328 ★★★★★
(29.01.23 11:39:45 MSK) автор топика

Ссылка

Ответ на: комментарий от tt 28.01.23 00:10:23 MSK

Там же был сервер tox. Я думал все уже туда перекатились

vbcnthfkmnth123 ★★★★★
(29.01.23 11:40:52 MSK)

Как его адекватно скачать чтобы локально можно было использовать

Учитывая что сейчас везде жабаскрипт, то это нетривиальная задача.

MediaWiki

Я б на твоём месте поискал граббер специально для MediaWiki, чтобы получить архив статей, пригодный для разворачивания на локально установленной MediaWiki.

Кроме того, если тебе интересно именно сохранить данные для использования, то там же должен быть экспорт статей в PDF. Этого недостаточно?

no-such-file ★★★★★
(29.01.23 11:54:42 MSK)
Последнее исправление: no-such-file 29.01.23 11:56:20 MSK (всего исправлений: 2)