LINUX.ORG.RU

Что сегодня есть чтобы скачать сайт?

 


0

4

Есть сайт с технической инфой, использует MediaWiki. Есть боязнь, что выпилится в ближайшие несколько лет, а информация нужна.

Как его адекватно скачать чтобы локально можно было использовать? Не обязательно в html, главное чтобы работали кросс-ссылки и можно было смотреть изображения.

★★★★★

Слышал, что Kiwix обрабатывает mediawiki.

Сам его использовал только минут 5 до того, как понял что там нет нужного мне ресурса. Но желаю удачи в поисках!

LibAccelerator
()
Последнее исправление: LibAccelerator (всего исправлений: 1)
Ответ на: комментарий от R_He_Po6oT

Не помню точно, но это первый результат гугла по запросу «wget скачать сайт».

Dog ★★★
()

Кстати да, упомянутый kiwix — хороший инструмент для просмотра wiki в офлайне. Но как для него сделать zim архив из вебсайта… Гуглится zimit

https://github.com/ballerburg9005/wget-2-zim

https://wiki.openzim.org/wiki/Build_your_ZIM_file

greenman ★★★★★
()
Последнее исправление: greenman (всего исправлений: 3)

Действительно ли нужен сайт целиком?

Зная, что информация из Интернета часто пропадает без следа (изредка сохраняется в web archive, но по нему почти бесполезно искать), сохраняю важные статьи индивидуально. Использую для этого пару расширений Firefox: SingleFile и MarkDownload.

Раньше для Firefox существовали расширения, скачивающие сайты целиком (назывался, кажется, ScrapBook), но со временем, я понял, что скачивать сайты целиком в большинстве случаев напрасная трата времени и места на диске. Чаще всего нужна одна страница или даже вырезка, которую сохраняю в org-mode или ещё куда-нибудь.

Представить целый сайт с нужной информацией… Ну разве что Arch Wiki.

emorozov
()
Последнее исправление: emorozov (всего исправлений: 1)

У mediawiki в левой колонке (или может ещё где-то) часто есть штатная ссылка на скачивание дампа. Потом поднимаешь свою и заливаешь.

firkax ★★★★★
()
Последнее исправление: firkax (всего исправлений: 1)
Ответ на: комментарий от emorozov

целый сайт с нужной информацией

это и есть определение справочной литературы, включая энциклопедии, словари, справочники, перечни. Когда отрасль известна, а какая именно тема всплывёт в неожиданный момент - невозможно предсказать.

token_polyak ★★★★★
()
Последнее исправление: token_polyak (всего исправлений: 1)

mwscrape, и если зайдет именно формат slob, то mw2slob. Экспорт XML естественно лучший вариант, но на публичных вики он обычно отключён.

Ну а самой массовой вариант - как уже указывали - формат ZIM и читалка Kiwix.

token_polyak ★★★★★
()
Последнее исправление: token_polyak (всего исправлений: 1)

Что сегодня есть чтобы скачать сайт?

Весь сайт можно загрузить с помощью HTTraQt (Qt-версия HTTrack) или WinHTTrack (WinAPI-версия HTTrack).

Как его адекватно скачать чтобы локально можно было использовать?

главное чтобы работали кросс-ссылки и можно было смотреть изображения

Расширение для интернет-браузеров SingleFile (есть версии для Chrome/Chromium based и Firefox/Firefox based) позволяет скачать страницу со всеми изображениями в один html-файл.

posixbit ★★
()
Последнее исправление: posixbit (всего исправлений: 6)

К диетологу.

t184256 ★★★★★
()
Ответ на: комментарий от emorozov

сохраняю важные статьи индивидуально

В этом и проблема, там несколько сотен страниц.

PPP328 ★★★★★
() автор топика
Ответ на: комментарий от token_polyak

Тема - камень 1975го года, там не будет ничего нового.

PPP328 ★★★★★
() автор топика

HTTrack раньше пользовался, удивлён, что давно не обновляется

One ★★★★★
()
Ответ на: комментарий от emorozov

Действительно ли нужен сайт целиком?

Не так давно админ доброчана (палюсь, да) сделал простую и мерзкую вещь: погасил сервер и свалил. В итоге треды и общение людей за более чем 10 лет исчезли полностью.

tt
()
Ответ на: комментарий от tt

Не знаю, что такое доброчан. На web archive копий не осталось?

Чем так ценны эти треды?

Просто, например, в том же «устаревшем» ЖЖ были и есть десятки тысяч супер-интересных блогов от очень интересных людей (среди десятков миллионов менее интересных). И в каментах там иногда были и до сих пор встречаются очень интересные дискуссии.

Будет очень жалко, если когда-нибудь это исчезнет (я вот свой блог когда-то сам удалил не сделав резервную копию, сейчас об этом жалею).

Но скачать всё это к себе? Нереально, и понятно, что без ЖЖ я никогда не стану всё это перечитывать.

emorozov
()
Ответ на: комментарий от emorozov

Но скачать всё это к себе?

Меня это интересует почти исключительно как технический мануал.

PPP328 ★★★★★
() автор топика

Как его адекватно скачать чтобы локально можно было использовать

Учитывая что сейчас везде жабаскрипт, то это нетривиальная задача.

MediaWiki

Я б на твоём месте поискал граббер специально для MediaWiki, чтобы получить архив статей, пригодный для разворачивания на локально установленной MediaWiki.

Кроме того, если тебе интересно именно сохранить данные для использования, то там же должен быть экспорт статей в PDF. Этого недостаточно?

no-such-file ★★★★★
()
Последнее исправление: no-such-file (всего исправлений: 2)
Ответ на: комментарий от vbcnthfkmnth123

все уже перекатились

В /b ичана.

tt
()
Ответ на: комментарий от no-such-file

то там же должен быть экспорт статей в PDF. Этого недостаточно?

Я уже упомянул, что там несколько сотен статей и печатать их руками одну за другой, при этом как-то получив весь список - обезьянья работа.

PPP328 ★★★★★
() автор топика
Ответ на: комментарий от ncln

Он же кривой весь. И ручной а не автоматический.

PPP328 ★★★★★
() автор топика
Ответ на: комментарий от PPP328

несколько сотен статей и печатать их руками одну за другой, при этом как-то получив весь список - обезьянья работа

Ну это ж можно заскриптовать.

no-such-file ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.