Всем здравствуйте!
Недавно узнал про формат WARC, используемый для хранения резервных копий веб-сайтов (к примеру, его использует Wayback Machine) и про софт для «записи» и «воспроизведения» веб-сайта. Для «воспроизведения» нашёл PyWB (ставится через pip), он поднимает локальный веб-сервер, на котором можно посмотреть сайты из WARC-файлов, входящих в коллекцию (коллекция собирается перед запуском сервера). Тут у меня вопросов нет, есть вопросы по «записи». Нашёл три способа:
- Сайт «Webrecorder». Можно указать ссылку, дождаться загрузки содержимого, и скачать файл.
- Warcprox. Прокси-сервер, сохраняющий все посещённые страницы. Проблема в том, что HTTPS страницы сохраняются через MITM с сгенерированным сертификатом. Да и можно просто забыть посетить некоторые страницы. Годится для сохранения нескольких страниц.
- wget. Умеет сохранять в WARC. Удобно, а в Tails его можно даже через Tor пустить, чтобы иметь возможность сохранить заблокированный сайт. Но возникла проблема на сайте TV Tropes – на сохранённой странице не показывался контент «под катом», хотя при просмотре той же страницы на Wayback Machine всё работало (то есть дело, скорее всего, не в WARC). Можно ли как-то исправить эту проблему? Или поискать другой краулер?
Если кто пользуется этим, прошу помочь советом.