LINUX.ORG.RU

Парсинг сайтов

 ,


0

1

Хочется сохранять некоторые странички сайтов, где контент может меняться когда юзер/админ/модерация/Вася Пупкин захочет что-то изменить. При этом весь сайт я выкачивать не хочу, а только определённые странички, наверное даже только те, которые я смотрю или по простому правилу (в плане я знаю какие странички мне интересны), но из сложностей - там хитрые скрипты, так что сайт смотреть надо браузером и уже оттуда сохранять. Сейчас я просто в pdf сохраняю ручками, но порой мне хочется пару сотен страничек сохранить. Что есть из плагинов в браузерах под это дело? Видео и часть страничек мне не нужны, я бы вообще парсилку натравил только на контент, благо сайт редко меняется (раз в пару лет от силы), а я готов переписывать велосипед хоть каждую неделю. Есть ли какой-то опенсорсный плагин который можно за основу взять или с нуля пилить придётся?

В девелопменте, а не в толксах, т.к. хочется послушать мудрых анонимов, да и авторов WebExtensions тоже бы послушал, поскольку я не JS программист, всё что я знаю про JS на уровне https://learn.javascript.ru/ который я когда-то читал чтобы относительно простенькую штуку не сложнее калькулятора сделать.

★★★★★

Можно наверное сделать плагин, который будет передавать урл, твои печеньки и путь до контента в селениум, который будет получать страницу как ты её видишь, отделять нужный контент и сохранять. Должно быть не сильно сложно.

ddidwyll ★★★★
()

Я бы взял selenium/chromedriver и на питоне слепил программу из 10 строчек которая открывает нужные страницы и вытаскивает нужные данные из dom.

slovazap ★★★★★
()
Ответ на: комментарий от CrazyAlex25

Да, пожалуй оно работает. Но только в хроме.

peregrine ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.