LINUX.ORG.RU

Инструмент для скрапинга js кода

 , ,


0

2

Дано: некоторые знания python3, html. Нужно: скрапить сайты для получения информации, которая появляется только при выполнении js на странице.
Из того, что смог найти силами питона только селениум и какой-то phantom.js, который я не смог завести. Есть смысл вообще в данном случае пытаться через питон организовать процесс или проще подучить js и выполнить задачу через node.js?

github.com/GoogleChrome/puppeteer - это лучший инструмент для решения твоей задачи сейчас, если сайт не тривиален.

Norgat ★★★★★
()

chrome-headless. Ну тебе уже посоветовали puppeteer.

Deleted
()

если знаешь только питон и не хочешь вникать в js ccанину то гугли selenium docker python

масса гайдов

anonymous
()
Ответ на: комментарий от Niroday

зависит от задачи конечно же. если нужно скрапить много и параллельно да к тому же экономно - допустим на малине, тогда этот вариант тебе явно неподходит

anonymous
()
Ответ на: комментарий от Niroday

для скрапинга есть Scrapy, к нему селениум можно прикрутить.

anonymous
()
Ответ на: комментарий от anonymous

Около 20 сайтов с периодичностью раз в ~ 30 мин на десктопе. Примерно так будет. По ресурсам проблем не возникнет точно.

Niroday
() автор топика

Если данные на страницах запрашиваются аяксом ты можешь просто посмотреть на какие эндпоинты делает запросы браузер и повторить их на своей стороне. И никакой селениум или хэдлесс хром не нужен

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.