LINUX.ORG.RU

Испольнить JS со страницы, выгруженный curl'ом

 ,


0

1

Доброе утро.

Задача: выгрузить curl'ом (wget'ом) страницу, вычленить нужные данные.

Проблема: сайт отдаёт javascript.

То есть, сайт мне отдаёт некий javascript, который делает ещё какие-то запросы и отображает ответ. Браузер с этим прекрасно справляется, я же вижу кучу кода, которую мне нужно исполнить. Только после этого я получу полезные данные.

Как мне добиться результата чем-то вроде curl example.com | jsexecuter | myparser?

Ответ на: комментарий от eternal_sorrow

Похоже на то, что мне нужно, но пока что не понял, как заставить его обрабатывать сырую страницу, вместе с html и прочим.

evilface ★★
() автор топика
Ответ на: комментарий от Virtuos86

Если не разберусь, как сделать это автоматически — буду смотреть. Пока джаваскрипта много и я иду по самому простому пути.

evilface ★★
() автор топика

Решение с помощью PhantomJS, предложенным eternal_sorrow

var page = new WebPage()
var fs = require('fs');

page.onLoadFinished = function() {
  console.log("page load finished");
  page.render('export.png');
  fs.write('1.html', page.content, 'w');
  phantom.exit();
};

page.open("https://example.com", 'post', 'var=data', function() {
  page.evaluate(function() {
  });
});

Даже картинки рендерит.
Взято отсюда: http://stackoverflow.com/questions/16856036/save-html-output-of-page-after-ex...

evilface ★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.