2012-02-21 20 views
7

大概就一的NodeJS新手问题/ jsdom刮的NodeJS后的JavaScript网页加载值

我想凑使用node.js中网站我使用jsdom和jquery获取html并解析所需的东西。但是,不知何故,我得到的价值并不是网站上显示的价值。 基本上这些值是由javascript动态改变的,我想要这些值。我使用nodejs/jsdom进行抓取的全部原因是js将被执行,并且在该事件发生后我会​​得到这些值。

有没有什么方法可以告诉jsdom等待JavaScript执行?还是我有这个全错?我在这个问题上搜索了很多东西。

回答

7

你会使用类似casperjs http://casperjs.org/的更好。它是基于phantomjs的测试工具。它基本上就像在webkit浏览器中打开页面一样,只是没有GUI。你可以写一些类似的东西。我不认为它适用于节点,但它应该很容易运行casper脚本并将输出管道输回到节点。:

var casper = require('casper').create({ 
    loadImages: true, 
    loadPlugins: true, 
    verbose: true, 
    //logLevel: 'info', 
    clientScripts: [ 
     'jquery-1.7.1.min.js', 
    ], 
    viewportSize: { 
     width: 1366, 
     height: 768, 
    }, 
    pageSettings: { 
     javascriptEnabled: true, 
     userAgent: 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5', 
    }, 
}); 

casper.start(url); 

casper.thenEvaluate(function() { 
    //javascript code to run in the scope of the page 
}); 
0

我不知道你是否想要替代品,但是当我需要这种敏感的抓取时,我只是使用Firefox和iMacros。它运行所有的浏览器JS就好了,因为它一个浏览器。

http://www.iopus.com/imacros/firefox/

0

首先,你如何使用jsdom?显然,jsdom.env不会在DOM中执行脚本,只会在您致电jsdom.env时添加的脚本。如果你想执行脚本,我认为你应该使用jsdom.jsdom

其次,您需要指定onload处理程序。这应该在文档准备好之后执行,并且希望任何脚本都会根据您的喜好更改DOM。

事情是这样的:

var jsdom = require('jsdom').jsdom 
    , document = jsdom(html) 
    , window = document.createWindow(); 

document.onload = function() { 
    // Do your stuff 
}