2011-03-30 225 views
6

我正在开发一个工具,需要从第三方服务器下载一个网页,执行它作为浏览器然后解析HTML。我所苦恼的是,在所有的javascript被执行并且DOM被修改之后,该工具需要解析HTML。我正在尝试使用PhantomJS来达到这个目的,它适用于一小段代码(只是一个带有外部javascript的小型html文档,它为DOM添加了一些节点),但是当我对一个真实站点(http://www.dba.dk/)做同样的处理时,我在经过js代码完成的所有修改后,没有获得最终的HTML。PhantomJS并获得修改DOM

我真的需要帮助,因为我坚持了一个多星期。

我PhantomJS代码很简单:

if (phantom.state.length === 0) { 
    if (phantom.args.length === 0) { 
      console.log('Usage: test.js <some URL>'); 
      phantom.exit(); 
    } else { 
      var address = phantom.args[0]; 
      phantom.state = Date.now().toString(); 
      phantom.viewportSize = { width: 1280, height: 800 }; 
      phantom.open(address); 
    } 
} else { 
    var elapsed = Date.now() - new Date().setTime(phantom.state); 
    if (phantom.loadStatus === 'success') { 
      if (!first_time) { 
        var first_time = true; 
        if (!document.addEventListener) { 
          console.log('Not SUPPORTED!'); 
        } 
        phantom.render('result.png'); 
        var markup = document.documentElement.innerHTML; 
        console.log(markup); 
        phantom.exit(); 
      } 
    } else { 
      console.log('FAIL to load the address'); 
      phantom.exit(); 
    } 
} 

的HTML转储到控制台中不包含的内容生成动态

回答

3

的问题是Flash插件。网页正在检测它的缺席。一旦它被正确加载,问题就没有了