2011-10-24 50 views
7

我想运行一个爬虫程序,它可以在没有X服务器的环境中处理javascript创建的html。我知道我可以在xvfb下以无头状态运行Firefox,并且我知道如何在Firefox上安装MozRepl,并在使用WWW :: Mechanize进行交互时可以下载并设置模块。使用MozRepl设置无头火狐浏览器

我不知道该怎么办,是在没有X服务器的环境下,在Firefox上设置MozRepl,以方便我安装模块。任何帮助表示赞赏。

回答

3

根据您想要使用的语言,有许多无头html + javascript的选项(主要归功于谷歌在Chrome浏览器中使用的新玩具Node.js),但不幸的是,我知道没有一个是基于Firefox的 - - 有crowbar,但它似乎自2008年以来未更新。

现在,firefox已经开始将壁虎与浏览器前端更紧密地结合起来,因此基于Firefox的这种软件变得不太可行。

关于Node.js的,我不知道很多关于Perl的产品,但这里有一些其他的:

  • zombie(JavaScript的)
  • mink(PHP 5.3)(使用僵尸作为后端)

然后还有一些非节点选项,以及:

  • phantomjs(JavaScript)的(使用WebKit的后端,这可能需要安装X)
  • htmlunit(JAVA)
  • akephalos(红宝石)(使用一个的HtmlUnit后端)

我相信有也是node.js的python接口(尽管如果它实现了一个浏览器环境,我不知道),并且在perl空间以及节点中可能正在进行工作。

+0

Phantomjs看起来很棒。感谢指针 –

相关问题