2010-09-22 81 views
18

我想抓取一个网站,但问题是,它充满了JavaScript的东西,比如按钮,并且使得按下它们时,它们不改变URL,但页面上的数据被改变。我如何处理JavaScript的一个Perl的网络爬虫?

我通常使用LWP /机械化等抓取网站,但是都不支持JavaScript的。 有什么想法?

回答

5

WWW::Mechanize::Firefox可能是有用的。这样你可以让Firefox处理复杂的JavaScript问题,然后提取合成的html。