我想抓取一个网站,但问题是,它充满了JavaScript的东西,比如按钮,并且使得按下它们时,它们不改变URL,但页面上的数据被改变。我如何处理JavaScript的一个Perl的网络爬虫?
我通常使用LWP /机械化等抓取网站,但是都不支持JavaScript的。 有什么想法?
我想抓取一个网站,但问题是,它充满了JavaScript的东西,比如按钮,并且使得按下它们时,它们不改变URL,但页面上的数据被改变。我如何处理JavaScript的一个Perl的网络爬虫?
我通常使用LWP /机械化等抓取网站,但是都不支持JavaScript的。 有什么想法?
另一种选择可能是Selenium与WWW::Selenium模块
WWW::Scripter该模块具有JavaScript plugin可能是有用的。但不能说我自己使用过它。
WWW::Mechanize::Firefox可能是有用的。这样你可以让Firefox处理复杂的JavaScript问题,然后提取合成的html。
iMacros都为IE /火狐/ Chrome是一个非常灵活的Web刮,并且可以从Perl的控制:http://wiki.imacros.net/Perl
我建议HtmlUnit和Perl包装:WWW::HtmlUnit。