2011-05-17 56 views
1

到目前为止,我一直使用wget和curl来做屏幕抓取。现在我想切换到Perl。什么是一个很好的教程,将涵盖perl中的基本web编程(最好不要重述基础知识)?我说的是基本的东西,喜欢把自己和解析页面,提交表单,代理等perl网络教程

回答

0

工具,你需要的Perl之外:

  1. HTTP实时头(Firefox扩展)或当量。以反向工程JavaScript请求原始GET/POST,所以你可以模仿与Mechanize或LWP等
  2. 正如其他海报已经提到的,一个好的无头浏览器是WWW::Mechanize模块。
  3. 我建议花一些时间学习HTML::TreeBuilder &特别是HTML::TreeBuilder::XPathHTML::Query。当您希望从HTML文档获取实际数据时,最后两个将变得非常方便。
  4. HTML::TableExtract也是一个很好的模块,可以在需要时从HTML表格中提取数据。

基本上,使用上述所有功能将使您能够抓取大多数网站。

有乐趣爬行( - :

+0

网络::查询支持比HTML ::查询更复杂的选择,因为它没有实现这种对自己,但代表这一部分,以优良的功能完整的HTML ::选择:: XPath的。 – daxim 2011-05-18 11:08:12

2

我过去使用过WWW-Mechanize来实现基本的网页抓取功能,包括表单提交等。

还有一些不错的examples