2012-07-05 58 views
1

我被困在需要抓取具有表单帖子的网站的地步。 Nutch不支持这个。 如何解决此问题,以便我可以使用Nutch抓取这些网站?有更好的解决方案吗?Nutch和Http POST验证?

回答

1
  1. 使数据文件:的正则表达式需要身份验证/ URL网址,提交表单/表单数据
  2. 使自己的http协议插件修改标准协议HttpClient的插件。如果发送http请求的URL需要auth,并且没有auth,那就去形成并发送它。

这是最简单的解决方案。问题是,大数量的网站没有一个简单的解决方案。在登录期间有cookie过期/使用Javascript等问题。通过Nutch的JIRA搜索,有很多关于这方面的讨论。