我被困在需要抓取具有表单帖子的网站的地步。 Nutch不支持这个。 如何解决此问题,以便我可以使用Nutch抓取这些网站?有更好的解决方案吗?Nutch和Http POST验证?
1
A
回答
1
- 使数据文件:的正则表达式需要身份验证/ URL网址,提交表单/表单数据
- 使自己的http协议插件修改标准协议HttpClient的插件。如果发送http请求的URL需要auth,并且没有auth,那就去形成并发送它。
这是最简单的解决方案。问题是,大数量的网站没有一个简单的解决方案。在登录期间有cookie过期/使用Javascript等问题。通过Nutch的JIRA搜索,有很多关于这方面的讨论。
-1
这里是你们要找的答案:
和
https://issues.apache.org/jira/browse/NUTCH-827
这两个环节都有完整和示例代码。如果您正确执行每一步,那么您将能够在Nutch中实现基于表单的身份验证。
相关问题
- 1. Swift HTTP POST登录验证
- 2. HTTP验证和Flex
- 3. PowerShell的HTTP POST REST API基本验证
- 4. 可可HTTP POST方法验证
- 5. NodeJS API HTTP POST请求身份验证
- 6. PHP PayPal付款验证/ HTTP POST?
- 7. ViewModel POST和DomainModel验证
- 8. HTTP POST和GET使用Cookie进行身份验证在Python中
- 9. MVC4 - 通过http POST和FormsAuthentication进行Android身份验证
- 10. Authlogic和HTTP摘要验证
- 11. Web蜘蛛和HTTP验证
- 12. LDAP HTTP验证和3.1
- 13. 与ip和http jQuery验证
- 14. jQuery验证.post
- 15. 自动验证HTTP验证
- 16. 如何使用Almofire发送http post请求与http头和验证?
- 17. post box/bin验证
- 18. akka http SSLConfig与主机名验证和证书验证问题
- 19. 验证码GET/POST
- 20. HTTP post和wininet
- 21. SOAP和HTTP Post
- 22. Jquery post和html表单验证
- 23. 跨域Ajax POST和用户验证
- 24. 复杂的表单POST和验证
- 25. PHP表单验证和POST变量
- 26. http验证在Xcode
- 27. NTLMv2 HTTP验证Java
- 28. HTTP基本验证
- 29. libcurl http验证码
- 30. 通过验证的代理和验证的http资源卷曲