4
A
回答
1
nutch有内联网抓取可用。你可以阅读细节here
4
从Nutch的维基:
我如何索引我的本地文件系统?
http://wiki.apache.org/nutch/FAQ#head-c721b23b43b15885f5ea7d8da62c1c40a37878e6
1)爬网urlfilter.txt需要改变,以允许文件:网址,而不是下面的HTTP:的,否则要么无法索引任何东西,或将您的磁盘跳下到网站。 更改此行:
-^(file|ftp|mailto|https):
to this:
-^(http|ftp|mailto|https):
2)抓取-urlfilter.txt可以在底部有规则拒绝一些网址。如果它有这个片段,它可能确定:
# accept anything else +.*
3)我改变了我的nutch.xml包括以下内容:
<Parameter override="false" name="plugin.includes" value="protocol-file|protocol-http|urlfilter-regex|parse-(msword|pdf|text|html|js)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)"/>
相关问题
- 1. Nutch的插件系统如何工作?
- 2. Nutch抓取不起作用
- 3. 抓取版本控制系统
- 4. 如何让Nutch的爬虫抓取
- 5. 如何让Apache Nutch的抓取永远
- 6. 如何抓取Nutch中的图像?
- 7. apache nutch不抓取网站
- 8. 如何制作“插件”评论系统
- 9. 如何将文件从本地文件系统复制到HDFS文件系统?
- 10. 使用CrawlDbReader读取Nutch抓取数据
- 11. 春季启动 - 在获取请求中从文件系统抓取文件
- 12. 原型制作文件系统
- 13. 二进制文件和操作系统
- 14. 制作一个新的文件系统
- 15. 在nutch抓取/分段文件夹中查看数据
- 16. Windows文件系统如何工作?
- 17. 如何从Nutch抓取的数据中提取数据?
- 18. 如何制作操作系统?
- 19. 如何在Java Swing中制作文件系统
- 20. DAPLink如何制作其虚拟文件系统?
- 21. 如何制作根文件系统的tar备份?
- 22. Nutch 1.4和Solr 3.6 - Nutch没有抓取301/302重定向
- 23. Nutch不抓取页面内容
- 24. Apache Nutch重新启动抓取
- 25. Nutch 1.2(抓取或解析)mp3
- 26. 使用Nutch或Heritrix定向抓取
- 27. 阿帕奇Nutch的抓取问题
- 28. Nutch未能抓取特定网站
- 29. Nutch可以抓取视频网站吗?
- 30. Nutch 2.3.1仅抓取种子URL
正则表达式,urlfilter.txt需要改变 – gmlvsv 2013-05-31 07:25:04