对于HTML和XML文档(本地或基于Web)使用什么样的好爬虫(蜘蛛),并且在Lucene/Solr解决方案空间中运行良好?可能是基于Java的,但不一定是。建议使用Lucene或Solr的蜘蛛工具?
16
A
回答
11
在我看来,这是一个相当显著孔是阻止Solr的广泛采用。新的DataImportHandler是导入结构化数据的第一步,但Solr没有一个好的文档导入管道。 Nutch确实有效,但Nutch crawler和Solr之间的整合有点笨拙。
我已经尝试了所有我可以找到的开源爬虫,并且他们都没有集成Solr的开箱即用。
关注OpenPipeline和Apache Tika。
4
我建议你检查出Nutch得到一些启示:
Nutch的是开源的web搜索软件。它建立在Lucene的Java中,加入网络的细节,如履带,链接,图形数据库,解析器HTML等文档格式等
4
同时检查Apache Droids [http://incubator.apache.org/droids/] - 这个希望不是一个简单的蜘蛛/爬虫/工作者框架。
这是新的,现成的使用起来并不容易(它需要一些tweeking来运行),但是保持你的注意是一件好事。
2
Nutch可能是你最接近的比赛,但它不太灵活。
如果你需要更多的东西,你将不得不非常剽窃你自己的抓取工具。它并没有听起来那么糟糕,每种语言都有网络库,所以你只需要将一些任务队列管理器与HTTP下载器和HTML解析器连接起来,这并不是什么大事。您最有可能逃避一个盒子,因为抓取主要是带宽关注的,而不是CPU密集型的。
6
我试过nutch,但是很难与Solr整合。我会看看Heritrix。它有一个广泛的插件系统,可以很容易地与Solr集成,并且在抓取时要快得多。它广泛使用线程来加速进程。
0
有没有人试过Xapian?它比solr更快,而且用C++编写。
2
C#,但产生的Lucene(Java和C#)消耗品索引文件。
相关问题
- 1. Zend Lucene有蜘蛛吗?
- 2. 建议想:网络蜘蛛用Perl
- 3. 使用Scrapy创建蜘蛛,蜘蛛生成错误
- 4. Python的scrapy蜘蛛
- 5. Scrapy DOMAIN_NAME的蜘蛛
- 6. 有人可以建议一个网络蜘蛛吗?
- 7. Web蜘蛛与Wget的蜘蛛有什么不同?
- 8. 如何喂蜘蛛蜘蛛爬行内的链接?
- 9. 创建一个简单的'蜘蛛'
- 10. 布局像蜘蛛
- 11. asp.net(网络蜘蛛)
- 12. Scrapy与Scrapy蜘蛛
- 13. Solr/Lucene“工具包”测试搜索?
- 14. 使用scrapyd运行多个蜘蛛
- 15. 使用Scrapy制作蜘蛛 - JS
- 16. 在Scrapy中使用递归蜘蛛[Python]
- 17. 僵尸/蜘蛛可以使用Cookie吗?
- 18. 合并Solr的3.4.0索引使用Lucene合并工具
- 19. 附表scrapyd蜘蛛和蜘蛛通过配置选项
- 20. Scrapy从主蜘蛛运行多个蜘蛛?
- 21. Scrapy调用除命令行指定的蜘蛛以外的其他蜘蛛
- 22. 创建Scrapy永不结束蜘蛛
- 23. Scrapy蜘蛛Xpath的选择
- 24. scrapy中的连环蜘蛛
- 25. 蜘蛛内的Scrapyd jobid值
- 26. 的Python,蒙戈+蜘蛛猴
- 27. robots.txt的蜘蛛间隔
- 28. 的robots.txt禁止:蜘蛛
- 29. 使用Cookie检测蜘蛛或浏览器
- 30. ZAP阿贾克斯蜘蛛认证工作不使用ZEST