Nutch API的建议

2010-12-02 63 views 6 likes

我正在开发一个项目，我需要一个成熟的爬虫来做一些工作，我正在评估Nutch的这个目的。我目前的需求相对简单：我需要一个能够将数据保存到磁盘的爬网程序，并且我需要它能够重新抓取网站的更新资源并跳过已经爬网的部分。有没有人有任何直接在Java中使用Nutch代码的经验，而不是通过命令行。我想从简单开始：创建一个爬虫（或类似的），最低限度地配置它并启动它，没有什么奇特的。是否有这样的例子，或者我应该看的一些资源？我正在翻阅Nutch文档，但其中大部分内容都是关于命令行，搜索和其他内容的。 Nutch抓取模块的可用性如何，无需索引和搜索？任何帮助表示赞赏。谢谢。Nutch API的建议

来源

2010-12-02 Eugen

回答

Nutch与你曾经经历过的最可能很不一样。因为它就像一个框架，它不仅在查询&搜索前面，solr似乎比原生Nutch搜索前端更强大。它还具有爬行部分和索引（进入Lucene索引）。

如果您想将爬网用于搜索以外的其他目的，您需要开发自己的程序并熟悉Hadoop和MapReduce编程。

不确定你想要怎么处理你的抓取，但它看起来不像Nutch是解决方案

来源

2010-12-03 13:47:54 millebii

Nutch API的建议

回答

相关问题