2011-09-27 84 views
0

我可以用Hadoop和Nutch做什么来做搜索引擎?我知道nutch是用来构建一个网络爬虫。但我没有找到完美的图片。我可以用nutch使用mapreduce并做一些mapreduce工作吗?任何想法都欢迎。很少有链接将不胜感激。谢谢。探索nutch over hadoop

回答

1

如果你只想做Map/Reduce作业,你不需要Nutch而只需要Hadoop。 Hadoop为您带来了文件系统上的映射/减少作业的集群文件系统和调度程序。

由于Nutch建立在Hadoop之上,只要您了解数据结构以及搜索器正在执行的操作,就可以在Nutch数据上创建自己的映射/减少作业。

但是,如果您只想运行一些map/reduce作业,只需安装hadoop即可。

+0

您可以使用solr作为搜索引擎的搜索部分。 Nutch包含将内容索引到solr的作业。 [Nutch/Solr集成教程](http://wiki.apache.org/nutch/NutchTutorial) – codingFoo