2013-03-08 66 views
0

我在亚马逊网络服务上有一台机器,我正在尝试一些搜索功能。我在我的AWS机器上安装了Nutch和Hbase。在亚马逊网络服务和本地集成Solr + Hadoop和Nutch + Hbase

我以爬虫wikipedia.org为例,抓取的数据存储在Hbase的云中。

我想安装Solr并对其进行搜索。我没有安装我的系统作为一个集群,因为我只是想做一些研究,即如何使用它等。

我的问题是Hadoop站在这个系统(我没有安装Hadoop呢)?安装Hadoop和Solr我的本地计算机是合乎逻辑的。另外我的下一个挑战将是如何与AWS电脑沟通我的本地计算机。

+0

查看CloudSearch(aws.amazon.com/cloudsearch/)以便能够按比例进行搜索(比管理群集简单得多) – Guy 2013-03-09 18:51:49

+0

@Guy我的目的是为了获取有关此类事物的知识。 – kamaci 2013-03-10 13:10:15

+0

当您问到有关Hadoop和CloudSearch是否特别基于Hadoop时,我没有详细介绍。它的尺寸很好,但取决于您的要求。 – Guy 2013-03-11 12:47:13

回答

0

如果你安装了Nutch,你已经有Hadoop,它处理你的抓取和解析。 您可以将Nutch生成的数据推送到Solr进行索引。

+0

我已安装nutch并将网站抓取到Hbase。我还没有Hadoop。我的主要问题是Hadoop Map Reduce Jobs如何与Solr索引/作业集成。是否有任何代码示例或解释? – kamaci 2013-03-09 16:30:55

+0

即使您安装了原生Hadoop库或您的O/S,Nutch也会使用它来抓取并解析其找到的内容,并将数据导入抓取目录。将结果数据索引到Solr是一个相对较快的过程,它不使用或需要Hadoop。 – Claude 2013-03-14 03:12:36