在亚马逊网络服务和本地集成Solr + Hadoop和Nutch + Hbase

我在亚马逊网络服务上有一台机器，我正在尝试一些搜索功能。我在我的AWS机器上安装了Nutch和Hbase。在亚马逊网络服务和本地集成Solr + Hadoop和Nutch + Hbase

我以爬虫wikipedia.org为例，抓取的数据存储在Hbase的云中。

我想安装Solr并对其进行搜索。我没有安装我的系统作为一个集群，因为我只是想做一些研究，即如何使用它等。

我的问题是Hadoop站在这个系统（我没有安装Hadoop呢）？安装Hadoop和Solr我的本地计算机是合乎逻辑的。另外我的下一个挑战将是如何与AWS电脑沟通我的本地计算机。

2013-03-08 kamaci

查看CloudSearch（aws.amazon.com/cloudsearch/）以便能够按比例进行搜索（比管理群集简单得多） – Guy 2013-03-09 18:51:49

@Guy我的目的是为了获取有关此类事物的知识。 – kamaci 2013-03-10 13:10:15

当您问到有关Hadoop和CloudSearch是否特别基于Hadoop时，我没有详细介绍。它的尺寸很好，但取决于您的要求。 – Guy 2013-03-11 12:47:13

如果你安装了Nutch，你已经有Hadoop，它处理你的抓取和解析。您可以将Nutch生成的数据推送到Solr进行索引。

2013-03-09 07:33:52 Claude

我已安装nutch并将网站抓取到Hbase。我还没有Hadoop。我的主要问题是Hadoop Map Reduce Jobs如何与Solr索引/作业集成。是否有任何代码示例或解释？ – kamaci 2013-03-09 16:30:55

即使您安装了原生Hadoop库或您的O/S，Nutch也会使用它来抓取并解析其找到的内容，并将数据导入抓取目录。将结果数据索引到Solr是一个相对较快的过程，它不使用或需要Hadoop。 – Claude 2013-03-14 03:12:36

回答