2012-01-11 49 views
0

我打算使用Solr作为搜索服务器,并将开发自己的蜘蛛或可能扩展Nutch。Solr与多核,分布式架构?

我试图设计出用于我的目的,现在一个最好的经济拓扑和还停留开放式的未来进行扩展。

我打算使用Amazon AWS托管所有机器。我的问题是了解以下想法和要求的可行性,帮助将不胜感激!

  1. 一个Solr的节点(专用于只提供查询服务 - 为查询服务器Web前端)
  2. 按需Solr的节点(1或多个)(如索引服务器 - Nutch的或其他蜘蛛将连接到这个节点并淹没了新的内容抓取和索引)

我不知道像许多其他搜索服务器(如Microsoft FAST或SharePoint搜索),我可以部署与常见的数据库分布式拓扑结构。

我愿意使用Hadoop的或任何其他分布式文件系统,如果能支持这样的拓扑结构。

所以主要将显现如下,

    --------------------------------------------------- 

       Hadoop or anyother distributed file system/db system 

        --------------------------------------------------- 

              || 
              || 
              || 
              VV 
        ----------------    ------------------------ 

        Solr query node     Dedicated Solr index nodes 
       (1 powerful server)   +    (on demand) 
               with Nutch or other web spider 

        ----------------    ------------------------ 

         ||         || 
         VV         VV 
        Web Front End       Internet  

我是新来的这个技术,许多其他论坛和自由职业者的网站提出了多核执行,社区成员,但我的理解是多是支持区分datanodes(与集群或分布式体系结构无关)!我对么?

请告知可行性!

许多在此先感谢。

Nilay。

回答

1

“核”中的solr用于描述一种“全文索引环境”。 您可以运行1个Java EE容器(tomcat,ant等),以便为不同的数据库和不同的全文索引提供不同的服务。 示例1产品搜索的核心,1个用于邮件搜索的核心等。

使用solr运行的每个Java EE容器都至少有一个内核。 看看你的拓扑结构,它看起来像你需要一个前端solr-envorinment,可能是1个核心和一个后端solr-envoronment,可能还有1个核心。

所以,你有2台服务器,2个的Java EE容器和2个内核。 您可以将这2个内核视为“多”(多于一个)内核,但实际上这是2个单核内核安装,它可能使用了(可能)类似复制的内容。 http://wiki.apache.org/solr/SolrReplication

+0

感谢,我会lookinto它。我的需求是模拟所有solr实例之间仲裁类型的存储,并且我可以根据需要调出处理爬网数据和更新仲裁存储索引的太阳能实例。更多的是通过集群,但具有弹性属性,所以我可以扩展到我的需求。 – 2012-01-12 14:01:39