2012-01-12 107 views
6

我是apache solr用户,大约一年。我用solr进行简单的搜索工具,但现在我想用5TB数据的solr。当我根据我使用的过滤器进行索引时,我假设5TB数据将为7TB。然后我将每小时添加近50MB的数据到同一个索引。Apache Solr可以处理TeraByte大数据

1-使用单个solr服务器和5TB数据有什么问题。 (无碎片)

  • A-能SOLR服务器响应在可接受的时间

  • B-什么是对7TB指数50MB数据的commiting预期的时间查询。

  • c-是否有索引大小的上限。

2 - 什么是您所提供的

  • A-我应该多少碎片使用

  • B-我应该使用Solr的核心

  • C-的建议你提供的提交频率是多少? (为1小时OK)

3-有没有对这种大数据


的任何测试结果没有可用5TB的数据,我只想估计会是怎样的结果。

注意:您可以假定硬件资源不是问题。

+1

给你一个问题。假设你正在索引5TB的原始数据,为什么你认为它会增长到7TB?我是否应该将这意味着您要在索引中存储完整的文档内容,而不仅仅是存储搜索字段?如果是这样,我建议只存储您在Solr中搜索所需的内容。原始文件本身属于别处。 – rfeak 2012-01-14 04:10:02

回答

3

如果你的尺寸是用于文本而不是二进制文件(其文本通常会少得多),那么我不认为你可以假装在一台机器上做到这一点。

这听起来很像Logly,他们使用SolrCloud来处理这种数据量。

好吧,如果所有文档都很丰富,那么索引的文本大小将会小得多(对我来说,它大约是我的起始大小的7%)。无论如何,即使数量减少了,我仍然认为单个实例的数据太多。

+0

但是,每小时50MB意味着每月大约不超过0.75TB,这是0.075TB,这意味着每月75GB – Mustafa 2012-01-13 07:28:17

+0

抱歉,不知道我是如何计算出错误的。无论如何,初始数据对于单个solr来说太大了,我认为... – Persimmonium 2012-01-13 08:31:53

+0

在您看来,单个solr服务器 – Mustafa 2012-01-13 12:00:31