Apache Solr可以处理TeraByte大数据

我是apache solr用户，大约一年。我用solr进行简单的搜索工具，但现在我想用5TB数据的solr。当我根据我使用的过滤器进行索引时，我假设5TB数据将为7TB。然后我将每小时添加近50MB的数据到同一个索引。Apache Solr可以处理TeraByte大数据

1-使用单个solr服务器和5TB数据有什么问题。（无碎片）

2 - 什么是您所提供的

3-有没有对这种大数据

的任何测试结果没有可用5TB的数据，我只想估计会是怎样的结果。

注意：您可以假定硬件资源不是问题。

2012-01-12 Mustafa

给你一个问题。假设你正在索引5TB的原始数据，为什么你认为它会增长到7TB？我是否应该将这意味着您要在索引中存储完整的文档内容，而不仅仅是存储搜索字段？如果是这样，我建议只存储您在Solr中搜索所需的内容。原始文件本身属于别处。 – rfeak 2012-01-14 04:10:02

如果你的尺寸是用于文本而不是二进制文件（其文本通常会少得多），那么我不认为你可以假装在一台机器上做到这一点。

这听起来很像Logly，他们使用SolrCloud来处理这种数据量。

好吧，如果所有文档都很丰富，那么索引的文本大小将会小得多（对我来说，它大约是我的起始大小的7％）。无论如何，即使数量减少了，我仍然认为单个实例的数据太多。

2012-01-12 14:39:24 Persimmonium

但是，每小时50MB意味着每月大约不超过0.75TB，这是0.075TB，这意味着每月75GB – Mustafa 2012-01-13 07:28:17

抱歉，不知道我是如何计算出错误的。无论如何，初始数据对于单个solr来说太大了，我认为... – Persimmonium 2012-01-13 08:31:53

在您看来，单个solr服务器 – Mustafa 2012-01-13 12:00:31

回答