我是apache solr用户,大约一年。我用solr进行简单的搜索工具,但现在我想用5TB数据的solr。当我根据我使用的过滤器进行索引时,我假设5TB数据将为7TB。然后我将每小时添加近50MB的数据到同一个索引。Apache Solr可以处理TeraByte大数据
1-使用单个solr服务器和5TB数据有什么问题。 (无碎片)
A-能SOLR服务器响应在可接受的时间
B-什么是对7TB指数50MB数据的commiting预期的时间查询。
c-是否有索引大小的上限。
2 - 什么是您所提供的
A-我应该多少碎片使用
B-我应该使用Solr的核心
C-的建议你提供的提交频率是多少? (为1小时OK)
3-有没有对这种大数据
的任何测试结果没有可用5TB的数据,我只想估计会是怎样的结果。
注意:您可以假定硬件资源不是问题。
给你一个问题。假设你正在索引5TB的原始数据,为什么你认为它会增长到7TB?我是否应该将这意味着您要在索引中存储完整的文档内容,而不仅仅是存储搜索字段?如果是这样,我建议只存储您在Solr中搜索所需的内容。原始文件本身属于别处。 – rfeak 2012-01-14 04:10:02