2016-11-09 32 views
0

我们有一个拥有180亿行和100列以上的OLAP表,并且Hive中的卷接近8TB。大多数列都是维度,我们也有很少的指标列。我们希望构建一个实时系统支持ad-hoc查询来运行仪表板应用程序,其中查询应该在10秒内执行。OLAP实时查询大量数据 - 选项

我们现在正在寻找建立这样一个实时adhoc查询系统的选项,我们正在检查可能的选项,并且实际上正在努力选择一个正确的系统。我们正在看到大约

Presto,可以用来直接查询hdfs,但我们不确定它是否会支持在如此庞大的卷上进行低延迟查询。

Cassandra,根据查询建立预先集合的视图。

德鲁伊,建立预先集合的意见和看起来很有趣,但似乎没有任何企业的支持。

在这里,我们实际上正努力从这些组件中作出选择,而且我们不确定是否遗漏了可能适用于此需求的任何其他相关工具。

我们正在寻找可以与HDFS紧密交互的工具/数据库,如果它的读取性能适合大容量,我们也可以考虑使用其他任何工具。

我恳请您的帮助,指导我关于组件选择,并请咨询我,如果我必须了解任何其他工具。

+1

这是一个非常复杂的主题,实际上取决于查询形状,每秒查询次数,所需的更新速率,所需的一致性等等。我不确定任何人都可以在没有详细了解这些要求的情况下推荐系统。 –

+2

我可以告诉你,我们使用Presto来处理像这样的许多应用程序,但我们在Flash上​​使用开源的Presto Raptor存储系统,或者使用基于分片mysql的自定义封闭源代码。在基于Raptor的一个系统中,我们可以处理更大的数据,并且每小时运行大约100-200查询/分钟,并在小型机器上运行小时。 –

+0

非常感谢你@DainSundstrom。我会更详细地更新我的问题。然而,你能否告诉我是否Presto比Cassandra的读取性能要快于使用Hive? – sureshsiva

回答

1

嗨,你可以在这里看到https://cwiki.apache.org/confluence/display/Hive/Druid+Integration德鲁伊与Hive紧密集成,可以完全支持你的用例,其中一些数据可以从快速数据存储中查询,如德鲁伊和重量级查询加入可以去蜂巢。 另外请注意,从上面列出的解决方案,只有德鲁伊有一个强大的(亚秒级延迟)实时摄入firehose集成kafka,风暴,flink rabitMQ和列表继续和... 从支持的角度来看,德鲁伊有一个非常活跃的开源社区,加上它被包括像Yahoo NetFlix这样的大公司在内的数百家公司使用......此外,至少有两家公司将提供企业支持,即Hortonworks和Imply。

+0

哇。我没有意识到Hive-Druid的整合。正如该链接指出该功能正在寻求在Hive 2.2.0中引入。 –