OLAP实时查询大量数据 - 选项

我们有一个拥有180亿行和100列以上的OLAP表，并且Hive中的卷接近8TB。大多数列都是维度，我们也有很少的指标列。我们希望构建一个实时系统支持ad-hoc查询来运行仪表板应用程序，其中查询应该在10秒内执行。OLAP实时查询大量数据 - 选项

我们现在正在寻找建立这样一个实时adhoc查询系统的选项，我们正在检查可能的选项，并且实际上正在努力选择一个正确的系统。我们正在看到大约

Presto，可以用来直接查询hdfs，但我们不确定它是否会支持在如此庞大的卷上进行低延迟查询。

Cassandra，根据查询建立预先集合的视图。

德鲁伊，建立预先集合的意见和看起来很有趣，但似乎没有任何企业的支持。

在这里，我们实际上正努力从这些组件中作出选择，而且我们不确定是否遗漏了可能适用于此需求的任何其他相关工具。

我们正在寻找可以与HDFS紧密交互的工具/数据库，如果它的读取性能适合大容量，我们也可以考虑使用其他任何工具。

我恳请您的帮助，指导我关于组件选择，并请咨询我，如果我必须了解任何其他工具。

来源

2016-11-09 sureshsiva

这是一个非常复杂的主题，实际上取决于查询形状，每秒查询次数，所需的更新速率，所需的一致性等等。我不确定任何人都可以在没有详细了解这些要求的情况下推荐系统。 –

我可以告诉你，我们使用Presto来处理像这样的许多应用程序，但我们在Flash上使用开源的Presto Raptor存储系统，或者使用基于分片mysql的自定义封闭源代码。在基于Raptor的一个系统中，我们可以处理更大的数据，并且每小时运行大约100-200查询/分钟，并在小型机器上运行小时。 –

非常感谢你@DainSundstrom。我会更详细地更新我的问题。然而，你能否告诉我是否Presto比Cassandra的读取性能要快于使用Hive？ – sureshsiva

嗨，你可以在这里看到https://cwiki.apache.org/confluence/display/Hive/Druid+Integration德鲁伊与Hive紧密集成，可以完全支持你的用例，其中一些数据可以从快速数据存储中查询，如德鲁伊和重量级查询加入可以去蜂巢。另外请注意，从上面列出的解决方案，只有德鲁伊有一个强大的（亚秒级延迟）实时摄入firehose集成kafka，风暴，flink rabitMQ和列表继续和... 从支持的角度来看，德鲁伊有一个非常活跃的开源社区，加上它被包括像Yahoo NetFlix这样的大公司在内的数百家公司使用......此外，至少有两家公司将提供企业支持，即Hortonworks和Imply。

来源

2016-11-10 18:05:37

哇。我没有意识到Hive-Druid的整合。正如该链接指出该功能正在寻求在Hive 2.2.0中引入。 –

OLAP实时查询大量数据 - 选项

回答

相关问题