2016-03-07 109 views
0

我最近遇到了Apache Kylin,并且很好奇它的用例是什么。据我所知,这似乎是一个工具,旨在解决与超过10亿行相关的非常具体的问题,汇总,缓存和查询来自其他来源(HBase,Hadoop,Hive)的数据。我在这个假设中纠正了吗?什么是Apache Kylin用例?

+0

看看:http://www.ebaytechblog.com/2014/10/20/announcing-kylin-extreme-olap-engine-for-big-data/ –

+0

这并不真正给出通用的用例,而是解释Ebay如何使用它(如ebay首先开发的工具)和产品架构。 –

回答

0

Apache Kylin的用例是Hadoop上的交互式大数据分析。它允许您通过3个简单步骤以亚秒级的时间间隔查询大型Hive表。

  1. 在星型模式中标识一组Hive表。
  2. 在离线批处理过程中从Hive表中构建一个多维数据集。
  3. 使用SQL查询Hive表,并通过Rest API,ODBC或JDBC在秒内获得结果。

用例相当一般,它可以快速查询任何Hive表,只要您可以从表中定义星型模式和模型立方体即可。如果您不确定什么是星型模式和什么是多维数据集,请检查Kylin terminologies

Kylin提供了ANSI SQL接口,因此您可以像过去一样查询Hive表。然而,一个限制是麒麟只提供汇总结果,换句话说,SQL应该包含一个“group by”子句以产生正确的结果。这通常很好,因为大数据分析更注重汇总结果而不是单个记录。

+0

以下用例是否有效? a)使用蜂房连接器 c)中麒麟将处理映射配置单元架构于立方体模式和执行所述地图的使用HiveQL b)中加载数据设计一个星型架构成的Hadoop通过HiveQL d)输出的结果/缩小查询HBase e)使用Kylin通过Calcite to HBase执行SQL语句并将结果作为JSON返回。 –

+0

非常接近!只需要注意步骤c)是手动的,Hive模式到多维数据集模式的映射是手动的,Kylin为您提供了一个GUI。此外,步骤d)输出不是特定于任何查询的,而是Hive数据的一般索引,我们称之为索引“cube”。 –