2017-06-13 135 views
0

我们正在寻求部署一个报告解决方案,其中数据存储在HIVE/Hadoop数据层中,报告层将使用SSRS查询数据层。支持HIVE ORC格式的索引

现在考虑性能优化,的确是有道理的想给予我们将使用ORC文件格式在HIVE数据层上索引的。

根据如下几个参考文献,看起来索引是ORC文件格式固有的吗?是这样或者这是不同的。

LanguageManual ORC

我是新来的HIVE/Hadoop的,所以才会在这里欣赏任何指针。谢谢!

+0

你不需要ORC使用指数.. 。https://cwiki.apache.org/confluence/display/Hive/IndexDev#IndexDev-CREATEINDEX –

+0

如果您处于Cloudera环境中,Impala中的Parquet会比Hive更高效,但如果您的Hive2使用LLAP, ORC可能会很好。分区也是一个优化... –

+0

感谢您输入cricket_007,这很好,你提到的“ 你不需要ORC使用INDEX ..”。但是,我的问题更多地是因为我们使用的是ORC格式,以及使用带ORC格式的索引是否合理,因为ORC格式本身似乎有一些固有的索引。谢谢。 – Ankur

回答

0

ORC文件中的索引具有不同的用途。从文档存储不 通滤波谓词求给定行

然而在具有索引被设计来优化搜索文件跳过行组内

轻质索引在特定的列上。

Hive索引的目标是提高 表中某些列的查询速度。如果没有索引,那么谓词 (如WHERE tab1.col1 = 10)的查询将加载整个表或分区,并处理所有行。但是,如果col1存在索引,则只需要加载和处理文件的一部分即 。

我不知道这是否提高适应您的报告模式,可能不会有很大的帮助共同聚合

我希望它能帮助