支持HIVE ORC格式的索引

我们正在寻求部署一个报告解决方案，其中数据存储在HIVE/Hadoop数据层中，报告层将使用SSRS查询数据层。支持HIVE ORC格式的索引

现在考虑性能优化，的确是有道理的想给予我们将使用ORC文件格式在HIVE数据层上索引的。

根据如下几个参考文献，看起来索引是ORC文件格式固有的吗？是这样或者这是不同的。

LanguageManual ORC

我是新来的HIVE/Hadoop的，所以才会在这里欣赏任何指针。谢谢！

来源

2017-06-13 Ankur

你不需要ORC使用指数.. 。https://cwiki.apache.org/confluence/display/Hive/IndexDev#IndexDev-CREATEINDEX –

如果您处于Cloudera环境中，Impala中的Parquet会比Hive更高效，但如果您的Hive2使用LLAP， ORC可能会很好。分区也是一个优化... –

感谢您输入cricket_007，这很好，你提到的“ 你不需要ORC使用INDEX ..”。但是，我的问题更多地是因为我们使用的是ORC格式，以及使用带ORC格式的索引是否合理，因为ORC格式本身似乎有一些固有的索引。谢谢。 – Ankur

ORC文件中的索引具有不同的用途。从文档存储不通滤波谓词求给定行

然而在具有索引被设计来优化搜索文件跳过行组内

轻质索引在特定的列上。

Hive索引的目标是提高表中某些列的查询速度。如果没有索引，那么谓词（如WHERE tab1.col1 = 10）的查询将加载整个表或分区，并处理所有行。但是，如果col1存在索引，则只需要加载和处理文件的一部分即。

我不知道这是否提高适应您的报告模式，可能不会有很大的帮助共同聚合

我希望它能帮助

来源

2017-06-13 06:33:44 hlagos

支持HIVE ORC格式的索引

回答

相关问题