2012-07-28 157 views
1

我的数据不需要实时加载,所以我不必使用HBASE,但我想知道在MR Jobs中是否有任何使用HBASE的性能优势,不应该由于索引数据,连接速度会更快吗?Hive over HBase vs Hive over HDFS

任何人都有任何基准?

回答

2

一般来说,hive/hdfs将比HBase快得多。 HBase位于HDFS之上,因此增加了另一层。如果你正在查阅个人记录,HBase会更快,但你不会为此使用MR作业。

0

尊敬的:)我想告诉你,如果你的数据不是真实的,你也在考虑mapreduce作业,那么只能通过hdfs进行配置,因为Weblogs可以被Hadoop MapReduce程序处理并存储在HDFS中。同时,Hive支持快速读取HDFS位置中的数据,基本SQL,加入并将批量数据加载到Hive数据库。
作为蜂巢还为我们提供
批量处理/实时(如果可能)
以及SQL等内置在优化的接口
地图,减少大型数据这与HDFS更相容的
分区和有助于减少的层HBase的,否则如果添加HBase的这里,那么这将是多余的功能,为你:)

2

性能HBase的对比蜂巢:

基于HBase的,蜂巢,蜂巢和HBase的上的结果:它看来,两种方法之间的表现是可比的。

Hive on HBase Performance

enter image description here