2012-08-11 52 views
0

我打算做一个项目来实现HBase中的所有聚合操作。但我不知道它的困难。我只有6个月的时间来完成这个项目。我应该继续吗?我打算用java来做。我知道已经有一些聚合函数。但是现在没有INNER JOIN像查询那样。我打算实施这种类型的查询。我不知道这是一个错误或虚张声势。HBase内部加入和协处理器

回答

0

HBase肯定比在RDBMS或像PIG或Hive这样的其他Hadoop技术中做得更难。

1

我想技术上我们应该区分两种类型的连接:
a)一个小表+一个大表。小表我的意思是表可以缓存在每个节点的内存中,而不会严重影响集群操作。在这种情况下,应该可以通过在散列映射中放置小表来实现使用协处理器的连接,迭代大表的数据的节点本地部分,并且以这种方式产生连接结果。在Hive的术语中,它被称为“地图”加入http://www.facebook.com/note.php?note_id=470667928919
b)两张大桌子。我认为在短时间内获得产品质量并不可行。我可能会说,这样的功能是MPP数据库的领域,也是他们IP的重要组成部分。