HBase内部加入和协处理器

我打算做一个项目来实现HBase中的所有聚合操作。但我不知道它的困难。我只有6个月的时间来完成这个项目。我应该继续吗？我打算用java来做。我知道已经有一些聚合函数。但是现在没有INNER JOIN像查询那样。我打算实施这种类型的查询。我不知道这是一个错误或虚张声势。HBase内部加入和协处理器

来源

2012-08-11 Jaison Thomas

HBase肯定比在RDBMS或像PIG或Hive这样的其他Hadoop技术中做得更难。

来源

2012-08-11 10:53:00

我想技术上我们应该区分两种类型的连接：
a）一个小表+一个大表。小表我的意思是表可以缓存在每个节点的内存中，而不会严重影响集群操作。在这种情况下，应该可以通过在散列映射中放置小表来实现使用协处理器的连接，迭代大表的数据的节点本地部分，并且以这种方式产生连接结果。在Hive的术语中，它被称为“地图”加入http://www.facebook.com/note.php?note_id=470667928919。
b）两张大桌子。我认为在短时间内获得产品质量并不可行。我可能会说，这样的功能是MPP数据库的领域，也是他们IP的重要组成部分。

来源

2012-08-12 08:42:42

HBase内部加入和协处理器

回答

相关问题