2013-10-23 61 views
0

我们正在将Oracle表与HBase进行sqooping并在Hive中创建映射表,并且似乎在我们进行sqooping时,所有数据都将到达一个区域,我在配置单元上查询只有一个地图taks正在执行以获取记录。将数据连接到HBase并与Hive整合会对性能产生影响

有什么办法可以提高性能。

回答

0

您是否尝试强制拆分表?

如果您的数据很小(小于1 GB或任何默认的最小区域大小),那么您只会导入一个区域。您可以强制HBase将表分成多个区域,但如果数据很小,则可能没有多大改进。

M/R工作历史上一直存在很多开销。 Hive的未来版本应该会有所帮助,但是这些改进可能还没有成为稳定的CDH发行版。

+0

是的,我已经尝试过对表进行强制拆分,并且映射器的数量增加了,但是当我使用hbase表格分割后测量plain hive的性能时,它仍然比Hive上的执行时间花费更多的执行时间。 – GHK

相关问题