我正在像tableA的蜂巢查询偏斜数据左连接上tableA.col1 = tableB.col1和tableA.col2 = tableB.col2 tableB的。 tableA拥有18亿个数据,tableB拥有3100万个记录。现在,在我参加的最后减速是没有得到完成,并且运行长。造成长时间运行的查询在蜂巢
这可能是因为偏斜数据。我也试过MAPJOIN和查询失败,因为TableA的庞大的数据量。还有其他的选择可以以更好的方式处理吗?
,我可以看到运行的长期任务是如下
reduce > copy task(attempt_1498868574233_185232_m_001336_0 succeeded at 8.94 MB/s) Aggregated copy rate(1121 of 2532 at 108.94 MB/s)
正是它试图在这一步呢?
在这里看到:https://stackoverflow.com/a/37414611/2700344 – leftjoin
@leftjoin,无须手动变通。 Hive支持倾斜连接。 –