0
我有一个包含140亿条记录(大约1TB)的Hive表和8亿条记录(2GB大)的另一个Hive表。我想加入他们,我的策略是什么? 我有一个36节点群集。我使用50个执行程序,每个执行程序30 GB。Spark Hive表连接策略
从我所看到的,我的选择是:
- 广播2 GB表
- 刚刚加盟2个表盲目(我已经这样做了,它几乎回吐4小时完成)
如果我重新分配两个表并加入它们,它是否会提高性能?我观察到在第二种方法中,最后20个任务非常慢,我希望他们正在处理具有更多数据(偏斜数据)的分区。
你看看提供的答案吗? – javadba