0
值我有两个RDD rdd1
和rdd2
星火RDD1集和RDD2做内部联接,新价值在RDD1集
rdd1 = [(key1,value11), (key2,value12)]
rdd2 = [(key1, value21), (key3, value22)]
现在我要做一个内有rdd1
和rdd2
和示例结果加入这样
rdd_join = [(key1,value11)]
在SQL它会是这样的
SELECT rdd1.key,rdd1.value
FROM rdd1
INNER JOIN rdd2
WHERE rdd1.key = rdd2.key
有什么想法?
如果你从你的RDD创建数据框,你可以简单地执行'val joined = df1.join(df2,$“ df1Key“=== $”df2Key“,”inner“)' –