的补体我有两个RDD的: 第一个(用户ID,MOV ID,评分,时间戳)加入RDD的以导致相交
data_wo_header: RDD[String]
scala> data_wo_header.take(5).foreach(println)
1,2,3.5,1112486027
1,29,3.5,1112484676
1,32,3.5,1112484819
1,47,3.5,1112484727
1,50,3.5,1112484580
和RDD2(用户ID,MOV ID)
data_test_wo_header: RDD[String]
scala> data_test_wo_header.take(5).foreach(println)
1,2
1,367
1,1009
1,1525
1,1750
我需要加入两个RDD,这样加入会删除RDD1中常见的条目(UserID,Mov ID)。 有人可以指导两个RDD的scala-spark连接。 另外,我需要一个连接,其中从RDD1派生的新RDD只有公共项目。