初学者在这里,我正在使用Spark 2.1.1和Scala 2.11.8。如何将一列RDD与(a)相同(b)不同RDD的其他列进行映射?
我有一个六列的RDD。这是RDD的第一个条目: -
(String, String, String, String, String, String) = (" p69465323_serv80i"," 7 "," fb_406423006398063"," guest_861067032060185_android"," fb_100000829486587"," fb_100007900293502")
实际的RDD有超过500万条目。
我想的第一列以这样的方式,第三,第四,第五和第六列,我得到这样的个别地图: -
(fb_406423006398063, p69465323_serv80i)
(guest_861067032060185_android, p69465323_serv80i)
(fb_100000829486587, p69465323_serv80i)
(fb_100007900293502, p69465323_serv80i)
即第一列与第三单独映射,第四,第五和第六列。我该怎么做(a)在相同的RDD中(b)在不同的RDD中?
谢谢!但我在这里有一个问题,同样的解决方案是否适用于两种不同的RDD?这是关于我今天早些时候发布的问题:https://stackoverflow.com/questions/44819655/how-to-perform-set-transformations-on-rdds-with-different-number-of-columns – PixieDev
@AviAggarwal你的意思是从一个rdd到另一个rdd的地图列?不,你不能这样做。这个问题提供的解决方案看起来不错。正如那里所建议的那样,你的RDD需要是同一类型的。 – philantrovert