0
我的问题与PySpark reduceByKey on multiple values类似,但有一点关键的区别。我是PySpark的新手,所以我肯定错过了一些明显的东西。Pyspark在嵌套元组上reduceByKey
我有以下结构的RDD:
(K0, ((k01,v01), (k02,v02), ...))
....
(Kn, ((kn1,vn1), (kn2,vn2), ...))
我想作为一个输出是一样的东西
(K0, v01+v02+...)
...
(Kn, vn1+vn2+...)
这似乎像是一个完美的情况下使用reduceByKey
,起初我还以为类似的东西
rdd.reduceByKey(lambda x,y: x[1]+y[1])
这给了我完全RDD我开始用。我想我的索引有问题,因为有嵌套元组,但我尝试了所有可能的索引组合,我一直在想,并且一直给我回初始的RDD。
是否有理由不应该使用嵌套元组或者我做错了什么?
那现在我很清楚。是的,键是唯一的,所以mapValues方法就是我所需要的。非常感谢你。 –