2017-04-08 91 views
-3

我有两个具有N个元素的火花RDD。在Apache Spark中添加RDD值(总和)

例如

rdd1= [1,2,5,7,50,....] 
rdd2= [5,7,5,6,8,.....] 

如何增加他们,有一个像[6,9,10,13,58,....]输出?
请使用Python提供解决方案。

+3

欢迎堆栈溢出地图sum!我们是一个问答网站,而不是一个打码人员的服务。请将您的问题缩小到针对本网站主题的特定编码问题。请参阅:[为什么“有人可以帮助我?”不是一个实际的问题?](http://meta.stackoverflow.com/q/284236)和[当我不确定我在找什么时问一个好问题?](https:// meta。 stackoverflow.com/questions/262527/how-to-ask-a-good-question-when-im-not-sure-what-im-looking-for) –

回答

1

你只需要zip的RDD的,并在创建的元组

rdd1 = sc.parallelize([1,2,5,7,50]) 
rdd2 = sc.parallelize([5,7,5,6,8]) 

print(rdd1.zip(rdd2).map(sum).collect()) 

输出

[6, 9, 10, 13, 58]