添加矢量我有两个RDDS具有这种结构存在于两个不同的RDDS阶火花
org.apache.spark.rdd.RDD[(Long, org.apache.spark.mllib.linalg.Vector)]
这里RDD的每一行包含一个索引Long
和向量org.apache.spark.mllib.linalg.Vector
。 我想将Vector
的每个组件添加到存在于其他RDD行中的其他Vector
的对应组件中。第一个RDD的每个矢量应该被添加到其他RDD的每个矢量。
一个例子是这样的:
RDD1集:
Array[(Long, org.apache.spark.mllib.linalg.Vector)] =
Array((0,[0.1,0.2]),(1,[0.3,0.4]))
RDD2:
Array[(Long, org.apache.spark.mllib.linalg.Vector)] =
Array((0,[0.3,0.8]),(1,[0.2,0.7]))
结果:
Array[(Long, org.apache.spark.mllib.linalg.Vector)] =
Array((0,[0.4,1.0]),(0,[0.3,0.9]),(1,[0.6,1.2]),(1,[0.5,1.1]))
结果不正确,我想将第一个RDD中的每个向量添加到其他RDD的每个向量中,如示例中所述。 –
让我看看你的进步..我们不是在这里代表你写代码..显示你的进度加上你的问题你卡在哪里然后我们会帮你 –
非常感谢你,我已经解决了这个问题。 –