2
我有一个相对简单的问题。Spark分割RDD分块和连接
我有一个大的Spark RDD [String](包含JSON)。在我的用例中,我想将N个字符串分组(连接)为一个新的RDD [String],以便它的大小为oldRDD.size/N。
伪例如:
val oldRDD : RDD[String] = ['{"id": 1}', '{"id": 2}', '{"id": 3}', '{"id": 4}']
val newRDD : RDD[String] = someTransformation(oldRDD, ",", 2)
newRDD = ['{"id": 1},{"id": 2}','{"id": 3},{"id": 4}']
val anotherRDD : RDD[String] = someTransformation(oldRDD, ",", 3)
anotherRDD = ['{"id": 1},{"id": 2},{"id": 3}','{"id": 4}']
我已经找了一个类似的案件,但无法找到任何东西。
谢谢!
这是一个很好的答案!但是在这种情况下'n'不会是组数;相反,它是组的*大小*。如果你希望'n'是组的*号*,你需要使用模运算符而不是除法,并且注意元素的排序不会被保留。 – vaerek