11
因此,假设我得到了一个3000行的rdd。 2000年的第一行是第一类,最后的1000行是第二类。 RDD跨100个分区进行分区。Sparks RDD.randomSplit如何实际拆分RDD
当调用RDD.randomSplit(0.8,0.2)
是否函数还洗牌RDD?我们的分裂只是简单地抽样了20%的RDD?或者它是否随机选择20%的分区?
理想情况下,产生的拆分与原始RDD具有相同的类分布。 (即2:1)
由于