0
我有一个输入A,我将其转换为散布在群集中的rdd X。火花处理数据混洗吗?
我对它执行某些操作。
然后我在输出rdd上做.repartition(1)
。
我的输出rdd是否与输入A的顺序相同。
火花会自动处理这个吗?如果是,那么如何?
我有一个输入A,我将其转换为散布在群集中的rdd X。火花处理数据混洗吗?
我对它执行某些操作。
然后我在输出rdd上做.repartition(1)
。
我的输出rdd是否与输入A的顺序相同。
火花会自动处理这个吗?如果是,那么如何?
该文件不能保证订单将被保留,所以你可以认为它不会。如果你看一下实现,你会看到它肯定不会(除非你原来的RDD已经因为某些原因1分):repartition
调用coalesce(shuffle = true)
,这
Distributes elements evenly across output partitions, starting from a random partition.
会是什么你做到了吗?为什么要将数据重新分区到单个分区? –
@YuvalItzchakov必须在单个文件中打印输出。 – Azrael