1
它的Hadoop MapReduce的shuffle的默认行为进行排序分区内的洗牌键排序跨越分区,但是不交分区(这是总排序,使关键字排序跨越parttions)排序分区中,但没有使用星火RDD
我会问如何使用星火RDD来实现同样的事情(排序中的分区,而不是那种跨分区)
- RDD的
sortByKey
方法是做总订货 - RDD的
repartitionAndSortWithinPartitions
的分区中的排序做但不跨越分区离子,但不幸的是,它增加了一个额外的步骤来做重新分区。
是否有分区中的排序,但不能跨越分区
直接的方式
感谢@ user7849215提供了有用的答案。有没有办法做sortWithinPartitions与原始RDD? – Tom