2016-12-26 235 views

回答

2

火花使用bucket sort的分布式变体:

  • 数据使用RangePartitioner成一定数目的桶的分配。
  • 每个桶在洗牌过程中分开排序。
+0

不是。 Spark中'sort'的直觉与我们通常关于'sorted'集合的想法完全不同。你的直觉似乎受到我们如何看待正常世界中的“藏品”的限制。这个问题可能会让你对这种差异有所了解 - “对于应该支持并行计算的分布式集合进行排序,你甚至认为什么”。一个提示......您可能想要控制管道中后来出现的“消费者/迭代器/累加器”,以便以某种方式使用此分布式集合来维护顺序。 –

+0

因此它成为一个叫做OrderedRDD的特殊RDD,它负责确保进一步下游的'消费者/迭代器/累加器'知道保存这个'订单'。请记住,RDD实际上从未按照正常的“排序”定义进行“排序”。 –

+0

@SarveshKumarSingh没有OrderedRDD这样的东西。 – user7337271