如何确定哪个分区中的某个关键点要在Spark排序中进行排序

2017-05-30 CCong

这是Spark Core还是SQL？你能否显示你想要的确切代码片段，以确保我们谈论的是同样的事情？ –

[HashPartitioner如何工作？]（https://stackoverflow.com/questions/31424396/how-does-hashpartitioner-work）可能的副本 – zero323

它是Spark核心。如[图]（https://0x0fff.com/wp-content/uploads/2015/08/spark_hash_shuffle_with_consolidation.png）所示。谢谢。 @Jacek Laskowski – CCong

不管它是否星火核心（与RDDS）或Spark SQL（与数据集），默认的分区是HashPartitioner，其中一个关键的哈希值给出了分区：

一个org.apache.spark。使用Java的Object.hashCode实现基于散列分区的分区程序。

2017-05-30 06:49:40

我不同意:) – zero323

让我们在从OP得到所有需要的信息后进行对话:)如果它是Spark SQL，那么答案可能会变得更复杂（并且不会重复）。 –

好吧，除了细节外，你引用的文档对'数据集'无关紧要/不正确。 – zero323

回答