2017-05-30 38 views
0

在排序%spill过程中,哪个关键字是分区和花药的开始?如何确定哪个分区中的某个关键点要在Spark排序中进行排序

+0

这是Spark Core还是SQL?你能否显示你想要的确切代码片段,以确保我们谈论的是同样的事情? –

+0

[HashPartitioner如何工作?](https://stackoverflow.com/questions/31424396/how-does-hashpartitioner-work)可能的副本 – zero323

+0

它是Spark核心。如[图](https://0x0fff.com/wp-content/uploads/2015/08/spark_hash_shuffle_with_consolidation.png)所示。谢谢。 @Jacek Laskowski – CCong

回答

0

不管它是否星火核心(与RDDS)或Spark SQL(与数据集),默认的分区是HashPartitioner,其中一个关键的哈希值给出了分区:

一个org.apache.spark。使用Java的Object.hashCode实现基于散列分区的分区程序。

+0

我不同意:) – zero323

+0

让我们在从OP得到所有需要的信息后进行对话:)如果它是Spark SQL,那么答案可能会变得更复杂(并且不会重复)。 –

+0

好吧,除了细节外,你引用的文档对'数据集'无关紧要/不正确。 – zero323