订购RDD元素的最佳方式Apache Spark

-2

我需要找到最有效的方式来全局排序大尺寸的RDD，尽可能少的洗牌。我需要它来避免性能问题，例如outOfMemory异常等。订购RDD元素的最佳方式Apache Spark

感谢

2016-08-01 Giorgio

金额，你必须洗牌得到有序RDD固定所以从某种意义上讲每一个解决方案，它是最小的数据已经打乱尽可能少。唯一可以改进的是将分拣机构推入洗牌，但这部分已经由RDD.sortBy,OrderedRDDFunctions.sortByKey或JavaPairRDD.sortByKey处理。

因此，请选择适用于您的数据的方法。因此，例如：

val rdd = org.apache.spark.mllib.random.RandomRDDs.normalRDD(sc, 100, 10, 323L) 
rdd.sortBy(identity).take(3) 
// Array[Double] = 
// Array(-2.678684754806642, -1.4394327869537575, -1.2573154896913827)

来源

2016-08-01 16:17:22 zero323

内存不足异常的出你看到的是，因为你有太少分区和（最有可能），这样的顺序使得一些分区，真正的大数据歪斜。在任何情况下，spark中的所有优化工作都会转向数据集（和dataframes），以便获得更好的优化，将RDD转换为DataFrame并使用其中的构造执行排序

来源

2016-08-01 16:37:05

订购RDD元素的最佳方式Apache Spark

回答

相关问题