-2
A
回答
2
金额,你必须洗牌得到有序RDD固定所以从某种意义上讲每一个解决方案,它是最小的数据已经打乱尽可能少。唯一可以改进的是将分拣机构推入洗牌,但这部分已经由RDD.sortBy
,OrderedRDDFunctions.sortByKey
或JavaPairRDD.sortByKey
处理。
因此,请选择适用于您的数据的方法。因此,例如:
val rdd = org.apache.spark.mllib.random.RandomRDDs.normalRDD(sc, 100, 10, 323L)
rdd.sortBy(identity).take(3)
// Array[Double] =
// Array(-2.678684754806642, -1.4394327869537575, -1.2573154896913827)
2
内存不足异常的出你看到的是,因为你有太少分区和(最有可能),这样的顺序使得一些分区,真正的大数据歪斜。 在任何情况下,spark中的所有优化工作都会转向数据集(和dataframes),以便获得更好的优化,将RDD转换为DataFrame并使用其中的构造执行排序
相关问题
- 1. 订购代码的最佳方式
- 2. On Spark的RDD的采取和采取订购方法
- 3. Spark Streaming DStream元素vs RDD
- 4. 订购DOM元素
- 5. 跟踪订购的smalldatetime列的最佳方式
- 6. 比较RDD对象-Apache Spark
- 7. Apache Spark RDD值查找
- 8. Apache Spark Rdd持续存在
- 9. 订购数组类的最佳方式是什么?
- 10. 订购CSS/JavaScript外部文件的最佳方式包括
- 11. 实现基本SQL订购的最佳方式
- 12. 在RDD中查找元素Spark
- 13. 与Spark集成的最佳方式
- 14. Apache Spark的最佳内存分配
- 15. Apache Spark RDD不同 - 奇怪的行为
- 16. Spark RDD的模式定义
- 17. Yii格式的html5表单元素的最佳方式
- 18. 将元数据添加到HTML元素的最佳方式
- 19. Apache Spark:如何将Spark DataFrame转换为类型为RDD [(Type1,Type2,...)]的RDD?
- 20. MVC模式:显示元素数组的最佳方式
- 21. 在Apache Spark中添加RDD值(总和)
- 22. Apache Spark RDD和Java 8:异常处理
- 23. 在apache-spark RDD中处理多个'行'
- 24. 订购由IoC /插件框架注入的菜单项的最佳方式
- 25. 缩放HTML元素的最佳方法
- 26. Leaflet:订购图层中的GeoJSON元素
- 27. 添加和订购Doctrine嵌套集树的最佳方式是什么?
- 28. 在订购过程中添加折扣的最佳方式是什么?
- 29. 在rails订购系统中建立销售税的最佳方式是什么?
- 30. Spark有没有关于RDD分区的最佳数量及其元素数量的任何经验法则?