在Spark 1.6中如何避免数据倾斜问题并均匀分布数据

-3

您好我正在阅读包含json格式记录的序列文件，当读取json记录转换为Dataframe导致数据歪斜问题时，您可以看到形式Spark UI屏幕快照。如何避免这种数据歪斜问题？在Spark 1.6中如何避免数据倾斜问题并均匀分布数据

val src = sc.sequenceFile(FilePath, classOf[Text], classOf[Text]) 
val df = sqlCntxt.read.json(src)

261级完成的任务

Metric Min 25th Percentile Median 75th Percentile Max 
Duration 47 ms 0.1 s 5 s 25 s **1.0 min** 
GC Time 0 ms 0 ms 0 ms 0.1 s 0.7 s 
Input Size/ Records 438.0 B/1 1013.0 B /2 1776.0 B/ 12 128.2 MB/277608 **128.5 MB/1162416** 
Shuffle Write size/Records 240.0 B/1 446.0 B /1 509.0 B/1 622.0 B /1 **2.3 KB /1**

来源

2017-10-05 rubiks

您发布的代码不会键入检查和编译。 – user8371915

不能有一个数据偏差，如果你不进行任何连接操作。看起来你只是想读取JSON文件。

当您尝试使用非常小的数据集加入异常大型的数据集或基于连接条件不均匀分布数据时，您会遇到歪斜的数据问题。

来源

2017-10-24 21:23:40 naveenkumarbv

在Spark 1.6中如何避免数据倾斜问题并均匀分布数据

回答

相关问题