我有一个不同用户的表,其中有400,000个用户。我想将其分成4个部分,并且预计每个用户只能位于一个部分。将Spark数据帧拆分为部分
这里是我的代码:
val numPart = 4
val size = 1.0/numPart
val nsizes = Array.fill(numPart)(size)
val data = userList.randomSplit(nsizes)
然后我写的每一个data(i)
,我从到,到拼花文件。选择目录,按用户ID分组并且按部分计数,有一些用户位于两个或更多部分。
我还不知道为什么?