0
我想知道是否有方法来计算火花数据框每列中不同项目的数量?也就是说,给定数据集:SparkR。如何计算Spark DataFrame中所有列的不同值?
set.seed(123)
df<- data.frame(ColA=rep(c("dog", "cat", "fish", "shark"), 4), ColB=rnorm(16), ColC=rep(seq(1:8),2))
df
我这样做R中获得的计数:
sapply(df, function(x){length(unique(x))})
> ColA ColB ColC
4 16 8
我怎么会去这样做同样的事情。这一点数据帧?
sdf<- SparkR::createDataFrame(df)
任何帮助,非常感谢。先谢谢你。 -nate
谢谢。我会在2分钟内接受。 – nate