2016-08-20 113 views
0

我正在使用SparkR。现在我遇到了使用统计函数(如avg,max等)的问题。首先,我读像JSON文件:如何在sparkr中使用像avg,max等统计函数

> a <- read.df(sqlContext, "/home/fengchen/mine/mydata/try.json", "json") 

然后,在火花,而不是正常的数据帧ř一个数据帧。我正在尝试https://spark.apache.org/docs/1.5.1/api/R/的一些功能但是当我使用像avg,max,min这样的函数时,我什么都没有。在RStudio上,它显示为:

> avg(aa$pipelat) 
Column avg(pipelat) 

那么,如何显示或知道函数的值? 顺便说一句,这些函数的参数是数据框工作正常,如agg。我只是不知道如何处理参数是列的函数。

回答

1

head()只返回结果DataFrame的第一行。
rdf <- collect(sdf)
将分布式Spark DataFrame转换为可以显示的本地R data.frame。

因此,例如在你的第二篇文章中: collect(selectExpr(df,"max(laidyear)","min(type)")) ...将返回所有年份值的结果,而不仅仅是前6行。

0

刚刚得到它。以下格式适用。

head(selectExpr(df,"max(laidyear)","min(type)"))