2015-02-23 124 views
0

我有一个数据帧,每小时观测和模拟空气质量数据。附加信息被测量站,国家,stationtype和型号:R:聚合与时间平均值

> head(PM10val) 
       date station type model country obs mod 
1 2009-01-01 00:00:00 BELAB01 sB chimere  BE 63 13.45 
2 2009-01-01 01:00:00 BELAB01 sB chimere  BE 50 18.71 
3 2009-01-01 02:00:00 BELAB01 sB chimere  BE 77 20.65 
4 2009-01-01 03:00:00 BELAB01 sB chimere  BE 68 21.42 
5 2009-01-01 04:00:00 BELAB01 sB chimere  BE 58 22.47 
6 2009-01-01 05:00:00 BELAB01 sB chimere  BE 62 24.02 

我想使用timeAverage函数(计算包含日期字段中数据帧的时间平均)的OpenAir包的每日计算或年度平均值,每站和每个模型。我想:

> anmean <- aggregate(PM10val, by=list(PM10val$station,PM10val$model), 
+   function (x) timeAverage(x,avg.time="year",data.thresh=75, statistic="mean")) 

这应该算年平均为平均“OBS”和每个型号和台“国防部”,有75%的数据捕获阈值。 但它返回:

Error in `[.default`(mydata, , Names) : incorrect number of dimensions 
    11 NextMethod("[") 
10 `[.POSIXct`(mydata, , Names) 
9 mydata[, Names] 
8 checkPrep(mydata, vars, type = "default", remove.calm = FALSE, 
    strip.white = FALSE) 
7 timeAverage(x, avg.time = "year", data.thresh = 75, statistic = "mean") 
6 FUN(X[[1L]], ...) 
5 lapply(X = split(e, grp), FUN = FUN, ...) 
4 FUN(X[[1L]], ...) 
3 lapply(x, function(e) { 
    ans <- lapply(X = split(e, grp), FUN = FUN, ...) 
    if (simplify && length(len <- unique(sapply(ans, length))) == 
    1L) { ... 
2 aggregate.data.frame(PM10val, by = list(PM10val$station, PM10val$model), 
    function(x) timeAverage(x, avg.time = "year", data.thresh = 75, 
     statistic = "mean")) 
1 aggregate(PM10val, by = list(PM10val$station, PM10val$model), 
    function(x) timeAverage(x, avg.time = "year", data.thresh = 75, 
     statistic = "mean")) 

我在做什么错了?我总是可以使用一个循环,但我不认为这是要走的路。 谢谢!

+0

究竟是什么'timeAverage(PM10val,avg.time =“year”,data.thresh = 75,statistic =“mean”)'return?另外,出错后请提供'traceback()'的结果。 – 2015-02-23 12:04:31

+1

我在上面的主要问题中添加了它。对不起,这是我第一次问一个问题! – 2015-02-23 15:13:49

回答

1

我会推荐使用ddply来代替。数据类型有POSIXctaggregate有一些问题。实际上你的功能见x作为日期,而不是子数据帧。

以下代码适用于比利时数据。 函数ddply也是一样的,它按照您指定的级别进行分割,作为第二个参数c("site", "country"),首先将按“站点”和“国家/地区”分割,然后为每个分割应用函数。为了缩短代码,我已将函数包装到Funfun。另外技术性是bind_rows = rbind.fill只是为importAirbase函数中的绑定数据设置的。您可以用您的数据替换data2,它应该可以工作。

library(plyr) 
Funfun = function (x) timeAverage(x, avg.time="year", data.thresh=75, statistic="mean") 
bind_rows = rbind.fill 
data2 = importAirbase(site = c("BELAB01","BELAB02") , year = 2011:2012, pollutant = NA, 
    add = c("country", "site.type"), splice = FALSE, local = NA) 
ddply(data2, c("site", "country"), Funfun) 
+0

我刚刚做到了。然而,小小的评论:选项“data.tresh = 75”似乎不起作用。有小于每小时6750个有效小时数据的台站,并且仍然计算年平均值。奇怪 – 2015-02-25 14:55:09

+0

@SandyAdriaenssens,它没有'ddply'吗? 'timeAverage(data2,avg.time =“year”,data.thresh = 75,statistic =“mean”)'。有一个出路,你可以在你用ddply申请的函数中进行过滤。在行'timeAverage'之前加上'x < - subset(x,mod <75)'行。 – 2015-02-25 18:55:42

+0

问题解决:应该是“data.thresh”而不是“data.tresh”。只是忘了字母“h”。显然这没有错误,但是被忽略了! – 2015-02-26 09:13:25