2016-10-10 132 views
0

我无法将拆分应用于data.frame,然后将某些汇总结果汇编回不同的data.frame。我尝试使用'unsplit'函数,但我无法弄清楚如何正确使用它来获得所需的结果。让我来演示一下常见的'mtcars'数据:假设我的最终结果是获得一个带有两个变量的数据框:cyl(柱面)和mean_mpg(对于共享相同柱面数的汽车组,mpg的平均值)。拆分后重新组装数据帧

因此,最初的分裂是这样的:

spl <- split(mtcars, mtcars$cyl) 

其结果看起来是这样的:

$`4` 
       mpg cyl disp hp drat wt qsec vs am gear carb 
Datsun 710  22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1 
Merc 240D  24.4 4 146.7 62 3.69 3.190 20.00 1 0 4 2 
... 

$`6` 
       mpg cyl disp hp drat wt qsec vs am gear carb 
Mazda RX4  21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4 
Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4 
... 

$`8` 
        mpg cyl disp hp drat wt qsec vs am gear carb 
Hornet Sportabout 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2 
Duster 360   14.3 8 360.0 245 3.21 3.570 15.84 0 0 3 4 
... 

现在我想做的线沿线的东西:

df <- as.data.frame(lapply(spl, function(x) mean(x$mpg)), col.names=c("cyl", "mean_mpg")) 

但是,做出以上结果为:

  X4  X6 X8 
1 26.66364 19.74286 15.1 

虽然我愿意使用df是这样的:

cyl mean_mpg 
1 4 26.66364 
2 6 19.74286 
3 8 15.10000 

感谢,J.

+0

'骨料(MPG〜缸,mtcars,函数(X){平均(X)})' – alistaire

回答

1

如果你只在重组拆分兴趣再看看(2),(4 )和(4a)中,但如果实际的基础问题实际上是关于执行以上基团的聚合的方式那么它们所有可能感兴趣的:

1)骨料通常使用一个作为aggregate人准备在评论中提到。简化@ alistaire的代码稍微:

aggregate(mpg ~ cyl, mtcars, mean) 

2)分/ lapply/do.call也@rawr已经给出了其中我们也可以略微简化的意见分裂/ lapply/do.call解决方案:

spl <- split(mtcars, mtcars$cyl) 
do.call("rbind", lapply(spl, with, data.frame(cyl = cyl[1], mpg = mean(mpg)))) 

3)do.call/by最后一个可替代地在术语重写的by

do.call("rbind", by(mtcars, mtcars$cyl, with, data.frame(cyl = cyl[1], mpg = mean(mpg)))) 

4)拆分/ lapply /非剖分另一种可能性是使用splitunsplit

spl <- split(mtcars, mtcars$cyl) 
L <- lapply(spl, with, data.frame(cyl = cyl[1], mpg = mean(mpg), row.names = cyl[1])) 
unsplit(L, sapply(L, "[[", "cyl")) 

4A)或如果行的名称是足够:

spl <- split(mtcars, mtcars$cyl) 
L <- lapply(spl, with, data.frame(mpg = mean(mpg), row.names = cyl[1])) 
unsplit(L, sapply(L, rownames)) 

上述不使用任何包,但也有很多包可以做聚合,包括dplyr,data.table和sqldf:

5)dplyr

library(dplyr) 
mtcars %>% 
     group_by(cyl) %>% 
     summarize(mpg = mean(mpg)) %>% 
     ungroup() 

6)的数据。表

library(data.table) 
as.data.table(mtcars)[, list(mpg = mean(mpg)), by = "cyl"] 

7)sqldf

library(sqldf) 
sqldf("select cyl, avg(mpg) mpg from mtcars group by cyl") 
+0

完美,正是我需要的。谢谢! – Jaroslav