2016-07-29 68 views
10

在使用data.table很长一段时间后,我现在认为是时候试试dplyr了。这很有趣,但我无法弄清楚如何访问 - 当前分组变量 - 返回每个组的多个值dplyr:访问当前组变量

以下示例显示可以正常使用data.table。你会如何写这与dplyr

foo <- matrix(c(1, 2, 3, 4), ncol = 2) 
dt <- data.table(a = c(1, 1, 2), b = c(4, 5, 6)) 

# data.table (expected) 
dt[, .(c = foo[, a]), by = a] 
    a c 
1: 1 1 
2: 1 2 
3: 2 3 
4: 2 4 

# dplyr (?) 
dt %>% 
    group_by(a) %>% 
    summarize(c = foo[a]) 
+2

随着'summarize'也做,你可能无法做到,你可以尝试'do' – akrun

+2

你在'foo [a]'中缺少一个逗号......无论如何,正如akrun所建议的,总结并不是一个好的选择,因为它喜欢每组返回一行。也不是变异,它喜欢返回n()又名.N,所以你需要在dplyr世界中一起破解一些东西。 – Frank

+0

hm。谢谢。仍然没有成功:dt%>% group_by(a)%>% do(c = foo [,a]) 您能告诉我工作片段吗? –

回答

7

我们可以使用dodplyr。 (没有使用其他软件包)。 do对于扩展行非常方便。我们只需要包装data.frame

dt %>% 
    group_by(a) %>% 
    do(data.frame(c = foo[, unique(.$a)])) 
#  a  c 
# <dbl> <dbl> 
#1  1  1 
#2  1  2 
#3  2  3 
#4  2  4 

或代替unique我们可以通过第一观察

dt %>% 
    group_by(a) %>% 
    do(data.frame(c = foo[, .$a[1]])) 
#  a  c 
# <dbl> <dbl> 
#1  1  1 
#2  1  2 
#3  2  3 
#4  2  4 

该子集可以在不使用任何软件包

stack(lapply(split(dt$a, dt$a), function(x) foo[,unique(x)]))[2:1] 
# ind values 
#1 1  1 
#2 1  2 
#3 2  3 
#4 2  4 
7

您仍然可以访问该组变量,但它是像每个组一个唯一值的法向量,所以如果你把unique围绕它,它会工作。而在同一时间,dplyr似乎并不自动展开像data.table行,你将需要unnesttidyr包:

library(dplyr); library(tidyr) 
dt %>% 
     group_by(a) %>% 
     summarize(c = list(foo[,unique(a)])) %>% 
     unnest() 

# Source: local data frame [4 x 2] 

#  a  c 
# <dbl> <dbl> 
# 1  1  1 
# 2  1  2 
# 3  2  3 
# 4  2  4 

或者我们可以使用first加快,因为我们已经知道组变量载体是每个组相同的:

dt %>% 
     group_by(a) %>% 
     summarize(c = list(foo[,first(a)])) %>% 
     unnest() 

# Source: local data frame [4 x 2] 

#  a  c 
# <dbl> <dbl> 
# 1  1  1 
# 2  1  2 
# 3  2  3 
# 4  2  4