2014-11-04 95 views
2

我有以下示例性数据使用可变的列名中dplyr(DO)

d.1 = data.frame(id=c(1,1,2,3,3), date=c(2001,2002,2001,2001,2003), measure=c(1:5)) 
d.2 = data.frame(id=c(1,2,2,3,3), date=c(2001,2002,2003,2002,2008), measure=c(1:5)) 
d = merge(d.1,d.2, all=T, by="id") 

d.1d.2两种测量和我需要每id每个测量之一。测量结果应尽可能接近。我可以做到这一点dplyr

require(dplyr) 
d = d %>% 
    group_by(id) %>% 
    do(.[which.min(abs(.$date.x-.$date.y)),]) 

的问题是如何,我可以使用dplyr如果日期列的名称保存在一个变量像name.x="date.x"name.y="date.y",因为我不能用

... 
do(.[which.min(abs(.[, name.x]-.[, name.y])),]) 
.... 

我试着用evalas.symbol ANS东西一样,要找到解决anaother,但我不能想出一个解决方案...

回答

3

d$date.x返回,而矢量返回一个data.frame,在函数内部传递时不起作用。所以,简单地改变你的访问此列d[[name.x]]的方式,它会工作:

d %>% group_by(id) %>% do(.[which.min(abs(.[[name.x]] -.[[name.y]])),]) 
0

由于0.4(这是发布这个问题只是后回答),dplyr包括了标准的评估版本do_,这在理论上应该是比NSE版本更容易编程。

你可以同样使用它:

interp <- lazyeval::interp 
d %>% 
    group_by(id) %>% 
    do_(interp(~ .[which.min(abs(.$x - .$y)), ], 
      x = as.name(name.x), y = as.name(name.y))) 

我不知道这是任何容易阅读或大于NSE版本写。对于其他动词, code can remain concise同时也以编程方式访问名称。

但是,对于do_,必须使用圆点代名词来访问列名称e.g. as discussed in this question。因此,我认为,您始终需要使用interpdo_。这使得代码在前面的答案中比NSE版本更加冗长。