2016-10-01 75 views
2

我有一个数据框,我需要根据两个变量对它进行处理,但两个变量在行中都是“准相同的”。这意味着他们可以有一个-'s:或一行中的空格,但在另一行中没有它。 我确实使用了unique(),但此功能仅适用于相同的值。假设我们有此data.frameR - 如何删除数据帧的两个准相同的行?

Id<-c("RoLu1976","Rolu1976","AlBl1989","ThSa1996") 
Art<-c("Econometric Policy Evaluation: A Critique","Econometric Policy Evaluations A Critique", "Rules after discretion", "Expectations and the Nonneutrality of Lucas") 
Id.1<-c("FiKy1989","EdPr1986","BeBe1983","JoSt1989") 
Art.1<-c("Notes on the Lucas Critique","Notes on the Lucas Critique","The Inconsistency of Optimal Plans","The Inconsistency of Optimal Plans") 
N<-data.frame(Id,Art,Id.1,Art.1) 

准相同值在在两个第一观察可变Art,它们只是用于s:不同。我如何过滤和删除这些类型的值?

回答

2

根据您的数据,我用agrep匹配类似的字符串:

yy = NULL 
for(i in 1:length(N$Art)){ 
    temp = agrep(N[i,"Art"],N$Art,value=T) 
    y = ifelse(any(N[i,"Art"]==temp),temp[1],N[i,"Art"]) 
    yy = c(yy,y) 
} 

然后用yy更换N$Art,这将允许您使用duplicated/unique

N$Art = yy 
N.2 = N[!duplicated(N$Art), ] 
相关问题