2015-03-25 81 views
5

我正在尝试按组查找最常见的值。在下面的示例数据帧:按组别划分的最常见值(模式)

df<-data.frame(a=c(1,1,1,1,2,2,2,3,3),b=c(2,2,1,2,3,3,1,1,2)) 
> df 
    a b 
1 1 2 
2 1 2 
3 1 1 
4 1 2 
5 2 3 
6 2 3 
7 2 1 
8 3 1 
9 3 2 

我想增加一列“C”,其具有在“B”的最出现的值时,其值由“A”分组。我想要以下输出:

> df 
    a b c 
1 1 2 2  
2 1 2 2  
3 1 1 2  
4 1 2 2  
5 2 3 3  
6 2 3 3  
7 2 1 3  
8 3 1 1 
9 3 2 1  

我试过使用表和tapply,但没有得到它的权利。有没有一个快速的方法来做到这一点?
谢谢!

+3

这与[this]非常相关(http://stackoverflow.com/questions/2547402/standard-library-function-in-r-for-finding-the-mode) – 2015-03-25 12:25:12

回答

5

大厦戴维斯评论您的解决方案是继分组的的 'B' '模式':

Mode <- function(x) { 
    ux <- unique(x) 
    ux[which.max(tabulate(match(x, ux)))] 
} 

library(dplyr) 
df %>% group_by(a) %>% mutate(c=Mode(b)) 

注意虽然对于领带df$a3那么b的模式是1

2

我们可以得到 'A' 使用ave

Mode <- function(x) { 
ux <- unique(x) 
ux[which.max(tabulate(match(x, ux)))] 
} 

df$c <- with(df, ave(b, a, FUN=Mode)) 
df$c 
#[1] 2 2 2 2 3 3 3 1 1 

或者使用data.table

library(data.table) 
setDT(df)[, c:= Mode(b), by=a][] 
0

下面是一个使用table计算为交叉的薄片,max.col找到每组模式碱R法,并用rlerep一起填写各组的模式。

# calculate a cross tab, frequencies by group 
myTab <- table(df$a, df$b) 
# repeat the mode for each group, as calculated by colnames(myTab)[max.col(myTab)] 
# repeating by the number of times the group ID is observed 
df$c <- rep(colnames(myTab)[max.col(myTab)], rle(df$a)$length) 

df 
    a b c 
1 1 2 2 
2 1 2 2 
3 1 1 2 
4 1 2 2 
5 2 3 3 
6 2 3 3 
7 2 1 3 
8 3 1 2 
9 3 2 2 

请注意,这假定数据已按组排序。此外,max.col的默认值是随机打破关系(多个模式)。如果你想让第一个或最后一个值成为模式,你可以使用tie.method参数来设置它。