使用dplyr分组变量的计数

我想创建一个数据框，以置信区间作为最终结果。我引入了一个变量（在我的例子中是tp）作为截断值来计算比例。我想使用dplyr包生成最终的数据框。下面是一个简化的例子：使用dplyr分组变量的计数

library(dplyr) 

my_names <- c("A","B") 
dt <- data.frame(
    Z = sample(my_names,100,replace = TRUE), 
    X = sample(1:10, replace = TRUE), 
    Y = sample(c(0,1), 100, replace = TRUE) 
) 
    my.df <- dt%>% 
    mutate(tp = (X >8)* 1) %>% #multiply by one to convert into numeric 
    group_by(Z, tp) %>% 
    summarise(n = n()) %>% 
    mutate(prop.tp= n/sum(n)) %>% 
    mutate(SE.tp = sqrt((prop.tp*(1-prop.tp))/n))%>% 
    mutate(Lower_limit = prop.tp-1.96 * SE.tp)%>% 
    mutate(Upper_limit = prop.tp+1.96 * SE.tp) 

output: 

Source: local data frame [4 x 7] 
Groups: Z 

    Z tp n prop.tp  SE.tp Lower_limit Upper_limit 
1 A 0 33 0.6346154 0.08382498 0.4703184 0.7989123 
2 A 1 19 0.3653846 0.11047236 0.1488588 0.5819104 
3 B 0 27 0.5625000 0.09547033 0.3753782 0.7496218 
4 B 1 21 0.4375000 0.10825318 0.2253238 0.6496762

然而，我想以计算标准误差和CI：■使用用于在列Z，不分割后样品通过分类变量TP中的基团的总样品。因此，在我的例子中A的总样本应该是n = 33 + 19。任何想法？

来源

2015-02-09 jonas

不太确定我得到哪个组与您想要比较哪个组，但无论如何您有两个分组变量tp = X > 8和Z。如果你想使行与X > 8和Z == "A"与X > 8所有行比较，你可以做这样的

merge(
    dt %>% 
     group_by(X > 8) %>% 
     summarize(n.X = n()), 
    dt %>% 
     group_by(X > 8, Z) %>% 
     summarise(n.XZ = n()), 
    by = "X > 8" 
) %>% 
    mutate(prop.XZ = n.XZ/n.X) %>% 
    mutate(SE = sqrt((prop.XZ*(1-prop.XZ))/n.X))%>% 
    mutate(Lower_limit = prop.XZ-1.96 * SE) %>% 
    mutate(Upper_limit = prop.XZ+1.96 * SE)

X > 8 n.X Z n.XZ prop.XZ   SE Lower_limit Upper_limit 
1 FALSE 70 A 37 0.5285714 0.05966378 0.4116304 0.6455124 
2 FALSE 70 B 33 0.4714286 0.05966378 0.3544876 0.5883696 
3 TRUE 30 A 16 0.5333333 0.09108401 0.3548087 0.7118580 
4 TRUE 30 B 14 0.4666667 0.09108401 0.2881420 0.6451913

如果你想扭转这个问题，比较X > 8和Z == "A"到Z == "A"的所有行你可以这样做

merge(
    dt %>% 
     group_by(Z) %>% 
     summarize(n.Z = n()), 
    dt %>% 
     group_by(X > 8, Z) %>% 
     summarise(n.XZ = n()), 
    by = "Z" 
) %>% 
    mutate(prop.XZ = n.XZ/n.Z) %>% 
    mutate(SE = sqrt((prop.XZ*(1-prop.XZ))/n.Z))%>% 
    mutate(Lower_limit = prop.XZ-1.96 * SE) %>% 
    mutate(Upper_limit = prop.XZ+1.96 * SE)

Z n.Z X > 8 n.XZ prop.XZ   SE Lower_limit Upper_limit 
1 A 53 FALSE 37 0.6981132 0.06305900 0.5745176 0.8217088 
2 A 53 TRUE 16 0.3018868 0.06305900 0.1782912 0.4254824 
3 B 47 FALSE 33 0.7021277 0.06670743 0.5713811 0.8328742 
4 B 47 TRUE 14 0.2978723 0.06670743 0.1671258 0.4286189

这是一个有点乱不必merge两个独立的团体，但我不知道是否有可能取消组合和重新组中相同的语句。我很惊讶，尽管在两个不同的层面上使用分组看起来有多困难（如果可以这么称呼的话），并希望其他人能够提出更好的解决方案。

来源

2015-02-09 11:13:55 Backlin

关闭，我想看看A和B的比例，其中X> 8尽管...任何想法 – jonas 2015-02-09 11:30:14

也许更新的答案是你想要的。为了将'tp'转换为数字，我建议你使用'as.integer'而不是与1相乘，因为它更容易理解操作的目的。 – Backlin 2015-02-09 11:59:44

谢谢！你的第一个建议是我正在寻找的... – jonas 2015-02-10 09:48:22

使用dplyr分组变量的计数

回答

相关问题