1
我想创建一个数据框,以置信区间作为最终结果。我引入了一个变量(在我的例子中是tp)作为截断值来计算比例。我想使用dplyr包生成最终的数据框。 下面是一个简化的例子:使用dplyr分组变量的计数
library(dplyr)
my_names <- c("A","B")
dt <- data.frame(
Z = sample(my_names,100,replace = TRUE),
X = sample(1:10, replace = TRUE),
Y = sample(c(0,1), 100, replace = TRUE)
)
my.df <- dt%>%
mutate(tp = (X >8)* 1) %>% #multiply by one to convert into numeric
group_by(Z, tp) %>%
summarise(n = n()) %>%
mutate(prop.tp= n/sum(n)) %>%
mutate(SE.tp = sqrt((prop.tp*(1-prop.tp))/n))%>%
mutate(Lower_limit = prop.tp-1.96 * SE.tp)%>%
mutate(Upper_limit = prop.tp+1.96 * SE.tp)
output:
Source: local data frame [4 x 7]
Groups: Z
Z tp n prop.tp SE.tp Lower_limit Upper_limit
1 A 0 33 0.6346154 0.08382498 0.4703184 0.7989123
2 A 1 19 0.3653846 0.11047236 0.1488588 0.5819104
3 B 0 27 0.5625000 0.09547033 0.3753782 0.7496218
4 B 1 21 0.4375000 0.10825318 0.2253238 0.6496762
然而,我想以计算标准误差和CI:■使用用于在列Z,不分割后样品通过分类变量TP中的基团的总样品。 因此,在我的例子中A的总样本应该是n = 33 + 19。 任何想法?
关闭,我想看看A和B的比例,其中X> 8尽管...任何想法 – jonas 2015-02-09 11:30:14
也许更新的答案是你想要的。为了将'tp'转换为数字,我建议你使用'as.integer'而不是与1相乘,因为它更容易理解操作的目的。 – Backlin 2015-02-09 11:59:44
谢谢!你的第一个建议是我正在寻找的... – jonas 2015-02-10 09:48:22