2016-07-05 30 views
0

我有一个包含16个测量值的数据集。我有一个分类变量“类型”它是0或1.我想对我的分类器进行排列测试。分类变量可能排列的数量

我想创建新的标签,其中有8 = 1,8 = 0

我使用

sample(type, 16, replace = FALSE) 

它工作正常。

但我在想,因为有这么几个我可以遇到的问题,有更多的测试组合比实际组合。这是一个问题,因为你会得到低估/高估你的p值,例如在只有1000个可能的情况下进行百万个置换。

所以我的问题是:

如何计算向量的排列的可能数目那里是N患者必须有其他的一个的P和(N-P)。其次,出于好奇心,你会选择什么样的数量进行完整的测试,而不是随机抽样。

我知道这很可能很简单,我只是无法弄清楚。

回答

1

这样combinations数为Choose K from N

C(N,K) = N!/(K!*(N-K)!) 

对于你的情况C(16,8)=12870


可以使用R指令:

choose(N, K) 

例如:

choose(16,8) 
# [1] 12870