Python，计算二项式P值：这段代码是否正确？

我有这样的数据集：Python，计算二项式P值：这段代码是否正确？

ItemNumber Successes Trials Prob 
15   14   95  0.047 
9625  20   135  0.047 
19   14   147  0.047 
24   12   120  0.047 
20   15   133  0.047 
22   8   91  0.047 
9619  16   131  0.047 
10006  8   132  0.047 
25   15   127  0.047

欲识别culmulative二项式分布p值对每个项目，了解观察项目出现的相同或更高数目的概率。

我用这个代码：

import sys import scipy from scipy.stats.distributions import binom import sys for line in open(sys.argv[1], 'r').readlines(): line = line.strip().split() Item,num_succ,num_trials,prob = line[0],int(line[1]),int(line[2]),float(line[3]) print Item + "\t" + str(num_succ) + "\t" + str(num_trials) + "\t" + str(prob) + "\t" + str(1 - (binom.cdf(num_succ, num_trials, prob)))

输出看起来是这样的：

Item NumSucc NumTrials Prob Binomial 15 14 95 0.047 3.73e-05 9625 20 135 0.047 1.48e-06 19 14 147 0.047 0.004 24 12 120 0.047 0.0043 20 15 133 0.047 0.00054 22 8 91 0.047 0.027 9619 16 131 0.047 0.0001 10006 8 132 0.047 0.169 25 15 127 0.047 0.0003

的问题：当我挑一条线，并检查所获得的累积二项式P值对像一个在线工具这个：http://stattrek.com/online-calculator/binomial.aspx，结果不一样。

例如，

对于项目20（＃成功= 15，＃试验= 133，习题= 0.047）：

My Binomial P Val = 0.00054 StatTrek P Val = 0.0015

不过，我可以从StatTrek看到，我已经看过因为我想要“等于或大于”，我实际上想要计算的是P（X> = 15）（它是0.0015）。

我竭力要正确编辑上面的代码，改变从返回P值“找到发病率大于数”到“找到发生率大于或等于数量”。如果有人能证明我会感激。如果你看看this question，我试图关注Volodymyr的评论。

来源

2017-03-04 TomRyan

二项分布是一个离散分布。因此，下列情况属实：P（X> 14）= P（X> = 15）。如果binom.cdf计算P（X> N）的概率（是吗？我没有找到它的文档），如果你想要将它改为P（X> N-1）测试P（X> = N）。

来源

2017-03-04 12:38:47 Hatatister

Python，计算二项式P值：这段代码是否正确？

回答

相关问题