2017-07-18 80 views
0

我有2个数据帧。每个数据帧包含64列,每列包含256个值。 我需要比较这两个数据帧的统计显着性。比较两个多列数据帧的统计意义

我只知道统计学的基础知识。 我所做的是计算每个数据帧的所有列的p值。 然后我比较第一个数据帧的每一列的p值与第二个数据帧的每一列的p值。 EX:第1个数据帧的第1列的p值到第2个数据帧的第1列的p值。

然后我告诉哪些列在2个数据框中显着不同。

有没有更好的方法来做到这一点。 我使用python。

回答

0

说实话,你这样做的方式并不是它想要的。让我强调几点,开展这样的分析时,你应该始终牢记:

1)假设第一

我强烈建议,以避免测试对一切的一切。这种探索性的数据分析可能会产生一些重要的结果,但它最终也可能是multiple comparisons problem。 简而言之:您有太多的测试,以至于看到重要的东西的机会大大增加了(另请参阅Type I and Type II errors)。

2)p值是不是所有的魔法

说,你计算的p值的所有列不知道哪些考验你使用。 p值只是一个来自数学统计学的“工具”,被许多测试(例如相关性,t检验,ANOVA,回归等)所使用。具有显着的p值表明您观察到的差异/关系在统计上是相关的(即系统性而非随机性效应)。

3.)考虑采样的影响大小

根据哪个测试使用的是,p值是你有样本大小敏感。样本量越大,发现重要影响的可能性就越大。例如,如果您比较两个群体,每个群体有一百万个观察值,那么最小差异(也可能是随机伪像)可能很重要。因此,重要的是还要看看效应大小,它告诉你观察到的真实程度有多大(例如r的相关性,Cohen的d用于t检验,方差分析的偏eta等)。

摘要

所以,如果你想在这里得到一些实际的帮助,我建议张贴一些代码,并指定更为具体(1)你的研究的问题是什么,(2),它考验你使用, (3)你的代码和你的输出是怎样的。