比较两个多列数据帧的统计意义

我有2个数据帧。每个数据帧包含64列，每列包含256个值。我需要比较这两个数据帧的统计显着性。比较两个多列数据帧的统计意义

我只知道统计学的基础知识。我所做的是计算每个数据帧的所有列的p值。然后我比较第一个数据帧的每一列的p值与第二个数据帧的每一列的p值。 EX：第1个数据帧的第1列的p值到第2个数据帧的第1列的p值。

然后我告诉哪些列在2个数据框中显着不同。

有没有更好的方法来做到这一点。我使用python。

2017-07-18 Rajendra Prasad Patil

说实话，你这样做的方式并不是它想要的。让我强调几点，开展这样的分析时，你应该始终牢记：

1）假设第一

我强烈建议，以避免测试对一切的一切。这种探索性的数据分析可能会产生一些重要的结果，但它最终也可能是multiple comparisons problem。简而言之：您有太多的测试，以至于看到重要的东西的机会大大增加了（另请参阅Type I and Type II errors）。

2）p值是不是所有的魔法

说，你计算的p值的所有列不知道哪些考验你使用。 p值只是一个来自数学统计学的“工具”，被许多测试（例如相关性，t检验，ANOVA，回归等）所使用。具有显着的p值表明您观察到的差异/关系在统计上是相关的（即系统性而非随机性效应）。

3.）考虑采样的影响大小

根据哪个测试使用的是，p值是你有样本大小敏感。样本量越大，发现重要影响的可能性就越大。例如，如果您比较两个群体，每个群体有一百万个观察值，那么最小差异（也可能是随机伪像）可能很重要。因此，重要的是还要看看效应大小，它告诉你观察到的真实程度有多大（例如r的相关性，Cohen的d用于t检验，方差分析的偏eta等）。

摘要

所以，如果你想在这里得到一些实际的帮助，我建议张贴一些代码，并指定更为具体（1）你的研究的问题是什么，（2），它考验你使用，（3）你的代码和你的输出是怎样的。

来源

2017-07-20 07:42:58 jd1338

比较两个多列数据帧的统计意义

回答

相关问题