2016-11-29 89 views
0

之间。这里是问题陈述:差异数据集

我有不同年代2点的数据集(2013数据集和2014集),该数据是多元含有38个属性的每个数据集,我想找出任何区别/在这些连续年份中可能发生在两个数据集之间的三角洲,这种差异应该是一个数值。

到目前为止,我已经应用以下技术:

1)单因素方差分析(这告诉我,也是有差别的,但它并没有告诉我的差别是多少)

2)魏氏 - 曼 - Whitney U检验(与ANOVA相同的问题)

3)找到数据集平均值之间的均方误差。

问题:

1)是其任何其它方法/测试可应用于这将使我的数据集之间的差异的数值? 2)如果我将2013数据集标记为“1”,2014数据集标记为“2”,那么经过训练的神经网络的权重可以用来分类这些数据集,从而以某种方式发现数据集之间的差异?

注意:由于保密协议,我无法在此分享数据。

+1

可能重复的[R - 计算类似数据集之间的差异](https://stackoverflow.com/questions/44907523/r-calculate-difference-between-similar-datasets) – abdnChap

回答

1

不知道你是否找到答案。

您是否尝试过使用RMSE?您可以为数据集的每一列创建一个分数,然后将它们合并以获得整个数据的平均分数。

这不是一个完美的方法,但它应该给比较多个数据集相互之间的差异规模。

如果您确实找到比我建议的更好的答案,请让我知道,因为我会对它感兴趣。

一切顺利。

+0

这也是一个好主意,陈述你是否需要使用数据集,或者您是否可以使用回归。有些方法可能不适合作为回归,只能用于整个数据集。 – abdnChap