2009-07-30 46 views
0

对于那些处理数据的人来说,有句话说:“如果你充分拷打数据,它会承认几乎任何东西”。这一点在Boferroni定理的数学支持下表明,“随着越来越多的统计测试的执行,获得错误重要发现(类型I错误)的可能性也增加”。例如,我们知道Principles of Data Mining中给出的情况:“Leinweber(个人通信)提供了这种类型预测的一个特别幽默的例子,他几乎完美地预测了着名的标准普尔500金融指数作为前几年黄油生产,奶酪生产和孟加拉国和美国 绵羊种群的年度值的函数。“数据处理过于复杂的模型

在使用过于复杂的模型时,您是否遇到实际情况,结果是错误的?你能否提出这种情况,以及你使用的方法?

回答

2

根据我的经验,主要问题是使用统计方法的方式不对。一个常见的错误是不要事先确定要测试的数据。我听到一位教授将这场比赛与赛马比赛进行比较,在比赛中你不会在预定的地点拍摄最后的照片,但是当你的马位于前方时。这在医学研究中很常见。

我知道的另一个例子是有人做了一个假设数据是正态分布的统计检验 - 事实并非如此。

从来不认为静态依赖是一个因果关系(例如在法兰克福,艾滋病病毒与飞机噪声之间存在依赖关系 - 这并不意味着飞行噪音会导致艾滋病毒感染)。

基本上它不是模型的复杂性。您必须使用正确的方法和正确的数据。这很困难。在测试之前,您必须确定您的数据。如果你想检查这一点,只需对模具辊或硬币翻转进行公平性测试。在每次滚动/翻转后使用所有数据。你会看到时不时会发现你的死是不公平的。当然 - 如果你对死亡的公平性进行了大量的独立测试,你会发现一些不公平的测试 - 但这是统计测试中预期的错误。

统计检查中另一个非常基本的事情:确定你的假设是什么。有时候测试不能显示你想要的东西 - 它只能拒绝它。

总之 - 没有某种思想和教育,不要做数据挖掘/统计分析。统计工作方式与人类直觉相反,您可以轻松地欺骗(自己和他人)。

+0

优秀的答案......谢谢。 – lmsasu 2009-07-30 07:44:14