2015-10-13 81 views
0

我有美国人口样本的数据。样本的数据集有N = 10,000条记录。每行由定量解释变量E来描述,该价格影响人们返回购买物品的概率R。样本和群体有必要具有类似的分布,以确保将统计模型链接到R的统计模型的有效性。R:将探索变量的分布调整为已知的非正态分布

美国人群和样本中的E的频率分布之间存在显着差异(参见下面的摘要)。特别是,正态分布似乎不能很好地描述人口分布。

Value of E Population Distribution of E Sample Distribution of E 
0-10  56.57% 92.95% 
10.01 - 20 6.90% 1.19% 
20.01 - 30 8.29% 1.38% 
30.01-40 5.87% 0.85% 
40.01 - 50 8.18% 0.32% 
50.01 - 60 4.63% 0.48% 
60.01-70 1.34% 0.32% 
70.01 - 80 1.50% 0.08% 
80.01 - 90 0.29% 0.49% 
90.01-100 3.72% 1.12% 
100.01-110 2.10% 0.69% 
110.01-120 0.24% 0.00% 
120.01+  0.35% 0.13% 

有什么好东西在[R做,使样品的Ë - 配送更接近民众的,希望能够与之匹敌?我试图过滤低E值的示例数据无济于事。同时,由于大多数常见转换试图使数据符合正态分布,所以我不太确定要使用哪种转换 - 这在这里似乎不适用。

我自己认为E的转换(可能包括加权)是允许的,删除行可接受的边界和创建禁止的新行---但是我希望任何关于什么操作通常被认为在类似的情况下被认为是允许的我的。

感谢您的输入。

最佳,

PDE

+0

这真的是一个R特定的问题吗?你会怎么做它的任何语言。如果你没有答案,那么这个问题可能更适合[stats.se]讨论统计主题。 – MrFlick

+0

因为这个问题的理论/统计方面是非常强大的,所以我确实发布了交叉验证。然而,我希望能够深入了解人们如何使用R来尝试将数据“适合”已知的非正态分布。我广泛使用R来确保正常,但这是我第一次不得不处理这种问题。 – PDE

回答

0

的最佳方式,这将是使用预测区间。很明显,您的大部分样本的E值都很低。这意味着您对E的低值的R的预测值相对有信心。但是,当您远离数据范围时(即非常E的高值),你对R的预测就没那么自信了。