2017-12-03 102 views
2

我有很少的编程经验,但我正在做一个统计项目,并希望生成一个不等概率样本,其中一个单位的包含概率是基于它的大小(PPS)。如何将概率与尺寸成比例(PPS)使用R的不等概率样本?

基本上,我有两个数据集:

  • ds1列出了美国各州和我想的参数估计
  • ds2都有每个国家的人口规模。

我的问题:

  1. 我想用R使用基于每个状态(第二数据集)的人口包含概率从第一个数据集选择的随机样本。

  2. 还有什么方法可以用R来计算这些广义不等概率估计公式吗?

Generalized Unequal Probability Estimator Estimated Variance of Generalized Unequal Probability Estimator

也只是在公式记:pi_i是包含概率和pi_ij是联合包含概率。

+0

链接是暂时的,在链接图像中引用文本中的内容并不好。说明它是什么:*“与广义不等概率估计公式的链接”*无论如何,“y”应该是:自变量,人口还是什么? – smci

+0

嗨,对不起,我不知道。我编辑它以摆脱链接。 y也是感兴趣的变量。感谢您的帮助! –

+0

没问题。你的第二个问题应该作为一个单独的问题提出来,并且在SO上是偏离主题的,或者至少不会得到很好的回应 - 最好在姊妹网站[CrossValidated](https://statistics.stackexchange.com)上提出统计问题。 – smci

回答

0

是的,这就是所谓的加权取样。简单地将体重设置为状态的大小,严格来说,你甚至不需要通过1/sum(sizes)来标准化它们,尽管它总是很好的做法。 SO上有很多重复的帖子,显示了如何进行加权采样。

唯一的小复杂是你需要做一个join()的数据集ds1, ds2。向我们展示您尝试过的代码是否会导致问题。建议您使用dplyrdata.table

你的第二个问题应该问作为一个单独的问题,是offtopic对SO,或至少不会得到了很大的反响 - 最好是问在姊妹网站统计问题CrossValidated

0

有一个包在R - pps和文档是here相同。

另外,还有一个包叫documentation here的调查包。

我不确定两者之间的差异,也没有自己使用它们。希望这是你正在寻找的。