我有很少的编程经验,但我正在做一个统计项目,并希望生成一个不等概率样本,其中一个单位的包含概率是基于它的大小(PPS)。如何将概率与尺寸成比例(PPS)使用R的不等概率样本?
基本上,我有两个数据集:
ds1
列出了美国各州和我想的参数估计ds2
都有每个国家的人口规模。
我的问题:
我想用R使用基于每个状态(第二数据集)的人口包含概率从第一个数据集选择的随机样本。
还有什么方法可以用R来计算这些广义不等概率估计公式吗?
也只是在公式记:pi_i是包含概率和pi_ij是联合包含概率。
我有很少的编程经验,但我正在做一个统计项目,并希望生成一个不等概率样本,其中一个单位的包含概率是基于它的大小(PPS)。如何将概率与尺寸成比例(PPS)使用R的不等概率样本?
基本上,我有两个数据集:
ds1
列出了美国各州和我想的参数估计ds2
都有每个国家的人口规模。我的问题:
我想用R使用基于每个状态(第二数据集)的人口包含概率从第一个数据集选择的随机样本。
还有什么方法可以用R来计算这些广义不等概率估计公式吗?
也只是在公式记:pi_i是包含概率和pi_ij是联合包含概率。
是的,这就是所谓的加权取样。简单地将体重设置为状态的大小,严格来说,你甚至不需要通过1/sum(sizes)
来标准化它们,尽管它总是很好的做法。 SO上有很多重复的帖子,显示了如何进行加权采样。
唯一的小复杂是你需要做一个join()
的数据集ds1, ds2
。向我们展示您尝试过的代码是否会导致问题。建议您使用dplyr
或data.table
。
你的第二个问题应该问作为一个单独的问题,是offtopic对SO,或至少不会得到了很大的反响 - 最好是问在姊妹网站统计问题CrossValidated
链接是暂时的,在链接图像中引用文本中的内容并不好。说明它是什么:*“与广义不等概率估计公式的链接”*无论如何,“y”应该是:自变量,人口还是什么? – smci
嗨,对不起,我不知道。我编辑它以摆脱链接。 y也是感兴趣的变量。感谢您的帮助! –
没问题。你的第二个问题应该作为一个单独的问题提出来,并且在SO上是偏离主题的,或者至少不会得到很好的回应 - 最好在姊妹网站[CrossValidated](https://statistics.stackexchange.com)上提出统计问题。 – smci