2009-05-24 60 views
0

假定无限存储其中大小/容量/物理(度量,千兆字节/特拉特)不会影响元素及其标签的数量,统计模式应该已经出现在30个子集上,但是您是否同意少于1000个子集是太少以至于不能测试,并且至少10000个不同的子集/“元素”,“条目”/实体是“大数据集”。还是更大? 谢谢“大”数据集有多少个?

+1

您应该指定包含数据集的数据类型以及您想要对其执行的统计分析。 – akappa 2009-05-24 08:13:35

回答

3

我不知道我理解你的问题,但它听起来像你试图问你需要抽样的数据集有多少元素,以确保一定程度的准确性(30是神奇的数字来自经常播放的中心极限定理)。

如果是这样,您需要的样本量取决于置信水平和置信区间。如果您想要95%的置信水平和5%的置信区间(即您希望95%确信您从样本中确定的比例在整个数据集的比例的5%以内),您最终需要一个样本量不超过385个元素。置信水平越高,要生成的置信区间越小,您需要的样本量就越大。

这是关于mathematics of determining sample size 以及方便的sample size calculator的一个很好的讨论,如果你只是想运行的数字。