2015-07-20 68 views
0

我有一个大型数据集,我试图为该数据集中的所有实例估计函数f(x)。以下哪种方法更好?大数据自举采样

方法1:从数据集中抽样N个实例,并使用这些N个实例的引导来估计f(x)。

方法2:大数据集的M个样本N个实例。然后为这M个样本情况中的每一个计算f(x),然后汇总(例如:平均值)结果。

回答

1

没有一个明确的答案,但是通常使用的更多信息更多有关数据集的信息更好(不易过度拟合)。因此,如果您的决定是“我应该只使用N个样本,但是内部使用M次,或M * N个不同的样本”,那么答案将是“缺少针对具体问题的知识 - 第二个”。

+0

所以我应该将我的数据集分成M个不同的集合,然后从每个集合中取N个样本,或者我应该从所有数据中取M * N个样本? – Soroosh

+0

没有一个明确的答案,因为下一个问题是“M应该多大?”。一般来说 - 这是一个偏差 - 方差的连续问题。让我们假设你可以得到K分。然后把M = 1(一大块数据)导致高方差。另一方面puttin K = M(大量小块)导致高偏差。两者之间的一切都将试图平衡方差和偏差 - 确切的解决方案取决于所使用的特定问题和模型。不幸的是,你将不得不适应这个问题。我会从M的小值开始,比如说2或5,然后从这一点开始。 – lejlot