大数据自举采样

我有一个大型数据集，我试图为该数据集中的所有实例估计函数f（x）。以下哪种方法更好？大数据自举采样

方法1：从数据集中抽样N个实例，并使用这些N个实例的引导来估计f（x）。

方法2：大数据集的M个样本N个实例。然后为这M个样本情况中的每一个计算f（x），然后汇总（例如：平均值）结果。

来源

2015-07-20 Soroosh

没有一个明确的答案，但是通常使用的更多信息更多有关数据集的信息更好（不易过度拟合）。因此，如果您的决定是“我应该只使用N个样本，但是内部使用M次，或M * N个不同的样本”，那么答案将是“缺少针对具体问题的知识 - 第二个”。

来源

2015-07-20 16:08:54 lejlot

所以我应该将我的数据集分成M个不同的集合，然后从每个集合中取N个样本，或者我应该从所有数据中取M * N个样本？ – Soroosh

没有一个明确的答案，因为下一个问题是“M应该多大？”。一般来说 - 这是一个偏差 - 方差的连续问题。让我们假设你可以得到K分。然后把M = 1（一大块数据）导致高方差。另一方面puttin K = M（大量小块）导致高偏差。两者之间的一切都将试图平衡方差和偏差 - 确切的解决方案取决于所使用的特定问题和模型。不幸的是，你将不得不适应这个问题。我会从M的小值开始，比如说2或5，然后从这一点开始。 – lejlot

大数据自举采样

回答

相关问题