有趣的是,我在计算器和其他网站上看到了很多不同的答案:我可以使用Train和测试数据进行插补吗?
在处理我的训练数据集时,我使用决策树模型来推算某列的缺失值。所以这是我的问题。使用所有可用数据(训练&测试)来制作插补模型(而不是预测)还是公平的?或者在做这些工作时只能触摸训练集?另外,一旦我开始在我的测试集上工作,我是否必须只使用测试集数据,使用我的训练集中制作的相同插补模型进行插值,还是可以使用所有可用数据重新训练我的插补模型?
只要我没有触及我的测试集进行预测模型训练,我会认为使用其他数据来处理像插值问题一样好。但也许这将打破基本规则。思考?