在一个数据集上使用两种不同的算法进行交叉验证

我有一组带有三个标签'd'，'e'和'k'的分类数据。我想训练一个分类器来识别'd'并将它们从数据集中移除，然后标识'e'。目前，我将数据分成三部分，我将其称为X1，X2，X3。我在X1上训练一个学习者L1，使用那个学习者去除X2上的'd'标签，然后我用它来训练第二个学习者L2，我在X3上测试它。这是一种合理的方法，在这种情况下是否有公认的标准？在一个数据集上使用两种不同的算法进行交叉验证

来源

2016-12-26 johnklawlor

为什么在找到'e'之前必须删除'd'？这是为了以某种方式提高性能吗？（如果是这样，这不一定是我会采取的方法） – etov

我实际上不知道/不记得是否存在通过这种方式解决问题的性能改进。让我检查一下，我会发布“结果”。 – johnklawlor

再想一想，我不明白这里的目标。你的目标是衡量分类器的性能吗？或者实际删除'd'并在某些未注释的数据上标识'e'？ – etov

通常有两种常用的评估分类器性能的技术：使用整个数据集（使用数据的多个“折叠”）的交叉验证和排除某些数据的保留集从培训进行评估。通常，保留集比用于训练的数据（例如80/20或70/30）小得多。

在这种情况下，一个选项是保持一个保持集;对学习集进行任何学习和改变，即训练分类器，去除'd'元素，训练另一个分类器，识别'e'元素;然后测试整个过程对抗你的坚持。

来源

2016-12-27 15:39:49 etov

在一个数据集上使用两种不同的算法进行交叉验证

回答

相关问题