2016-12-26 172 views
0

我有一组带有三个标签'd','e'和'k'的分类数据。我想训练一个分类器来识别'd'并将它们从数据集中移除,然后标识'e'。目前,我将数据分成三部分,我将其称为X1,X2,X3。我在X1上训练一个学习者L1,使用那个学习者去除X2上的'd'标签,然后我用它来训练第二个学习者L2,我在X3上测试它。这是一种合理的方法,在这种情况下是否有公认的标准?在一个数据集上使用两种不同的算法进行交叉验证

+0

为什么在找到'e'之前必须删除'd'?这是为了以某种方式提高性能吗? (如果是这样,这不一定是我会采取的方法) – etov

+0

我实际上不知道/不记得是否存在通过这种方式解决问题的性能改进。让我检查一下,我会发布“结果”。 – johnklawlor

+0

再想一想,我不明白这里的目标。你的目标是衡量分类器的性能吗?或者实际删除'd'并在某些未注释的数据上标识'e'? – etov

回答

0

通常有两种常用的评估分类器性能的技术:使用整个数据集(使用数据的多个“折叠”)的交叉验证和排除某些数据的保留集从培训进行评估。通常,保留集比用于训练的数据(例如80/20或70/30)小得多。

在这种情况下,一个选项是保持一个保持集;对学习集进行任何学习和改变,即训练分类器,去除'd'元素,训练另一个分类器,识别'e'元素;然后测试整个过程对抗你的坚持。

相关问题