2017-09-25 199 views
0

初学者RapidMiner问题在这里。假设我已经完成了通过例如开发预测kNN模型的工作。交叉验证,我现在想用这个模型对我所做过的整个数据集(训练和测试集)进行预测,这是如何完成的?我已经试过如下:在RapidMiner的整个数据集中应用kNN模型

enter image description here

但随后的每个对象的“标签”已包含在它自己的最近邻所以如果k = 1的预测误差= 0,这显然是不应该的。

回答

0

你是对的,将模型应用于它所训练的相同数据是错误的。通常情况下,谁会设置一部分数据用于训练模型,然后是另一部分(不参与训练)用于测试。请记住,交叉验证通常不是培训的一部分,而是一种确保您的模型稳定并且不会对所呈现的数据进行过度训练的方法。

我可以推荐看看applyingtestingvalidating上的RapidMiner教程视频。

也可随时在RapidMiner community forum中进一步询问或重新发布问题。

1

确定它可以通过提取内“交叉验证”的“测试仪”来完成见下图:

enter image description here

所以基本上整个数据集是测试和训练集合时,使用交叉验证预测也作为额外的列包含在输出中,不确定它们是平均值还是仅仅是最新的迭代。

+0

啊,对不起,如果我把你的问题弄错了。顺便说一句,分享RapidMiner流程的XML文件非常方便。 – David

+0

没有probs感谢烦扰回答。它有点棘手的问题,因为kNN是一个特殊的情况下,当涉及到培训/测试有一个有趣的讨论在这里:https://stackoverflow.com/questions/10814731/knn-training-testing-and-validation – Johan

相关问题