初学者RapidMiner问题在这里。假设我已经完成了通过例如开发预测kNN模型的工作。交叉验证,我现在想用这个模型对我所做过的整个数据集(训练和测试集)进行预测,这是如何完成的?我已经试过如下:在RapidMiner的整个数据集中应用kNN模型
但随后的每个对象的“标签”已包含在它自己的最近邻所以如果k = 1的预测误差= 0,这显然是不应该的。
初学者RapidMiner问题在这里。假设我已经完成了通过例如开发预测kNN模型的工作。交叉验证,我现在想用这个模型对我所做过的整个数据集(训练和测试集)进行预测,这是如何完成的?我已经试过如下:在RapidMiner的整个数据集中应用kNN模型
但随后的每个对象的“标签”已包含在它自己的最近邻所以如果k = 1的预测误差= 0,这显然是不应该的。
你是对的,将模型应用于它所训练的相同数据是错误的。通常情况下,谁会设置一部分数据用于训练模型,然后是另一部分(不参与训练)用于测试。请记住,交叉验证通常不是培训的一部分,而是一种确保您的模型稳定并且不会对所呈现的数据进行过度训练的方法。
我可以推荐看看applying,testing和validating上的RapidMiner教程视频。
也可随时在RapidMiner community forum中进一步询问或重新发布问题。
啊,对不起,如果我把你的问题弄错了。顺便说一句,分享RapidMiner流程的XML文件非常方便。 – David
没有probs感谢烦扰回答。它有点棘手的问题,因为kNN是一个特殊的情况下,当涉及到培训/测试有一个有趣的讨论在这里:https://stackoverflow.com/questions/10814731/knn-training-testing-and-validation – Johan