2017-07-31 42 views
0

我一直在开发利用随机Forest.My训练数据集模型有15列附加列可以说A到O的模型使用上述功能训练。假设测试集的特征或列数也是相同的,但是现在客户端添加了很少的列,且模型未能预测新数据。它适用于回归和分类问题。如何处理测试数据不在列车数据

有什么办法/机制来处理或避免什么,除了在火车可新增加的列?我们是否需要显式编写代码或者可以使用任何参数/内置函数来处理这种情况。感谢你的帮助。谢谢 !

+2

你应该只创建,其中包括只有你在训练或创建识别你选择的列毫升方法调用中的公式列中的数据的一个子集。 – sconfluentus

+0

Thanks..Will做 –

回答

0

只要继续从火车的数据和使用列列的列表只能从该列表中的测试数据。

+1

Sure..That是我的计划,以及..而不是去显式编程寻找其轻松工作。因为,在未来我们可能要几个新的列添加到函数或包培训并重新审视模型。在这种情况下,我们每次都必须更改代码。最初我认为定制可能很复杂..现在有了一个想法。谢谢 –