0
因此,目前我的训练和测试集以669个功能开始,其中许多功能是分类的,并且需要进行一次性编码。如何处理我的训练和测试数据之间的功能差异
经过一个热点编码两个集合后,我发现训练集具有附加功能。
我不太知道如何处理这一点,但我觉得我有三种选择:
- 取下训练这些功能设置这样既投其所好
- 添加这些功能测试集和产生合成数据。
- 在我训练模型之前,使用一些降维技术(PCA)并使用相同数量的组件进行训练和测试。
任何反馈将不胜感激。