1
我想程序的机器学习算法从训练数据来学习和分类实例的语言。总共有4个分类:波兰语,法语,斯洛伐克语,德语。测试在语言检测从训练完全不同的设置设置
在训练数据,该数据是完整的句子,但是看一下测试数据时,数据是由刚刚单个字符表示。
例如,我的训练数据的一个实例是这样的:
"Et oui cest la fille du patron Il fait tout"
但我的测试数据是这样的:
"e e n t l n r i a e i a v i t s r e t n"
为什么我的训练数据集是从我的测试如此不同数据集,以及该问题的适当特征选择是什么?