2017-10-15 50 views
1

我想程序的机器学习算法从训练数据来学习和分类实例的语言。总共有4个分类:波兰语,法语,斯洛伐克语,德语。测试在语言检测从训练完全不同的设置设置

在训练数据,该数据是完整的句子,但是看一下测试数据时,数据是由刚刚单个字符表示。

例如,我的训练数据的一个实例是这样的:

"Et oui cest la fille du patron Il fait tout" 

但我的测试数据是这样的:

"e e n t l n r i a e i a v i t s r e t n" 

为什么我的训练数据集是从我的测试如此不同数据集,以及该问题的适当特征选择是什么?

回答

0

这是可疑的,你有火车这样设置。唯一的方法来考虑是使用概率分布给出
如果你有足够大的段落就可以计算出百分比值计数的每个字母给定的语言,并与您的数据相匹配。
例如,众所周知,在足够大的英文文本字母“a”出现〜8.167%,但是在字母“e”〜12.702%的德国“一”时〜6%和“e”〜16.4%。其他语言有不同的分布。
检查这个维基百科文章:https://en.wikipedia.org/wiki/Letter_frequency