2014-10-31 78 views
1

我是机器学习的开端,我想知道是否可以将机器学习应用于以下情况。将机器学习应用于分析混合语言

图片我传递一个混合语言字符串(英语+其他东西)的机器学习库,我希望库告诉我,如果这串已经完全从英语翻译成目标语言与否。例如

例1:

  • 输入: “我阿穆尔iphone” #(我爱iPhone在西班牙)
  • 预期的结果:
    并不需要未来翻译为 'iPhone' 是品牌名称

实施例2:

  • 输入:

    “请上传您的文件” #(请上传您的文件在中国)

  • 预期的结果:

    需要未来的翻译(对中国)的 “上传” 是一个动作应该翻译。

如果学习机可以适用于这一点,那我应该怎么挑输入字符串的尺寸和算法,我应该挑选(logistic回归或神经网络?)

感谢

回答

1

自然语言处理是一个庞大而多样的领域。你可以从很多方面考虑你的例子。

首先是字符集和符号编码。大多数非浪漫语言将具有标准26字母字母之外的字符。如果您看到某种语言的核心字符范围内外的字符,则需要大量字典。

第二个是看一组例子或单词在一定的语言和使用朴素贝叶斯分类与语言的话在一些训练集关联。

您可以进一步去做干检测和更多,但我没有研究过他们不够好。考虑发布在Crossvalidated上。

+0

感谢您的回复。其实我正在考虑非浪漫语言检测。基本上,第一步是从给定字符串中提取所有英文字符,如果没有英文字符串,则不需要将来的工作,否则,分析英文字符串(动词,名词等)的语音。那么可能有两种情况:如果英文字符串是动词,很可能需要将来翻译,否则如果它是名词,除非它是品牌名称,则可能需要将来的翻译。 – user2966813 2014-10-31 05:09:57

+0

这是一个实用的方法吗? – user2966813 2014-10-31 05:23:17