假设我们有内容的文本文件: “济猪链球菌未情郎HOMME ......”如何判断写入纯文本文件的语言是什么?
另一个具有: “我是一个勇敢的人”
第三,在德国的文本: “Guten morgen。Wie geht's?”
我们如何编写一个函数来告诉我们:第一个 文件中的文本是英文的,第二个文件是法文文件?
欢迎链接到图书/开箱即用的解决方案。我用Java编写,但如果需要,我可以学习Python。
我的评论
- 有一个小评论,我需要补充。文本可能包含不同语言的短语,作为整体的一部分或作为错误的结果。在经典文学中,我们有很多例子,因为贵族成员是多种语言的。所以概率更好地描述了情况,因为文本的大部分都是用一种语言编写的,而其他的可能是用另一种语言编写的。
- Google API - Internet连接。我不想使用远程功能/服务,因为我需要自己做或使用可下载的库。我想对这个话题进行研究。
@EugeneP:法国人会更多“但是一个语言检测器不太可能发现那个错误(或者至少非常罕见的用法)。 – SyntaxT3rr0r 2010-02-24 13:03:41
@WizardOfOdds Je suis un bonhomme alors,merci,quand meme;) – EugeneP 2010-02-24 13:06:53
另外,希望你已经检查过这个:http://stackoverflow.com/questions/1383503/how-to-determine-the-natural-language-of- a-document – 2010-02-24 13:40:15