2011-04-07 69 views
4

如果我在java中有一个字符串,我该如何确定它属于哪种语言? Unicode规范是否允许我们这样做?确定Java中的unicode字符串的语言

+3

哇,你的意思是你想确定'.'属于哪一种语言?祝你好运:-)我希望你会喜欢有序的“可能的语言”列表 – Riduidel 2011-04-07 14:07:09

回答

5

如果字符串甚至是单词或短语,Unicode字符串中没有指定该字符串所处的语言的元数据。

根据字符串中包含的字符,您可能能够猜出正在使用的语言。例如,Unicode范围30A0-30FF表示日语片假名字符。所以如果你的字符串大部分都是由该范围内的字符组成的,你可以猜测它是日文的。虽然这并不可靠。例如,如果它只是随机片假名字符呢?为了可靠的语言检测,我将放弃使用Unicode作为语言检测基础的所有想法,并专注于语言识别算法。