3
Java的BreakIterator类允许根据给定语言环境的规则将句子分割成字符,单词和句子。有人可以给我一个示例文本字符串,其字和句子边界在不同的语言环境中由BreakIterator进行不同的解释吗?Java BreakIterator的单词和句子拆分器的特定于语言环境的行为示例?
Java的BreakIterator类允许根据给定语言环境的规则将句子分割成字符,单词和句子。有人可以给我一个示例文本字符串,其字和句子边界在不同的语言环境中由BreakIterator进行不同的解释吗?Java BreakIterator的单词和句子拆分器的特定于语言环境的行为示例?
嗯,这可以解释,但我认为Taiwanese locale的例子是一个更好的例子。根据维基百科,这名字叫嘉英,嘉陵江的嘉,英國的英
是一系列中文字(我的名字是Jiāyīng)。 BreakIteator能够将其解码为分词。
无论我在BreakIterator的getWordInstance()中使用哪种语言环境,它都会将“名字叫嘉英,嘉陵江的嘉,英国的英”分成三个单词(和“名字叫嘉英嘉陵江的嘉英国的英”逗号 - 只是一个字)。你使用哪对语言你会得到不同的结果? – Psychonaut