0
IBM显然是开源的ICU源代码,用于Unicode和全球化支持,其中一部分是文本边界定位器,用于检测文本中可以放置中断的位置。单词中断规则文件
但是,中断检测的东西依赖于规则,我无法在任何位置找到规则文件。
我在哪里可以获得com.ibm.icu.text.BreakIterator
和com.ibm.icu.text.RuleBasedBreakIterator
的单词分隔规则文本文件?
IBM显然是开源的ICU源代码,用于Unicode和全球化支持,其中一部分是文本边界定位器,用于检测文本中可以放置中断的位置。单词中断规则文件
但是,中断检测的东西依赖于规则,我无法在任何位置找到规则文件。
我在哪里可以获得com.ibm.icu.text.BreakIterator
和com.ibm.icu.text.RuleBasedBreakIterator
的单词分隔规则文本文件?
http://www.icu-project.org/包含IBM根据开源许可证发布的icu4j的所有源代码。这包括边界分析的东西,如基于字典和基于规则的中断迭代器。
但是,似乎没有适合阅读的文本文件。我不确定IBM是否会将他们的规则集作为开源发布(因为这对他们来说是一个非常大的技术优势)。相反,这个想法是创建你自己的规则集,其中的教程是here。
就在同教程的状态,你可以通过运行转储默认规则:
RuleBasedBreakIterator rbbi = (RuleBasedBreakIterator)
BreakIterator.getWordInstance(Locale.getDefault());
String defaultRules = rbbi.toString();
吧?你在那里失去了我。对于这是什么有点背景,可能放在相关标签中呢? – Yuval 2009-02-18 06:24:18