2009-02-18 59 views
0

IBM显然是开源的ICU源代码,用于Unicode和全球化支持,其中一部分是文本边界定位器,用于检测文本中可以放置中断的位置。单词中断规则文件

但是,中断检测的东西依赖于规则,我无法在任何位置找到规则文件。

我在哪里可以获得com.ibm.icu.text.BreakIteratorcom.ibm.icu.text.RuleBasedBreakIterator的单词分隔规则文本文件?

+0

吧?你在那里失去了我。对于这是什么有点背景,可能放在相关标签中呢? – Yuval 2009-02-18 06:24:18

回答

2

http://www.icu-project.org/包含IBM根据开源许可证发布的icu4j的所有源代码。这包括边界分析的东西,如基于字典和基于规则的中断迭代器。

但是,似乎没有适合阅读的文本文件。我不确定IBM是否会将他们的规则集作为开源发布(因为这对他们来说是一个非常大的技术优势)。相反,这个想法是创建你自己的规则集,其中的教程是here

就在同教程的状态,你可以通过运行转储默认规则:

RuleBasedBreakIterator rbbi = (RuleBasedBreakIterator) 
    BreakIterator.getWordInstance(Locale.getDefault()); 
String defaultRules = rbbi.toString();