单词中断规则文件

IBM显然是开源的ICU源代码，用于Unicode和全球化支持，其中一部分是文本边界定位器，用于检测文本中可以放置中断的位置。单词中断规则文件

但是，中断检测的东西依赖于规则，我无法在任何位置找到规则文件。

我在哪里可以获得com.ibm.icu.text.BreakIterator和com.ibm.icu.text.RuleBasedBreakIterator的单词分隔规则文本文件？

来源

2009-02-18 user64480

吧？你在那里失去了我。对于这是什么有点背景，可能放在相关标签中呢？ – Yuval 2009-02-18 06:24:18

http://www.icu-project.org/包含IBM根据开源许可证发布的icu4j的所有源代码。这包括边界分析的东西，如基于字典和基于规则的中断迭代器。

但是，似乎没有适合阅读的文本文件。我不确定IBM是否会将他们的规则集作为开源发布（因为这对他们来说是一个非常大的技术优势）。相反，这个想法是创建你自己的规则集，其中的教程是here。

就在同教程的状态，你可以通过运行转储默认规则：

RuleBasedBreakIterator rbbi = (RuleBasedBreakIterator) 
    BreakIterator.getWordInstance(Locale.getDefault()); 
String defaultRules = rbbi.toString();

来源

2009-02-18 06:52:31 paxdiablo

单词中断规则文件

回答

相关问题