2011-01-29 135 views
0

我想为高棉语(在单词之间没有空格的语言)添加一个开源Java分词程序。开发人员在很长时间内没有开展过这方面的工作,并且我无法联系他们了解详情(http://sourceforge.net/projects/khmer/files/Khmer%20Word%20Breaking/Khmer%20Word%20Breaking %20program%20V1.0 /)。据说这个清单是从高棉语字典创建的,我想重新创建文件以包含更多的单词。这是什么类型的Trie?

任何人都可以识别单词词典是什么格式(我相信它是某种类型的Trie)?以下是前几行:

0ឳមអគណជយឍឫហកដពទឱលថឦឡញឩខនឧផប។ឋវឭឈឃឥឌឰឪសងចភធឯតឆរ 
1ទ 
0ក 
1 
1ីែមគួណជយ៍ៀហកទុលេញ៉ឺនំឹៃូឈឃោាឿសងចិ្ធើតៅរ 
1គនសងរ 
0ទ 
0ា 
0យ 
0ព 
0ន 
1 
1រ 
0ា 
0ស 
0ី 
1 

而且没有人知道我怎么会去制作一个新的(我有一个大的单词表,但我不知道如何得到它进入这个格式)。

谢谢!

回答

1

快速浏览代码后,我有一个理论。

创建一个SearchTree其中延伸TreeItem。对于词典中的每个单词,请致电TreeItem致电addWord。迭代完成后,请致电export,电话SearchTree。使用新文件作为单词输入文件。

此外,khwrdbrk.jar,--create可能存在未公开的参数,它将从标准输入中读取新树的单词。

再一次,只是一个理论,但让我知道如果你测试它会发生什么。

+1

我没有回答你的第一部分问题,但后来我怀疑最后一部分是最重要的部分? – 2011-01-29 13:49:42