我想为高棉语(在单词之间没有空格的语言)添加一个开源Java分词程序。开发人员在很长时间内没有开展过这方面的工作,并且我无法联系他们了解详情(http://sourceforge.net/projects/khmer/files/Khmer%20Word%20Breaking/Khmer%20Word%20Breaking %20program%20V1.0 /)。据说这个清单是从高棉语字典创建的,我想重新创建文件以包含更多的单词。这是什么类型的Trie?
任何人都可以识别单词词典是什么格式(我相信它是某种类型的Trie)?以下是前几行:
0ឳមអគណជយឍឫហកដពទឱលថឦឡញឩខនឧផប។ឋវឭឈឃឥឌឰឪសងចភធឯតឆរ
1ទ
0ក
1
1ីែមគួណជយ៍ៀហកទុលេញ៉ឺនំឹៃូឈឃោាឿសងចិ្ធើតៅរ
1គនសងរ
0ទ
0ា
0យ
0ព
0ន
1
1រ
0ា
0ស
0ី
1
而且没有人知道我怎么会去制作一个新的(我有一个大的单词表,但我不知道如何得到它进入这个格式)。
谢谢!
我没有回答你的第一部分问题,但后来我怀疑最后一部分是最重要的部分? – 2011-01-29 13:49:42