2012-07-19 93 views
0

我正在使用SRILM的ngram-count命令行实用程序试图计算Gutenberg语料库子集的三元模型。该命令行是:如何在计算ngrams时防止折扣为零?

-order 3 -kndiscount -text {$text} -lm {$lm} -gt2min 10 -gt3min 5 -vocab {$vocab} -unk 

不过,我的一些线路都上来了贴现为0(或至少,这就是为什么我认为正在发生的事情

-5.018952 roaming 
-4.189117 roar -0.2053203 
-4.30369 roared 0 <-- discounted to zero? 

也会出现这种情况,如果我。使用-gt1min 0或任何其他值并且实现了最小阈值如何防止这种情况发生?当我尝试将它转换为基于n-gram的FST并在输入中观察其中一个单词句子

回答