你好的人我执行一个项目Stupid Backoff(第2页,方程5)平滑技术我的工作,我必须就其执行的问题。这是NLP中使用的平滑算法,Good-Turing是我猜最熟悉的类似算法。愚蠢的退避实施澄清
算法的简要描述: 当试图找到这个词的出现在一个句子中它会先看看上下文的单词的n元水平,如果没有正克的概率大小将递归到(n-1)图并将其分数乘以0.4。递归在unigrams处停止。
所以如果我想在“阳光灿烂的日子”中找到“日”的概率,它首先会查看语料库中是否存在三元组“阳光灿烂的日子”,如果不是这样尝试用两字“阳光灿烂的日子”一样,最终它只是得到“天”是由卵巢大小划分的频率(在训练数据字的总数)。
我的问题是:我每一次我减少正克的大小时乘以0.4的分数?
所以,如果我们不能够找到一个三克或每克最终比分将是上面的例子:
0.4 * 0.4 *频率(天)/ corpus_size?
还是我只是在最后一级倍增曾经那么不管我有多少回退,使我刚乘最后得分0.4?
是的,你每次乘 – 2013-05-05 15:50:39