我使用以下对数似然公式来比较文档和聚类之间的相似度: log p(d | c)= sum(c(w,d)* log p(w | c )); (w,d)是文档中一个词的频率,p(w | c)是由词组c产生词w的可能性。文档聚类的似然相似性
问题是,基于这种相似性,文档通常被分配到错误的集群。如果我将文档分配给log p(d | c)最高的集群(因为它通常是负值,我将采用-log p(d | c)),那么它将成为包含大量来自文件,但这些词在群集中的概率很低。 如果我将文档分配给具有最低log p(d | c)的群集,那么它将是仅与一个文档具有文档相交的群集。 有人能解释我如何正确使用loglikelihood?我尝试在java中实现这个功能。我已经看过谷歌学者,但在文本挖掘中没有找到合适的对数似然解释。 在此先感谢