2015-11-03 65 views
0

当我使用pLSA/LDA这样的主题模型时,我有一个问题:在我们获得每个主题中每个单词的分布后,如何推断新文档的主题分布?我在使用LDA时尝试过“折叠”Gibbs抽样,但是当看不见的文档非常短时,此方法不起作用,因为该主题随机分配给文档中包含的每个单词。例如,考虑具有两个主题的模型,存在令牌w,其中p(w | z1)= 0.09并且p(w | z2)= 0.01。那么一个只含有一个单词w的文档,它的p(z | d)大多是(1.0,0),有时是(0,1.0),因为某种程度上采样过程会将w的主题分配给topic2。我们如何处理这种情况?如何用LDA/pLSA推断新文档的主题分布?

回答

0

我不确定你的意思是“随机性”,因为在应用Gibbs抽样后,主题不应该是随机的,它们应该是有意义的。也许你执行算法的次数少于必要的次数?

此外,你只有两个主题的情况下,概率之和应为1 这似乎是合乎逻辑,如果对于一个给定的令牌瓦特的概率分别是为Z1和Z2 0.9和0.1,然后这个词的90%被分类到z1,10%被分类到z2。虽然只有w的文件是极端情况,但我相信上述情况仍然存在。

我完全不了解您的问题,但也有其他方法来近似LDA,例如变分算法。

This可能会帮助您对新实例进行推理。

相关问题