如何用LDA/pLSA推断新文档的主题分布？

当我使用pLSA/LDA这样的主题模型时，我有一个问题：在我们获得每个主题中每个单词的分布后，如何推断新文档的主题分布？我在使用LDA时尝试过“折叠”Gibbs抽样，但是当看不见的文档非常短时，此方法不起作用，因为该主题随机分配给文档中包含的每个单词。例如，考虑具有两个主题的模型，存在令牌w，其中p（w | z1）= 0.09并且p（w | z2）= 0.01。那么一个只含有一个单词w的文档，它的p（z | d）大多是（1.0,0），有时是（0,1.0），因为某种程度上采样过程会将w的主题分配给topic2。我们如何处理这种情况？如何用LDA/pLSA推断新文档的主题分布？

来源

2015-11-03 starays

我不确定你的意思是“随机性”，因为在应用Gibbs抽样后，主题不应该是随机的，它们应该是有意义的。也许你执行算法的次数少于必要的次数？

此外，你只有两个主题的情况下，概率之和应为1 这似乎是合乎逻辑，如果对于一个给定的令牌瓦特的概率分别是为Z1和Z2 0.9和0.1，然后这个词的90％被分类到z1，10％被分类到z2。虽然只有w的文件是极端情况，但我相信上述情况仍然存在。

我完全不了解您的问题，但也有其他方法来近似LDA，例如变分算法。

This可能会帮助您对新实例进行推理。

来源

2015-12-02 16:58:46 KLaz

如何用LDA/pLSA推断新文档的主题分布？

回答

相关问题