当我使用pLSA/LDA这样的主题模型时,我有一个问题:在我们获得每个主题中每个单词的分布后,如何推断新文档的主题分布?我在使用LDA时尝试过“折叠”Gibbs抽样,但是当看不见的文档非常短时,此方法不起作用,因为该主题随机分配给文档中包含的每个单词。例如,考虑具有两个主题的模型,存在令牌w,其中p(w | z1)= 0.09并且p(w | z2)= 0.01。那么一个只含有一个单词w的文档,它的p(z | d)大多是(1.0,0),有时是(0,1.0),因为某种程度上采样过程会将w的主题分配给topic2。我们如何处理这种情况?如何用LDA/pLSA推断新文档的主题分布?
0
A
回答
0
我不确定你的意思是“随机性”,因为在应用Gibbs抽样后,主题不应该是随机的,它们应该是有意义的。也许你执行算法的次数少于必要的次数?
此外,你只有两个主题的情况下,概率之和应为1 这似乎是合乎逻辑,如果对于一个给定的令牌瓦特的概率分别是为Z1和Z2 0.9和0.1,然后这个词的90%被分类到z1,10%被分类到z2。虽然只有w的文件是极端情况,但我相信上述情况仍然存在。
我完全不了解您的问题,但也有其他方法来近似LDA,例如变分算法。
This可能会帮助您对新实例进行推理。
相关问题
- 1. 如何使用gensim LDA获取文档的完整主题分布?
- 2. 如何获取默认章鱼主题中的最新推文?
- 3. 文字处理,如何使用LDA分配1个主题 - > 1个文档?
- 4. doc2vec - 如何更快地推断文档向量?
- 5. 使用Rails部分中断文档树?
- 6. 如何使用Watson Discovery在特定主题/主题标签上搜索推文?
- 7. 如何推断node.js分析结果?
- 8. 如何推送新分支?
- 9. 通过从现有分布的分布抽样来推断缺失值
- 10. 如何获取新文档的主题矢量并与Mallet中的预定义主题模型进行比较?
- 11. 如何在asp.net中显示特定主题上的最新推文?
- 12. 为什么通过MALLET主题推断获得与单个和批量文档不同的结果?
- 13. 如何判断活动文档是否为文本文档?
- 14. 分布式系统中的主题
- 15. 主题分布的不同维度
- 16. 来自特定主题标签的推文并从特定应用发布
- 17. 主题开发的Wordpress脱机文档
- 18. 推断标记的LDA/pLDA [主题建模工具箱]
- 19. 如何在BrowserField中加载文档时推送新屏幕?
- 20. C#主题 - 中断
- 21. 可以从XML文档的结构推断出什么?
- 22. 如何将2个主题分支重新分配到新分支上?
- 23. 分布式中断
- 24. 如何使用`update`将新元素推入mongo文档中的数组?
- 25. 谷歌地图文档使用不推荐的PHP - 我如何更新它?
- 26. 如何将功能分支中的文件推送到远程的主分支?
- 27. JDK8类型推断问题
- 28. Mendeley - 如何使用新文档获得分页响应API
- 29. 如何更新DocumentDb文档?
- 30. 如何更新Mongodb文档?