0
我有一个使用MALLET训练的LDA主题模型,但我想计算两个文档之间的余弦相似度以获得相似度,但我不确定哪个文件是MALLET输出的,我计算余弦值。如何获得MALLET中两个文档之间的余弦相似度?
我的余弦相似度函数工作正常,但只是不确定我在比较在马鞍山。
任何帮助,将不胜感激!
我有一个使用MALLET训练的LDA主题模型,但我想计算两个文档之间的余弦相似度以获得相似度,但我不确定哪个文件是MALLET输出的,我计算余弦值。如何获得MALLET中两个文档之间的余弦相似度?
我的余弦相似度函数工作正常,但只是不确定我在比较在马鞍山。
任何帮助,将不胜感激!
每个文档将由它的主题组成来表示,所以你必须比较这些文档。使用--output-doc-topics
参数来获取所需的文件。
行是文档,列是属于文档的每个主题的比例。在当前版本(2.0.8)中,按主题ID升序排列 - 否则按从高到低的概率排序。
除了余弦相似之外,您还应该考虑不同的指标,例如, (对称)Kullback-Leibler散度或Hellinger距离。