2017-04-06 93 views
0

我有一个使用MALLET训练的LDA主题模型,但我想计算两个文档之间的余弦相似度以获得相似度,但我不确定哪个文件是MALLET输出的,我计算余弦值。如何获得MALLET中两个文档之间的余弦相似度?

我的余弦相似度函数工作正常,但只是不确定我在比较在马鞍山。

任何帮助,将不胜感激!

回答

2

每个文档将由它的主题组成来表示,所以你必须比较这些文档。使用--output-doc-topics参数来获取所需的文件。

行是文档,列是属于文档的每个主题的比例。在当前版本(2.0.8)中,按主题ID升序排列 - 否则按从高到低的概率排序。

除了余弦相似之外,您还应该考虑不同的指标,例如, (对称)Kullback-Leibler散度或Hellinger距离。