2016-04-28 88 views
2

我已经开始使用Galago进行文档检索。我想使用LDA将一些文档(最初用任何模型检索的文档)聚类。我更喜欢使用基于Java的实现,可以使用Galago将其集成到我的代码中。如果您能让我知道LDA的开源实现更适合我的用途,我将不胜感激。在Galago搜索引擎中使用LDA

非常感谢您的帮助!

回答

0

有从本文提出了一种快速算法LDA:

S.阿罗拉,R.戈,Y.哈珀恩,D. Mimno,A. Moitra,D.桑塔格,Y.吴,M.朱。一种实用的带可证保证的主题建模算法。第30届国际会议上的机器学习(ICML),2013年

已经由GitHub上这里的作者(D. Mimno)的一个Java实现:https://github.com/mimno/anchor

我这个实现戳左右简要地说,发现了好的和快速的结果。像所有LDA/Topic建模一样,获取正确的主题数量可能具有挑战性。

+0

嗨,John,谢谢你的帮助。我只有一个问题:在--topics-file指定的train-anchor的输出文件中,是概率p(topic | word)* p(word)?我有这个问题,因为该手册说p(主题词),但在代码中,我发现wordProb *权重[主题];再次感谢! – Magen