2011-02-25 29 views
2

我已成功运行mahout lda,并使用命令mahout ldatopics显示输出。确定Mahout LDA输出上的文档ID

例如我的主题是科学和运动。那么输出将是这样的: 话题0 篮球, 播放, 棒球 话题1个 研究, 研究, 理念现在

我的问题是我怎么能,识别个人物品的团体或集群。 是否有ID号或某种跟踪,以便我添加的每个新文章都将被分组或添加到特定的群集/主题。

如果我已经有了集群,下一步是什么?

感谢

回答

0

我一直在寻找通过源代码,我不能找到一个矩阵THETA提及任何计算给定的文档主题的概率,因为没有输入一个Alpha值来估算每个文档和LDAState类的主题有一个logProbWordGivenTopic(int, int)方法,但没有像getProbTopicGivenDocument()我只能假设LDA的mahout实现不处理发现特定文档的主题分布。如果别人知道的更好,我很想做错。

+0

作为更新检查出来:https://issues.apache.org/jira/browse/MAHOUT-458?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&focusedCommentId=12896645#action_12896645 它看起来像在更高版本中已被修复 – Kevin 2011-03-03 17:21:35