2017-08-07 73 views
0

我推断新文档的主题分布有一些问题。 其实,我正在使用Spark 2.2.0,并且我已经训练了LDA模型 val lda = new LDA().setK(5).setMaxIterations(24) 如何推断新文档的主题?带火花的LDA模型

回答

1

只有LocalLDAModel能得分反对新的文件,所以需要你的模型转换成第一:

val localLda = lda.toLocal 

那么对于一个单一的文件:

val document: Vector = ??? 
localLda.topicDistribution(document) 

或多个文档:

val documents: RDD[(Long, Vector)] = ??? 
localLda.topicDistributions(documents)