0
我有大约150k文档的非结构化数据。我正尝试使用无监督学习算法对这些文档进行分组。目前我在gensim Python中使用LDA(潜在Dirichlet分配)。对于LDAModel,我已经通过了num_topics = 20。因此,我的整个150k数据都属于20个主题。LDA - 为主题分配关键字
现在,我有这些群体,我有2个问题:
- 我应该如何分配新的文件,以这些主题?
我正在采用的方法是: 计算每个主题文档的单词分数总和,并将文档分配给分数最高的主题。但是,这并没有给我带来好的结果。
有没有更好的方法来得到这个?
- 如何分配表示主题的主关键字?
如果你的主题是预定义的,这是一个分类,而不是一个聚类问题。 –
我修改了这个问题,我给出了20个作为num_topics参数的预定义含义。 –