2017-06-02 57 views
0

我想标签一些文件,我尝试了LDA算法,但结果太混乱。我决定使用监督方法,所以我创建了自己的主题词矩阵,但我不知道如何生成文档主题矩阵。你知道一些很好的主题建模算法,可以使用主题词矩阵进行训练吗?主题建模与机器学习与LDA

回答

1

如果您确实创建了正确的主题词矩阵。您只需计算每个文档的主题权重。例如,您可以使用每个文档中每个单词的出现次数,然后总结这些单词的主题权重。您可能需要添加一些系数,如发生次数,但它非常简单。

您也可以使用LDA算法,但忽略处理主题词矩阵的训练步骤。我不知道你使用哪个实现,但是在Sklearn之后你可以直接传递矩阵作为components_属性,然后使用transform函数。

+0

感谢您的回答,我使用sklearn实现。我按照你的建议做了,但我得到了这个错误:'AttributeError:'LatentDirichletAllocation'对象没有属性'exp_dirichlet_component_''我不是机器学习算法的专家,你可以向我解释如何启动这个组件? –