2017-04-19 186 views
1

我使用20newsgroups数据集上的python gensim软件包来拟合分层Dirichlet过程(HDP)主题模型,并且我发现我的主题不是非常丰富(顶级单词概率非常小)。如何减少gensim的字典大小?

我正在使用标准化文本预处理,其中包括标记化,停用词删除和词干。我在考虑减小字典大小可以帮助您创建更有意义的主题。有什么方法可以减少gensim中的字典大小?

回答

1

我发现下面的代码有助于大大减少字典大小,实现更有意义的主题:

dictionary = corpora.Dictionary(docs, prune_at=num_features) 
dictionary.filter_extremes(no_below=10,no_above=0.5, keep_n=num_features) 
dictionary.compactify() 

减少字典大小的第一次尝试是prune_at参数,第二次尝试是filter_extremes()函数定义在: gensim dictionary