2017-06-21 78 views
0

我想了解LDA主题模型如何在槌子API中实现。在ParallelTopicModel类中,我可以看到一个称为typeTopicCounts的2D int数组,它在buildInitialTypeTopicCounts()方法中通过一些按位操作初始化,并稍后用于每个文档。我的问题是这个数组值意味着什么?我只能从源代码中获得的信息是它被[特征索引,主题索引]索引。typeTopicCounts功能的主题建模实施槌子API

回答

0

针对LDA的吉布斯采样的计算性能主要是通过计算每个词标记的主题抽样分布。话题模型被设置为在话语和话题之间具有很多稀疏的关系。如果我们可以通过从一个词到下一个词节省尽可能多的计算并且只做​​有意义的计算(比如不乘以零)来使得计算更有效率,那么我们可以获得很大的加速。

每个单词类型在typeTopicCounts数组中有一个int s的数组。这个数组中的每个int值的含义使用位移运算符编码两个一个话题和一个令牌计数。计数值位于高位,因此我们可以按“计数”对主题进行排序,而无需“解包”整数。从这个方法的教程

幻灯片都可以在这里:

https://mimno.infosci.cornell.edu/slides/fast-sparse-sampling.pdf