2017-04-23 94 views
2

我已经在堆栈溢出数据转储的某些部分训练了一个MALLET的LDA模型,并为训练和测试数据做了70/30分割。使用MALLET训练的LDA模型的奇异瑕疵值

但困惑值是奇怪的,因为它们对于测试集比对于训练集更低。这怎么可能?我认为模型更适合训练数据?

我已经仔细检查了我的困惑计算,但是我没有发现错误。你有什么想法可能是什么原因?

预先感谢您!

enter image description here

编辑:

使用的LL控制台输出代替/训练集的标记值,我已经使用上重新设置培训评估。现在这些价值似乎是合理的。

enter image description here

回答

2

这是有道理的。 LL /令牌编号为您提供观察词的主题分配的可能性,而支出概率给出了观察词的边际概率,总结了主题。