2
我已经在堆栈溢出数据转储的某些部分训练了一个MALLET的LDA模型,并为训练和测试数据做了70/30分割。使用MALLET训练的LDA模型的奇异瑕疵值
但困惑值是奇怪的,因为它们对于测试集比对于训练集更低。这怎么可能?我认为模型更适合训练数据?
我已经仔细检查了我的困惑计算,但是我没有发现错误。你有什么想法可能是什么原因?
预先感谢您!
编辑:
使用的LL控制台输出代替/训练集的标记值,我已经使用上重新设置培训评估。现在这些价值似乎是合理的。