2013-04-24 34 views
0

EM软聚类在Lingpipe的EM教程,他们说,这是可能的运行没有监督数据的算法:在lingpipe

有可能通过具有初始分类训练在一个完全无监督形式的分类随机分配类别。只有类别的数量必须确定。算法是完全一样的,收敛后的结果或最大数量的时期是一个分类器。

但是他们的班级TradNaiveBayesClassifier需要标记和未标记的语料库运行。我怎样才能修改它运行没有标签的数据?

回答

0

EM是概率最大似然最优化算法。一般来说,它被应用于无监督算法(用于聚类),如PLSA,高斯混合模型。

我认为线管文件是说你可以使用所有数据标签的随机初始化(每个数据的标签分布),然后送入NB计算ELBO(证据下限),然后最大化它以获得更新参数。

总之,您将需要使用NB写出M步 - 更新模型参数。

相关问题