2011-12-20 87 views
2

我使用朴素贝叶斯分类器进行客户支持的情感分析。但不幸的是,我在客户支持领域没有大量的注释数据集。但是我在同一个域中有少量的注释数据(大约100个正数和100个负数)。我也有亚马逊产品评论数据集。Apache Mahout中的加权朴素贝叶斯分类器

是否有反正我可以使用mahout实现加权朴素贝叶斯分类器,这样我就可以给予亚马逊产品评论数据的一小部分客户支持数据和小重量更多的权重。对上述加权数据集的训练将大大提高我猜测的准确性。请帮助我一样。

回答

1

一个非常简单的方法是过采样。即多次重复培训数据中的客户支持示例。

虽然这不是同一个问题,但你可以通过研究类不平衡的方法来获得更多的想法;特别是过采样(如上所述)和欠采样。

+0

我只是尝试了类似的东西。使用小型训练数据对样本数据集进行分类,随机交叉检查,然后将其添加到训练集中。 – Greenhorn 2011-12-28 09:23:26