2016-08-04 29 views
2

我使用Scikit-Learn使用LinearSVC对文本进行分类(在我的情况下是推文)。如果文本与训练集中定义的任何类别不匹配,是否有将文本分类为未分类的方法?例如,如果我有体育,政治和电影类别,并试图预测关于计算的推文分类,它应该保持不分类。Scikit-Learn-如何添加“未分类”类别?

回答

1

在监督学习的方式,你不能添加额外的类别。

因此,我会使用一些启发式。尝试预测每个类别的概率。那么,如果所有4个或至少3个概率大致相等,则可以说样本是“未知”的。 对于这种方法LinearSVC或其他类型的支持向量分类器很差 适合,因为它不会自然给出概率。另一个分类器(Logistic回归,贝叶斯,树木,森林)会更好

相关问题