2017-06-06 291 views
1

如果数据集包含多个分类,例如, 0级,1级和2级。现在的目标是将新样本分成0级或非0级用于二进制分类的训练多级分类器

一个罐

  1. 结合1,2-类成一个统一的非0级和训练二元分类器,
  2. 或训练多级分类器做二元分类。

这两种方法的性能如何?

我认为更多的类别会带来更准确的判别式曲面,但1类和2类的权重都低于非0级,导致样本被判断为非0级。

回答

0

简短的回答:你将不得不尝试两种看看。

为什么?:这真的取决于你的数据并使用算法(就像许多其他机器学习问题..)

对于许多分类算法(例如SVM,Logistic回归),甚至如果你想做一个多级分类,你将不得不执行一对一的分类,这意味着你必须把1级和2级视为同一个分类。因此,如果您只需要分离出0,就没有必要运行多类场景。对于诸如神经网络等具有多个输出类的算法更自然的算法,我认为训练一个多类分类器如果你的0,1和2类非常不同,可能会更有益处。但是,这意味着您将不得不选择更复杂的算法来适应所有三种算法。但适合可能会更好。因此,正如已经提到的那样,你将不得不尝试两种方法并使用一个很好的度量来评估性能(例如混淆矩阵,F分数等)。我希望这有些帮助。

相关问题