我必须处理Class Imbalance Problem
并做一个输入测试数据集的binary-classification
,其中大部分类标签是1(其他类标签为0)在训练数据集中。如何处理这种不平衡类别的倾斜数据集?
例如,以下是训练数据的某部分:
93.65034,94.50283,94.6677,94.20174,94.93986,95.21071,1
94.13783,94.61797,94.50526,95.66091,95.99478,95.12608,1
94.0238,93.95445,94.77115,94.65469,95.08566,94.97906,1
94.36343,94.32839,95.33167,95.24738,94.57213,95.05634,1
94.5774,93.92291,94.96261,95.40926,95.97659,95.17691,0
93.76617,94.27253,94.38002,94.28448,94.19957,94.98924,0
其中最后一列是class-label
- 0
或1
。实际数据集与类别的比例非常不一致,即大约700个样本的class label
的值为0,而其余6800的值为1的class label
。
以上提到的只是一些在给定数据集的所有样品的,但实际的数据集包含class-label
为1
,并与class-label
是0
其余样品约90%
,尽管事实或多或少所有的样本都非常相似。
哪种分类器最适合处理这种数据集?
我已经试过logistic-regression
以及svm
与class-weight
参数设置为"balanced"
,但没有得到明显的准确性提高。
由于这不是一个编程问题,您将在[交叉验证](http://stats.stackexchange.com/)上获得更好的响应 – Tchotchke