2015-11-07 74 views
0

我想用Vowpal Wabbit进行Logistic回归。我如何处理不平衡的课程(例如1000/50000)?我知道我可以使用重要性权重,但我不确定这是否是这种情况下的最佳选择。还有一些像SMOTE这样的算法,但我不知道如何在Vowpal Wabbit中使用它们。Vowpal Wabbit:不平衡类

回答

0

是的,重要性权重是Vowpal Wabbit中不平衡类的解决方案。最重要的问题是您的最终评估标准是什么。在RO曲线(又名ROC,AUC)下面吗?见Calculating AUC when using Vowpal WabbitHow to perform logistic regression using vowpal wabbit on very imbalanced dataset(这里看到两个答案)。

SMOTE似乎是对少数类过采样和对大部分类进行欠采样的组合,其中过采样通过从例如生成合成示例来完成。 5个最近邻居的例子,它们随机混合在一起。这种方法没有在Vowpal Wabbit中实现,并且与在线学习不兼容(因为最近的邻居)。它可能可能以某种方式以在线方式近似。

+0

可能是F1分数和AUC。我也将使用升降机图表。那么,在网上学习的情况下只重视权重呢? – max04

+1

如果正确完成过采样(和欠采样)应该与重要性权重非常相似。在这两种方法中,您都需要找到最佳常数,例如与交叉验证。生成的合成示例应该减少[方差](http://en.wikipedia.org/wiki/Bias%E2%80%93variance_tradeoff)。套袋('--bootstrap M')可用于相同的目的(请参阅http://stackoverflow.com/questions/30008991/gradient-boosting-on-vowpal-wabbit/30035042#30035042)。 –

相关问题