2014-08-30 131 views
2

我在想,如果它在某种程度上可以定义损失函数在朴素贝叶斯分类scikit学习。例如,我们假设我们对垃圾邮件和火腿分类感兴趣。在这种情况下,这种损失函数将有助于降低假阳性率(即,将火腿归类为垃圾邮件,这比将垃圾邮件归类为“火腿”更糟糕)。损失/风险功能学的朴素贝叶斯分类

为简单起见,我有一个使用随机数据来自高斯here

回答

2

朴素贝叶斯的损失函数总是负关节数似然,-log pXý)。这种选择损失函数,功能独立的朴素贝叶斯假设下,使朴素贝叶斯快:最大似然训练可以执行一个矩阵乘法和简单计算来完成。我能想到的所有其他损失函数都会将您带入迭代优化的土地。

关于您的实际问题:您可以使用scoring='precision'或基于sklearn.metric.fbeta_scoreroc_auc_score的自定义得分函数,尝试使用GridSearchCV来调整学习者参数。尽管如此,我不确定这在幼稚贝叶斯中是否会有很多,所以你可能想要切换到逻辑回归。

+0

谢谢,这是有道理的,我想我会通过GridSearch做一些超参数调整的平滑参数和先验然后。谢谢! – Sebastian 2014-08-31 16:20:15