2016-05-14 370 views
0

是否有可能运行监督分类随机森林最大化灵敏度(TP /(TP + FN))? 据我所知,Accuracy或Kappa是度量标准。 下面是一个真实的例子,其中Kappa和Accuracy错过了根据需要评估模型。正如答案和评论(@Hanjo和@Aaron)所指出的那样,敏感度本身并不是一个好的指标。灵敏度R随机森林

 0 1  T 
0 1213 50 1263 
1 608 63 671 
T 1821 113 1934 

> Precisao(prev_table) 
[1] "accuracy(TP+TN/T)= 0.66" 
[1] "precision(TP/TP+FP)= 0.558" 
[1] "sensitivity(TP/TP+FN)= 0.0939" 
[1] "positive= 671 0.347" 
[1] "negative= 1263 0.653" 
[1] "predicted positive= 113 0.0584" 
[1] "predicted negative= 1821 0.942" 
[1] "Total= 1934" 

这个真正x预测的结果对目标来说很差。

+3

你可以,但为什么特别敏感?查看“caret”库并在训练模型下,将“metric”设置为敏感度。我认为'kappa'是一个更好的评估模型的表现,因为它考虑了类别失衡 –

+0

@ HanjoJo'burgOdendaal,看起来,文档中只有Accuracy和Kappa是可能的指标。 – x00

回答

3

让我解释一下你为什么选择“灵敏度”或“专一”的性能指标可能不是一个好主意,为什么我说你必须或许去kappa(特别是在不平衡类预测)

假设我们有以下的数据集和预测结果:

x Outcome Prediction 
0.515925884 1 1 
0.416949071 0 1 
0.112185499 0 1 
0.557334124 0 1 
0.599717812 0 1 
0.272965861 1 1 
0.898911346 0 1 
0.347428065 0 1 

如果模型预测上的所有观测值1,你将有一个100%的敏感性,并会错误地假定模型做得很好。如果该模型预测所有结果为0,这与100%特异性相关,情况也是如此。但这是否意味着该模型调整得很好?显然不是,作为一个简单的规则来预测所有结果为真正的肯定会给你100%的特异性。现在,kappa使用的模型性能的以下测量:

卡伯统计量(或值)是观察到的精确度与预期的精度(随机机会)比较的度量。这是您模型性能更具代表性的指标。一个很好的答案可以在这里找到Stats Exchange

+0

实际上,事实并非如此。我有多少消极因素,模型评估为很好的答案很多预测的消极因素。重点关注敏感性:模型的目标不是预测假阴性,换句话说,在积极预测中是有效的。用Kappa或Accuracy进行的预测给出5000个样本中的3种不同情况。下面的插图。 – x00

+2

虽然韩城在说什么,你不需要随机森林来最大限度地提高灵敏度。简单地预测1的一切,完成。如果这不是你想要做的,那么你需要一些有权衡的指标。 – Aaron

+0

如果您选择敏感度作为度量标准,那么无论您输入什么内容,您的模型都会学习预测1,因为当您训练时,您无需惩罚它就可以在实际为0的问题上进行猜测1。即不管x变量输入如何,您的模型将始终预测1。 –