2016-11-21 208 views
2

我想在数据科学项目中进行预测,并通过非对称函数计算误差。自定义丢失函数sklearn

是否有可能调整的随机森林或梯度推进(的sklearn)的损失函数?

我已阅读,则需要修改.pyx文件,但我无法找到任何在我sklearn文件夹(我是在Ubuntu 14.04 LTS)。

您有什么建议吗?

回答

2

您不需要更改任何文件中的任何内容。

修改.py文件通常是一个坏主意,一个应该避免这样做。

如果你想创建自己的评分函数,here是链接到sklearn的文档,说明如何做到这一点。

+7

您的链接用于评分,而不是用于培训的目标函数。 –

+4

错了。链接到的“评分功能”可以在训练期间进行优化。 – AlexG

+2

谢谢MMF,但我理解像米哈伊尔。我了解到,您的链接显示将构建由scikitlearn执行的k-fold交叉验证所使用的记分器。您的链接中的记分员不在增长的树过程中使用。 –

2

是的,可以调整。例如:

class ExponentialPairwiseLoss(object): 
    def __init__(self, groups): 
     self.groups = groups 

    def __call__(self, preds, dtrain): 
     labels = dtrain.get_label().astype(np.int) 
     rk = len(np.bincount(labels)) 
     plus_exp = np.exp(preds) 
     minus_exp = np.exp(-preds) 
     grad = np.zeros(preds.shape) 
     hess = np.zeros(preds.shape) 
     pos = 0 
     for size in self.groups: 
      sum_plus_exp = np.zeros((rk,)) 
      sum_minus_exp = np.zeros((rk,)) 
      for i in range(pos, pos + size, 1): 
       sum_plus_exp[labels[i]] += plus_exp[i] 
       sum_minus_exp[labels[i]] += minus_exp[i] 
      for i in range(pos, pos + size, 1): 
       grad[i] = -minus_exp[i] * np.sum(sum_plus_exp[:labels[i]]) +\ 
          plus_exp[i] * np.sum(sum_minus_exp[labels[i] + 1:]) 
       hess[i] = minus_exp[i] * np.sum(sum_plus_exp[:labels[i]]) +\ 
          plus_exp[i] * np.sum(sum_minus_exp[labels[i] + 1:]) 
      pos += size 
     return grad, hess