2014-09-20 128 views
1

当我学习Logistic回归时,我们使用负对数似然来优化参数w。因此,损失函数(负对数似然值)为L(w)。Logistic回归和最佳参数w

有一个断言:当训练样本可线性分离时,最优w的幅度可以趋于无穷大。

我很困惑: 1.最优w的大小是什么意思? 2.你能解释为什么w可以无限?

回答

1
  1. 这是常态(例如euclidean)通常被理解为一个向量的大小。

  2. 假设我们做二元分类和类是线性可分的。这意味着 存在w',因此(x1, w') ≥ 0对于x1来自一个类别,而(x2, w') < 0否则。然后考虑z = a w'一些积极的a。很显然,(x1, z) ≥ 0(x2, z) < 0(我们可以将w'的方程乘以a并使用点积的线性),因此您可以看到存在无界范数(量级)的分离超平面(z s)。

这就是为什么要添加正则化术语。

1

简短回答: 这是日志功能的基本特征。

考虑:值

    log(x), where x spans (0,1) 

范围对数(X)可以采用:

      is (-Inf, 0) 

更具体到你的问题 - 数似然为:(见图片)

l(w) = y * log(h(x)) + (1 - y) * log (1 - h(x)) 

    where, 

     h(x) is a sigmoid function parameters by w: 
       h(x) = (1 + exp{-wx})^-1  

为了简单起见考虑一个训练示例的情况下,其中y = 1, 等式变成:

可能性(1):

  = y * log (h(x)); 

      =  log (h(x)) 

H(X)在逻辑回归也许通过S形函数来表示。 它有一个范围(0,1)

因此, 范围(L)的:

  (log (0), log(1)) = (-Inf, 0) 

      (l) spans the range (-Inf, 0) 

上述简单化只考虑了(Y = 1)的情况。如果考虑整个对数似然函数(即对于y = 1 & y = 0),您将看到倒碗形成本函数。因此,有一个最佳的权重,将对数似然最大化(l)或最小化负对数似然性(-l)