当我学习Logistic回归时,我们使用负对数似然来优化参数w。因此,损失函数(负对数似然值)为L(w)。Logistic回归和最佳参数w
有一个断言:当训练样本可线性分离时,最优w的幅度可以趋于无穷大。
我很困惑: 1.最优w的大小是什么意思? 2.你能解释为什么w可以无限?
当我学习Logistic回归时,我们使用负对数似然来优化参数w。因此,损失函数(负对数似然值)为L(w)。Logistic回归和最佳参数w
有一个断言:当训练样本可线性分离时,最优w的幅度可以趋于无穷大。
我很困惑: 1.最优w的大小是什么意思? 2.你能解释为什么w可以无限?
这是常态(例如euclidean)通常被理解为一个向量的大小。
假设我们做二元分类和类是线性可分的。这意味着 存在w'
,因此(x1, w') ≥ 0
对于x1
来自一个类别,而(x2, w') < 0
否则。然后考虑z = a w'
一些积极的a
。很显然,(x1, z) ≥ 0
和(x2, z) < 0
(我们可以将w'
的方程乘以a
并使用点积的线性),因此您可以看到存在无界范数(量级)的分离超平面(z
s)。
这就是为什么要添加正则化术语。
简短回答: 这是日志功能的基本特征。
考虑:值
log(x), where x spans (0,1)
范围对数(X)可以采用:
is (-Inf, 0)
更具体到你的问题 - 数似然为:(见图片)
l(w) = y * log(h(x)) + (1 - y) * log (1 - h(x))
where,
h(x) is a sigmoid function parameters by w:
h(x) = (1 + exp{-wx})^-1
为了简单起见考虑一个训练示例的情况下,其中y = 1, 等式变成:
可能性(1):
= y * log (h(x));
= log (h(x))
H(X)在逻辑回归也许通过S形函数来表示。 它有一个范围(0,1)
因此, 范围(L)的:
(log (0), log(1)) = (-Inf, 0)
(l) spans the range (-Inf, 0)
上述简单化只考虑了(Y = 1)的情况。如果考虑整个对数似然函数(即对于y = 1 & y = 0),您将看到倒碗形成本函数。因此,有一个最佳的权重,将对数似然最大化(l)或最小化负对数似然性(-l)