2016-09-17 57 views
0

我已经写了条件logit模型的可能性/梯度的非常简单的实现(解释为here) - 可能性很好,但梯度不正确。我的两个问题是:我的梯度是否正确,如果是的话,我在Python中的实现是否正确?如果在数学论坛中更好地提出这个问题,请随时移动。为什么执行条件logit梯度失败?

型号:enter image description here

数似然:enter image description here

最后,梯度:enter image description here

这里,i是每个观测,j是观察我内的替代方案中,c是在所选择的替代观察i,Xij是i中选择j的特征向量,B是相应的系数。 似然公式应该有特征向量乘以系数向量。我的错误

我的可能性和梯度实现如下:

可能性:

def log_likelihood(coefs, observations, config, lasso): 
    def func(grp): 
     mtrx = grp.as_matrix(config.features) 
     dp = np.dot(mtrx, coefs) 
     sub = np.log(np.exp(dp).sum()) 
     inc = (dp * grp['choice']).sum() 
     return inc - sub 
    ll = observations.groupby(['observation_id']).apply(func).sum() 
    if lasso is not None: 
     ll -= (np.abs(coefs).sum() * lasso) 
    neg_log = ll * -1 
return neg_log 

梯度:

def gradient(coefs, observations, config, lasso): 
    def func(grp): 
     mtrx = grp.as_matrix([config.features]) 
     tmtrx = mtrx.transpose() 
     tmp = np.exp(tmtrx * coefs[:, np.newaxis]) 
     sub = (tmp * tmtrx).sum(1)/tmp.sum(1) 
     inc = (mtrx * grp['choice'][:, np.newaxis]).sum(0) 
     ret = inc - sub 
     return ret 
    return -1 * observations.groupby(['observation_id']).apply(func).sum() 

这里,coefs是包含系数的numpy的阵列,意见是一个数据框,其中每一行表示一个观察内的选择,而列是一个选择列籼稻ting 0/1作为列中的选择,而observation_id列中观察值中的所有选项都具有相同的id,最后config是包含成员'features'的dict,它是包含特征的观察值列中的列表。 注意我正在测试而不使用套索参数。下面的例子是什么数据看起来像。

我验证了可能性是正确的;但是,使用scipy.optimize.check_grad时,梯度的错误非常大。如果没有将梯度传递给scipy.optimize.minimize,我也可以解决B.渐变评估如我所料,所以在这一点上,我只能认为我的推导是不正确的,但我不知道为什么。

In [27]: df.head(14) 
Out[27]: 
      x1  x2  x3 observation_id choice 
0 0.187785 0.435922 -0.475349    211  1 
1 -0.935956 -0.405833 -1.753128    211  0 
2 0.210424 0.141579 0.415933    211  0 
3 0.507025 0.307965 -0.198089    211  0 
4 0.080658 -0.125473 -0.592301    211  0 
5 0.605302 0.239491 0.287094    293  1 
6 0.259580 0.415388 -0.396969    293  0 
7 -0.637267 -0.984442 -1.376066    293  0 
8 0.241874 0.435922 0.855742    293  0 
9 0.831534 0.650425 0.930592    293  0 
10 -1.682565 0.435922 -2.517229    293  0 
11 -0.149186 0.300299 0.494513    293  0 
12 -1.918179 -9.967421 -2.774450    293  0 
13 -1.185817 0.295601 -1.974923    293  0 

回答

0

推导不正确。在幂运算中,我只包含给定系数偏导数的特征和系数。相反,它应该是所有特征和系数的点积。