我在我的研究中实现了一个非常复杂的函数,它在这一层使用信念传播。我已经推导出梯度w.r.t.这个层的W(参数),但是因为它的复杂性,我没有导出渐变w.r.t. input_data(数据来自前一层)。我们是否需要导出差分/梯度w.r.t.在向后函数(chainer)中输入数据?
我对于反向传播的细节非常混乱。我搜索了很多关于BP算法的知识,有些笔记说只有差分w.r.t才行。 W(参数)并使用残差得到梯度?你的例子似乎也需要计算渐变w.r.t.输入数据(前一层输出)。我很困惑? 非常典型的例子是,如何导出渐变w.r.t.卷积层输入图像?
我的网络有两层,我是否需要手动派生梯度w.r.t.在最后一层输入X?(向后需要返回gx为了让BP工作到前一层的梯度流程)?
PS:每层都有自己的参数 – machen