卷积网络：完全连接层中的退出

我在张量流中建立了一个小型网络。我注意到，如果我为完全连接的层添加退出概率，那么我必须使用较低的学习速率，否则我会得到渐变过冲。有没有解释为什么这种情况继续发生？卷积网络：完全连接层中的退出

2017-03-09 Wideem

有趣的是在文学中观察到相反的情况。原始文件丢失在这里：http://www.jmlr.org/papers/volume15/srivastava14a.old/source/srivastava14a.pdf。在附录A.2中：作者解释说学习速度应该增加10-100倍，而动量也应该增加，因为许多渐变相互抵消。也许你没有使用足够高的批量。

以下部分是我的解释，与上面提供的文献相比，为什么你的观察结果发生了。

通过使用0.5压差，只有一半的神经元处于活动状态，并导致错误。这个错误的大小仍然相似。因此，错误将通过网络传回到只有一半的神经元。所以每个神经元在错误中的“部分”加倍。

通过使用相同的学习率梯度更新一倍。因此，如果您首先使用了较高的学习率，则会遇到同样的问题。通过降低学习率，更新再次在您之前使用的范围内。

来源

2017-03-09 13:06:15

卷积网络：完全连接层中的退出

回答

相关问题