1

我在张量流中建立了一个小型网络。我注意到,如果我为完全连接的层添加退出概率,那么我必须使用较低的学习速率,否则我会得到渐变过冲。有没有解释为什么这种情况继续发生?卷积网络:完全连接层中的退出

回答

2

有趣的是在文学中观察到相反的情况。原始文件丢失在这里:http://www.jmlr.org/papers/volume15/srivastava14a.old/source/srivastava14a.pdf。在附录A.2中:作者解释说学习速度应该增加10-100倍,而动量也应该增加,因为许多渐变相互抵消。也许你没有使用足够高的批量。

以下部分是我的解释,与上面提供的文献相比,为什么你的观察结果发生了。

通过使用0.5压差,只有一半的神经元处于活动状态,并导致错误。这个错误的大小仍然相似。因此,错误将通过网络传回到只有一半的神经元。所以每个神经元在错误中的“部分”加倍。

通过使用相同的学习率梯度更新一倍。因此,如果您首先使用了较高的学习率,则会遇到同样的问题。通过降低学习率,更新再次在您之前使用的范围内。

相关问题