LSTM学习速率衰减

我目前正在复制http://karpathy.github.io/2015/05/21/rnn-effectiveness/中描述的char-RNN的代码。有些代码已经在tensorflow中实现了，我所指的代码是https://github.com/sherjilozair/char-rnn-tensorflow/blob/master/train.py我对学习速率衰减存在问题。在代码中，优化器被定义为AdamOptimizer。当我浏览代码时，我看到一行如下：LSTM学习速率衰减

for e in range(args.num_epochs): 
     sess.run(tf.assign(model.lr, args.learning_rate * (args.decay_rate ** e)))

它调整学习率的衰减常数。我的问题是：是不是亚当优化使我们能够控制学习率？为什么我们仍然在这里使用关于学习率的衰减率？

2016-08-02 lina

我认为你的意思是RMSprop而不是Adam，你链接的两个代码都使用RMSprop。 RMSprop只缩放渐变以不会有太大或太小的规范。所以，当我们在几个时代后不得不放慢训练速度时，减少学习速度很重要。

2016-08-05 15:00:15 Priyatham

回答