Q学习代理的学习率

问题学习率如何影响收敛速度和收敛本身。如果学习速率不变，Q函数是否会收敛到最优或学习速率应该会衰减以保证收敛？Q学习代理的学习率

2015-10-08 igotca

对于一个凸q学习问题，有一个足够**小的**学习率可以保证收敛。 –

我假设还有对MDP性质的依赖。我假设MDP的收敛性要求在状态转换中具有随机性，并且/或者奖励函数需要满足@purpletentacle发布的要求。然而，我也假设在这个过程中没有随机性，或者学习率不需要衰减的奖励。来自知道（最好有支持文献）的人的见解将不胜感激。 – ALM

它应该衰减否则会有一些波动引发政策的小变化。

2016-01-28 13:02:59 user2526028

学习速度必须衰减但不能太快。收敛的条件如下（抱歉，没有胶乳）：

有点像alpha = k /（k + t）可以很好地工作。

本文讨论的正是这种话题：

2016-02-27 09:32:35 purpletentacle

学习率表明系统迈出的一步解决的大小。

它不宜过大一些，因为它可以围绕极小连续振荡，它不宜过小一些否则它会占用大量的时间和迭代达到最小值。

为什么衰变学习速率建议是因为最初的时候，我们是在解空间完全随机点我们需要对解决大跨越后，当我们接近它，我们做小的原因跳跃和小的改进，最终达到极小值。

比喻可制成：在高尔夫的比赛时，球远离孔，玩家击中它很难得到尽可能接近的孔。后来当他到达被标记的区域时，他选择了另一根棍子来获得准确的短射门。

因此，如果没有选择短射门杆，他不会将球放入洞中，他可能会在目标球前面两三次发球。但如果他打出最佳状态并使用适量的力量到达洞中，那将是最好的。衰退的学习率也是一样。

2017-07-11 11:48:59 VishalTheBeast

回答