2015-10-08 55 views
4

问题学习率如何影响收敛速度和收敛本身。 如果学习速率不变,Q函数是否会收敛到最优或学习速率应该会衰减以保证收敛?Q学习代理的学习率

+4

对于一个凸q学习问题,有一个足够**小的**学习率可以保证收敛。 –

+0

我假设还有对MDP性质的依赖。我假设MDP的收敛性要求在状态转换中具有随机性,并且/或者奖励函数需要满足@purpletentacle发布的要求。然而,我也假设在这个过程中没有随机性,或者学习率不需要衰减的奖励。来自知道(最好有支持文献)的人的见解将不胜感激。 – ALM

回答

0

它应该衰减否则会有一些波动引发政策的小变化。

1

学习率表明系统迈出的一步解决的大小。

不宜过大一些,因为它可以围绕极小连续振荡,它不宜过小一些否则它会占用大量的时间和迭代达到最小值。

为什么衰变学习速率建议是因为最初的时候,我们是在解空间完全随机点我们需要对解决大跨越后,当我们接近它,我们做小的原因跳跃和小的改进,最终达到极小值。

比喻可制成:在高尔夫的比赛时,球远离孔,玩家击中它很难得到尽可能接近的孔。后来当他到达被标记的区域时,他选择了另一根棍子来获得准确的短射门。

因此,如果没有选择短射门杆,他不会将球放入洞中,他可能会在目标球前面两三次发球。但如果他打出最佳状态并使用适量的力量到达洞中,那将是最好的。衰退的学习率也是一样。