问题学习率如何影响收敛速度和收敛本身。 如果学习速率不变,Q函数是否会收敛到最优或学习速率应该会衰减以保证收敛?Q学习代理的学习率
4
A
回答
0
它应该衰减否则会有一些波动引发政策的小变化。
1
学习速度必须衰减但不能太快。 收敛的条件如下(抱歉,没有胶乳):
总和(α(t)的,1,INF)= INF
总和(α(t)的^ 2,1 ,inf)< inf
有点像alpha = k /(k + t)可以很好地工作。
本文讨论的正是这种话题:
http://www.jmlr.org/papers/volume5/evendar03a/evendar03a.pdf
1
学习率表明系统迈出的一步解决的大小。
它不宜过大一些,因为它可以围绕极小连续振荡,它不宜过小一些否则它会占用大量的时间和迭代达到最小值。
为什么衰变学习速率建议是因为最初的时候,我们是在解空间完全随机点我们需要对解决大跨越后,当我们接近它,我们做小的原因跳跃和小的改进,最终达到极小值。
比喻可制成:在高尔夫的比赛时,球远离孔,玩家击中它很难得到尽可能接近的孔。后来当他到达被标记的区域时,他选择了另一根棍子来获得准确的短射门。
因此,如果没有选择短射门杆,他不会将球放入洞中,他可能会在目标球前面两三次发球。但如果他打出最佳状态并使用适量的力量到达洞中,那将是最好的。衰退的学习率也是一样。
相关问题
- 1. XGBoost - 学习率
- 2. 深q学习不收敛
- 3. Q学习教程混淆
- 4. Q学习系数溢出
- 5. Q学习转换矩阵
- 6. 可以强化学习代理学习离散分布
- 7. 优化Tensorflow学习率
- 8. LSTM学习速率衰减
- 9. 自适应学习率Lasagne
- 10. 概率和机器学习
- 11. 学习Python练习
- 12. Q中的ε衰变学习
- 13. Q学习与时间差异与基于模型的强化学习
- 14. 机器学习在Python:scikit学习/ Pybrain
- 15. 在学习JQuery之前学习JavaScript?
- 16. 深度学习与机器学习
- 17. 学习版本控制,并学习它
- 18. 分享点2010学习项目学习
- 19. Node.js学习指南或学习计划
- 20. 强化学习 - 从余晖TD学习
- 21. Q学习计算:状态未知
- 22. 函数逼近器和q学习
- 23. 学习jQuery的
- 24. 学习的NodeJS
- 25. 学习jQuery的练习练习
- 26. 计算学习理论PAC学习框架
- 27. 使用scikit学习字典学习中的内存错误学习
- 28. 学习和练习C++
- 29. 学习序言练习2.3
- 30. C#代码理解和学习
对于一个凸q学习问题,有一个足够**小的**学习率可以保证收敛。 –
我假设还有对MDP性质的依赖。我假设MDP的收敛性要求在状态转换中具有随机性,并且/或者奖励函数需要满足@purpletentacle发布的要求。然而,我也假设在这个过程中没有随机性,或者学习率不需要衰减的奖励。来自知道(最好有支持文献)的人的见解将不胜感激。 – ALM