我一直在研究强化学习,但我不明白的是如何计算Q值。如果你使用Bellman方程Q(s,a) = r + γ*max(Q(s',a'))
,它会不会永远持续下去?因为Q(s',a')
会进一步需要一个时间步长的Q值,而这只会继续下去。它如何结束?在Q学习中,你怎么才能真正获得Q值? Q(s,a)不会永远持续下去吗?
0
A
回答
1
Reinforcement Learning您通常会尝试查找策略(在特定状态下采取的最佳操作),并且在策略不再更改或价值函数(代表期望的回报)已经收敛时结束学习过程。
你似乎混淆Q-learning和Value Iteration using the Bellman equation。 Q学习是在您使用所获得的奖励更新Q无模型技术:
这里直接奖励[R吨+ 1是已经做动作后获得的奖励a t in state s t。 α是应该在0和1之间的学习率,如果是0,则不进行学习,如果是1,则只考虑最新的奖励。
Value iteration与Bellman equation:
在哪里需要,也定义为P(个模型P 一个(S,S)'| S,A) ,这是从状态s到s'使用动作a的概率。要检查是否值函数收敛,通常价值函数V吨+ 1相比V吨所有状态,如果它是大于一个小的值的情况下(&小量)策略被所述被会聚:
参见:
相关问题
- 1. 深q学习不收敛
- 2. 在Windows中获取Recv-Q/Send-Q?
- 3. Q中的ε衰变学习
- 4. Ajax中的 'Q'( “GET”,+ STR,真正的 “some_page.php Q =?”)
- 5. Q学习计算:状态未知
- 6. 函数逼近器和q学习
- 7. 当q大小未知时,如何递归调用如下方法:q [0] .from(q [1] .from(q [2] .from(q [3]))))
- 8. 制作:Q!具有与以下相同的功能:q!在vim
- 9. 为什么if [!$(grep -q)]在grep -q时不起作用?
- 10. MediaWiki Q&A的扩展
- 11. WATSON Q和A基地址
- 12. 为什么CreateFile永远持续下去?
- 13. 深度Q学习算法中的phi是什么
- 14. 怎样可以得到Q上
- 15. Q链接不正确
- 16. Q-municate在IOS
- 17. q - 在压缩
- 18. 在ls -Q
- 19. Q-Q图与ggplot2 :: stat_qq,颜色,单组
- 20. 如何运行q循环(INCREMENT Q)?
- 21. 的Recv-Q +发送-Q>写字节
- 22. Xcode中的Q和A应用程序
- 23. 奖励在Q学习和TD(拉姆达)
- 24. 为什么这个MySQL更新会永远持续下去?
- 25. 正则表达式在`q`上分割,如果不是'\ q`里面`<>`
- 26. 的Java排序对象列表(例如d,S,A,Q,C)
- 27. $ q Promise麻烦
- 28. Django。 Q查询
- 29. lex/yacc simple Q
- 30. ExpressJS - 运用Q