在Q学习中，你怎么才能真正获得Q值？ Q（s，a）不会永远持续下去吗？

我一直在研究强化学习，但我不明白的是如何计算Q值。如果你使用Bellman方程Q(s,a) = r + γ*max(Q(s',a'))，它会不会永远持续下去？因为Q(s',a')会进一步需要一个时间步长的Q值，而这只会继续下去。它如何结束？在Q学习中，你怎么才能真正获得Q值？ Q（s，a）不会永远持续下去吗？

2016-12-03 traw1234

Reinforcement Learning您通常会尝试查找策略（在特定状态下采取的最佳操作），并且在策略不再更改或价值函数（代表期望的回报）已经收敛时结束学习过程。

你似乎混淆Q-learning和Value Iteration using the Bellman equation。 Q学习是在您使用所获得的奖励更新Q无模型技术：

这里直接奖励[R_{吨+ 1}是已经做动作后获得的奖励a _t in state s _t。 α是应该在0和1之间的学习率，如果是0，则不进行学习，如果是1，则只考虑最新的奖励。

在哪里需要，也定义为P（个模型P _一个（S，S）'| S，A） ，这是从状态s到s'使用动作a的概率。要检查是否值函数收敛，通常价值函数V_{吨+ 1}相比V_吨所有状态，如果它是大于一个小的值的情况下（＆小量）策略被所述被会聚：

参见：

Difference between Q-learning and Value Iteration

How do I know when a Q-learning algorithm converges?

Sutton et al.: RL

2016-12-04 20:20:42 agold

回答