2016-11-29 143 views
4

在萨顿&巴托的RL书(link)时,沃特金斯的Q(λ)学习算法在图7.14介绍: enter image description here 10号线 “对于所有S,A:” 中, “S,A” 这里是所有(s,a),而第8行和第9行中的(s,a)用于当前(s,a),这是正确的吗?如何理解Sutton&Barto的RL书中Watkins的Q(λ)学习算法?

在第12行和第13行,当一个'!= a *,执行第13行,所有e(s,a)都将被设置为0,那么当所有的资格跟踪都是什么时候,设置为0,因为情况a'!= a *将经常发生。即使情况a'!= a *不经常发生,但一旦发生,资格追踪的含义就会完全失去,那么Q就不会再被更新,因为所有的e(s,a)= 0,那么在每次更新中,如果使用替换轨迹,则e(s,a)仍然为0。

那么,这是错误吗?

回答

0

在我逐步编写这个过程后,我可以理解它。所有e(s,a)的轨迹在'!= a *后设为0,但e(s',a')在下一步(此处为第9行)再次设置为1。看到这里

step by step

5

资格痕迹的想法是给信用卡或只怪到符合条件的国家行动对我的理解细节。从萨顿&巴托书有想法的一个很好的例子: Backward view of eligibility traces

在沃特金斯的Q(λ)算法,你想给信贷/怪你居然会参观了国家行动对,如果你将有以确定性的方式遵循你的政策Q(总是选择最好的行动)。

所以回答你的问题是在第5行:

Choose a' from s' using policy derived from Q (e.g. epsilon-greedy)

因为”选择小量贪心,有一点机会(概率小量),您需要一个探索性的随机一步,而不是贪婪的一步。在这种情况下,整个资格追踪设置为零,因为将信用/责任归于之前访问过的状态动作对是没有意义的。您在随机探索步骤之前访问的州级行为对应的未来奖励不值得信任/责备,因此您会删除整个资格跟踪。在此后的时间步骤,你开始建立一个新的资格追踪...

希望有所帮助。

+0

我认为值得说明的是, SARSA(不重置资格痕迹)是Q(λ)是一种关闭策略算法。所以Q表是$ q _ * $的估计,而不是$ q _ {\ pi} $。 –