蒙地卡罗政策评估混淆

我无法理解蒙特卡罗政策评估算法。我正在阅读的是G是访问特定状态后的平均回报，可以说是s1，这是第一次。这是否意味着将该状态s1之后的所有回报平均分配到情节结束，然后将结果值分配给s1？或者这是否意味着在s1中采取行动的立即报酬是多次平均的？蒙地卡罗政策评估混淆

蒙特卡罗政策评估的目的是为给定的政策π找到一个价值函数。一项政策的价值函数只是告诉我们，由于处于一个国家而产生的预期累积折扣奖励，然后永远遵循该政策或直到该事件结束。它告诉我们预期回报的状态。

因此，蒙特卡罗方法估计这个价值函数是简单地运行策略并跟踪每个状态的回报;当我第一次到达州时，我会在剩下的情节中积累多少折扣奖励？平均你观察到的所有这些数据（每访问一次，每次你运行的每个状态一次）。

这是否意味着平均所有奖励该州s1下到事件结束，然后将得到的值赋给s1？或者这是否意味着在s1中采取行动的立即报酬是多次平均的？

所以，你的第一个想法是正确的。

2017-03-16 07:07:43

回答