更新规则中的时间差

更新规则TD（0）Q-学习：更新规则中的时间差

Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max(Q(t)))
然后取无论是当前最好的行动（优化）或随机动作（资源管理器）

哪里MaxNextQ是可以在未来的状态下得到了最大Q ...

但在TD（1）我想更新规则将是：

Q(t-2) = (1-alpha) * Q(t-2) + (alpha) * (Reward(t-2) + gamma * Reward(t-1) + gamma * gamma * Max(Q(t)))

我的问题：
术语gamma * Reward(t-1)意味着我会永远把我最好的行动，在t-1 ..我认为这将阻止探索..
有人可以给我一个提示？

谢谢

2010-05-28 Betamoo

所以当你说TD（2）时，你正在寻找基于下两步的行动？ – 2010-05-28 22:44:43

你说的是“资格痕迹”的用法吧？查看equations and the algorithm。

请注意e_t（s，a）方程式。使用勘探步骤时不会受到惩罚。

2010-05-29 18:20:39

回答