1

更新规则TD(0)Q-学习:更新规则中的时间差

Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max(Q(t)))
然后取无论是当前最好的行动(优化)或随机动作(资源管理器)

哪里MaxNextQ是可以在未来的状态下得到了最大Q ...


但在TD(1)我想更新规则将是:

Q(t-2) = (1-alpha) * Q(t-2) + (alpha) * (Reward(t-2) + gamma * Reward(t-1) + gamma * gamma * Max(Q(t)))

我的问题:
术语gamma * Reward(t-1)意味着我会永远把我最好的行动,在t-1 ..我认为这将阻止探索..
有人可以给我一个提示?

谢谢

+0

所以当你说TD(2)时,你正在寻找基于下两步的行动? – 2010-05-28 22:44:43

回答

2

你说的是“资格痕迹”的用法吧? 查看equations and the algorithm

请注意e_t(s,a)方程式。使用勘探步骤时不会受到惩罚。