1
更新规则TD(0)Q-学习:更新规则中的时间差
Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max(Q(t)))
然后取无论是当前最好的行动(优化)或随机动作(资源管理器)
哪里MaxNextQ是可以在未来的状态下得到了最大Q ...
但在TD(1)我想更新规则将是:
Q(t-2) = (1-alpha) * Q(t-2) + (alpha) * (Reward(t-2) + gamma * Reward(t-1) + gamma * gamma * Max(Q(t)))
我的问题:
术语gamma * Reward(t-1)
意味着我会永远把我最好的行动,在t-1
..我认为这将阻止探索..
有人可以给我一个提示?
谢谢
所以当你说TD(2)时,你正在寻找基于下两步的行动? – 2010-05-28 22:44:43