2016-12-03 80 views

回答

1

Reinforcement Learning您通常会尝试查找策略(在特定状态下采取的最佳操作),并且在策略不再更改或价值函数(代表期望的回报)已经收敛时结束学习过程。


你似乎混淆Q-learningValue Iteration using the Bellman equation。 Q学习是在您使用所获得的奖励更新Q无模型技术:

Q formula

这里直接奖励[R吨+ 1是已经做动作后获得的奖励a t in state s t。 α是应该在0和1之间的学习率,如果是0,则不进行学习,如果是1,则只考虑最新的奖励。

Value iterationBellman equation

bellman

在哪里需要,也定义为P(个模型P 一个(S,S)'| S,A) ,这是从状态ss'使用动作a的概率。要检查是否值函数收敛,通常价值函数V吨+ 1相比V所有状态,如果它是大于一个小的值的情况下(&小量)策略被所述被会聚:

converged


参见: