sarsa

    3热度

    1回答

    我正在尝试基于Sutton & Barto's Book实现线性梯度下降Sarsa,请参阅下图中的算法。 不过,我很难理解的东西在算法: 是可以采取多少不同的动作的W和Z独立的维度?它在书中似乎有维数等于特征的数量,我认为这与特征的数量无关。 每个动作都有w和z吗?另外,我在书中看不到这应该是这样。 如果我在上面的两个项目中是正确的,那么我看不到如何索引列表F_a将取决于操作,因此我看不到动作值函

    4热度

    1回答

    虽然试图实现神经网络作为近似器,但我想知道如何根据当前学习的网络权重选择最佳动作。如果动作空间是离散的,我可以计算当前状态下不同动作的估计值并选择给出最大值的那个。但这似乎不是解决问题的最佳方法。此外,如果动作空间可以是连续的,则不起作用(例如,像自动驾驶汽车的加速)。 所以,basicly我想知道如何解决10号线Choose A' as a function of q(S', , w)萨顿的这种

    2热度

    1回答

    我试图实施情景半梯度萨尔萨估计问题描述萨顿的书中解决Mountain Car Task。要近似q我想使用neural network。因此,我想出了this的代码。但可悲的是,我的经纪人并没有真正学习解决这个任务。在某些情节中,解决方案非常快(100-200步),但有时代理人需要超过30k步。我认为,我在实施过程中犯了一些基本错误,但我无法自己找到它。有人可以帮助我,并指出我的实施中的错误/错误吗

    2热度

    1回答

    在具有累积合格性痕迹的波兰λ(http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html)中,给出的算法与公式不匹配。 的formula说ë←ɣλE+ 1 其中为[ALGO]更新与第一个E←E + 1,则E←ɣλE使更新有效 ë←ɣλ。(E + 1) 这是正确吗? 我也看到了完全相同的公式和算法的研究论文。 他们错过了在E + 1周围放

    1热度

    1回答

    关于SARSA强化学习,我试图执行资格追踪(前瞻性)。 我找到这张图片: 我不确定什么“对于所有S,A:”指(从下面5日线) 他们究竟是怎么S的该集合,一从? 如果它的前瞻性,从当前状态来观察S'做循环前进? 你调整每一个E(S,A)?

    1热度

    1回答

    我在学习案例中遇到问题。 我对gridworld模型的强化学习感兴趣。 模型是运动的7x7领域的迷宫。 考虑一个领域的迷宫。有四个方向:上,下,左和右(或N,E,S,W)。所以最多的政策是。在碰撞墙上使用直接惩罚时,许多人可以被排除在外。 另外采用抑制回报原则,通常更少的行为是可以接受的。许多政策仅在目标之后的部分或者具有同等效力。 ▼国家:障碍物 ▼奖励:如果r = 1,如果S = G,否则r

    2热度

    2回答

    Q-Learning和SARSA的区别在于Q-Learning比较当前状态和最佳状态,在SARSA比较当前状态和实际下一个状态的情况下。 如果使用贪婪选择策略,即在100%的时间内选择具有最高动作值的动作,则SARSA和Q-Learning是否相同?