sarsa

3热度

1回答

我正在尝试基于Sutton & Barto's Book实现线性梯度下降Sarsa，请参阅下图中的算法。不过，我很难理解的东西在算法：是可以采取多少不同的动作的W和Z独立的维度？它在书中似乎有维数等于特征的数量，我认为这与特征的数量无关。每个动作都有w和z吗？另外，我在书中看不到这应该是这样。如果我在上面的两个项目中是正确的，那么我看不到如何索引列表F_a将取决于操作，因此我看不到动作值函

4热度

1回答

具有神经网络的情景式半梯度萨尔萨

虽然试图实现神经网络作为近似器，但我想知道如何根据当前学习的网络权重选择最佳动作。如果动作空间是离散的，我可以计算当前状态下不同动作的估计值并选择给出最大值的那个。但这似乎不是解决问题的最佳方法。此外，如果动作空间可以是连续的，则不起作用（例如，像自动驾驶汽车的加速）。所以，basicly我想知道如何解决10号线Choose A' as a function of q(S', , w)萨顿的这种

2热度

1回答

萨尔萨与神经网络解决山车任务

我试图实施情景半梯度萨尔萨估计问题描述萨顿的书中解决Mountain Car Task。要近似q我想使用neural network。因此，我想出了this的代码。但可悲的是，我的经纪人并没有真正学习解决这个任务。在某些情节中，解决方案非常快（100-200步），但有时代理人需要超过30k步。我认为，我在实施过程中犯了一些基本错误，但我无法自己找到它。有人可以帮助我，并指出我的实施中的错误/错误吗

2热度

1回答

这是SARSA中的一个错误吗？Sutton＆Barto的RL书的主题？

在具有累积合格性痕迹的波兰λ（http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html）中，给出的算法与公式不匹配。的formula说ë←ɣλE+ 1 其中为[ALGO]更新与第一个E←E + 1，则E←ɣλE使更新有效 ë←ɣλ。（E + 1）这是正确吗？我也看到了完全相同的公式和算法的研究论文。他们错过了在E + 1周围放

1热度

1回答

如何计算sarsa的资格痕迹？

关于SARSA强化学习，我试图执行资格追踪（前瞻性）。我找到这张图片：我不确定什么“对于所有S，A：”指（从下面5日线）他们究竟是怎么S的该集合，一从？如果它的前瞻性，从当前状态来观察S'做循环前进？你调整每一个E（S，A）？

1热度

1回答

如何在R程序中获得SARSA代码为gridworld模型？

我在学习案例中遇到问题。我对gridworld模型的强化学习感兴趣。模型是运动的7x7领域的迷宫。考虑一个领域的迷宫。有四个方向：上，下，左和右（或N，E，S，W）。所以最多的政策是。在碰撞墙上使用直接惩罚时，许多人可以被排除在外。另外采用抑制回报原则，通常更少的行为是可以接受的。许多政策仅在目标之后的部分或者具有同等效力。 ▼国家：障碍物 ▼奖励：如果r = 1，如果S = G，否则r

2热度

2回答

Q-Learning与贪婪选择对比SARSA

Q-Learning和SARSA的区别在于Q-Learning比较当前状态和最佳状态，在SARSA比较当前状态和实际下一个状态的情况下。如果使用贪婪选择策略，即在100％的时间内选择具有最高动作值的动作，则SARSA和Q-Learning是否相同？