虽然试图实现神经网络作为近似器,但我想知道如何根据当前学习的网络权重选择最佳动作。如果动作空间是离散的,我可以计算当前状态下不同动作的估计值并选择给出最大值的那个。但这似乎不是解决问题的最佳方法。此外,如果动作空间可以是连续的,则不起作用(例如,像自动驾驶汽车的加速)。 所以,basicly我想知道如何解决10号线Choose A' as a function of q(S', , w)萨顿的这种
我试图实施情景半梯度萨尔萨估计问题描述萨顿的书中解决Mountain Car Task。要近似q我想使用neural network。因此,我想出了this的代码。但可悲的是,我的经纪人并没有真正学习解决这个任务。在某些情节中,解决方案非常快(100-200步),但有时代理人需要超过30k步。我认为,我在实施过程中犯了一些基本错误,但我无法自己找到它。有人可以帮助我,并指出我的实施中的错误/错误吗