2
我试图实施情景半梯度萨尔萨估计问题描述萨顿的书中解决Mountain Car Task
。要近似q
我想使用neural network
。因此,我想出了this的代码。但可悲的是,我的经纪人并没有真正学习解决这个任务。在某些情节中,解决方案非常快(100-200步),但有时代理人需要超过30k步。我认为,我在实施过程中犯了一些基本错误,但我无法自己找到它。有人可以帮助我,并指出我的实施中的错误/错误吗?萨尔萨与神经网络解决山车任务