萨尔萨与神经网络解决山车任务

我试图实施情景半梯度萨尔萨估计问题描述萨顿的书中解决Mountain Car Task。要近似q我想使用neural network。因此，我想出了this的代码。但可悲的是，我的经纪人并没有真正学习解决这个任务。在某些情节中，解决方案非常快（100-200步），但有时代理人需要超过30k步。我认为，我在实施过程中犯了一些基本错误，但我无法自己找到它。有人可以帮助我，并指出我的实施中的错误/错误吗？萨尔萨与神经网络解决山车任务

来源

2017-07-29 FlashTek

我通过改变网络结构解决了这个问题：而不是使用(state, action)对预测它的Q-value，我在路上DQN改变它做的：我预测了所有三种可能的行动value给定状态，然后根据这个预测选择行动。我以前的方法无法找到问题，但至少现在正在工作。

来源

2017-09-17 20:48:52 FlashTek

萨尔萨与神经网络解决山车任务

回答

相关问题