我正在使用Keras
进行深q学习的实验,并且我想要教授代理来执行任务。深q学习不收敛
我wan't教的试剂,以避免撞击物体在它的路径,通过改变它的速度(加速或减速)
所述试剂水平移动和对象以避免在垂直方向移动的,我不要他学会改变速度以避免击中它们。 我基于我对这个代码:Keras-FlappyBird
我试图3个不同模型(我不使用卷积网络)
模型与S形的激活函数10密隐藏层,用400输出节点
模型与
Leaky ReLU
激活功能- 与
ReLu
活化函数10密隐藏层模型10密隐藏层,具有400个输出节点
我向网络提供我网络中所有对象的坐标和速度。
并训练它100万帧,但依然看不到任何结果 这里是我的Q值积为3种型号,
,你可以看到的Q值都相同并没有改善作为来回奖励......请帮助我什么,我我做错了..
非常感谢您的回答,1:400节点我的意思是在隐藏节点中,在输出节点中我只有3个。 2:是的,你是对的,我正在为自己的环境移植代码。 3:解释我的环境;我基本上试图训练一个网络,以避免与移动目标相撞,我将目标的位置作为输入,输出是3个可能的动作 –
,我认为你是正确的,我试图改变epsilon的参数和伽玛,我看到一些改善,但仍然不是我所希望的结果 –
我也会看看其他参数,包括学习率。如果您的环境没有终端状态,那么您可能需要考虑最低探索速率为.1或类似的东西,以便它不断探索新的状态,找到一个最佳的解决方案。 –