Pybrain强化学习;维状态

我正在研究一个项目，将强化学习与使用Pybrain软件包的交通灯模拟相结合。我已阅读教程并实施了我自己的Environment和Task的子类。我使用的是ActionValueNetwork作为控制器，因为我希望我的状态是连续值的向量，使得它可以包含关于例如汽车等各车道的数量，总等待每个通道和更多时间的信息。Pybrain强化学习;维状态

我设置了ActionValueNetwork的输入尺寸，我的状态向量的尺寸，这将表明，它可能使用向量作为状态变量。当我使用Q-学习者或代码运行在第一细的SARSA学习者但我尽快得到的错误消息作为方法learn()被调用。此功能包含行

state = int(state)

和错误消息是

TypeError: only length-1 arrays can be converted to Python scalars

这将表明仅标量形状的状态都可以使用。

是否pybrain强化学习环境的支持向量型国家？如果是这样，我怎样才能修改我的代码，使其能够与Q-learning或其他方法的实现一起工作？

来源

2016-11-23 Isabelle Tan

我在此期间发现了我的问题。我用的是Q()学习者，但应该使用的NFQ()学习它实现了neural-fitted Q-learning algorithm。现在它可以工作。

来源

2016-11-29 13:50:57

Pybrain强化学习;维状态

回答

相关问题