1

我正在研究一个项目,将强化学习与使用Pybrain软件包的交通灯模拟相结合。我已阅读教程并实施了我自己的EnvironmentTask的子类。我使用的是ActionValueNetwork作为控制器,因为我希望我的状态是连续值的向量,使得它可以包含关于例如汽车等各车道的数量,总等待每个通道和更多时间的信息。Pybrain强化学习;维状态

我设置了ActionValueNetwork的输入尺寸,我的状态向量的尺寸,这将表明,它可能使用向量作为状态变量。当我使用Q-学习者或代码运行在第一细的SARSA学习者但我尽快得到的错误消息作为方法learn()被调用。此功能包含行

state = int(state) 

和错误消息是

TypeError: only length-1 arrays can be converted to Python scalars 

这将表明仅标量形状的状态都可以使用。

是否pybrain强化学习环境的支持向量型国家?如果是这样,我怎样才能修改我的代码,使其能够与Q-learning或其他方法的实现一起工作?

回答