1
我正在研究一个项目,将强化学习与使用Pybrain软件包的交通灯模拟相结合。我已阅读教程并实施了我自己的Environment
和Task
的子类。我使用的是ActionValueNetwork
作为控制器,因为我希望我的状态是连续值的向量,使得它可以包含关于例如汽车等各车道的数量,总等待每个通道和更多时间的信息。Pybrain强化学习;维状态
我设置了ActionValueNetwork
的输入尺寸,我的状态向量的尺寸,这将表明,它可能使用向量作为状态变量。当我使用Q-学习者或代码运行在第一细的SARSA学习者但我尽快得到的错误消息作为方法learn()
被调用。此功能包含行
state = int(state)
和错误消息是
TypeError: only length-1 arrays can be converted to Python scalars
这将表明仅标量形状的状态都可以使用。
是否pybrain强化学习环境的支持向量型国家?如果是这样,我怎样才能修改我的代码,使其能够与Q-learning或其他方法的实现一起工作?