q-learning

    1热度

    1回答

    我正在将Q-学习与函数逼近应用于每个状态没有相同动作集合的问题。还有,当我计算目标 目标= R(S,A,S ')+(max_a' * Q(S',A')) 由于每个状态不具有相同的一组动作,从而我是否应该在我的状态定义中包含一系列操作?否则发生的事情是两个状态在所有其他特征中可能彼此非常相似,除了它们具有非常不同的一组行为之外。即使我包括一组动作,那么问题就是矢量的长度,因为每个状态都有不同数量的动

    1热度

    1回答

    我正在研究https://github.com/kuz/DeepMind-Atari-Deep-Q-Learner这几天。我成功地在我的机器上训练了突破。但是,当我试图运行从http://www.atariage.com/下载的游戏时,run_cpu和run_gpu都失败了。我已经替换了游戏bin文件的大写字母。 这里有一些游戏ROM从http://www.atariage.com/system_

    14热度

    1回答

    我一直在尝试使用'深度Q学习'来构建模型,其中我有大量的操作(2908)。在使用标准DQN: (https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf)取得了一些有限的成功之后,我决定做更多的研究,因为我认为行动空间太大而无法进行有效的探索。 我这时才发现本文:https://arxiv.org/pdf/1512.07679.pdf,他们使用一个演员,评论家模

    2热度

    1回答

    我在Keras有一个网络,输出很多,但是,我的训练数据一次只提供一个输出的信息。 目前,我的训练方法是对有问题的输入进行预测,更改我正在训练的特定输出的值,然后进行单批更新。如果我是对的,这与将所有输出的损耗设置为零(除了我正在尝试训练的损耗除外)相同。 有没有更好的方法?我已经尝试过课堂权重,我为所有人设定了零权重,但是我正在训练的输出却没有给出我期望的结果? 我正在使用Theano后端。

    3热度

    1回答

    格子世界表示我试图想出一个2-d格世界的,其利用的Q功能的神经网络的Q学习算法的状态更好的代表性。 在教程Q-learning with Neural Networks中,网格表示为整数的三维数组(0或1)。第一个和第二个维度表示网格世界中对象的位置。第三维编码它是哪个对象。因此,对于其中包含4个对象的4x4网格,您将代表具有64个元素的3维数组(4x4x4)的状态。这意味着,输入层中的神经网络将

    1热度

    1回答

    当Chrome浏览器运行正常时,Chrome浏览器在我的连接四个浏览器游戏中继续查杀页面。游戏是一个玩家vs电脑设置,游戏本身运行正常,从不崩溃。当我将迭代次数设置得太高来训练计算机对手时,该页面崩溃。这些程序使用qLearning算法训练ai,并在其中播放自身并为每个遇到的状态存储一个值。如果我将迭代次数设置为大约125,000或更少,那么一切正常(除非对手不那么好)。我无法确定是否是杀死程序的

    0热度

    1回答

    我正在尝试为tictactoe实施q-learning。这样做的其中一个步骤涉及列举tictactoe板的所有可能状态以形成状态值表。我写了一个从空板开始递归生成所有可能状态的过程。为此,我隐式执行搜索空间树的预遍历。然而,最后,我只得到707个独特的州,而普遍的共识是,合法州的数量约为5000. 注意:我指的是合法状态的数量。我知道,如果任何一名球员在比赛结束后被允许继续比赛(我的意思是非法状态

    2热度

    1回答

    我想从头开始用Java学习橄榄球游戏,我试图用Google DeepMind的Deep Q-learning算法实现强化学习(尽管没有卷积网络) 。我已经建立了神经网络和Q-learning,现在我正试图将它们总结在一起,但有些东西在代码中我不明白。 是不是通常用零而不是随机值初始化Q值?或意思的神经网络的权重(第2行) 什么是 预处理意味着测序Φ1=Φ(S1)(第4行) 我只是无法弄清楚在这个算

    1热度

    1回答

    我正在研究一个项目,将强化学习与使用Pybrain软件包的交通灯模拟相结合。我已阅读教程并实施了我自己的Environment和Task的子类。我使用的是ActionValueNetwork作为控制器,因为我希望我的状态是连续值的向量,使得它可以包含关于例如汽车等各车道的数量,总等待每个通道和更多时间的信息。 我设置了ActionValueNetwork的输入尺寸,我的状态向量的尺寸,这将表明,它

    4热度

    2回答

    在萨顿&巴托的RL书(link)时,沃特金斯的Q(λ)学习算法在图7.14介绍: 10号线 “对于所有S,A:” 中, “S,A” 这里是所有(s,a),而第8行和第9行中的(s,a)用于当前(s,a),这是正确的吗? 在第12行和第13行,当一个'!= a *,执行第13行,所有e(s,a)都将被设置为0,那么当所有的资格跟踪都是什么时候,设置为0,因为情况a'!= a *将经常发生。即使情况a