q-learning

1热度

1回答

我正在将Q-学习与函数逼近应用于每个状态没有相同动作集合的问题。还有，当我计算目标目标= R（S，A，S '）+（max_a' * Q（S'，A'））由于每个状态不具有相同的一组动作，从而我是否应该在我的状态定义中包含一系列操作？否则发生的事情是两个状态在所有其他特征中可能彼此非常相似，除了它们具有非常不同的一组行为之外。即使我包括一组动作，那么问题就是矢量的长度，因为每个状态都有不同数量的动

1热度

1回答

DeepMind-Atari-Deep-Q-Learner（DQN）无法运行游戏ROM以外的其他游戏

我正在研究https://github.com/kuz/DeepMind-Atari-Deep-Q-Learner这几天。我成功地在我的机器上训练了突破。但是，当我试图运行从http://www.atariage.com/下载的游戏时，run_cpu和run_gpu都失败了。我已经替换了游戏bin文件的大写字母。这里有一些游戏ROM从http://www.atariage.com/system_

14热度

1回答

Keras中的策略梯度

我一直在尝试使用'深度Q学习'来构建模型，其中我有大量的操作（2908）。在使用标准DQN：（https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf）取得了一些有限的成功之后，我决定做更多的研究，因为我认为行动空间太大而无法进行有效的探索。我这时才发现本文：https://arxiv.org/pdf/1512.07679.pdf，他们使用一个演员，评论家模

2热度

1回答

培训Keras网络的一个输出

我在Keras有一个网络，输出很多，但是，我的训练数据一次只提供一个输出的信息。目前，我的训练方法是对有问题的输入进行预测，更改我正在训练的特定输出的值，然后进行单批更新。如果我是对的，这与将所有输出的损耗设置为零（除了我正在尝试训练的损耗除外）相同。有没有更好的方法？我已经尝试过课堂权重，我为所有人设定了零权重，但是我正在训练的输出却没有给出我期望的结果？我正在使用Theano后端。

3热度

1回答

的神经网络

格子世界表示我试图想出一个2-d格世界的，其利用的Q功能的神经网络的Q学习算法的状态更好的代表性。在教程Q-learning with Neural Networks中，网格表示为整数的三维数组（0或1）。第一个和第二个维度表示网格世界中对象的位置。第三维编码它是哪个对象。因此，对于其中包含4个对象的4x4网格，您将代表具有64个元素的3维数组（4x4x4）的状态。这意味着，输入层中的神经网络将

1热度

1回答

Javascript - 在长循环期间阻止Chrome浏览器从杀死页面中移除

当Chrome浏览器运行正常时，Chrome浏览器在我的连接四个浏览器游戏中继续查杀页面。游戏是一个玩家vs电脑设置，游戏本身运行正常，从不崩溃。当我将迭代次数设置得太高来训练计算机对手时，该页面崩溃。这些程序使用qLearning算法训练ai，并在其中播放自身并为每个遇到的状态存储一个值。如果我将迭代次数设置为大约125,000或更少，那么一切正常（除非对手不那么好）。我无法确定是否是杀死程序的

0热度

1回答

tictactoe搜索空间不会产生所有状态的预订探索

我正在尝试为tictactoe实施q-learning。这样做的其中一个步骤涉及列举tictactoe板的所有可能状态以形成状态值表。我写了一个从空板开始递归生成所有可能状态的过程。为此，我隐式执行搜索空间树的预遍历。然而，最后，我只得到707个独特的州，而普遍的共识是，合法州的数量约为5000. 注意：我指的是合法状态的数量。我知道，如果任何一名球员在比赛结束后被允许继续比赛（我的意思是非法状态

2热度

1回答

深度Q学习算法中的phi是什么

我想从头开始用Java学习橄榄球游戏，我试图用Google DeepMind的Deep Q-learning算法实现强化学习（尽管没有卷积网络）。我已经建立了神经网络和Q-learning，现在我正试图将它们总结在一起，但有些东西在代码中我不明白。是不是通常用零而不是随机值初始化Q值？或意思的神经网络的权重（第2行）什么是预处理意味着测序Φ1=Φ（S1）（第4行）我只是无法弄清楚在这个算

1热度

1回答

Pybrain强化学习;维状态

我正在研究一个项目，将强化学习与使用Pybrain软件包的交通灯模拟相结合。我已阅读教程并实施了我自己的Environment和Task的子类。我使用的是ActionValueNetwork作为控制器，因为我希望我的状态是连续值的向量，使得它可以包含关于例如汽车等各车道的数量，总等待每个通道和更多时间的信息。我设置了ActionValueNetwork的输入尺寸，我的状态向量的尺寸，这将表明，它

4热度

2回答

如何理解Sutton＆Barto的RL书中Watkins的Q（λ）学习算法？

在萨顿&巴托的RL书（link）时，沃特金斯的Q（λ）学习算法在图7.14介绍： 10号线 “对于所有S，A：” 中， “S，A” 这里是所有（s，a），而第8行和第9行中的（s，a）用于当前（s，a），这是正确的吗？在第12行和第13行，当一个'！= a *，执行第13行，所有e（s，a）都将被设置为0，那么当所有的资格跟踪都是什么时候，设置为0，因为情况a'！= a *将经常发生。即使情况a