q-learning

2热度

1回答

我正在阅读DQN网络上的深度自然论文。除了一个之外，我几乎掌握了一切。我不知道为什么没有人问过这个问题，但对我来说似乎有点奇怪。我的问题：输入到DQN是84 * 84 * 4图像。第一个卷积层由32个8 * 8的stide 4滤波器组成。我想知道这个卷积阶段的结果究竟是什么？我的意思是，输入是3D，但我们有32个过滤器，都是2D。第三维（对应于游戏中的最后4帧）如何参与卷积？任何想法？谢

4热度

3回答

Q学习代理的学习率

问题学习率如何影响收敛速度和收敛本身。如果学习速率不变，Q函数是否会收敛到最优或学习速率应该会衰减以保证收敛？

1热度

1回答

一个未知大小的无向图的C++数据结构

我试图做一个程序，探索未知大小的无向图，并建立一个邻接列表。通常我会做一个set<set<String>>（房间由一个字符串标识），但我被告知这在C++中是不稳定的。什么会是更好的数据结构？

2热度

1回答

PyBrains Q-Learning迷宫示例。

我想出来的PyBrains状态值和全球政策迷宫例如我的设置是： envmatrix = [[...]] env = Maze(envmatrix, (1, 8)) task = MDPMazeTask(env) table = ActionValueTable(states_nr, actions_nr) table.initialize(0.) learner = Q() agen

2热度

1回答

Tensorflow通过切片丢失Q网的实现

我正在通过TensorFlow中的深层强化学习（Mnih et al。2015）在人类控制中实现Q网络。为了近似他们使用神经网络的Q函数。 Q函数将状态和动作映射为标量值，称为Q值。即它是一个函数，如Q（s，a）= qvalue。但是，不是将状态和动作都作为输入，而只是将状态作为输入，并以给定的顺序输出每个法律行为具有一个元素的向量。因此Q（s，a）变成Q'（s）= array([val_a1

4热度

1回答

Tic tac toe机器学习 - 有效动作

我正在玩机器学习。尤其是问答学习，您可以根据网络的状况获得奖励和奖励。现在对于初学者，我给自己设定一个简单的目标：训练网络，以便它将为井字棋的行动有效移动（与随机的对手）。我的问题是，网络一点也不学，甚至随着时间的推移变得更糟。我做的第一件事就是让与火炬并为它深深的Q学习模块触摸：https://github.com/blakeMilner/DeepQLearning。然后我写了一个简单的井

0热度

1回答

使用线性函数逼近的Q学习

我想获得一些关于如何使用函数逼近的Q学习算法的有用说明。对于基本的Q学习算法，我找到了一些例子，我想我也明白它。如果使用函数逼近，我会遇到麻烦。有人可以通过一个简短的例子来解释它是如何工作的吗？我所知道的： Istead使用矩阵，我们使用的功能和参数Q值的。使用派生函数和参数的线性组合近似。更新参数。我已经检查本文：Q-learning with function approximatio

0热度

2回答

Q学习系数溢出

我一直在使用黑盒挑战（www.blackboxchallenge.com）尝试学习一些强化学习。我已经为挑战创建了一个任务和环境，并且我使用PyBrain根据黑盒环境进行训练。对环境的总结是，每个状态都有一些特征，这些特征是一个浮点数的浮点数和一系列动作。对于训练示例，它是36个特征和4个动作。我已经尝试了Q_LinFA和QLambda_LinFA学习者，但都有他们的系数溢出（._theta数

2热度

1回答

Python访问字典，有两个键只使用一个键

我目前正在与Q学习和我有一个字典Q [状态，行动] 其中每个状态可以是任何东西即字符串，数字，列表..取决于应用。每个州有3或4个可能的行动。对于每个状态，我需要找到具有最高Q值的动作。问题是我不知道如何访问所有可能的行动，该国已直接从具有两个键的字典，所以我曾尝试使用for循环： for statex, actionx in self.array: if statex == state

2热度

2回答

Q-Learning与贪婪选择对比SARSA

Q-Learning和SARSA的区别在于Q-Learning比较当前状态和最佳状态，在SARSA比较当前状态和实际下一个状态的情况下。如果使用贪婪选择策略，即在100％的时间内选择具有最高动作值的动作，则SARSA和Q-Learning是否相同？