q-learning

    2热度

    1回答

    我正在阅读DQN网络上的深度自然论文。 除了一个之外,我几乎掌握了一切。我不知道为什么没有人问过这个问题,但对我来说似乎有点奇怪。 我的问题: 输入到DQN是84 * 84 * 4图像。第一个卷积层由32个8 * 8的stide 4滤波器组成。我想知道这个卷积阶段的结果究竟是什么?我的意思是,输入是3D,但我们有32个过滤器,都是2D。第三维(对应于游戏中的最后4帧)如何参与卷积? 任何想法? 谢

    4热度

    3回答

    问题学习率如何影响收敛速度和收敛本身。 如果学习速率不变,Q函数是否会收敛到最优或学习速率应该会衰减以保证收敛?

    1热度

    1回答

    我试图做一个程序,探索未知大小的无向图,并建立一个邻接列表。通常我会做一个set<set<String>>(房间由一个字符串标识),但我被告知这在C++中是不稳定的。什么会是更好的数据结构?

    2热度

    1回答

    我想出来的PyBrains状态值和全球政策迷宫例如 我的设置是: envmatrix = [[...]] env = Maze(envmatrix, (1, 8)) task = MDPMazeTask(env) table = ActionValueTable(states_nr, actions_nr) table.initialize(0.) learner = Q() agen

    2热度

    1回答

    我正在通过TensorFlow中的深层强化学习(Mnih et al。2015)在人类控制中实现Q网络。 为了近似他们使用神经网络的Q函数。 Q函数将状态和动作映射为标量值,称为Q值。即它是一个函数,如Q(s,a)= qvalue。 但是,不是将状态和动作都作为输入,而只是将状态作为输入,并以给定的顺序输出每个法律行为具有一个元素的向量。因此Q(s,a)变成Q'(s)= array([val_a1

    4热度

    1回答

    我正在玩机器学习。尤其是问答学习,您可以根据网络的状况获得奖励和奖励。 现在对于初学者,我给自己设定一个简单的目标:训练网络,以便它将为井字棋的行动有效移动(与随机的对手)。我的问题是,网络一点也不学,甚至随着时间的推移变得更糟。 我做的第一件事就是让与火炬并为它深深的Q学习模块触摸:https://github.com/blakeMilner/DeepQLearning。 然后我写了一个简单的井

    0热度

    1回答

    我想获得一些关于如何使用函数逼近的Q学习算法的有用说明。对于基本的Q学习算法,我找到了一些例子,我想我也明白它。如果使用函数逼近,我会遇到麻烦。有人可以通过一个简短的例子来解释它是如何工作的吗? 我所知道的: Istead使用矩阵,我们使用的功能和参数Q值的。 使用派生函数和参数的线性组合近似。 更新参数。 我已经检查本文:Q-learning with function approximatio

    0热度

    2回答

    我一直在使用黑盒挑战(www.blackboxchallenge.com)尝试学习一些强化学习。 我已经为挑战创建了一个任务和环境,并且我使用PyBrain根据黑盒环境进行训练。对环境的总结是,每个状态都有一些特征,这些特征是一个浮点数的浮点数和一系列动作。对于训练示例,它是36个特征和4个动作。 我已经尝试了Q_LinFA和QLambda_LinFA学习者,但都有他们的系数溢出(._theta数

    2热度

    1回答

    我目前正在与Q学习和我有一个字典Q [状态,行动] 其中每个状态可以是任何东西即字符串,数字,列表..取决于应用。每个州有3或4个可能的行动。对于每个状态,我需要找到具有最高Q值的动作。问题是我不知道如何访问所有可能的行动,该国已直接从具有两个键的字典,所以我曾尝试使用for循环: for statex, actionx in self.array: if statex == state

    2热度

    2回答

    Q-Learning和SARSA的区别在于Q-Learning比较当前状态和最佳状态,在SARSA比较当前状态和实际下一个状态的情况下。 如果使用贪婪选择策略,即在100%的时间内选择具有最高动作值的动作,则SARSA和Q-Learning是否相同?