reinforcement-learning

    0热度

    1回答

    以下是我用于设计策略梯度算法的一部分代码。在张量流中: self.activation = tf.contrib.layers.fully_connected(inputs= state,num_outputs =\ num_actions,activation_fn=tf.nn.relu6,weights_initializer=tf.contrib.layers.xavier_initial

    3热度

    2回答

    我知道钢筋学习的基础知识,但需要了解什么条件才能阅读arxiv PPO paper? 什么是学习和使用的路线图PPO?

    0热度

    1回答

    深度确定性策略梯度处理第一轮关闭策略培训的好方法是什么? 这是我的问题:我用Xavier Initialization初始化所有权重和零偏差。然而,当计算评论家的损失时,我得到了无限的MSE,因为Q_target和Q_eval之间的差异非常大。把它剪成一个很大的值是不是一个好主意? Q_target_i = r_i + discount * Q_target(i+1) critic_loss =

    0热度

    1回答

    我正在学习Q-Learning,并试图在OpenAI Gym的FrozenLake-v0问题上构建Q-learner。由于问题只有16个状态和4个可能的操作,所以它应该相当容易,但看起来像我的算法没有正确更新Q表。 以下是我的Q学习算法: import gym import numpy as np from gym import wrappers def run( env,

    0热度

    1回答

    我是新来Keras,我觉得很难理解LSTM layer.The Keras文档的输入数据的形状说,输入数据应该是三维张量形状(nb_samples,timeteps,input_dim)。 我很难理解这种格式。时间步长变量是否表示网络记录的时间步数? 在我的数据的几个时间步长影响网络的输出,但我不知道有多少事先即不能说以前的10个样品影响输出。例如,输入可以是形成句子的单词。每个句子中的单词之间有

    3热度

    1回答

    我正在尝试为奥赛罗构建一个时间差异学习代理。虽然我的其他实现似乎按预期运行,但我想知道用于训练我的网络的损失函数。在Sutton的“增强学习:导论”一书中,均方误差值(MSVE)是标准损失函数,它基本上是一个均方误差乘以策略分布(所有状态之和(onPolicyDistribution(s )* [V(s)-V'(s,w)] 2)) 我现在的问题是:当我的策略是学习值函数的e-greedy函数时,如

    0热度

    1回答

    我正在尝试使用动作值近似函数来实现q-learning。我正在使用openai-gym和“MountainCar-v0”环境来测试我的算法。我的问题是,它没有收敛或找到目标。 基本上,approximator的工作方式如下,您可以输入2个特征:位置和速度,以及单热编码中的3个动作之一:0 - > [1,0,0],1 - > [ 0,1,0]和2 - > [0,0,1]。对于一个特定的动作,输出是动

    2热度

    1回答

    我正在学习MDP的和value iteration的自学,我希望有人可以提高我的理解。 考虑一个3面骰子的问题,其编号为1, 2, 3。如果你滚1或2你得到的价值$但如果你滚3你失去了你所有的钱,游戏结束(finite horizon problem) 概念我明白这有以下forumla完成: 让我们打破下来: 由于这是一个finite horizon问题,我们可以忽略gamma。 如果我是obse

    2热度

    1回答

    有谁知道如何运行一个OpenAI健身房环境作为播放器。让人类玩家玩一轮推车杆?我已经看到有env.mode ='human',但是我一直无法让它正常运行。我试图按照https://www.pinchofintelligence.com/getting-started-openai-gym/给出的例子,但它似乎不适用于我。 任何帮助,你可以给予将不胜感激。 谢谢

    0热度

    1回答

    我想用Q学习训练CatPole-V0喂养tensorflow占位符。当试图更新用丰富的经验,我收到以下错误重传缓冲器: ValueError: Cannot feed value of shape (128,) for Tensor 'Placeholder_1:0', which has shape '(?, 2)' 相关的代码片段是: def update_replay_buffer(re