reinforcement-learning

0热度

1回答

以下是我用于设计策略梯度算法的一部分代码。在张量流中： self.activation = tf.contrib.layers.fully_connected(inputs= state,num_outputs =\ num_actions,activation_fn=tf.nn.relu6,weights_initializer=tf.contrib.layers.xavier_initial

3热度

2回答

了解RL中的近端策略优化算法有哪些方法？

我知道钢筋学习的基础知识，但需要了解什么条件才能阅读arxiv PPO paper？什么是学习和使用的路线图PPO？

0热度

1回答

初始化程度不高的目标评论者

深度确定性策略梯度处理第一轮关闭策略培训的好方法是什么？这是我的问题：我用Xavier Initialization初始化所有权重和零偏差。然而，当计算评论家的损失时，我得到了无限的MSE，因为Q_target和Q_eval之间的差异非常大。把它剪成一个很大的值是不是一个好主意？ Q_target_i = r_i + discount * Q_target(i+1) critic_loss =

0热度

1回答

FrozenLake Q-Learning更新问题

我正在学习Q-Learning，并试图在OpenAI Gym的FrozenLake-v0问题上构建Q-learner。由于问题只有16个状态和4个可能的操作，所以它应该相当容易，但看起来像我的算法没有正确更新Q表。以下是我的Q学习算法： import gym import numpy as np from gym import wrappers def run( env,

0热度

1回答

如何设置输入LSTM在Keras

我是新来Keras，我觉得很难理解LSTM layer.The Keras文档的输入数据的形状说，输入数据应该是三维张量形状（nb_samples，timeteps，input_dim）。我很难理解这种格式。时间步长变量是否表示网络记录的时间步数？在我的数据的几个时间步长影响网络的输出，但我不知道有多少事先即不能说以前的10个样品影响输出。例如，输入可以是形成句子的单词。每个句子中的单词之间有

3热度

1回答

在增强学习中实现丢失函数（MSVE）

我正在尝试为奥赛罗构建一个时间差异学习代理。虽然我的其他实现似乎按预期运行，但我想知道用于训练我的网络的损失函数。在Sutton的“增强学习：导论”一书中，均方误差值（MSVE）是标准损失函数，它基本上是一个均方误差乘以策略分布（所有状态之和（onPolicyDistribution（s ）* [V（s）-V'（s，w）] 2））我现在的问题是：当我的策略是学习值函数的e-greedy函数时，如

0热度

1回答

函数逼近器和q学习

我正在尝试使用动作值近似函数来实现q-learning。我正在使用openai-gym和“MountainCar-v0”环境来测试我的算法。我的问题是，它没有收敛或找到目标。基本上，approximator的工作方式如下，您可以输入2个特征：位置和速度，以及单热编码中的3个动作之一：0 - > [1,0,0]，1 - > [ 0,1,0]和2 - > [0,0,1]。对于一个特定的动作，输出是动

2热度

1回答

具有价值迭代的马尔可夫决策过程的动态规划

我正在学习MDP的和value iteration的自学，我希望有人可以提高我的理解。考虑一个3面骰子的问题，其编号为1, 2, 3。如果你滚1或2你得到的价值$但如果你滚3你失去了你所有的钱，游戏结束（finite horizon problem）概念我明白这有以下forumla完成：让我们打破下来：由于这是一个finite horizon问题，我们可以忽略gamma。如果我是obse

2热度

1回答

OpenAI健身房播放器模式

有谁知道如何运行一个OpenAI健身房环境作为播放器。让人类玩家玩一轮推车杆？我已经看到有env.mode ='human'，但是我一直无法让它正常运行。我试图按照https://www.pinchofintelligence.com/getting-started-openai-gym/给出的例子，但它似乎不适用于我。任何帮助，你可以给予将不胜感激。谢谢

0热度

1回答

从一个数组

我想用Q学习训练CatPole-V0喂养tensorflow占位符。当试图更新用丰富的经验，我收到以下错误重传缓冲器： ValueError: Cannot feed value of shape (128,) for Tensor 'Placeholder_1:0', which has shape '(?, 2)' 相关的代码片段是： def update_replay_buffer(re