我正在开发自驾车计划的代码。我在我的choose_action函数中遇到问题。代理应该从选择的有以下步骤最高Q值的动作选择随机行动: “其他: 行动= maxQaction” 但我现在写的方式,每次只会选择相同的动作。任何人都可以建议如何随机选择最高的Q值,也许我可以使用列表。 Code:
import random
import math
from environment import A
我在开放式健身房的mountain car problem中实施DQN。这个问题很特殊,因为积极的回报非常稀少。所以我想到了这个paper by google deep mind中提出的优先体验重播。 但是也有一些困惑我某些事: 我们如何存储回放存储器。我得到那我是过渡的优先事项,有两种方式,但这是什么P(我)? 如果我们按照给定的规则不会P(i)每次添加样本都会改变。 当它说“我们根据此概率分布
我想用Q学习训练CatPole-V0喂养tensorflow占位符。当试图更新用丰富的经验,我收到以下错误重传缓冲器: ValueError: Cannot feed value of shape (128,) for Tensor 'Placeholder_1:0', which has shape '(?, 2)'
相关的代码片段是: def update_replay_buffer(re