可以强化学习代理学习离散分布

在网格世界中，如果我开始按照初始策略采取行动作为可用操作之间的离散分布。假设我在每个州有四个行动（北，南，东，西），现在我决定在每个州50％的时间我会选择行动“北”。 30％的时间我会选择行动“南”。 10％的时间行为“东”，剩下10％的行动“西”。它对最佳政策会产生什么影响？如果我在行动中选择了统一的随机分配。我想更频繁地探索一个动作会让q值对于那个状态和动作对快速收敛，而且会更真实。但没有办法，如果我探索一个行动更多的其q值会更多。请告诉我我是否正确。可以强化学习代理学习离散分布

来源

2016-07-06 Prabir

如果你的发行版允许你进入你的世界中的任何状态，那么随着你的发行次数接近无限，这将不会有任何效果。也就是说，无论从哪个概率分布中抽取您的行为，您都将获得恰好为的最佳策略（假设只有一个最优策略）。

当然这在理论上适用，但在实践中，您可能会注意到改变概率分布的另一个副作用。

假设您处于一个只允许您选择左侧或右侧的世界。如果目标总是在左侧，并且选择动作的概率为99％，那么您将非常快速地获得最优策略。如果选择左侧动作的概率为1％，那么您将非常缓慢地获得最优策略。无论哪种方式，有足够的情节，你将获得最佳政策。

这同样适用于概率分布在情节期间可能改变的e-greedy方法。

来源

2016-07-06 19:34:12 Andnp

因此，这意味着我们的目标永远都是安全的，可以采取均匀随机分布的行动。因为那样我们将总是在迭代中找到最优策略（在最小与无剧集接近无穷之间）。在分配之后采取行动并没有特别的好处，除非我有关于目标状态的特殊信息。就像你所说的“目标总是在左边”。 – Prabir

我想我会回避说它总是*安全的使用统一的随机分布。任何分配都是安全的，只要有可能在分配后进入每个状态。根据环境的不同，某些分配可能具有更快收敛的优点。即使对环境没有进一步的了解，情况也是如此，但只有通过实验才能找到。 – Andnp

可以强化学习代理学习离散分布

回答

相关问题