2016-07-06 108 views
0

在网格世界中,如果我开始按照初始策略采取行动作为可用操作之间的离散分布。假设我在每个州有四个行动(北,南,东,西),现在我决定在每个州50%的时间我会选择行动“北”。 30%的时间我会选择行动“南”。 10%的时间行为“东”,剩下10%的行动“西”。它对最佳政策会产生什么影响?如果我在行动中选择了统一的随机分配。我想更频繁地探索一个动作会让q值对于那个状态和动作对快速收敛,而且会更真实。但没有办法,如果我探索一个行动更多的其q值会更多。请告诉我我是否正确。可以强化学习代理学习离散分布

回答

3

如果你的发行版允许你进入你的世界中的任何状态,那么随着你的发行次数接近无限,这将不会有任何效果。也就是说,无论从哪个概率分布中抽取您的行为,您都将获得恰好为的最佳策略(假设只有一个最优策略)。

当然这在理论上适用,但在实践中,您可能会注意到改变概率分布的另一个副作用。

假设您处于一个只允许您选择左侧右侧的世界。如果目标总是在左侧,并且选择动作的概率为99%,那么您将非常快速地获得最优策略。如果选择左侧动作的概率为1%,那么您将非常缓慢地获得最优策略。无论哪种方式,有足够的情节,你将获得最佳政策。

这同样适用于概率分布在情节期间可能改变的e-greedy方法。

+0

因此,这意味着我们的目标永远都是安全的,可以采取均匀随机分布的行动。因为那样我们将总是在迭代中找到最优策略(在最小与无剧集接近无穷之间)。在分配之后采取行动并没有特别的好处,除非我有关于目标状态的特殊信息。就像你所说的“目标总是在左边”。 – Prabir

+0

我想我会回避说它总是*安全的使用统一的随机分布。任何分配都是安全的,只要有可能在分配后进入每个状态。根据环境的不同,某些分配可能具有更快收敛的优点。即使对环境没有进一步的了解,情况也是如此,但只有通过实验才能找到。 – Andnp