2015-02-09 43 views
3

我想在我的q值迭代算法中使用随机策略。据我所知,随机政策是从特定国家选择行动的可能性。另一方面,Q值是处于状态动作对中的值。我如何结合两者?如何将随机策略与Q值迭代相结合?

+0

您可以考虑在http://cstheory.stackexchange.com/上提出这个问题,而不是/除此之外,特别是如果这是一个纯粹的理论问题而不是与特定的技术或语言绑定。 – 2015-02-09 13:59:07

+0

如何移动该问题或在那里发布新问题? – 2015-02-09 15:26:58

+0

我不一定会把它移动,因为你可能会在这里得到一些答案。版主可以提出问题,但如果在一段时间后你没有得到任何答案,我会说在那里问一个新问题。 – 2015-02-09 16:28:31

回答

2

这方面的一个例子是在Q学习期间用于增加探索的epsilon-greedy方法。

在这种情况下,您按照Q(s,a)定义的最佳操作,以概率epsilon(介于0和1之间)进行抽取,然后以概率1-epsilon进行随机操作。