蒙特卡洛模拟中“最后的好回复”和“快速行动价值估计”的概念是什么？

我开发了一个基于蒙特卡罗树搜索Hex游戏的简单十六进制播放器。现在我想用RAVE（快速行动价值估计）和LGP（最后的好回复）来扩展十六进制播放器。文章是here和here。
我想知道这里有没有人使用这些方法来改善树搜索性能，并可以帮助我理解它？
我也想知道为什么这些算法被称为AMAF（All Moves As First）启发式？蒙特卡洛模拟中“最后的好回复”和“快速行动价值估计”的概念是什么？

来源

2016-09-30 Masoud Masoumi Moghadam

在利用强化学习的游戏中的蒙特卡罗树搜索领域，有两种类型的反向传播，AMAF和UCT。

UCT方法反向传播它已经通过选择阶段的路径。只有在选择过程中遇到的节点才会在其状态下反向传播。但是在AMAF中，在roll_out阶段期间满足的所有节点都存储，并且在反向传播阶段与选择路径中的节点一起被反向传播而不考虑状态。

UCT给出了一个（状态，动作）对的非常精确和局部的值，但它的收敛速度太慢。另一方面，AMAF启发式收敛非常快，但（状态，动作）对值过于笼统，不可靠。

我们可以通过使用一个递减系数这样的价值观两种策略的好处：

一个* UCT +（1 - A）* AMAF

这是RAVE（快速行动值Stimation）启发式。

Last-Good-Reply是基于AMAF的，但可以从RAVE中受益。其总体思路是，在播出阶段，当我们使用反对对手动作的动作时，如果这些动作对对手成功，那么我们可能能够存储这些动作并将其用于下一个播放。

来源

2017-08-30 22:54:54

蒙特卡洛模拟中“最后的好回复”和“快速行动价值估计”的概念是什么？

回答

相关问题