我开发了一个基于蒙特卡罗树搜索Hex游戏的简单十六进制播放器。现在我想用RAVE(快速行动价值估计)和LGP(最后的好回复)来扩展十六进制播放器。文章是here和here。
我想知道这里有没有人使用这些方法来改善树搜索性能,并可以帮助我理解它?
我也想知道为什么这些算法被称为AMAF(All Moves As First)启发式?蒙特卡洛模拟中“最后的好回复”和“快速行动价值估计”的概念是什么?
0
A
回答
0
在利用强化学习的游戏中的蒙特卡罗树搜索领域,有两种类型的反向传播,AMAF和UCT。
UCT方法反向传播它已经通过选择阶段的路径。只有在选择过程中遇到的节点才会在其状态下反向传播。但是在AMAF中,在roll_out阶段期间满足的所有节点都存储,并且在反向传播阶段与选择路径中的节点一起被反向传播而不考虑状态。
UCT给出了一个(状态,动作)对的非常精确和局部的值,但它的收敛速度太慢。另一方面,AMAF启发式收敛非常快,但(状态,动作)对值过于笼统,不可靠。
我们可以通过使用一个递减系数这样的价值观两种策略的好处:
一个* UCT +(1 - A)* AMAF
这是RAVE(快速行动值Stimation)启发式。
Last-Good-Reply是基于AMAF的,但可以从RAVE中受益。其总体思路是,在播出阶段,当我们使用反对对手动作的动作时,如果这些动作对对手成功,那么我们可能能够存储这些动作并将其用于下一个播放。
相关问题
- 1. Ruby中的蒙特卡洛模拟
- 2. 加速蒙特卡罗模拟的最佳技巧是什么?
- 3. 金融报价免费蒙特卡洛模拟器?
- 4. R - 如何并行化蒙特卡洛模拟的for循环?
- 5. 如何在Ocaml中使用multicores进行蒙特卡洛模拟?
- 6. 使用Brightway2进行蒙特卡洛模拟的负对数正态结果
- 7. 蒙特卡罗模拟,引导和回归中的R
- 8. java iterator背后的概念是什么?
- 9. INotifyPropertyChanged背后的概念是什么?
- 10. 什么是概念?
- 11. Python/Numpy - 加速放射性衰变的蒙特卡洛方法
- 12. ANCS:PositiveAction的概念是什么?
- 13. 蒙特卡洛风格来评估整体MATLAB
- 14. 作为随机和计算(蒙特卡洛)
- 15. 为什么使用蒙特卡洛方法?
- 16. 为什么不允许快速切换开关盒的概念?
- 17. Objective-C中Java的属性类的等价概念是什么?
- 18. R的蒙特卡罗骰子模拟
- 19. 用蒙特卡洛模拟使用八度的平均解决方案
- 20. 编程中“上下文”概念背后的一般概念是什么?
- 21. 检索的卡方检验蒙特卡罗模拟值
- 22. 蒙特卡洛多重分布
- 23. 查找使用蒙特卡洛方法
- 24. 蒙特卡洛试验上AES 128 CBC
- 25. 蒙特卡洛方法崩溃?
- 26. C#蒙特卡洛仿真包需要
- 27. 蒙特卡洛标准偏差方程
- 28. 蒙特卡洛Pi不准确
- 29. mod_rewrite和漂亮的url背后的概念是什么?
- 30. .NET中Assembly的概念是什么?