我一直在阅读Browne等人的Monte Carlo Tree Search调查报告。人:蒙特卡罗树搜索,反向传播(备份)步骤:为什么要改变奖励值的角度?
http://ccg.doc.gold.ac.uk/papers/browne_tciaig12_1.pdf
“蒙特卡洛树搜索方法综述”
我与页上的只是一片伪代码的摔跤。 9.我的问题在Backup和BackupNegamax函数中都以类似的形式出现。
假设我是2人零和游戏中的玩家1。 (所以,使用BackupNegamax函数。)轮到我了,我正在使用MCTS来选择我的移动。在BackupNegamax中,为什么在备份树时,delta值被否定了?我明白,在双人零和游戏中,如果奖励是玩家1(我)的三角洲,那么它是 - 玩家2的三角。但是不应该从玩家1的角度来看整个树? (如果我没有弄错的话,这将类似于节点在极大极树中的评分。)
如果Q值的角度来回切换,取决于您所在的树的级别,这不会搞乱BestChild函数中显示的计算吗?具体来说,假设某个节点v具有非常高的Q值,因为它经常导致玩家1的高回报。给定的伪代码似乎表明v的父母,我将称之为u,可能会有非常低的负数)Q值(当然你的Q值也会考虑到其他孩子的Q值)
所以对我来说,u(父母)的Q值非常低,v孩子)有一个非常高的。我知道v是来自玩家1在伪代码中的角度,而u是来自玩家2的角度,但我的问题是为什么。为什么不是从播放器1的角度存储节点的Q值?这样,u和v都将具有高Q值,因此具有很高的开采评级,并且根据BestChild函数,它们都被认为对进一步开发具有价值。
(我在MCTS来从极小的经验,并在极小整个树是从最大的角度来看,这就是为什么我用不同的想法在这里挣扎。)
我的问题也适用于备份 - 为什么每个Q值都根据树中该层的玩家角度更新,而不是从“我的”角度更新一切?
我希望我的问题已经很清楚了。非常感谢您的帮助!
我也很困惑这个想法。 – alexzzp