othello

    3热度

    1回答

    我正在尝试为奥赛罗构建一个时间差异学习代理。虽然我的其他实现似乎按预期运行,但我想知道用于训练我的网络的损失函数。在Sutton的“增强学习:导论”一书中,均方误差值(MSVE)是标准损失函数,它基本上是一个均方误差乘以策略分布(所有状态之和(onPolicyDistribution(s )* [V(s)-V'(s,w)] 2)) 我现在的问题是:当我的策略是学习值函数的e-greedy函数时,如

    1热度

    2回答

    对不起,图片直接从我的笔记。 我一直在读了极小的树木和alpha数据修剪的最后一天,在我的项目准备了一下。这是c中的奥赛罗的实现。 我看过吨左右,它的资源,我知道它被问了很多。 在我开始评估功能之前,我想充分理解这一点。 在附图中,我无法弄清楚功能Min_Node(pos)和Max_Node(pos)会做什么,任何输入将不胜感激。 如果任何人有我应该去寻找实现这个和奥赛罗对我的评价功能,当任何提示