othello - VoidCC

othello

3热度

1回答

我正在尝试为奥赛罗构建一个时间差异学习代理。虽然我的其他实现似乎按预期运行，但我想知道用于训练我的网络的损失函数。在Sutton的“增强学习：导论”一书中，均方误差值（MSVE）是标准损失函数，它基本上是一个均方误差乘以策略分布（所有状态之和（onPolicyDistribution（s ）* [V（s）-V'（s，w）] 2））我现在的问题是：当我的策略是学习值函数的e-greedy函数时，如

1热度

2回答

通过alpha beta修剪了解minimax

对不起，图片直接从我的笔记。我一直在读了极小的树木和alpha数据修剪的最后一天，在我的项目准备了一下。这是c中的奥赛罗的实现。我看过吨左右，它的资源，我知道它被问了很多。在我开始评估功能之前，我想充分理解这一点。在附图中，我无法弄清楚功能Min_Node(pos)和Max_Node(pos)会做什么，任何输入将不胜感激。如果任何人有我应该去寻找实现这个和奥赛罗对我的评价功能，当任何提示