VoidCC
标签列表
othello
3
热度
1
回答
在增强学习中实现丢失函数(MSVE)
我正在尝试为奥赛罗构建一个时间差异学习代理。虽然我的其他实现似乎按预期运行,但我想知道用于训练我的网络的损失函数。在Sutton的“增强学习:导论”一书中,均方误差值(MSVE)是标准损失函数,它基本上是一个均方误差乘以策略分布(所有状态之和(onPolicyDistribution(s )* [V(s)-V'(s,w)] 2)) 我现在的问题是:当我的策略是学习值函数的e-greedy函数时,如
reinforcement-learning
pytorch
loss-function
temporal-difference
othello
2017-10-11
1
热度
2
回答
通过alpha beta修剪了解minimax
对不起,图片直接从我的笔记。 我一直在读了极小的树木和alpha数据修剪的最后一天,在我的项目准备了一下。这是c中的奥赛罗的实现。 我看过吨左右,它的资源,我知道它被问了很多。 在我开始评估功能之前,我想充分理解这一点。 在附图中,我无法弄清楚功能Min_Node(pos)和Max_Node(pos)会做什么,任何输入将不胜感激。 如果任何人有我应该去寻找实现这个和奥赛罗对我的评价功能,当任何提示
optimization
minimax
alpha-beta-pruning
othello
2017-04-11
最新问题
1.
影响悬停
2.
如何编写通过在序列中丢失项目来生成ID的函数?
3.
从标签菜单克隆divs并将它们堆叠在一起
4.
C#强制类型转换为泛型强类型
5.
Tensorflow和CUDA版本
6.
是什么,如果我可以通过安装搬运工引擎
7.
优化:值替换在数据帧wiith多个条件
8.
RxJava而不是改造回调
9.
如何将php关联数组排序为特定顺序?
10.
插入带有case语句的列