2016-10-04 135 views
2

我想从头开始用Java学习橄榄球游戏,我试图用Google DeepMind的Deep Q-learning算法实现强化学习(尽管没有卷积网络) 。我已经建立了神经网络和Q-learning,现在我正试图将它们总结在一起,但有些东西在代码中我不明白。深度Q学习算法中的phi是什么

  1. 是不是通常用零而不是随机值初始化Q值?或意思的神经网络的权重(第2行)
  2. 什么是

预处理意味着测序Φ1=Φ(S1)(第4行)

我只是无法弄清楚在这个算法中Φ代表什么。

回答

2
  1. 它是指(一个或多个)神经网络
  2. Φ是指预处理地图/步骤的权重,Φ为Φ(S1)的速记 每个帧是210x160像素x 128种颜色。本文使用了一些预处理。它们消除闪烁,仅使用亮度,重新缩放和叠加。 查看2015年论文中的“方法”部分。
+0

不错,谢谢!我甚至没有发现过2015年的这篇文章,我现在要读这篇文章。 – Dope