2
我想从头开始用Java学习橄榄球游戏,我试图用Google DeepMind的Deep Q-learning算法实现强化学习(尽管没有卷积网络) 。我已经建立了神经网络和Q-learning,现在我正试图将它们总结在一起,但有些东西在代码中我不明白。深度Q学习算法中的phi是什么
- 是不是通常用零而不是随机值初始化Q值?或意思的神经网络的权重(第2行)
- 什么是
预处理意味着测序Φ1=Φ(S1)(第4行)
我只是无法弄清楚在这个算法中Φ代表什么。
不错,谢谢!我甚至没有发现过2015年的这篇文章,我现在要读这篇文章。 – Dope