我想获得一些关于如何使用函数逼近的Q学习算法的有用说明。对于基本的Q学习算法,我找到了一些例子,我想我也明白它。如果使用函数逼近,我会遇到麻烦。有人可以通过一个简短的例子来解释它是如何工作的吗? 我所知道的: Istead使用矩阵,我们使用的功能和参数Q值的。 使用派生函数和参数的线性组合近似。 更新参数。 我已经检查本文:Q-learning with function approximatio
我目前正在与Q学习和我有一个字典Q [状态,行动] 其中每个状态可以是任何东西即字符串,数字,列表..取决于应用。每个州有3或4个可能的行动。对于每个状态,我需要找到具有最高Q值的动作。问题是我不知道如何访问所有可能的行动,该国已直接从具有两个键的字典,所以我曾尝试使用for循环: for statex, actionx in self.array:
if statex == state