学习者可能正处于训练阶段,在那里它会更新一堆时代的Q表。加强学习:在Q-learning培训完成后,我是否必须忽略超参数(?)?
在这个阶段,Q表会更新为gamma(贴现率),学习率(alpha),并且动作将由随机动作率选择。
经过一段时间后,当奖励变得稳定后,让我称之为“训练完成”。那么在那之后我必须忽略这些参数(伽马,学习率等)吗?
我的意思是,在训练阶段,我从Q-表像这样的动作:
if rand_float < rar:
action = rand.randint(0, num_actions - 1)
else:
action = np.argmax(Q[s_prime_as_index])
但经过训练阶段,我必须删除rar
,这意味着我得从操作像这样的Q桌子?
action = np.argmax(self.Q[s_prime])
你使用哪些语言和库?添加标签。 – user31264
我不使用任何库...我自己做了整个系统 – user3595632
似乎这是一个问题stats.stackexchange.com或ai.stackexchange.com – user31264