2

我希望我的RL代理尽快达到目标,同时尽量减少使用特定资源T的次数(有时这是必要的)。如何在RL计划中设立即时奖励?

我想设置立即奖励为每步-1,如果代理使用T,则额外为-1,如果达到目标则为0。

但是附加-1完全是任意的,我该如何决定代理人使用T需要多少惩罚?

回答

1

您应该使用模仿您自己的价值的奖励功能。如果资源昂贵(对你有用),那么对它进行处罚应该是苛刻的。同样的事情需要时间(如果你仔细想想,这也是一种资源)。

如果两种惩罚(时间消耗和资源消耗的惩罚)之间的比率与您对这些资源的评估方式相符,那么代理将按您的兴趣行事。如果你弄错了(因为也许你不知道资源的精确成本和慢速学习的确切成本),那么它会努力寻找一个伪最优解,而不是最优解,在很多情况下好的。