我在为我的模型中的不同类型的智能体实施学习策略。说实话,我仍然不知道我应该问什么样的问题或从哪里开始。在NetLogo中实施强化学习(在多智能体模型中学习)
我有两种类型的,我希望他们的经验中学习代理人,他们的每个具有基于可能发生的具体情况不同的奖励措施池。 我是新来的强化学习方法,因此我应该问什么样的问题是我自己:)欢迎
这里是如何我前进制订我的问题有什么建议:
- 代理有寿命和他们跟踪这事对他们来说这些指标是不同的代理商不同,例如,一个代理需要增加一些事情,另一个想乙,而A.
- 国家是在代理的一生点多,他们 有多个选项(我没有明确的定义 S大老,因为它们可能发生几次或不会发生,因为在所有 代理走动,他们可能从来没有遇到的情况)
- 奖励是一个指标的增加或减少代理商可以从一个动作在特定的获得国家和代理人不知道如果他选择了另一个行动会有什么收益。
- 增益不是恒定的,状态没有明确定义,并且没有一个状态正式转换到另一个状态,例如代理可以决定与共同代理(行为1)之一共享或者所有代理人在同一地点(行动2)如果某些条件成立,行动A对该代理人的回报将更高,而在其他情况下,行动2将有更高的奖励;我的问题是我没有看到任何奖励未知的例子,因为在这种情况下共享也取决于其他代理的特征(这会影响奖励系统的条件),并且在不同的州会有所不同。
在我的模型有的工作和后续状态之间没有任何关系,这让我不知道它的确定要考虑RL在这种情况下,在所有。
我期望在此优化的是我的代理人能够以更好的方式推理当前情况,而不仅仅响应他们内部状态触发的需求。他们有几个人物可以确定他们的长期目标,并且可以影响他们在不同情况下做出的决策,但是我希望他们记住在某种情况下的行动有助于他们增加他们的首选长期目标。
非常感谢您,正如我所说的,我没有明确的国家定义,我的模拟关注的是社交互惠交流,例如分享和偷窃或什么都不做,但所有这些行为可能并不适用于所有代理,因为有些基于他们内部的状态通常会分享和其他人偷窃,但是,每种行为都有一系列不同的行为,例如他们只能与团体内成员或团体成员共享,或者他们可以决定从这个决定影响了代理人的声誉和自我满足度 – Marzy
你的回答有很大的帮助,因为我是RL新手,我不确定我应该问自己什么样的问题:D – Marzy
我很高兴它有助于!关于行动的可用性:可用行动应完全由国家决定。请记住,内部变量可以包含在状态中。所以,如果一个行动者倾向于不偷盗,那么这种倾向就是国家的一部分,而且这种行为是不可用的。同样,假设代理人离组外代理比较近,因此可以窃取代理。这是一个国家。现在假设代理人接近组内代理,因此不能窃取。这是一个不同的状态。通过这种方式,状态决定了代理可以采取的行动。 –