在NetLogo中实施强化学习（在多智能体模型中学习）

我在为我的模型中的不同类型的智能体实施学习策略。说实话，我仍然不知道我应该问什么样的问题或从哪里开始。在NetLogo中实施强化学习（在多智能体模型中学习）

我有两种类型的，我希望他们的经验中学习代理人，他们的每个具有基于可能发生的具体情况不同的奖励措施池。我是新来的强化学习方法，因此我应该问什么样的问题是我自己:)欢迎

这里是如何我前进制订我的问题有什么建议：

代理有寿命和他们跟踪这事对他们来说这些指标是不同的代理商不同，例如，一个代理需要增加一些事情，另一个想乙，而A.
国家是在代理的一生点多，他们有多个选项（我没有明确的定义 S大老，因为它们可能发生几次或不会发生，因为在所有代理走动，他们可能从来没有遇到的情况）
奖励是一个指标的增加或减少代理商可以从一个动作在特定的获得国家和代理人不知道如果他选择了另一个行动会有什么收益。
增益不是恒定的，状态没有明确定义，并且没有一个状态正式转换到另一个状态，例如代理可以决定与共同代理（行为1）之一共享或者所有代理人在同一地点（行动2）如果某些条件成立，行动A对该代理人的回报将更高，而在其他情况下，行动2将有更高的奖励;我的问题是我没有看到任何奖励未知的例子，因为在这种情况下共享也取决于其他代理的特征（这会影响奖励系统的条件），并且在不同的州会有所不同。

在我的模型有的工作和后续状态之间没有任何关系，这让我不知道它的确定要考虑RL在这种情况下，在所有。

我期望在此优化的是我的代理人能够以更好的方式推理当前情况，而不仅仅响应他们内部状态触发的需求。他们有几个人物可以确定他们的长期目标，并且可以影响他们在不同情况下做出的决策，但是我希望他们记住在某种情况下的行动有助于他们增加他们的首选长期目标。

来源

2014-01-15 Marzy

在我的模型中，动作和以下状态之间没有任何关系，这让我想知道在这种情况下是否可以考虑RL。

这似乎很奇怪。如果不改变状态，做什么？请注意，代理商不必知道他们的行为将如何改变他们的状态。同样，动作可能会改变状态不完美（机器人踏板可能会滑出，因此在尝试时机器人不会移动）。事实上，一些算法是专门针对这种不确定性而设计的。

在任何情况下，即使代理人在没有任何控制的情况下围绕状态空间移动，它仍然可以获知不同状态的奖励。事实上，许多RL算法涉及半随机地围绕状态空间移动以找出奖励的内容。

我没有为美国一个明确的定义，因为它们可能发生几次或不是因为代理走动发生在所有的，他们可能从来没有面对的情况

你可能会考虑扩大善有善报进入你认为是“国家”的地方。例如，这个位置看起来应该是肯定会进入识别状态的变量。并非所有的州都需要获得回报（尽管良好的RL算法通常会推断中性状态的好处）。

我会建议明确定义决定代理状态的变量。例如，状态空间可以是current-patch X internal-variable-value X other-agents-present。在最简单的情况下，代理可以观察构成其状态的所有变量。但是，有些算法不需要这个。代理应该总是处于一个状态，即使该州没有奖励价值。

现在，关于未知的奖励。这其实完全没问题。奖励可以是random variable。在这种情况下，应用标准RL算法的一种简单方法是在决策时使用变量的expected value。如果分布是未知的，那么该算法可以仅使用到目前为止观察到的奖励的平均值。

或者，您可以在状态的定义中包含决定奖励的变量。这样，如果奖励发生变化，那么它实际上处于不同的状态。例如，假设机器人在建筑物的顶部。它需要到达它前面的建筑顶部。如果它向前移动，它会落地。因此，该州的回报非常低。但是，如果它首先放置从一座建筑物到另一座建筑物的木板，然后向前移动，则奖励会发生变化。为了表示这一点，我们可以包含plank-in-place作为变量，以便将板放置在适当的位置，实际上改变了机器人的当前状态以及前进所导致的状态。因此，奖励本身并没有改变。它只是处于不同的状态。

希望这有助于！

更新2/7/2018：最近upvote提醒我这个问题的存在。自从被问到这些年以来，我在很大程度上深入到NetLogo的RL中。特别是，我为NetLogo制作了一个python extension，主要是为了更容易将机器学习算法与模型集成。 One of the demos在模型运行时使用深度Q学习来训练一系列代理。

来源

2014-01-27 01:54:26

非常感谢您，正如我所说的，我没有明确的国家定义，我的模拟关注的是社交互惠交流，例如分享和偷窃或什么都不做，但所有这些行为可能并不适用于所有代理，因为有些基于他们内部的状态通常会分享和其他人偷窃，但是，每种行为都有一系列不同的行为，例如他们只能与团体内成员或团体成员共享，或者他们可以决定从这个决定影响了代理人的声誉和自我满足度 – Marzy

你的回答有很大的帮助，因为我是RL新手，我不确定我应该问自己什么样的问题：D – Marzy

我很高兴它有助于！关于行动的可用性：可用行动应完全由国家决定。请记住，内部变量可以包含在状态中。所以，如果一个行动者倾向于不偷盗，那么这种倾向就是国家的一部分，而且这种行为是不可用的。同样，假设代理人离组外代理比较近，因此可以窃取代理。这是一个国家。现在假设代理人接近组内代理，因此不能窃取。这是一个不同的状态。通过这种方式，状态决定了代理可以采取的行动。 –

在NetLogo中实施强化学习（在多智能体模型中学习）

回答

相关问题