强化学习玩具项目

我的玩具项目学习&应用强化学习为：
- 一个代理尝试达成目标状态“安全” &“快” ......
- 但也有弹和火箭，这是在代理方式发起的。
- 代理可以确定-with一些噪音火箭的位置 - 只有当他们是“近”
- 然后，代理必须学会避免崩溃到这些火箭弹..
- 代理有-rechargable与时间燃料这是在代理运动消耗
- 连续操作：加速前进 - 用角强化学习玩具项目

谈到我需要一些提示和RL算法的名称是适合是c ase ..
- 我认为它是POMDP，但是我可以将它建模为MDP并忽略噪声？
- 如果POMDP，评估概率的推荐方法是什么？
- 在这种情况下最好使用：值函数还是策略迭代？
- 我可以使用NN来模拟环境动态而不是使用显式方程吗？
- 如果是，是否有推荐的NN的特定类型/型号？
- 我认为行动必须是离散化的，对吧？

我知道这需要时间和精力来学习这样的话题，但我渴望..
你可以回答一些问题，如果你不能回答所有...
感谢

来源

2010-05-17 Betamoo

这会更好地分成多个具体问题。 – danben 2010-05-17 00:28:28

如果这是你第一次强化学习的实验，我会建议从比这更简单的事情开始。你可以简单地开始处理事情，然后转移到像这样更复杂的项目。我在POMDP上遇到了麻烦，而且我现在在RL工作了很长一段时间。现在我将尝试回答我可以提出的问题。

我认为这是POMDP，但我可以将它建模为MDP并忽略噪声？

是的。 POMDP代表Partially Observable Markov Decision Process。部分可观察部分是指代理人无法完全知道状态，但可以根据观察结果进行估计的事实。在你的情况下，你应该将火箭的位置看作是可以产生一些噪音的观察点，并且根据代理以前的知识，你可以更新它对导弹位置的信念。这增加了很多复杂性。将导弹位置用作绝对位置并且不必处理不确定性会容易得多。那么你不必使用POMDP。

如果是POMDP，建议评估概率的方法是什么？

我不明白你的问题。你会使用某种形式的贝叶斯规则。也就是说，你会有某种形式的分布，即你的信念状态（处于任何特定状态的概率），这将是你的先验分布，并且基于观察你会调整它并得到后验分布。如果您需要更多信息，请查看贝叶斯规则。

在这种情况下最好使用：值函数还是策略迭代？

我的大部分经验都是使用价值函数，并发现它们相对易于使用/理解。但我不知道还有什么可以告诉你的。我认为这可能是您的选择，我不得不花时间在项目上做出更好的选择。

我可以使用NN来模拟环境动态而不是使用显式方程吗？如果是，是否有推荐的NN的特定类型/型号？

我对使用NN模拟环境一无所知，抱歉。

我认为行为必须是离散化的，对吧？

是的。你将不得不有一个离散的行动列表和一个离散的状态列表。通常，算法会为任何给定状态选择最佳动作，对于最简单的算法（如QLearning），您只需跟踪每个给定状态动作对的值。

如果你只是学习所有这些东西，我会推荐Sutton and Barto文本。另外如果你想看到一个简单的RL算法的例子，我有一个非常简单的基类和一个例子，使用它在github（用Python编写）。 abstract_rl类旨在扩展RL任务，但非常简单。 simple_rl.py是一个简单任务（它是一个简单的网格，其中一个位置是目标，它使用QLearning作为算法）的示例，它使用base_rl，可以运行并打印一些显示随着时间的奖励的图形。两者都不是很复杂，但如果你刚刚入门可能会有助于给你一些想法。我希望这有助于。如果您有任何更多或更具体的问题，请告诉我。

来源

2010-05-20 01:44:25

有一个在线版本的提到的书.http：//webdocs.cs.ualberta.ca/~sutton/book/ebook/the-book.html – Matt 2011-01-11 12:38:57

我可以使用NN来模拟环境动态而不是使用显式方程吗？如果是，是否有推荐的NN的特定类型/型号？

是的，已知神经网络能够解决预测任务。然而，这取决于你如何定义你的任务：你是否希望你的算法只知道在知道动态时控制环境，还是你想学会在未知的环境中解决任务？后者在RL中更常见。

我认为行为必须是离散化的，对吧？

不，他们不一定是。例如，Actor-Critic解决方案适用于连续操作。我也听说过基于高斯过程的RL。通过谷歌很容易找到这两种解决方案的很多材料。

来源

2013-08-01 14:30:43 BartoszKP

行动不必离散，但持续的行动空间使如果可以的话，数学会更加糟糕。 – danelliottster 2014-12-20 17:07:38

强化学习玩具项目

回答

相关问题