mdp

0热度

2回答

我们将IBM WebSphere MQ用作Spring MDP（消息驱动的POJO）的JMS提供程序。在JMS中，我们可以在消息中配置与时间相关的属性，以便消息只能在特定的定义时间消耗吗？例如，如果我发送三条消息到队列M1，M2和M3。在哪里，我可以配置M2消息属性，比如说3 AM。而消费者方面，消费者只能在凌晨3点选择此消息。如果没有定义时间，消息应该以JMS Receiver的方式消耗。

1热度

3回答

以编程方式分析崩溃转储

是否有任何api从符号存储中加载崩溃转储符号，然后允许程序化访问信息？我想创建一个工具来自动处理崩溃转储并基于它们生成报告。

-1热度

1回答

MDP：如何计算一系列动作的每个可能结果的机会？

我有跟以下环境（3×4地图）一个MDP问题：与可能的行动上/下/左/右和0.8机会在正确的方向移动，每个相邻方向0.1（例如，对于向上：0.1几率去离开,0.1几率去对）。现在我需要做的是计算出可能的结果在（1,1）开始运行的动作顺序如下： [向上，上，右，右，右] 而且还要计算到达一个领域（对于每个可能的结果）与这个行动序列的机会。我怎样才能有效地做到这一点（所以没有通过至少2^5，最大3^

1热度

1回答

POMDP中的values row是什么意思？

我正在学习POMDP文件格式，并已在其中this和其他许多链接。我已经理解了所有内容，但我无法得到文件第二行中的值代表什么。它的价值是奖励或成本。在别处找不到答案。感到困惑，因为应该可以在一个文档中获得成本和回报，不是吗？为什么我必须指定其中之一？在文件的其余部分也没有这个值没有被使用。

2热度

1回答

PyBrains Q-Learning迷宫示例。

我想出来的PyBrains状态值和全球政策迷宫例如我的设置是： envmatrix = [[...]] env = Maze(envmatrix, (1, 8)) task = MDPMazeTask(env) table = ActionValueTable(states_nr, actions_nr) table.initialize(0.) learner = Q() agen

0热度

1回答

何时使用策略迭代而不是价值迭代

我目前正在研究马尔可夫决策过程的动态规划解决方案。我觉得我对VI和PI有一个体面的把握，PI的动机对我来说很清楚（当我们需要的是正确的策略时，正确的状态效用似乎是不必要的工作）。但是，我的实验都没有显示PI在运行时方面有利。无论国家空间和折扣因素的大小如何，它似乎一直需要更长的时间。这可能是由于实施（我正在使用BURLAP库），或者是我的糟糕的实验。但是，即使这些趋势似乎也没有显示出好处。应该指