mdp

    0热度

    2回答

    我们将IBM WebSphere MQ用作Spring MDP(消息驱动的POJO)的JMS提供程序。 在JMS中,我们可以在消息中配置与时间相关的属性,以便消息只能在特定的定义时间消耗吗? 例如,如果我发送三条消息到队列M1,M2和M3。在哪里,我可以配置M2消息属性,比如说3 AM。而消费者方面,消费者只能在凌晨3点选择此消息。如果没有定义时间,消息应该以JMS Receiver的方式消耗。

    1热度

    3回答

    是否有任何api从符号存储中加载崩溃转储符号,然后允许程序化访问信息? 我想创建一个工具来自动处理崩溃转储并基于它们生成报告。

    -1热度

    1回答

    我有跟以下环境(3×4地图)一个MDP问题: 与可能的行动上/下/左/右和0.8机会在正确的方向移动,每个相邻方向0.1(例如,对于向上:0.1几率去离开,0.1几率去对)。 现在我需要做的是计算出可能的结果在(1,1)开始运行的动作顺序如下: [向上,上,右,右,右] 而且还要计算到达一个领域(对于每个可能的结果)与这个行动序列的机会。我怎样才能有效地做到这一点(所以没有通过至少2^5,最大3^

    1热度

    1回答

    我正在学习POMDP文件格式,并已在其中this和其他许多链接。我已经理解了所有内容,但我无法得到文件第二行中的值代表什么。它的价值是奖励或成本。在别处找不到答案。感到困惑,因为应该可以在一个文档中获得成本和回报,不是吗?为什么我必须指定其中之一?在文件的其余部分也没有这个值没有被使用。

    2热度

    1回答

    我想出来的PyBrains状态值和全球政策迷宫例如 我的设置是: envmatrix = [[...]] env = Maze(envmatrix, (1, 8)) task = MDPMazeTask(env) table = ActionValueTable(states_nr, actions_nr) table.initialize(0.) learner = Q() agen

    0热度

    1回答

    我目前正在研究马尔可夫决策过程的动态规划解决方案。我觉得我对VI和PI有一个体面的把握,PI的动机对我来说很清楚(当我们需要的是正确的策略时,正确的状态效用似乎是不必要的工作)。但是,我的实验都没有显示PI在运行时方面有利。无论国家空间和折扣因素的大小如何,它似乎一直需要更长的时间。 这可能是由于实施(我正在使用BURLAP库),或者是我的糟糕的实验。但是,即使这些趋势似乎也没有显示出好处。应该指