2014-11-13 26 views
0

我目前正在研究马尔可夫决策过程的动态规划解决方案。我觉得我对VI和PI有一个体面的把握,PI的动机对我来说很清楚(当我们需要的是正确的策略时,正确的状态效用似乎是不必要的工作)。但是,我的实验都没有显示PI在运行时方面有利。无论国家空间和折扣因素的大小如何,它似乎一直需要更长的时间。何时使用策略迭代而不是价值迭代

这可能是由于实施(我正在使用BURLAP库),或者是我的糟糕的实验。但是,即使这些趋势似乎也没有显示出好处。应该指出,PI的BURLAP实现实际上是“修改后的策略迭代”,它在每次迭代中运行有限的VI变量。我对你的问题是你知道任何情况,理论上还是实际上,(修改后的)效绩指标应该超过VI?

+0

我觉得你的编辑很奇怪。是的,这与mdps有关,但这也是这些算法基于典型的动态规划方程...... bellman方程。 – kylejmcintyre

回答