何时使用策略迭代而不是价值迭代

我目前正在研究马尔可夫决策过程的动态规划解决方案。我觉得我对VI和PI有一个体面的把握，PI的动机对我来说很清楚（当我们需要的是正确的策略时，正确的状态效用似乎是不必要的工作）。但是，我的实验都没有显示PI在运行时方面有利。无论国家空间和折扣因素的大小如何，它似乎一直需要更长的时间。何时使用策略迭代而不是价值迭代

这可能是由于实施（我正在使用BURLAP库），或者是我的糟糕的实验。但是，即使这些趋势似乎也没有显示出好处。应该指出，PI的BURLAP实现实际上是“修改后的策略迭代”，它在每次迭代中运行有限的VI变量。我对你的问题是你知道任何情况，理论上还是实际上，（修改后的）效绩指标应该超过VI？

来源

2014-11-13 kylejmcintyre

我觉得你的编辑很奇怪。是的，这与mdps有关，但这也是这些算法基于典型的动态规划方程...... bellman方程。 – kylejmcintyre

原来，当折扣因子（gamma）非常高时，策略迭代，特别是修改后的策略迭代，可以超越值迭代。

http://www.cs.cmu.edu/afs/cs/project/jair/pub/volume4/kaelbling96a.pdf

来源

2014-11-17 05:23:45 kylejmcintyre

何时使用策略迭代而不是价值迭代

回答

相关问题