我想实现强化学习连接四个代理程序。 我不确定如何操作以及它应该如何操作。我熟悉强化学习的理论方面,但不知道如何实施。想实现强化学习连接四个代理程序
应该怎么做? 我应该使用TD(lambda)还是Q-learning,以及MinMax树如何实现这一目标? 我的Q和V函数是如何工作的(动作质量和状态值)。我如何评分这些东西?我改进的基本政策是什么,我的模型是什么? 另一件事是我应该如何保存状态或statesXactions(取决于学习算法)。我应该使用神经网络吗?如果是,如何?
我正在使用JAVA。
谢谢。
我不确定任何人都可以回答这个问题,而不只是告诉你如何去做。我会开始,我想要实现什么,我想学习什么,希望这些决定会变得更清晰。 – 2012-01-10 10:07:46
听到别人怎么做会有很大帮助 – Vadiklk 2012-01-10 10:15:25
既然你这样做是为了兴趣,我会首先使用最简单和有趣的方法。我喜欢神经网络,所以我会试试,但为了真正学习,你应该研究这些主题(它们本身就是博士),看看每种方法是多么容易或有效。 – 2012-01-10 10:18:36