AlphaGo自己改进

我读过一些关于AlphaGo的新闻文章，他们都提到AlphaGo从首次玩人类游戏变得更好，然后与自己玩游戏。有一件事我很好奇，AlphaGo是如何改进自己的？它是否修改代码中的变量？还是它改变了它的代码完全写它本身？还是创作者添加了它？它是如何学习的？普遍的答案是好的，因为它只是为了我的一般知识。也许我误解了整个概念，新闻文章倾向于给出广泛的，有时是误解的理解。一些清晰度会很好或链接到有用的信息。AlphaGo自己改进

来源

2016-04-21 Aceboy1993

我认为你需要阅读的关键词是“监督学习”和“无监督学习”。但后来我对AlphaGo不熟悉，他们可能完全使用了完全不同的技术。 – biziclop

AlphaGo使用了大量的学习算法，但“对自己玩”部分使用了[强化学习]算法（https://en.wikipedia.org/wiki/Reinforcement_learning）算法 – BlackBear

机器学习程序存储一个训练集，即数据描述符与“决策”信息，并用它来计算分类器的参数。一般框架已经很好地定义（预编程的训练和分类算法），只有数据集发展。箱子里没有情报。在这种特殊情况下，该项目玩虚拟游戏，并将结果用于自我训练。 –

AlphaGo使用机器学习。

在机器学习，你有一个函数（比如ax +b），让你一个结果，你调这个函数（a和b）的参数，使结果越来越多的你有例子相匹配。在AlphaGo的情况下，他们有两个功能，一个选择下一个动作，一个选择赢谁，而且这两个功能都非常复杂，有数千个参数。

当他们在AlphaGo的两个实例之间玩游戏时，他们会记录结果并将其用作训练函数的示例，以便下一个版本的游戏效果更好。

如果您想了解更多信息，网络上有很多关于机器学习如何工作的教程。

来源

2016-04-21 18:38:58 Sorin

AlphaGo自己改进

回答

相关问题