2016-04-21 115 views
1

我读过一些关于AlphaGo的新闻文章,他们都提到AlphaGo从首次玩人类游戏变得更好,然后与自己玩游戏。有一件事我很好奇,AlphaGo是如何改进自己的?它是否修改代码中的变量?还是它改变了它的代码完全写它本身?还是创作者添加了它?它是如何学习的?普遍的答案是好的,因为它只是为了我的一般知识。也许我误解了整个概念,新闻文章倾向于给出广泛的,有时是误解的理解。一些清晰度会很好或链接到有用的信息。AlphaGo自己改进

+0

我认为你需要阅读的关键词是“监督学习”和“无监督学习”。但后来我对AlphaGo不熟悉,他们可能完全使用了完全不同的技术。 – biziclop

+1

AlphaGo使用了大量的学习算法,但“对自己玩”部分使用了[强化学习]算法(https://en.wikipedia.org/wiki/Reinforcement_learning)算法 – BlackBear

+0

机器学习程序存储一个训练集,即数据描述符与“决策”信息,并用它来计算分类器的参数。一般框架已经很好地定义(预编程的训练和分类算法),只有数据集发展。箱子里没有情报。在这种特殊情况下,该项目玩虚拟游戏,并将结果用于自我训练。 –

回答

0

AlphaGo使用机器学习。

在机器学习,你有一个函数(比如ax +b),让你一个结果,你调这个函数(ab)的参数,使结果越来越多的你有例子相匹配。在AlphaGo的情况下,他们有两个功能,一个选择下一个动作,一个选择赢谁,而且这两个功能都非常复杂,有数千个参数。

当他们在AlphaGo的两个实例之间玩游戏时,他们会记录结果并将其用作训练函数的示例,以便下一个版本的游戏效果更好。

如果您想了解更多信息,网络上有很多关于机器学习如何工作的教程。