1
我读过一些关于AlphaGo的新闻文章,他们都提到AlphaGo从首次玩人类游戏变得更好,然后与自己玩游戏。有一件事我很好奇,AlphaGo是如何改进自己的?它是否修改代码中的变量?还是它改变了它的代码完全写它本身?还是创作者添加了它?它是如何学习的?普遍的答案是好的,因为它只是为了我的一般知识。也许我误解了整个概念,新闻文章倾向于给出广泛的,有时是误解的理解。一些清晰度会很好或链接到有用的信息。AlphaGo自己改进
我认为你需要阅读的关键词是“监督学习”和“无监督学习”。但后来我对AlphaGo不熟悉,他们可能完全使用了完全不同的技术。 – biziclop
AlphaGo使用了大量的学习算法,但“对自己玩”部分使用了[强化学习]算法(https://en.wikipedia.org/wiki/Reinforcement_learning)算法 – BlackBear
机器学习程序存储一个训练集,即数据描述符与“决策”信息,并用它来计算分类器的参数。一般框架已经很好地定义(预编程的训练和分类算法),只有数据集发展。箱子里没有情报。在这种特殊情况下,该项目玩虚拟游戏,并将结果用于自我训练。 –