这个阿发狗已经在自我学习了。

引用：

AlphaGo原理简介

　　传统的人工智能方法是将所有可能的走法构建成一棵搜索树，但这种方法对围棋并不适用。此次谷歌推出的AlphaGo，将高级搜索树与深度神经网络结合在一起。这些神经网络通过12个处理层传递对棋盘的描述，处理层则包含数百万个类似于神经的连接点。
　　其中一个神经网络“决策网络”(policy network)负责选择下一步走法，另一个神经网络“值网络”(“value network)则预测比赛胜利方。谷歌方面用人类围棋高手的三千万步围棋走法训练神经网络，与此同时，AlphaGo也自行研究新战略，在它的神经网络之间运行了数千局围棋，利用反复试验调整连接点，这个流程也称为巩固学习(reinforcement learning)，通过广泛使用Google云平台，完成了大量研究工作。
　　AlphaGo在与人的对弈中用了“两个大脑”来解决问题：“决策网络”和“值网络”。通俗来说就是，一个大脑用来决策当前应该如何落子，另一个大脑来预测比赛最终的胜利方。
　　值得一提的是，李世石也是第一次与机器对战，所以他无法像和人类对战那样，先研究对方的棋谱和下棋风格。李世石所能做的就是和自己对弈。谷歌AlphaGo也是通过这种方式锻炼自己，真正做到了“人工智能”。