logo
BosonNLP Blog

这一次,我赌AlphaGo胜

Alt text

相信大家对一月底《Nature》杂志的封面文章,Google DeepMind团队的AlphaGo程序战胜围棋职业选手樊麾的新闻还记忆犹新。从下周三(3月9日)开始,AlphaGo与传奇棋手李世石的比赛将于韩国首尔拉开帷幕。这一次,我赌AlphaGo胜。

在《Nature》杂志刊登出AlphaGo程序论文《Mastering the Game of Go with Deep Neural Networks and Tree Search》后的第二天,玻森数据内部做了一个技术讨论,分析AlphaGo的实现细节及该成果的影响。下对讨论内容作一个简要总结。一家之言,作为与李世石这场巅峰之战的暖场,供对人工智能或围棋有兴趣的朋友参考。

  1. 虽然该新闻出来后网上产生了各种质疑,但我们认为AlphaGo在围棋AI上的跨越式突破无可置疑,无愧于一个里程碑式的结果

  2. 不论是从博弈算法,还是深度学习,该论文没有理论上的突破。里面所用到的三大算法:基于卷积神经网络(Convolutional Neural Network, CNN)的预测学习在2008年就被提出;基于模特卡罗树搜索(Monte-Carlo Tree Search, MCTS)于2006年就被应用于围棋;而机器自己与自己左右互搏的增强学习算法(Reinforcement Learning, RL)的提出更可以追溯到上世纪八十年代。

Alt text

  1. 既然都是基于已有的算法框架,那是不是看了论文后我也可以实现一个简单的达到职业棋手水准的BetaGo呢?难!目前AlphaGo在棋力上的突破是由很多细节的,比如13层的Policy network如何初始化,如何选择每层卷积规模,采用什么样的优化算法等。文中提到的网络训练都是采用50块显卡GPU并行计算,训练时间在一个月左右。如果只有一块可怜的显卡?呵呵。大量的工程细节和硬件开销很有可能让第三方重现一个具备职业水准的BetaGo或DeltaGo变得困难。

那么为什么我会赌这次巅峰对决AlphaGo更有可能胜出呢?有以下几个原因:

  1. 根据DeepMind CEO Demis Hassabis 的介绍,AlphaGo项目正式成立不到两年,成规模的投入也就是一年左右的时间。做过机器学习的朋友应该知道,将一个50%预测准确率的程序提升到60%的难度往往小于将90%的准确率提升到91%。一个年轻的项目,本身预示着有较大的改进空间

  2. AlphaGo目前的三个主要部分的程序,也就是前文提到的CNN, MCTS, 和RL可以被独立地改进和提升,整个程序的棋力都将会直接受益。这非常适宜于DeepMind这种20人规模的集团军对程序进行优化,并行优化,逐个击破。

  3. 几个数据: Alt text

    a) 192 v.s. 256:上图所反映的是Policy network中采取不同规模的filter得到的胜率。文中提到实际使用192个filters进行测试。这里选择192个filters而非准确率更高的256 filters,很有可能是速度与准确性的一个平衡,因为更高准确率的方案Policy netowrk预测开销大约高了10.5倍。 Alt text

    b) 280 GPU: 上面这个图很有意思。直观来讲,虽然AlphaGo进行了相当大量的算法调优,如果采用单线程,8 GPU,其Elo分值大约在2200分,换算下来大约是一个业余7段左右的水平,真正使得AlphaGo表现出最强战斗能力的是其分布式版本:采用64线程,280个GPU版本得分约3200。如果采用一个十倍规模的集群,或采用特定FPGA硬件优化,我们有理由相信,分数上还能够有显著的提升。

这个围棋和人工智能史上里程碑的战役到底结果如何?下周,我们拭目以待!