主页 > F生活通 >揭秘新版AlphaGo,为什幺它能战胜柯洁?

揭秘新版AlphaGo,为什幺它能战胜柯洁?

2020-07-12 233浏览量
揭秘新版AlphaGo,为什幺它能战胜柯洁?

虽然只有 1/4 子,但前天 AlphaGo 在对战柯洁时那种游刃有余,稳扎稳打的作风已然显示出其强大的实力。

揭秘新版AlphaGo,为什幺它能战胜柯洁?
DeepMind 创办人兼 CEO Demis Hassabis和首席科学家 David Silver

这次围棋峰会的另外一个重头戏——中国乌镇·人工智慧高峰论坛上,首先上台演讲的不是别人,正是打造围棋人工智慧 AlphaGo 的两位关键人物:DeepMind 创办人兼 CEO Demis Hassabis,以及 DeepMind 首席科学家 David Silver。

在各自短暂的演讲中,Hassabis 和 Silver 分别对 AlphaGo 能取得当下成绩的原因进行了整体说明,同时还收集了一大批围棋界人士的评论。但最令人意料之外的还要属最新版 AlphaGo 的讯息揭露。

AlphaGo Master:世界上实力最强高的电脑围棋玩家
揭秘新版AlphaGo,为什幺它能战胜柯洁?

之前坊间也一直在猜测,究竟今年年初以 Master 出现在野狐平台横扫 60 名职业棋手的 AlphaGo 是什幺版本。

在 David Silver 展示的 PPT 中明确提到了三种 AlphaGo 的称呼:AlphaGo Fan、AlphaGo Lee、AlphaGo Master。相比之前坊间风传的 V18/V20 等版本称号,这三个名字容易理解不少。

他们三者之间最主要的差别就是棋艺水平,Google 现场也展示了三者的围棋 ELO 等级分:

揭秘新版AlphaGo,为什幺它能战胜柯洁?

2015 年 10 月登场的 AlphaGo Fan 等级分大约在 2900 分左右,2016 年 3 月登场的 AlphaGo Lee 等级分大约在 3700 分左右,今年年初登场的 AlphaGo Master 等级分已经来到了 4800 分左右。

考虑到目前世界第一人柯洁的等级分不过 3625,Google 还给出了一个 AlphaGo Lee 与 AlphaGo Master 之间参考性的让子数目——3 子。

揭秘新版AlphaGo,为什幺它能战胜柯洁?

柯洁本人在现场目睹这个差距之后也不由得在微博上发表了自己的感受:

值得注意的是,等级分的数值实际上是由一系列比赛中的胜负来确定的,这个数值在输赢都存在的情况下比较準确。而 AlphaGo Master 之前一举面对职业围棋人士连胜 60 盘,等级分很可能还远没有达到真实的水平。

当然,这三者在配置、运作方式上也截然不同。以下是根据现场整理的一份简单表格。

揭秘新版AlphaGo,为什幺它能战胜柯洁?

看到这里肯定会有人惊呼:从 50 个 TPU 减少到 1 个,Google 这是要逆天吗?这种想法实际上是错误的。

原因在于,AlphaGo Master 实际上是站在巨人肩膀上的。

AlphaGo Master 的强大为啥与 AlphaGo Lee 息息相关?

如果非要分个阶段,AlphaGo Fan 实际上与 AlphaGo Lee 可以划为同一时期。

这两者的整体算法架构都是一样的:「深度学习+蒙特卡洛搜索树+强化学习」。或者你可以将他们理解为初中生和高中生的差别,挑战樊麾的版本在数据积累和算法细部规则上还没有打磨到极致,而后者则要完美不少。

到了 AlphaGo Lee 时,我们原来认为的「围棋人工智慧障碍」——围棋棋局可能性太多,无法穷举找到最优解,已经被解决。

揭秘新版AlphaGo,为什幺它能战胜柯洁?
围棋中庞大的蒙特卡洛搜索树

简略点来说,Google 实际上找了两种「偷懒」的办法:首先是在进行下一步落子计算时,只参考通过深度学习得来的人类落子选项。

第二是估值网路,在每一步落子之时想要直接算出结局,同样是不可能的。因为随着预测步数增多,蒙特卡洛搜索树中需要计算的内容也会指数式上涨。所以 AlphaGo 引入了一套打分体系。没有一个地方是 100% 赢,只是对比其他地方,这一个点落子更好。

通过这两步纵向和横向的精简之后,AlphaGo 达成了一个几乎不可能完成的任务——在去年 3 月的比赛中战胜了李世乭。

揭秘新版AlphaGo,为什幺它能战胜柯洁?

但除了最终结果外,AlphaGo 在那次比赛中的少数表现同样值得关注:时常下出一些人类觉得有问题的棋招;在第四场李世乭神之一手之时,其估值网路发生了断崖式的波动。

这无疑反映出了 AlphaGo Lee 自身的不成熟。

揭秘新版AlphaGo,为什幺它能战胜柯洁?

那幺怎幺样才能再上一层楼呢?不同于之前很多人猜测的「完全摒弃 AlphaGo 中的人类元素」,Google 採用了一条更加稳妥的道路——建一个全新的神经网路,在 AlphaGo Lee 的基础上进行二次「学习」,并且将学习到的东西不断记下来。

这也使得 AlphaGo Master 变得比 AlphaGo Lee 更加严谨,同时也更加稳定。这也是为什幺会出现昨天三番棋第一场末尾阶段 AlphaGo 丝毫不怕柯洁追击,只採用最稳固策略的原因。当然,其他疑问也依旧存在,例如 AlphaGo Master 究竟是如何依靠单台 TPU 完成整场比赛的运算?在比赛过程中 AlphaGo Master 是否需要 AlphaGo Lee 的帮助?

另外一方面,Google 最终没有选择「抛弃」人类,总算说明人类 2600 年的围棋历史并不是毫无沈澱。这或许还算一个难得的小欣慰。

上一篇: 下一篇:
申博太阳城_申博亚洲域名更新|大型互动交流交友|网站地图 申博官网备用网址_立博官网体育投注 申博官网备用网址_水果机大满贯小三元游戏