下棋这活比的是零出错与阿尔发狗玩最多走和

发布者：北京四合院 | 2017-05-24 07:58:02 | 来源：新浪网

【星网专讯】

“柯洁与AlphaGo”的图片搜索结果

聂卫平说柯洁差距太大将0：3全输

5月23日晚间消息，柯洁与AlphaGo的人机大战第一局历时4小时25分落幕，柯洁九段输给了AlphaGo。在北京的新浪演播室里，棋圣聂卫平、搜狗CEO王小川、清华围棋AI团队负责人由小川和肽积木科技CEO柏文洁四位嘉宾畅谈了今天关注比赛的感受。

聂卫平认为，虽然只赢了四分之一子，但这实际上是AlphaGo一再退让的结果，他预测最终的结果将是柯洁0：3全输；王小川称，AlphaGo在算法上已比一代要强更多，更可怕的是，它已完全放弃了向人类棋谱学习；而由小川则认为，帮助人类进步或许正是人工智能未来的方向。在他看来，人工智能最终还会回到人机协作上来，通过人工智能不断探索人类的更高的水平。

AlphaGo是Google下属Deepmind开发的围棋人工智能产品，在2016年3月4：1战胜围棋世界冠军李世乭后一举成名。柯洁是目前围棋等级分排名世界第一的选手，曾被认为是人类“最后的希望”。

但在AlphaGo再次更新了算法，化名Master与世界顶级围棋选手进行的60场线上快棋赛中横扫全部对手后，人类终于正视了与人工智能的棋力差距。

“结果将是0：3，柯洁全输。”“棋圣”聂卫平作出这样的预估。

尽管最终结果只输了四分之一子，在职业选手看来，两者之间却存在着远超出四分之一子的差距。“恐怕这盘是让先的话AlphaGo也能赢，中盘领先太多了。这盘棋最后只赢了四分之一子，但这是AlphaGo一再退让的结果。这非常恐怖。柯洁也尽了努力，但实在下不过人家。”聂卫平说。

清华团队所做的后台分析也印证了聂卫平的观点。清华团队负责人由小川表示，“AlphaGo厉害在价值观不同——它只追求胜利。中盘八十到一百手时领先了12目左右的优势，到100手以后领先目数在减小，但胜率不断增加。哪怕后期只赢半目，在它的判断下已经接近100%胜利了。”

尽管在聂卫平眼中，与韩国选手李世乭对抗的AlphaGo一代同现在的二代没有什么分别——均已远远超越人类。但从人工智能的角度，二代AlphaGo与一代已完全不同。搜狗CEO王小川认为，“二代比一代下棋更快了，这是算法架构上的差别。二代减少蒙特卡洛搜索方法，更多依赖神经元网络。不需要向人类学习棋谱就可以完成自我学习。据了解，AlphaGo的团队无需原始数据，仅用一周时间就能训练出一个有相当水准的棋手。”

当被问及“柯洁是否有几手下得值得称道”时，聂卫平却回答：“没有，乏善可陈。”

从棋力上看，人工智能已将人类远远甩在后面，但从围棋方面来看，AlphaGo还远不够“智能”。

AlphaGo已将围棋运用自如。比起旧版的AlphaGo，新版具备更完美的大局观，懂得更加复杂的思考，放弃人类学习算法后，AlphaGo再无“风格”可言。每一步都是全局，官子不是为了目，而是追求胜利。

“更追求胜利让AlphaGo失去了美感。AlphaGo会做一些绝对优势的交换，如果不做这些交换一定只好不差。领先以后大踏步的后退，从胜负的角度这样做并没有错，但背离了围棋的精神。”由小川说。

因此，连笑、古力与AlphaGo的组队战变得更值得关注。在人工智能的指点下，两名棋手会下出更“围棋”的对局，黑白子的厮杀也远比“单纯追求胜利”的算法要精彩得多。

帮助人类进步，这也许正是人工智能未来的方向。在由小川看来，人工智能最终还会回到人机协作上来，通过人工智能不断探索人类的更高的水平。聂卫平和王小川认为，AlphaGo+人类的组合一定会赢过单纯的AlphaGo——这意味着，人类所扮演的角色并非机器的傀儡，而是为人工智能注入了更人性的智能概念。

通过接触异于2000年来的定势来认识全新的棋局，从而不断提高自己，这想必也是棋手的追求。在聂卫平看来，AlphaGo对围棋的贡献，是把很多职业选手没想过的下法都下出来了，且运用的非常好。“柯洁今天的点三三是Master曾经用过的，我们人类棋手今天用这个对付它，它的应对显然比我们的职业选手要好得多。我们的布局之所以Alpha领先，因为柯洁点了它的脚，运用不当。”

“柯洁是我最小的徒弟，他的拼搏精神是非常了不起的。职业棋手都会对他表示认可。毕竟棋手只能战死，不能被吓死。”聂卫平说。

根据三番棋赛制，柯洁还将于5月25日和27日再次与AlphaGo对弈。尽管结果并不乐观，但棋手对于围棋的信念，还是让职业棋手乃至普通观众对后续的比赛多了一分期待。

柯洁输掉了与AlphaGo的第一战。而在对战前的深夜，柯洁在社交网络上发布了一篇题为《最后的对决》的文章，充满了易水诀别般的悲壮感，其中写道：“现在的AI进步之快远超我们的想象……我相信未来是属于人工智能的。”引发王思聪在评论区质问：“哟，当时李（世石）和AlphaGo下的时候你那嚣张劲儿哪儿去了？”

2016年3月，在韩国棋手李世石以1:4不敌AlphaGo后，这位少年得志的天才棋手确实曾在微博上撂下豪言“阿尔法狗胜得了李世石，胜不了我”，成为超级网红。

虽然人类棋手在过去的一年里努力地研究AlphaGo的套路，试图找到AlphaGo的弱点，但其实，AlphaGo也早已完成更新换代，今非昔比。柯洁在赛后发布会上表示，AlphaGo和去年判若两“狗”，去年它的下法还很接近人类，现在感觉越来越接近“围棋上帝”——围棋中永不失误的完美境界。

AlphaGo之父、DeepMind创始人戴密斯·哈萨比斯(Demis Hassabis)也在当天的赛后发布会上承认，之前与李世石交手的AlphaGo还是有一些漏洞的，他们在过去的一年里全力完善算法，弥补漏洞。

那么，现在的AlphaGo到底发生了哪些改变？AlphaGo的研发公司DeepMind是如何升级它的？5月24日上午，在中国乌镇人工智能高峰论坛上，哈萨比斯和AlphaGo团队负责人Dave Silver（戴夫·席尔瓦）揭晓了新一代AlphaGo的奥秘。

深度强化学习：降低搜索树的宽度和深度。本文图片均来自澎湃新闻记者王心馨

这次柯洁面对的AlphaGo大师版，和去年李世石面对的AlphaGo李版主要有三大不同：首先，AlphaGo大师版摈弃人类棋谱，单纯向AlphaGo李版的经验学习；其次，AlphaGo大师版的计算量只有AlphaGo李版的十分之一，只需在单个TPU机器上运行；最后，AlphaGo大师版拥有更强大的策略网络和价值网络。

要理解AlphaGo的算法，首先要从1997年击败国际象棋神话卡斯帕罗夫的“深蓝”算法说起。国际象棋的每一步都会引出下面三十种可能的走法，棋局的走向就和一棵不断分出三十个分杈的大树一样。而“深蓝”所做的，就是检索完这棵大树上的所有分杈，找出当下最优的那一步。“深蓝”的计算能力因此能达到每秒1亿个位置，是那个时代的突破性产物。
但到了围棋这里，这种蛮力计算是不可行的。围棋的每一步牵出的后续选择有数百种。这么庞大的搜索树是无法被穷举的。哈萨比斯说道，比起解构性的象棋，围棋是个建构性的游戏，也更依赖直觉，而非单纯的计算。
而AlphaGo就依赖两个网络来简化这棵庞大的搜索树：降低搜索树宽度的策略网络和降低搜索树深度的价值网络。
席尔瓦介绍道，AlphaGo李版首先运用策略网络进行深度学习，将大量人类棋谱输入其中，根据人类经验排除掉搜索树上一部分的分杈。也就是说，虽然围棋当前的每一步都有上百种可能性，但根据人类经验，只有一部分是好的选择，AlphaGo只需要搜索这些分杈，另一些根本就是“臭棋”。
然后，AlphaGo也不需要在这些分杈上一路搜索到底，模拟到棋盘结束才知道当前这步棋的优劣。在当前某个特定的选择往下，AlphaGo只模拟几步，就能得出一个分数。这个数值越大，AlphaGo获胜的概率就越高。那么，这个数值是怎么得出的呢？这就要靠价值网络进行强化学习。
在强化学习中，AlphaGo就根据策略网络推荐的走法自我对弈，左右互搏，在经过反复自我训练，积累了大量数据之后，AlphaGo就能更快地对当前走法的胜率有一个概念。
策略网络和价值网络配合形成的深度强化学习，虽然不能提高AlphaGo的计算能力（事实上，AlphaGo每秒计算1万个位置，远低于“深蓝”），但却能让AlphaGo更“聪明”地计算。
AlphaGo自学成才：上一代是下一代的老师
而这次柯洁面对的AlphaGo大师版，比起去年李世石面对的AlphaGo李版，最大的不同是在深度学习环节，使用的大量训练数据并非人类棋谱，而是AlphaGo李版自我对弈的数据。

AlphaGo大师版对比AlphaGo李版三大升级。
席尔瓦说道：“AlphaGo大师版能如此高效运算的最主要原因是，我们使用了最好、最可用的数据来训练它。我们所说的最好的数据不是来自于人，而是来自于AlphaGo自己。AlphaGo现在等于说是自学成才。我们让它自己当自己的老师，而这一代的AlphaGo也会成为下一代AlphaGo的老师。”
汲取了大量自我学习的经验，这次与柯洁交手的AlphaGo大师版的策略网络和价值网络也因此更为强大。这大大提高了AlphaGo的运算效率，把计算量缩减到对战李世石时的十分之一。从硬件来看，AlphaGo李版在下棋时还需要50个TPU（谷歌专为加速深层神经网络运算能力而研发的芯片），AlphaGo大师版现在和柯洁对战时只需要1个TPU。
而更强大的AlphaGo大师版又会带来更优秀的数据，以训练下一代AlphaGo。这是一个良性循环。

AlphaGo的迭代增强。
哈萨比斯说道，AlphaGo的首要目标还是要“追求完美”。在过去的数千年，人类都没有达到围棋的真理境界。他希望，AlphaGo能和人类共同努力，趋近围棋真理。

友情链接

下棋这活比的是零出错 与阿尔发狗玩最多走和

下棋这活比的是零出错与阿尔发狗玩最多走和