尊严扫地？柯洁不敌阿法狗，失声痛哭，其实你真的不了解阿法狗

2017-05-29 来源：华人生活网原文链接评论2条

每一次的人机大赛，都是世纪大战。

本场比赛，主办方对于人机大战奖金的设置毫不吝啬——三番棋获胜方将会获得150万美元的奖励，折合人民币1000万左右，而不管胜败，他们的出场费也高达30万美元。

世界排名第一的中国围棋国手柯洁九段，27日与谷歌人工智能系统“阿法狗”(AlphaGo)的第三场对战也以中盘认输告终，这位19岁的棋王一度在对弈期间失控痛哭。

尊严扫地？柯洁不敌阿法狗，失声痛哭，其实你真的不了解阿法狗 - 1

去年李世石完败阿法狗之后，柯洁曾在网上发布豪言说“阿法狗胜得了李世石，胜不了我”，这句话让这位少年天才成为超级网红。

尊严扫地？柯洁不敌阿法狗，失声痛哭，其实你真的不了解阿法狗 - 2

当早在预料之中的3：0的比赛结果变为现实的那一刻，所有人都有些绝望了！

中国媒体清一色用了“虽败犹荣”送给在赛场被AlphaGo虐哭的傲慢天才少年柯洁，把“围棋上帝”给了“赢了也不会笑的”AlphaGo，这里面有敬畏，还有一丝不服，人类一直拥有的优越感和尊严被他们制造的机器彻底毁灭了。

尊严扫地？柯洁不敌阿法狗，失声痛哭，其实你真的不了解阿法狗 - 3

中国媒体习惯用“为人类尊严而战”这样的标题来形容，不管是曾经的李世石、古力，还是今日的柯洁，他们都被认为是代表人类出征的战士。一黑一白的不是棋子，是天人交战的滚滚战火，不是你死就是我活。

和去年对阵李世石时不同，在时间分配上，当时李世石对AlphaGo的用时是每方2小时，1分钟读秒5次，而此次则是每方用时3小时，1分钟读秒5次，增加用时适当地“照顾”了人类棋手。

不过，即使这样，世界第一柯洁也没有成为被看好的一方。在前辈古力的眼中，柯洁三番战赢一盘的可能性仅为10%，而“棋圣”聂卫平更是直言，柯洁能赢一盘就是烧高香了。

尊严扫地？柯洁不敌阿法狗，失声痛哭，其实你真的不了解阿法狗 - 4

在人机大战中三连败的柯洁，于赛后的记者会上哽咽著说，“它太冷静、太完美了，不给你任何希望。我跟它下棋特别痛苦，只能猜它一半的棋，差距太大。这是我与人工智能的最后三盘棋”。“棋圣”聂卫平则表示，AlphaGo的水平至少有20段。

尊严扫地？柯洁不敌阿法狗，失声痛哭，其实你真的不了解阿法狗 - 5

那么阿尔法围棋到底是何方神圣？

计算机程序具有击败人类的顶尖棋手的能力已经是不争的事实。其实大多数人不懂“黑暗”的力量有多么强大。

阿尔法围棋获胜的真正秘诀不是硬件，而是在于蒙特卡洛树搜索(Monte-Carlo Tree Search)的算法。正是这个算法，使得程序具有了自我学习的能力，并且能有效地控制搜索的复杂性。

上次同李世石比赛的阿法狗使用了1202个CPU和176个GPU，同时可以有40个搜素线程，拥有极为巨大的计算能力。这次，新的阿法狗除了算法上的改进之外，也特别强调了谷歌云和TPU（向量处理单元）等计算资源上的改进的巨大提升作用。谷歌使用的TPU也就是自家开发的Tensor处理器这是一款具有学习能力的可定制处理器。针对人工智能设计，有更高效的利用率。

尊严扫地？柯洁不敌阿法狗，失声痛哭，其实你真的不了解阿法狗 - 6

这真的不能算是公平的比赛，就像对手里端着机关枪，柯洁拿的是一把破菜刀。人和起重机举重哪个牛，古语有云，力举千斤，一个有力气的人最多也就能千斤，起重机能举起多少斤呢，哪个更厉害，明眼人一看就知道。这次比赛说白了就是人和计算机比计算。

谷歌的研究团队曾发过一篇博文，介绍阿尔法围棋所用的算法和策略。这也可以让那些不服气的棋迷也死的明白。

阿尔法围棋：使用机器学习掌握古老的围棋

AlphaGo: Mastering the ancient game of Go with Machine Learning

游戏是测试与人类解决问题方法相似的更聪明，更灵活的算法的一个很好的试验场。人类很早就开始创造能比最好的人玩游戏玩的更好的程序 – 作为1952年一个博士生的毕业设计，计算机学会了第一个经典的游戏 - 玩圈和十字架(noughts and crosses)，也称为tic-tac-toe。接着1994年计算机在跳棋(checkers)上打败人类高手。

IBM的“深蓝”在1997年击败国际象棋大师Kasparov更是轰动一时。计算机的成功并不局限于棋类，IBM的“华生”(Waston)在2011年获得Jeopardy的冠军。仅根据原始象素的输入，谷歌的算法还学会了玩数十种Atari游戏。

但有一种游戏一直让人工智能的企图遭受挫败：古老的围棋。2500年前在中国发明，目前世界范围下围棋的人数超过四千万人。围棋的规则很简单：玩家轮流将黑色或白色的棋子放在棋盘上，试图捕捉对手的棋子或者围成空地而得分。孔子曾经写过这个游戏，它的美感让它被提升到任何中国学者必需具备的四种技艺之一(琴棋书画)。下围棋主要靠直觉和感受，很多世纪以来一直因其精妙博大和思维的深度而让人们着迷。

但尽管规则很简单，围棋其实是极为复杂的游戏，围棋的搜索空间是如此的巨大，是10的100次方倍大于国际象棋的搜索空间 - 这个数字比整个宇宙所有原子的总和还要大。其结果是，传统的“蛮力”(brute force)人工智能方法 - 构建一个所有可能的下法的搜索树在围棋上无法做到。迄今为止，电脑下围棋的水平还是业余级的。专家预测至少需要10年时间电脑才有可能击败顶级专业围棋手。

我们认为这是一个难以拒绝的挑战！我们开始构建一个系统，阿尔法围棋(AlphaGo)，来克服种种障碍。AlphaGo程序关键是将围棋巨大的搜索空间减少到可以对付的规模。要做到这一点，它将最先进的树搜索(tree search)方法同两个深度神经网络相结合，每个神经网络包含很多层的数以百万计的像神经元样的联结。一个神经网络称为“策略网络”(policy network)用来预测下一步的行动，通过只考虑最有可能导致胜利的下法来缩小搜索范围。另外一个神经网络叫“价值网络”(value network)用于减少搜索树的深度 – 评估在走每一步赢的可能性，一路搜索到游戏的结束。

AlphaGo的搜索算法比以前的方法更接近人的思维方法。例如，当“深蓝”下棋时，它使用比AlphaGo多数千倍的蛮力搜索。相反，AlphaGo使用一种称为蒙特卡洛树搜索(Monte-Carlo Tree Search)在它脑子中一遍又一遍地把剩下的棋下完。同以前的蒙特卡罗程序不同的是，AlphaGo使用深层神经网络来指导其搜索。在每个模拟游戏中，策略网络建议最聪明的下法，而价值网络则精确地评估下完这步后局面的优劣。最后，AlphaGo选择在模拟中最成功的下法。

我们首先使用从人类下的棋中的3千万种常用招法来训练策略网络，直到它可以以57%的准确度预测出人类的回应（AlphaGo前之前的纪录是44％）。但是，我们的目标是击败最好的人类棋手，而不仅仅是模仿他们。要做到这一点，AlphaGo必须学会发现新的策略。通过在神经网络之间下数以千记的棋，并在一种被称为“强化学习”一个试错的过程中不断改进。这种做法导致了更好的策略网络，这个网络是如此强大的，即使仅仅是没有树搜索的原始的神经网络就可以打败最先进的建立庞大的搜索树的程序。

这些策略网络再用来训练价值网络，同样是通过自我下棋来学习改进。这些价值网络可以评估任何围棋的局面，并计算出最后的优胜者 – 这个任务非常的困难一直被认为是不可能完成的问题。

当然，所有这些都需要巨大的计算能力，所以我们大量使用谷歌云平台(Google Cloud Platform)，这使得做人工智能(AI)和机器学习(ML)的研究人员能按照需求弹性的运用计算、存储和网络的能力。此外，用来数量计算的数据流图的开源库，如TensorFlow，使研究人员能够高效地部署多个中央处理器(CPU)或图像处理器(GPU)来满足深度学习算法的计算需要。

然而，这一切对我们来说最有意义的是AlphaGo不仅仅手工编写的规则，建立了一个“专家系统”，而是使用通用的机器学习的技术，通过观看和自我下棋不断完善自身。虽然游戏是开发和快速高效地测试人工智能算法的完美平台，最终我们希望将这些技术应用于重要的现实问题上。因为我们所用的方法是通用的，我们希望有一天它们可以被扩展到帮助我们解决一些社会的最棘手和最紧迫的问题，从气候建模到复杂的疾病分析。

在打败围棋界所有人类高手后，AlphaGo获封史上最年轻围棋九段，但所有人都知道，人类在棋盘上看到的未来，也许远远不如AlphaGo的深远。但好在，它的制造公司谷歌宣布，它就不再参与人机大赛了。

AlphaGo的下一个目标是——解决癌症问题。可以看到的是，科学家预测的，人类70%的工作将被人工智能取代并非虚话。

关键词：柯洁阿法狗围棋

转载声明：本文为转载发布，仅代表原作者或原平台态度，不代表我方观点。今日新西兰仅提供信息发布平台，文章或有适当删改。对转载有异议和删稿要求的原著方，可联络[email protected]。