访谈

余凯，北京地平线机器人技术研发有限公司创始人&CEO，曾任百度IDL常务副院长、百度研究院副院长，研究方向为深度学习、人工智能等

余凯：具有决策能力的人工智能将改变世界

2016年3月，谷歌围棋AlphaGo与韩国围棋名将李世乭的巅峰对决备受关注。赛前，人工智能界、围棋界以及关注人工智能和围棋的爱好者，就已经有了众多猜测。AlphaGo连胜3局之后，第4局李世乭的“神之一手”和AlphaGo第79步的失误，让李世乭获胜1局，而最终AlphaGo以4∶1战胜李世乭。对于AlphaGo的表现引发热议，众说纷纭，为此《科技导报》专访了地平线机器人创始人CEO、机器学习专家余凯。对于AlphaGo与李世乭对弈的出色表现，余凯表示谷歌AlphaGo有两方面的技术创新。对于AlphaGo第4局的失误，余凯表示是结构性的，是可以修正的。当谈及未来人工智能的发展方向时，余凯表示：AlphaGo的出现标志着人工智能从感知到决策发展，会从更多方面影响人类生活，将改变世界。

余凯：我认为谷歌AlphaGo有两个创新，第1个创新是在传统增强学习的框架里采用了深度学习的算法，第2个创新是通过机器的自我对局，在不需要人类历史数据的情况下，也能够不断地提升计算机算法下棋的水平。

具体来讲，这次谷歌AlphaGo里用到的算法叫深度增强学习（deepreinforcement learning），那这是一个什么方法呢？首先reinforcement learning是一个比较传统的机器学习框架，那这个机器学习框架主要目的是做一系列的决策，取得最终的某一个目标。reinforcement learning里面的框架通常有两部分，一部分叫做估值函数valuefunction，另外一部分叫策略函数policy function，这次谷歌算法的创新在于，将估值函数和策略函数均用深度卷积神经网络（deep convolutional neuralnetwork）表示。

这样改变、创新一下，效果变好的原因是什么？主要是由于围棋棋局首先它的棋盘的状态空间特别复杂，整个状态空间数目加起来，比宇宙中原子的总和还要多，对这样一个复杂的状态空间，评估它的局势（value function），还有如何走子下棋（policy funcition），是非常困难的。

第2个难点在于估值函数和策略函数非常不连续，所谓不连续是什么意思？就是在棋盘基本不变的情况下，如果有一招棋走错，有可能满盘皆输，所以说有一点微小的扰动，整个盘面会非常不一样。也就是说如果函数非常不连续，就意味着这个函数非常复杂，通常来说，如此复杂的函数是很难表示的。

那么深度卷积神经网络，一方面能够比较充分地表达复杂的棋盘的状态空间，另一方面可以表达复杂的函数。

这个主要是机器学习模型算法的创新，用一个形象的比喻，增强学习是一个机器的话，那么这个机器上有两个齿轮，一个齿轮是评估函数，评估一个棋局，局势怎样，是改善了还是变差了，另一个齿轮就是策略函数。谷歌关键的一个创新就是将用深度神经网络来实现这两个齿轮。

另外一个很大的创新，如果是传统的自动学习算法，它会很自然地想到采用人类历史上的所有棋局来学习，但是谷歌的算法有一个很大的创新就是通过蒙特卡洛树搜索（Monte Carlo TreeSearch）的方法，让机器能够自我对决，然后提升整个系统的棋艺。主要是提升value function的精度。

这是一个很伟大的想法，也就是说在不需要学习人类历史棋局的数据的情况下，计算机通过自我对战就能够提升棋艺，只要加入足够的计算机资源，有足够的时间，AlphaGo就可以不断提升自己，而不需要人类的历史数据。这个是非常巧妙、聪明的做法。

余凯：在AlphaGo与李世乭比赛之前，接受网易新闻采访时，我就预测这次机器会赢。当然也不能认为AlphaGo是无懈可击的，肯定存在弱点，就像提到的第4局对战中，它走出了一些并不是很好的棋，在第79步的时候，AlphaGo走棋不是很好，但是一直到第87步时，其内部的估值函数、估值网络才意识到，这个79步走的不是特别好。这里面可能暴露一些结构性的问题，这个结构性的问题有可能是因为它的蒙特卡洛树搜索前向搜索不够深，这个树的搜索技术的深度不够。还有一种可能，那就是估值网络在有的盘面上不一定精准，但是这种结构性的错误通常不是随机错误，所以是可以去修正的。

相比而言，人类更容易犯一些随机性的错误，整体来讲这5局下来，可以看出人类棋手李世乭的发挥并不是非常稳定。

余凯：给我印象最深的，就是AlphaGo是绝对的理性。它做一系列决策都是为了最终赢棋，至于是不是赢得很优美，其实机器是不在乎的。

我记得当时在第2局比赛的时候，我和俞斌九段、古力九段在腾讯视频主持现场直播，俞斌九段和古力九段当时对AlphaGo的一些走法感到很困惑，AlphaGo有时候下出来的棋是他们所谓的俗手，俗手是从小围棋老师就教他们不能下的，因为不管这个棋有没有用，这样的棋下起来不好看、不优美。人类下棋是带着情感在里面的，一种美学，不光是要赢，而且要赢的优美。

第2点很大的不同就是，特别在中盘以后，AlphaGo很明显地表现出更好的全局观，不会纠缠于局部得失，而是更多地关注整个全局的把控，而且有时会牺牲局部利益。

余凯：当然不能这样说，单对围棋对弈这件事情来讲，可以说机器战胜了人类，但是围棋只是一个非常小的方面，而且有很多人错误地认为围棋是一个人类智慧巅峰体现的智力游戏，但是我并不这样认为，围棋其实是一个相对简单的问题。

围棋这样一个问题，是一个在完备信息下的决策问题，什么叫做完备信息呢？就是决策所需要的信息全部在棋盘的这个方寸之间，任何信息都不缺。而人类实际生活中遇到大量的问题，所获得的信息是不完全的。在这种不完全、非确定的情况下，如何去判断？这是一个很难的问题。比如说投资这件事，最终优化的是年终的投资收益，每天都要做很多的决策，比如说买进卖出，买多少卖多少，买哪个卖哪个，对于这种决策，所有的信息都是根据掌握的台面上面看的信息，但是还有更多信息是看不到的，在这样一个情况下，怎么做决策，这个问题比围棋难得多。

余凯：这个当然很难说，因为这次比赛结束以后，我相信很多人类棋手会仔细研究AlphaGo下棋的套路，所以人类棋手的水平也会提升。如果用今天的AlphaGo，它不再继续提升的话，用一台装了这样算法的计算机，与棋艺提升的人类棋手对弈，不一定会赢。

当然我相信AlphaGo会不断地去自我提升，所以它只要持续自我提升，人类是很难赶超的，几乎不可能。

我需要指出来的一点，AlphaGo不是一个程序，它是背后几千台服务器同时并行计算。

余凯：我觉得这个不一定。其实AlphaGo研发团队里面，绝大部分人都不是棋手。有的人以前根本就没有下过围棋，他们只是说研发了一个可以自我学习的深度学习算法。只要这个算法本身能够自我学习，实际上，不需要研发者以前下过围棋，这个算法本身也会变得越来越强大。

《科技导报》：在AWE2016“服务机器人与智能生活高端论坛”上，您做了“构建服务机器人的大脑”的报告，未来机器人的大脑具备思考、自学习的能力吗？会不会有思维和情感？

余凯：对的，未来人工智能的系统大脑应该是具备这种思维能力的，但是要说情感，我想未必，至少目前我没有听说任何可以产生情感的计算机程序。当然在这个事件上，也没有证伪，所谓证伪就是没有找到任何的证据就是说计算机未来不能这么干，因此这个目前还是一个开放型的命题，但我想在至少最近的10年、20年的时间里是不会有这种产生情感的机器。而我自己的感受来讲，未来机器是不会有情感的。

余凯：未来人工智能与人类相处的方式主要有两种，一种就是延续以前科技的发展，以人为中心，延展人的体力和脑力。比如外骨骼机器人，比如个人助理，它知道你想要做什么，然后帮助你去做，这个是人类能力的延展。

第2种共处的方式，机器人是一个相对自主的、自我行为、自我决策的个体，基本上独立于人的意志而存在，但是它存在的意义，还是人类的伙伴，帮助人类做一些比如家务、驾驶、在工厂生产线上制造产品等的事情，我觉得这种形式是未来人工智能与人类共处的一种新的形态。

余凯：深度网络学习在AlphaGo里面体现了强大的实力，引起了世人的极大关注。实际上，它的威力是在2006年开始逐步显现。2006—2016年，10年的时间，深度学习让很多过去不可能的事情变成可能。比如说，举一个很重要的例子——语音识别，在2006年语音识别是一个让人很绝望的领域，大家都觉得花了20、30年的时间去研究这个问题，但是最后做出来的系统是完全不可用的，识别率只有60%～70%，而深度学习用于语音识别，一下让语音识别有了一个质的飞跃。从完全的不可用，变得可以成为产品，并且变得越来越好。

我从2012年开始做语音识别，当时做了中国第一个基于深度神经网络的语音识别系统，第一次发布，语音识别率达到85%，当时这已经是最高的一个语音识别精度。语音识别技术其实从2012年发展到现在，在安静的环境下，正常的口音的语音识别率已经达90%以上，这是一个很了不起的进步，而且每年都在不断地往前推进。在未来几年内，我觉得语音识别会做的非常成熟，这完全是深度神经网络带来的突飞猛进的进展。

另外一个领域是图像识别，这也是人工智能非常重要的一个领域。过去做的也不是太好，现在因为深度神经网络的发展，使得这个图像识别技术也是一日千里。

2006—2016年，这10年的时间，深度学习解决的是感知的问题。而AlphaGo这件事情的标志性意义就在于它可以从感知到决策，那也就是说深度学习不光可以让计算机系统能够感知复杂棋局的趋势，也可以决策下步棋往哪里走，这就非常了不起了，说明人工智能系统可以改变世界了。

以前的人工智能系统，即使感知做得好，顶多是知道，但不行动，不行动的话，就无法真正地去改变世界。现在有了这个决策的行为就不一样了，这样的决策会应用在很多领域，比如自动驾驶，自动驾驶需要有感知，感知周围路况怎样，前面有没有行人等，那么在有感知的同时做决策，开快一点还是慢一点，左边还是右边。最终通过一系列的决策去优化一个最终的目标——安全便捷地到达目的地。

这些技术也会用在很多方面：比如用于生产线上的机器人，提高劳动生产的效率；用于家庭产品、家居产品，使其更加智能；使基于大数据的医疗更加精准，也会使金融的投资越来越智能、越来越精准。

第1个大的趋势，感知跟决策结合为一体的这种系统，向很多垂直应用领域横向扩展，包括家居、自动驾驶，也包括工业机器人、医疗等，这是一个趋势。

第2个趋势，我认为随着这个算法的演进，相应的计算架构也会发生变化，这反应在一个云端的、大规模计算的架构，并行的架构，也包括在处理器这个层面，就是新的处理器、半导体处理器的设计，使其能够更加高效地去处理深度神经网络计算这样的问题。

第3个趋势，除了感知和决策以外，认知层面会继续往前，取得长足的进展。目前认知做的还比较差，比如说现在的这个语音系统可以将声音信号转化为文字，但是文字讲的什么意思，现有的计算机系统还不能够了解。如何了解语义，以及语义里面所包含的知识，怎么获取知识，然后形成自己的知识体系，并且去推理产生新的知识，这些含有更高层的自我认知层面的问题还有待解决，未来10年的话，这方面会有长足的进展。

文/祝叶华（《科技导报》编辑部）
（责任编辑陈广仁）