小样本的类人概念学习与大数据的深度强化学习
陈孝良    
中国科学院声学研究所,北京 100190

人工智能(artificial intelligence,AI)是最近被广泛关注的话题,也算是人类最美好的梦想之一。非常可惜的是即便AlphaGo已经成功挑战了人类智力游戏的最后一块高地——围棋,但目前为止仍然还没有看到人工智能产生“自我”意识的希望,也就说,人工智能至少在现阶段还无法超越人类智慧,即便在学习和识别方面,人工智能和人类相比还是存在较大差距。

人工智能,与计算机之父图灵的名字紧紧联系在一起,但是这位大师遭当时英国当局迫害英年早逝,除了留给人类无可估量的思想财富,也激发了乔布斯的灵感,设计出了咬掉一口的苹果公司标志。图灵在1950年的论文里,提出图灵试验的设想,即通过隔墙对话,你将不知道与你谈话的是人还是计算机。这无疑给人工智能预设了一个很高的期望值,半个多世纪以来人类在这方面的进展却十分缓慢。

2006年以来,深度学习的出现似乎让人类重新看到了希望,至少通过图灵测试不是那么可望而不可及了。人类似乎找到了解决“抽象概念”的关键,在这10年时间里,随着Google、Facebook、Amazon的加入加速了深度学习的发展,目前深度学习已经广泛应用到数据搜索、图像识别、语音识别、气候预测、地理数据等各个领域(图 1),并且带给了人们前所未有的体验。

图 1 深度学习的应用领域

深度学习真能解决人工智能当前面临的诸多问题吗?正是因为目前深度学习的过度火热,才必须要写这篇文章表达观点,除了深度学习,忽视了一个同样关键的技术——贝叶斯学习,这里借鉴《Science》一篇著名的论文《Human-level concept learning throughprobabilistic program induction》中的概念,姑且称之为类人概念学习,本文对深度学习和类人概念学习进行简单的对比分析,思考到底如何才能形成人们真正需要的人工智能。

1 深度强化学习

现在街头巷尾都在谈论的机器学习,其实这是一个非常宽泛的概念,而其中最酷的分支要算是深度学习(deep learning)和强化学习(reinforcement learning)。谷歌的DeepMind就将深度学习和强化学习两者的精髓合二为一,提出了深度强化学习。2014年,这个团队就在《Nature》杂志发表了题为《Human- level controlthrough deep reinforcement learning》的论文,让业界对此充满了期待。

深度学习起源于2006年,这要感谢机器学习领域的泰斗GeoffreyHinton,是他在《Science》上的一篇著名论文《Unsupervised discovery ofnonlinear structure using contrastivebackpropagation》开启了深度学习的浪潮。

深度学习是一种机器学习中建模数据的隐含分布的多层表达的算法(图 2)。换句话来说,深度学习算法自动提取分类中所需要的低层次或者高层次特征。因此深度学习能够更好地表示数据的特征,同时由于模型的层次、参数很多,容量也足够,因此,深度学习模型有能力表示大规模数据,所以对于图像、语音这种特征不明显的棘手问题,反而能够借助深度学习在大规模训练数据上取得更好的效果。而且由于深度学习将特征和分类器结合到一个框架中,用数据去学习特征,在使用中减少了手工提取特征的巨大工作量,因此,不仅效果可以更好,而且应用起来非常方便。因此深度学习在图像识别和语音识别方面获得了巨大的进步。

图 2 深度学习的多层网络示意

强化学习,其实就是一个连续决策的过程,其特点是不给任何数据做标注,仅仅提供一个回报函数,这个回报函数决定当前状态得到什么样的结果(比如“好”还是“坏”),从数学本质上来看,还是一个马尔科夫决策过程。强化学习最终目的是让决策过程中整体的回报函数期望最优。

通过所谓的类似人脑网状结构的神经网络,深度学习可以解决很多很实际的问题。例如谷歌的图像搜索,Facebook的人脸识别,Skype的实时翻译以及Twitter的色情语言识别。强化学习则将深度学习又往前推进了一步,一旦建立起了一个玩游戏的深度学习网络,就可以通过强化学习,让它和自己进行比赛,自我进化。

2 类人概念学习

事实上,深度学习火热之前,人工神经网络也曾热闹了一番。20世纪80年代末期,用于人工神经网络的反向传播(backpropagation,BP)算法的发明,也曾掀起了基于统计模型的机器学习热潮。当初人们希望利用BP算法可以让一个人工神经网络模型从大量训练样本中学习统计规律,从而对未知事件做预测。而实际上BP算法距离这个目标还非常遥远,20世纪90年代中后期BP热潮就逐渐褪去。不管怎样,BP带来了很多新的思路,而且也证明了基于统计的机器学习方法比基于人工规则的系统,确实在很多方面都要先进。Geoffrey Hinton先生就是在这股冷嘲中继续坚持,最终打开了深度学习的大门。

深度学习真的就像热捧的那样无所不能吗?实际上并非这样,每次科学进步都会带有两面性,也同时存在着天生的缺陷,因此科学研究总会有很多思想分支,形成诸多学派,而每个学派都会针对某种场景或者问题再次深入分析。这就说明,机器学习也绝非深度学习这个分支领域能够达到人工智能所要求的。特别是在国内一窝蜂热炒深度学习或者AlphaGo的时候,美国科学界仍然相当冷静。其实,其他学派的进展显然也是非常显著,2015年12月《Science》的封面文章就是Brenden M.Lake等撰写的《Human-level conceptlearning through probabilistic programinduction》。国内通常翻译为《通过概率规划归纳的人类层次概念学习》,而笔者认为采用“类人概念学习”这个词语显得更加贴切。这篇文章与谷歌在《Nature》发表的封面文章遥相呼应,共同为人工智能的探索提供了思路,但可惜的是,国内几乎把这篇文章忽略了。

那什么是“类人概念学习”?回答这个概念之前,先回顾一下深度学习,深度学习基于大数据通过多层网络实现对“抽象概念”的理解,显然数据越多其效果相对就会越好,但是若没有大数据怎么办?何况人类的知识也是一点点积累的,对于人类来说,即便没有积累,没有相应的专业知识,实际上也能“照猫画虎”。从这点上来看,以深度学习为核心的人工智能就远远不及人类,因为人类面对陌生环境依然能够通过学习做出适应变化。因此“类人概念学习”首先就要解决深度学习的这种弊端,即不依赖大数据也能进行自我学习,笔者将其定义为“小样本学习”。

“小样本学习”的概念依然是太广了,而且也不是什么太新的概念,这个研究思路比神经网络的出现还要早很多年,其核心就是贝叶斯规划学习(bayesian program learning,BPL),为与深度学习(deep learning,DL)相区分,一般称为BPL方法。BPL方法是利用参数的先验分布,由小样本信息求来的后验分布,直接求出总体分布。这种方法使用概率去表示所有形式的不确定性,通过概率规则来实现学习和推理过程。

再回顾一下Brenden M.Lake等的论文,其中一张图概括了BPL方法的流程:图 3中parts部分学到的是提笔-落笔的这一段笔画过程,sub-parts学到的是由于暂停分割开的更小的笔画,这两者结合就生成字符的模板objecttemplate,同时模板还分为attachedalong和attached at start两种。论文中用来训练的数据除了完整的字符以外,只有具体笔画的样本,总体可提供的数据样本非常少。

图 3 BPL 方法流程(图片来源:《Science》)

BPL方法的目的就是解决“看一眼就会写字”的问题,这完完全全只能基于小样本,只需要一个陌生文字系统的字符,BPL方法就能很快学到精髓,把这个文字写出来,甚至还能写出其他类似的文字。而且更为重要的是,这篇论文展现的BPL方法还通过了视觉图灵测试。这也得益于BPL方法观察到的每个训练样例可以增量地降低或升高某假设的估计概率,而其他算法会在某个假设与任一样例不一致时完全去掉该假设,但是BPL方法需要概率的初始知识,当概率预先未知时,可以基于背景知识、预先准备好的数据以及基准分布的假定来估计这些概率。

3 深度强化学习与类人概念学习的区别

剑桥大学信息工程教授ZoubinGhahramani评价认为贝叶斯规划学习(BPL)对人工智能、认知科学和机器学习是一个重大的贡献。深度学习目前已取得了重要的成功,但是也必须非常清醒地认识到深度学习的局限性,因为深度学习需要大量的数据,并且在很多任务上表现很差。

深度学习(DL)主要解决计算机“运筹帷幄”的问题,实现“要从大量数据形成抽象”;而贝叶斯规划学习(BPL)主要解决计算机“照猫画虎”的问题,实现“仅从一个例子就形成概念”。比如说,深度学习更会分析规律和预测趋势,而贝叶斯规划学习更会举一反三和当机立断。深度学习模仿人类大量阅读书籍自我揣摩形成判断,而贝叶斯规划学习则是通过观察单个案例进行迅速决策。当然,贝叶斯规划学习的决策可能是错误的,特别是在没有形成先验概率的时候。

4 类人概念学习会是未来吗?

那么,以贝叶斯规划学习为核心的类人概念学习会是未来的主要方向吗?深度学习的奠基者Geoffrey Hinton先生首先肯定了BPL模型通过视觉图灵测试的意义,他认为BPL方法最令人兴奋的成果或许是能让那些宣称智能计算机系统的学习方式与人类完全不同的批评者闭嘴,因为他们的主要论据正是计算机不能从单个例子中形成概念。

深度学习近年来取得了举世瞩目的成就,被广泛应用在许多领域,例如内容搜索、语音识别、图像识别等。但是现在看来,似乎贝叶斯规划学习要比深度学习的表现更好一点,因为这种方法更加适合人类适应环境的方式。当然,这两种学习方法在不同的任务上还是独具特色,假如能够彼此借鉴、相互融合,一定能够大幅提升人工智能的水平。在数据量巨大但较混乱的情况下,深度学习能发挥优势;而在数据量较少而清晰的情况下,贝叶斯规划学习占领上风。

笔者一直认为科学研究中哲学上的思路远比技术本身更加重要!类人概念学习和深度强化学习的未来也必然是浑然融合成一体,只有这样才符合人类学习和决策的过程,才真正能提升人工智能的水平。

(责任编辑 刘志远)