大模型不等于第三次AI浪潮

杨春生

doi:10.11992/tis.202306014

大模型不等于第三次AI浪潮

doi: 10.11992/tis.202306014

杨春生

详细信息

作者简介:
杨春生, 加拿大工程院院士, 现任加拿大国家研究院首席科学家，日本名古屋工业大学人工智能研究中心特聘教授, 加拿大卡尔顿大学、重庆大学、哈尔滨工程大学、华东交通大学、北京师范大学兼职教授，加拿大国家科学与工程委员会(NSERC)、爱尔兰科学院、荷兰科学院等学术机构的学术评委，Applied intelligence特邀编委。第17届应用人工智能国际会议和IEEE CACWD2016大会主席。多年来一直从事智能推理、机器学习、智能系统等领域的研究和开发工作.

出版历程

Large language models are not the third AI wave

YANG Chunsheng

摘要

HTML全文

1956仲夏，人工智能(AI）在美国达特茅斯诞生至今还不到70年的历程。纵观其发展历史，可以把1956年到1973年定义为AI的早期发展阶段，期间主要的工作集中在符号逻辑、自然语言处理、不确定性等技术的研究。经历过1973年的第一个寒冬后，AI进入了一个近20年的稳定发展时期(1980— 2000年），我们称之为“手动编码知识”(Handcrafted knowledge）的第一次AI浪潮。期间的研究主要集中在知识表示、知识库、专家系统等技术，代表成果有基于规则推理(Rule-based reasoning）或者案例推理(Case-based reasoning) 的各种专家系统(Expert systems）。比如IBM在1997年研发成功的DeepBlue，轻而易举战胜了当时的国际象棋世界冠军Garry Kasparov。

按照图灵描绘的愿景，智能机器/AI系统必须具备感知、推理、学习和抽象等四大能力要素。第一次浪潮滋生的AI系统在感知和推理能力方面付墨较多，但学习和抽象能力几乎空白。随着Internet和大数据时代的到来，AI乘风破浪进入了我们称之为统计学习的第二次浪潮(2000—2020年），亦即机器学习时代，特别是深度学习达到了登峰造极的境界。期间几乎所有的努力都集中在学习能力研发上，主要代表成果有Google AlphaGo/ZERO/FORD，IBM Watson和基于transformer生成预训练模型(Generative pre-training, GPT）。这些AI系统具有惊人的学习能力，遗憾的是顾此失彼，推理和抽象能力却是盲点。

2021伊始，在transformer打破深度学习的天花板，实现语音、文字、图像、视频的多模态后，以GPT为基础的大语言模型(Large language model, LLM）如雨后春笋层出不穷，预示着第三次AI浪潮已经悄然来临，特别是去年11月OpenAI在没有预警和安全评估的条件下将ChatGPT突袭市场，加速了以LLM为基础的生成AI(Generative AI, GAI）技术的扩张和商业竞争，给人类社会带来了巨大的冲击和影响。LLM变得越来越大，更新速度日新月异，IT巨头利用其得天独厚的资源竞相发展GAI技术。比如Google的PaLM、微软的NewBing、百度的文心一言(ERNIE Bot）、华为的鹏程盘古(PanGu-Σ）等GAI系统火速上市，给人一种大模型/GAI技术就是第三次AI浪潮的错觉。其实不然！LLM技术仅仅是本次浪潮的一个前奏，原因是LLM仍然还不具备推理和抽象能力。真正的第三次AI浪潮是一个以“情景自适应”(Contextual adaptation）为基础的认知、推理、学习、抽象、自主决策全面发展的AI时代。其主要体现为：首先，必将彻底解决AI历史遗留下来的技术难题；变“黑箱”为“白箱”，变被动应用为情景自适应，变监督学习为无监督学习等等。简言之，未来的AI系统知道自己学什么做什么，为自己的言行负责。其次，加速建立AI系统的评价体系和方法，制定各种评价标准。政府必须立即行动起来，制定相关的AI研究法规和准则，确保AI系统的安全性、可信性和公平性，有效管控AI系统可能带来的危害。最后，综合平衡四个基本要素能力的研发，确保感知、学习、推理和抽象四要素能力的高度统一和完美实现AI系统情景自适应。为此，情景学习技术(Contextual learning）是必不可少的。也就是说未来的AI系统不但具有从大数据中学习的能力，而且具备从少量数据慢慢积累的学习能力。大力完善记忆学习、认知能力以及自闭环参考为基础的抽象能力，在不远的将来为通用人工智能(Artificial general intelligence, AGI）的到来奠定基石。

参考文献(0)

点击查看大图

大模型不等于第三次AI浪潮

doi: 10.11992/tis.202306014

出版历程

Large language models are not the third AI wave

出版历程

目录