Brief Talk about super cognitive intelligence
-
-
超大规模预训练模型(也称“基础模型”,英文为Foundation Model、Big Model等)快速发展,成为国际人工智能前沿研究和应用的热点。尤其是最近ChatGPT的推出引发社会公众的广泛关注,并引起了该技术是否会引发新一轮行业变革的讨论。基础模型则是ChatGPT等生成式人工智能技术产品的核心技术基座,推进ChatGPT等产品影响产业格局,甚至成为全新的用户交互方式,造成舆论引导、社会治理、信息服务等方面的不对称优势。人工智能基础模型已成为国际科技竞争“必争之地”,美国目前在占据主导权的同时不断加紧对我国进行战略性遏制,实现国产人工智能基础模型自主可控迫在眉睫。我国人工智能基础模型研究、应用与产业化发展正处于从模仿追赶迈向创新引领的关键时期。
从技术层面而言,ChatGPT的优异表现主要依托超大规模预训练语言模型GPT-3/4、有监督指令微调以及基于人类反馈的强化学习。从大模型技术本身演进进程来看,大致可分为三个阶段。
2020大模型元年。自2017年谷歌提出Transformer机器学习模型架构,其应用迅速席卷了整个人工智能研究领域,成为自然语言处理等相关研究的主要方法,2018年先后出现了BERT、GPT-1,尤其是BERT在十多个自然语言理解任务上精度大大超过传统算法;2019年GPT-2实现了自然流畅的文本内容生成;2020年谷歌的T5将自然语言的翻译、分类、回归、摘要生成等任务都统一转成Text-to-Text任务,同年更具里程碑式的模型是OpenAI发布的1 750亿参数GPT-3,大大提高了模型的内容生成和逻辑推理能力,具备较强通用能力,可完成多场景任务,显著降低学习成本、提高学习效率,同时也开启了大模型元年。
GPT-3开启了基础模型发展的新时代,其在语言生成、上下文学习和知识(常识)理解等方面展现出惊人能力。随后全球范围内掀起了一股基础模型研究的热潮,国外如Meta、微软、谷歌等,国内如清华大学、北京智源人工智能研究院、百度、华为、阿里、智谱等,都竞相追赶,提出包括Gopher、PaLM、OPT- 175B、GLM-130B、BLOOM-176B等多个千亿级模型,积累了一定的技术实力。
2020-2023大模型成熟期。在初代GPT-3的基础上,OpenAI引入代码训练和指令微调等环节,在过去三年里持续学习形成了InstructGPT、GPT-3.5、GPT-4等系列模型。基于这些模型,OpenAI进一步引入人类反馈强化学习建立了对话模型ChatGPT,具有更强的自然交互与逻辑推理能力,在面临常识性问题、推理性问题、尚未理解和敏感话题时的处理呈现出高度智能化特征。除了GPT-4一枝独秀外,很多工业界和学术界的机构也推出了类ChatGPT模型。仅2023年3月14日这天就有OpenAI的GPT-4、Anthropic的Claude、谷歌的PaLM API服务、智谱AI的ChatGLM、斯坦福的Alpaca、Midjourney的V5。这些都是最早一批可用的大模型,3月14日这一天也被称为大模型里程碑日。
随后2023年7月18日,Meta发布Llama2,性能逼近GPT-3.5,并且免费商业开源。类似开源模型大大促进了全球以及国内的大模型产业发展。
2024超级认知智能元年。OpenAI极有可能在2024年推出下一代模型,其认知能力将带来通用人工智能的再一次变革。其下一代模型不仅在技术上可能解决目前ChatGPT中存在的事实性以及推理能力的缺陷,实现更精细的语义理解、多模态(本文、图像、语音、视频等)输入和输出的支持,具备更强的个性化能力。此外人工智能的发展会更加瞄向通用人工智能,实现超过人类水平的超级认知智能(Super Cognitive Intelligence),实现AI的自我解释、自我评测(Self-instruct)、自我监督,并且确保模型的表现符合人类的价值观和安全标准。2023年7月OpenAI公布了由首席科学家Ilya Sutskever和首席强化学习专家Jan Leike发起的超级对齐计划(Superalignment),目标就是实现机器自动对齐人类智能和人类价值观,实现模型自我反思和自我监控。相信在2024年会有更多研究者加入到通用人工智能和超级认知智能的研究中。