AI research and development in the network age
-
摘要: 50多年来, 人工智能在模式识别、知识工程、机器人等领域已经取得重大成就, 但是离真正的人类智能还相差甚远.当今网络时代, 人工智能科学要在学科交叉研究中实现人工智能的发展与创新, 会更加关注认知科学、脑科学、生物智能、物理学、网络科学、计算机科学与人工智能之间的交叉渗透, 重视认知物理学的研究; 自然语言是人工智能研究知识表示无法回避的直接对象, 要对语言中的概念建立起能够定量表示的不确定性转换模型, 发展不确定性人工智能; 要利用现实生活中复杂网络的小世界模型和无标度特性, 把网络拓扑作为知识表示的一种新方法, 研究网络拓扑的演化与网络动力学行为, 研究网络智能.对这3个重要方向进行了阐述, 并提出了具体建议.Abstract: Pattern recognition, knowledge engineering, and robotics have made significant progress in the 50-year history of artificial intelligence, yet AI displays far from human intelligence.In the current network era, if researchers in artificial intelligence want to maximize developments and innovations in interdisciplinary studies, they must pay more attention to the intersections and infiltrations of cognitive science, brain science, physics, network science, computer science, and artificial intelligence.Research in cognitive physics will be an especially important direction in AI.Natural language is an important objective in AI research; we need to establish an uncertainty transformation model that can quantitatively represent its concepts.This dictates that an AI science with uncertainty will be developed.Considering the small world model and scale-free features of complex networks in real life, we need to use network topology as a new way for knowledge representation.This will aid study of the progress of network topology, network dynamics and intelligence.This paper discusses these three directions in detail.Some concrete suggestions for further research are also provided.
-
从1956年著名的达特茅斯(Dartmouth)会议算起, 人工智能学科诞生已经半个世纪, 先后出现有逻辑学派(符号主义)、控制论学派(联结主义)和仿生学派(行为主义). 符号主义方法以物理符号系统假设和有限合理性原理为基础, 联结主义方法以人工神经网络和进化计算为核心, 行为主义方法则侧重研究感知和行动之间的关系. 这些理论和方法在模式识别、知识工程、机器人等领域取得了伟大成就, 极大地推动了科技进步和社会发展. 专家系统、智能控制、数据挖掘、智能机器人、智能社区随处可见, 改变了我们的生活.
人工智能自诞生之日起就引发了人们无限美丽的想象和憧憬, 但其发展过程也存在着不少争议和困惑: 什么才算是真正的“智能”? 为什么再高级的电脑、再智能的机器与人类的智能相比仍然那么幼稚? 回顾最近十几年来, 我们在国家自然科学基金项目、国家863计划、973计划的支持下, 承担的人工智能研究工作, 也让我们深深陷入了对在网络时代人工智能发展的新的特征和走向的思考.
1. 在交叉学科研究中实现人工智能的创新
人工智能虽然常常被划分为计算机或自动化学科的一个分支, 但它的研究范畴一直是很宽泛的, 涉及到哲学、认知科学、行为科学、脑科学、生理学、心理学、语言学、逻辑学、物理学、数学以及信息论、控制论和系统论等许多学科领域. 人工智能这种综合性、交叉渗透性早在它诞生之日起就得到充分的体现. 在达特茅斯会议上, 有包括数学、神经生理学、精神病学、心理学、信息论和计算机科学等多领域的学者参加, 科学家们从各自学科的角度出发, 根据不同的学科背景, 强调了各自的重点, 产生了激烈的碰撞. 尽管出发点有所不同, 它们都汇聚到研究人类智能活动的表现形式和认知规律, 借用数理逻辑来形式化, 用计算机作为载体, 提供关于形式化计算和符号处理的理论, 模拟人类某些智能行为和方法, 构造具有一定智能的人工系统, 让计算机去完成以往需要人的智力才能胜任的工作, 从而诞生了“人工智能”这一新的学科.
当今, 网络无所不在, 网络拓扑成为知识表示的重要手段, 网络中的节点, 可以是形形色色的行为主体, 主体之间相互作用. 网络科学是研究网络中节点相互作用的理论和方法. 人工智能当初在起点时刻发生的学科碰撞, 今天甚至可以通过网络拓扑进行形式化研究. 网络时代人工智能发展的主要动力, 更是要来自更广泛学科的交叉渗透, 而各学科自身的飞速发展, 为人工智能交叉研究提供了广阔的空间.
1.1 重视和脑科学的交叉研究
脑科学的目的是认识脑、保护脑和创造脑. 人脑是生物智能最杰出的表现, 是自然界中最复杂、最高级的智能系统. 计算机很早就被称为电脑, 说明人工智能要用电脑模拟人脑、制造机器生命的伟大目标. 因此脑科学和人工智能的交叉是必然的.
脑科学从分子水平、细胞水平、行为水平和整体水平对脑功能和疾病进行综合研究, 并从脑的发育过程了解脑的构造和工作原理. 人工智能是研究怎样使计算机来模仿人脑所从事的推理、学习、思考、规划等思维活动, 来解决人类专家才能处理的复杂问题. 应该说, 对于人脑的研究是人工智能的必要前提. 脑的复杂性体现在它是由太数量级的神经元和千太数量级的突触联结的信息处理和决策系统. 人们的认知活动反应在大脑上很可能对应着一定的生理上的化学、电学的变化, 但是目前生命科学还不能在思维活动与亚细胞的化学、电学层次的活动建立确切的关系. 例如一个概念如何以生物学形式存储, 它与其他概念发生联系的生物学过程是什么. 也不能决定什么样的神经构造可以决定着哪些认知模式的发生. 因而脑科学今后的任务仍将是从多层次来研究脑的整合功能, 包括脑如何感知, 如何思维, 如何理解语言, 如何产生情感, 并将对神经活动的认识推向细胞和分子水平. 这些研究都将大大推动自然智能科学的发展.
1.2 重视和认知科学的交叉研究
认知科学是研究人类感知和人类思维过程的科学, 包括研究感知、记忆、学习、语言和其他认知活动. 感知是大脑通过各种感觉器官接受外界的声、光、触、嗅等信息, 其中视觉感知起着尤为重要的作用. 认知以感知为基础, 知觉是脑对客观各种属性的综合反应, 知觉的表达是研究其他各个层面认知过程的基础. 记忆是对感知的保持, 有了记忆, 当前的反映才能在以前反映的基础上进行, 人才能积累经验. 记忆和遗忘是大脑的本能. 学习是基本的认知活动, 有人把学习分为感知学习、认知学习和意义学习. 学习主要是通过语言来表达的, 人类智能和其他生物智能最突出的差别就在于语言, 尤其是文字语言. 语言以语音为外壳、词汇为材料、语法为规则. 语言是结构最复杂、使用最灵活、应用最广泛的符号系统. 人们通过语言进行思维的活动和认知的交流. 还有很多其他的认知行为, 如注意、意识等, 通过生物的对比实验, 来理解心理活动和表象(如情绪)之间的关系, 实现情感计算.
人工智能要想在知识的表示、学习、存储、搜索、优化、预测、计划、判断、自适应等方面取得突破性成果, 必然要把研究目标拓广到整个认知科学的理论、实验和实证中去. 其中, 视觉认知计算、听觉认知计算以及视听觉相互作用的认知计算, 是一个很重要的切入点. 国家自然科学基金委正在酝酿“十一五”期间实行“视听觉认知计算”的重大计划.
1.3 重视和物理学的交叉研究
人类在对客观世界的认识过程中, 已经取得的最集中、最突出的惊人成就, 当属物理学. 如分子物理学、原子物理学、粒子物理学, 还有天文学的大爆炸理论, 大陆漂移说和进化论等. 迄今为止, 物理学家已经发现, 自然界存在万有引力、电磁力、强作用力和弱作用力相互作用, 分别存在于不同尺度的物理现象中, 形成所谓的层次. 人们对物质结构的认识, 一方面去探索大尺度的目标, 包括行星、星球、银河系等, 另一方面积极探索微观世界, 发现物质更小的构成单元, 从分子、原子深入到原子核、再到中子、质子, 进一步又深入到夸克层次. 用更统一的理论去覆盖这4种相互作用, 是物理学大家孜孜不倦的追求.
诺贝尔物理学奖获得者李政道曾说: “科学, 不管天文、物理、生物、化学, 对自然界的现象, 进行新的准确的抽象, 科学家抽象的叙述越简单, 应用越广泛, 科学创造也就越深刻”. 如此精辟的结论, 启发了一个深刻的问题: 21世纪物理学的发展依然是简化归纳.
当今, 人工智能研究中一个十分活跃的分支——数据挖掘, 追溯到早期是以演绎为主的专家系统的潮流而动, 期望能够通过对数据的分析、清洗、整合、挖掘、模拟人的认知和思维活动, 发现新的知识, 这种抽象的过程, 本质上也是简化归纳.
那么, 对人脑自身的认识是否可以借鉴对客观世界的认知呢? 21世纪认知和思维科学发展的一个重要方向, 就是把现代物理学中对客观世界的认知理论成果引伸到对主观世界的认知中来, 这就是我们孜孜所求的方向, 不妨称之为认知物理学.
物理学在对客观世界的认识中, 场论起到了关键的作用. 借鉴物理学中场的思想, 我们将物质粒子间的相互作用及其场描述方法引入抽象的认知空间. 按照认知物理学的思路, 人自身的认知和思维过程, 从数据到信息, 从信息到知识, 如果也用场的思想来形式化表示, 就可以建立一个认知场, 来描述数据之间的相互作用, 可视化人的认知、记忆、思维等过程. 论域空间中的数据也好, 概念也好, 语言值也好, 集团也好, 都是场空间中相互作用的客体或者对象, 仅仅是粒度不同而已.
以从关系数据库中发现知识为例, 不妨将发现知识的背景看作是一个具有M维属性的N条记录构成的逻辑数据库, 即M维论域空间中的N个客体表示的数据分布. 每一个客体看作是论域空间的一个点电荷或质点, 位于场内的所有其他客体都将受到该客体的某种作用力. 这样一来, 在整个论域空间就会形成一个场, 所谓数据库中的知识发现, 就是在发现状态空间从不同粒度上研究这些客体之间通过场发生的相互作用和关系, 模拟人类知识发现中的抽象过程.
只有用不同尺度分析、理解自然界、人类社会和人的思维活动, 才能更清楚看清问题的本质. 借鉴物理学中的粒度来反映发现知识的粒度或概念的尺度, 是认知物理学的又一个重要内容. 应用它来研究人类自身的认知机理, 研究数据、概念、规则、知识之间的不确定的层次结构. 人的认知过程有感觉、知觉、表象、概念、抽象等不同层次. 层次和客体的粒度相关, 知识的层次和概念的粒度相关, 无论是发现哪一类知识, 如果对于原始较低粒度的概念进行提升, 就可以发现更普遍、更概括的知识, 这就是正在兴起的粒度计算.
人类智能的一个公认特点, 是人们能够从极不相同的粒度上观察和分析同一问题, 不仅能够在同一粒度世界里进行问题求解, 而且能够很快地从一个粒度世界跳到另一个粒度世界, 往返自如, 甚至具有同时处理不同粒度世界的能力, 这正是人类问题求解的强有力表现. 而人类的认知和思维的过程, 实际上对应着不同粒度表述的概念在不同尺度之间的转化过程, 即从一种相对稳定的发现状态向另一种相对稳定的发现状态的过渡. 如何形式化描述人类认知过程中从数据到概念, 从概念到规则的发现状态转换, 以及知识由细粒度到粗粒度的逐步归纳简约的过程, 也是人工智能研究中的基础问题. 我们借鉴物理空间的多视图、多尺度、多层次等特点, 借用物理学中状态空间转换的思想, 形成了知识发现状态空间转换的框架, 空间中的每个状态代表一个相对稳定的知识形态, 而认知过程则对应着从一个状态空间到另一个状态空间的转换, 数据场成为发现状态空间转换的重要工具.
人类的智能包括3个方面: 数学计算、逻辑思维和形象思维. 用计算机模拟人的数学计算是人工智能的第一阶段, 50年来, 机器模拟人的逻辑思维能力取得了巨大成功, 但是用计算机模拟人类不确定性智能、模拟形象思维还差之很远. 形象思维是指通过直觉感知对象的图像, 进行想象、类比、联想或顿悟等. 直觉和想象力离不开视觉和形象, 视觉、形象在大脑中残留形成一个形象思维的空间, 可借鉴物理学中的场, 描述形象思维空间各个像素之间的相互作用. 又例如, 记忆是人类认知活动的一个重要环节, 随着时间的流逝, 记忆会逐渐模糊甚至完全忘却, 我们用数据场描述了这一过程, 在形象思维自动化方面做了一些有益的尝试.
2. 自然语言应该成为人工智能研究的直接切入点
2.1 人工智能研究中的不同切入点
50年的人工智能研究忽略了一个基本事实: 人脑的思维基本上不是确定的、纯数学的, 自然语言才是人类思维活动的载体. 人工智能必须直面自然语言.
作为人类文明的结晶, 文字是人类智能的重要体现, 因为文字才使得人类知识可以传承, 这是其他生物智能无法比拟的. 自然语言中的基本单元是语言值, 概念是人类思维的基本“细胞”, 能够起到“认知浓缩”的作用, 使认识从低级的感性阶段上升为高级的理性阶段, 人脑中概念形成过程就是思维的一种表现. 以概念为基础的语言、理论、模型是人类描述和理解世界的方法. 可以说在人类认知活动中, 用文字表达的概念起到了关键作用. 用概念的方法把握量和量的不确定性, 比确定性数学表达更真实, 更具备普遍性. 客观世界中有许多问题, 特别是复杂系统和人文社会, 其最有效的知识表示方法只能是文字语言.
作者认为, 人工智能应该从自然语言直接切入, 抓住自然语言中的概念不放, 研究定量到定性, 从数据到知识的思维过程, 以及思维所运用的信息的形式化组织. 当前, W EB信息搜索引擎, 从关键词组合入手的词搜索已经取得了巨大成功, 正转向关系搜索和情境搜索, 基于语义网络的语句搜索也展现出诱人的前景, 这就是一个个证明.
2.2 自然语言中的不确定性和不确定性人工智能
不确定性是客观世界固有的属性, 自然语言作为客观世界的表述手段, 带有不确定性是很自然的, 是人类思维的本质特征. 概念作为人类思维的基本“细胞”, 也不可避免的带有不确定性. 概念中的不确定性有很多种, 最主要的是模糊性和随机性, 二者密切相关. 因此, 研究模糊性和随机性的关联性, 尤其是通过概率测度理论研究模糊性, 建立云模型, 理解云的数学性质, 运用云方法进行数据挖掘, 一直是我们长期研究的重要内容.
语言的不确定性, 非但没有妨碍人们的使用和交流, 相反倒是被安然地接受, 这说明人类智能对不确定性有很强的表达、处理和理解能力, 正是不确定性的存在, 才导致语言使用的鲁棒性. 反之, 如果每个语言值、每句话都要求十分精确, 人与人之间的交流几乎无法进行, 这正是不确定性的魅力所在.
人工智能已经建立的各种符号语言, 与自然语言相比, 它们过分精确与严密, 通过精确的数学运算和传统的集合运算(并、交、补等)去实现词计算, 就失去了词语的不同情境下的自适应性, 也就失去了词计算的普遍性. 人工智能只有在不确定性研究方面有所突破, 让计算机不再用精确严密的符号语言计算, 而直接利用自然语言来思考和推理, 才可以使自然语言理解乃至人工智能取得实质性的进展. 人们寄期望于表示概念的语言值的不确定性研究及其语义网络的研究取得突破.
如果不能用自然语言作为其知识表示的基础, 建立不起不确定性人工智能的理论和方法, 人工智能也就永远实现不了跨越的梦想. 中华文化最美是汉字, 如果中国的智能科学家不能对汉语的自动理解作出贡献, 那将是愧对中华文化.
2.3 用于不确定性转换的云模型
以概念为基础的自然语言是人类知识描述和思维活动的载体. 人借助语言进行思维, 并不涉及过多的量的数学运算. 自然语言中的概念是定性的, 对自然语言中概念的不确定性的形式化, 是不确定性人工智能 [1-2]的基础要求. 考虑到物理学在对客观世界的认识中, 原子模型起了重要作用, 在认知物理学中, 把客观世界的认知借鉴到主观的认知过程中来, 把概念作为语言的基本模型, 就好像把原子看作是物质组成的基本模型一样. 以自然语言中的概念为切入点, 在概率理论的基础上研究隶属度的不确定性, 并建立了定性和定量转换模型——云模型, 其基本原因就在于此.
云模型作为自然语言的原子模型, 可以反映自然语言中概念的随机性、模糊性及其关联性. 云模型仅仅使用期望、熵和超熵3个数字特征就足以在整体上表征一个概念, 用来反映定性概念的整体定量特性. 这对理解定性概念的内涵和外延有着极其重要的意义. 十几年来, 我们对云模型、云发生器、云的重要数学性质、正态云的普适性等做了详细的研究. 目前, 云模型用于智能控制, 成功地实现了对三级倒立摆的实时动平衡姿态的转换; 用于数据挖掘, 实现了对关联规则和预测知识的发现; 用期望、熵和超熵3个数字特征表示物种、遗传和变异, 模拟自然界的演化, 云进化计算方法可获得更优的解; 还作为数据库水印、软件水印或流媒体水印用于信息安全中. 云模型和云计算作为不确定性人工智能研究中定性定量转换的有力工具, 必将在更多的领域得到广泛应用.
3. 把网络拓扑作为知识表示的基本方法来研究网络智能
3.1 复杂网络研究的重大成果: 小世界和无标度特性
20世纪的科学研究, 认识到简单确定性的系统会演变为复杂的、不确定的行为, 如分形结构, 蝴蝶效应, 混沌现象等, 还认识到复杂系统在随时间的演变和变异过程中, 会出现涌现, 即突变, 物理学中称为相变. 导致相变的诱因和临界条件, 成为人们研究复杂系统的核心问题. 复杂系统不单单是简单个体单元的叠加, 不可能用单元的个体性质来预言复杂系统整体丰富的行为, 要研究个体之间相互作用形成的群体智能.
人们对大量实际的复杂系统, 如技术系统中的因特网、电力网, 社会系统中的人际关系网、经济合作关系网, 生物系统中的新陈代谢网、神经网等等进行实证研究和建模分析, 发现这些网络的演化规则非常相似. 实际生活中的复杂系统, 是受某些简单规则所驱动的组织行为, 这些不同系统、不同学科之间的相似性, 以及宏观和微观上的自相似性, 导致复杂系统和复杂网络的研究必然是跨系统、跨尺度和跨学科的. 尤其是小世界现象和无标度特性这两个重大科学发现, 使得复杂系统的研究不仅成为学科交叉的前沿, 也成为整个科学技术的前沿.
除了小世界和无标度之外, 复杂网络还具有鲁棒性和脆弱性并存的特点. 其抗随机攻击和随机故障的能力很强, 但是在故意有目的地针对精英节点的攻击面前, 表现脆弱. 具有这种行为特性的原因也是由于幂律分布导致的不均匀性.
网络拓扑的决定性, 反应了节点之间相互作用的拓扑形态, 比一个个的节点要重要得多. 无论是因特网、神经网, 还是生态链, 看似毫不相干, 结构各异; 但是可能具有相同的行为特性, 受制于某些基本的法则, 而这些结构和法规则可能是简单的, 甚至同等地适用于细胞、自然语言和社会更广泛的领域. 目前, 对网络拓扑的研究已成为研究复杂系统动力学性质的强有力的工具, 用以揭示复杂网络的形成机制, 演化规律, 动力学过程和涌现临界等.
3.2 网络拓扑作为知识表示的研究方法
如果说, 符号语言也好, 自然语言也好, 还是一个个符号、一个个词连接起来的一维的形式化知识表示方法的话, 那么, 将网络拓扑作为二维的知识表示形态, 形成全局优先的认知理念, 是一件很有意义的研究. 拓扑是一种特殊的图形, 人对图形、图像的表示方法和理解能力是人类智能的重要表现, 50年来人工智能的研究几乎没有把它们作为知识表示的方法, 不能不是一件遗憾的事情.
把网络拓扑作为知识表示, 首先要能够用计算机方法模拟生成现实世界中复杂网络的拓扑结构. 现实世界的复杂网络是一个演化的过程, 理想的、严格数学意义下的随机网络、小世界网络和无标度网络几乎不存在. 网络拓扑模式之间也不存在严格的界限. 因此, 如何模拟生成能够最大程度符合真实网络统计特征的网络拓扑? 这是把网络拓扑作为知识表示的基础性问题. 把一些典型的网络模型通过带有不确定性的生长、叠加、变异等方式合成为一个复杂网络, 或者把复杂网络进行简化和分解, 都是有意义的研究工作.
作者在这方面做了有益的尝试, 通过典型随机网络和星型网络合成的方法, 得到了具有层次特性的无标度网络. 还研究了基于云分形的复杂网络发展演化过程, 将一个初始网络拓扑作为云模型中的种子——期望拓扑, 按照大致自相似的规则复制生长, 用云模型中的熵和超熵控制变异的程度, 生成的每一次网络结构, 相当于云模型中的一个云滴. 这样不仅模拟生成了具有小世界、无标度特征的复杂网络, 而且较好地反映了网络演化过程中的不确定性.
在用网络拓扑作为知识表示的过程中, 将研究对象表示为节点, 对象之间的关系表示为边, 节点的位置、节点的属性, 边的属性、以及边的距离等等都可以赋予特定的物理含义. 例如: 交通网中的城市规模, 因特网中的节点吞吐量, 万维网中的网站点击率, 人际关系网络中的个人威望等等都可以用节点的质量来表示; 而交通网络中的城市间的地理距离、通信网络中节点间的带宽、万维网中超文本间的链接次数、人际关系网中的关系的疏密程度等等, 都可以用节点间的距离表示. 更进一步地, 网络拓扑中的节点, 代表各种各样的实体; 节点的属性可借助物理学中的粒子性来表征. 节点间的边可借助物理学中的波动性来表征. 以此为基础, 形成计算实验平台, 研究网络上的动力学行为, 模拟复杂网络在什么样的临界条件下会发生网络节点的级联失效或连锁崩溃行为, 这就是网络化的智能 [3-4]. 它区别于使用传统的人工智能技术去解决网络路由算法、W EB搜索引擎等的网络智能, 也区别于传统的分布式智能.
发现复杂网络中不确定性的规律性, 无序中的有序性, 竞争中的协同性, 又称网络化数据挖掘. 把网络拓扑作为知识表示方法, 针对实际的复杂网络, 提出通过拓扑势方法, 挖掘出最能代表它的骨干拓扑结构, 排列出网络中节点的重要性次序、边的重要性次序, 发现不同的社团成员, 以及挖掘出社团的结构模式等, 都是很有意义的研究工作.
4. 结束语
科学发展到今天, 一方面是高度分化, 学科在不断细分, 新学科、新领域不断产生; 另一方面是高度融合, 更多地呈现学科交叉和综合的趋势. 这种特征在人工智能研究中表现尤其突出. 秉承人工智能学科交叉的天性, 并把它作为创新思想的源泉, 必将孕育网络时代人工智能的大突破, 对人类文明产生重大影响.
-
[1] 李德毅, 杜鹢. 不确定性人工智能[M]. 北京: 国防工业出版社, 2005. [2] LI Deyi, DUYi. Artificial intelligence with uncertainty[M]. Boca Raton, USA: Chapman & Hall/CRC, 2007. [3] LI Deyi, XIAO Liping, HAN Yanni, et al. Network think-ing and network intelligence[J]. Lecture Notes in Artificial Intelligence, 2007, 4845: 36-58. [4] 李德毅, 刘坤, 孙岩, 等. 涌现计算: 从无序掌声到有序掌声的虚拟现实[J]. 中国科学E辑: 技术科学, 2007, 37(10): 1248-1257.