2. 中山大学 数学与计算科学学院, 广州 510275;
3. 广东省地质过程与矿床资源探查重点实验室, 广州 510275
2. School of Mathematical Science, Sun Yat-sen University, Guangzhou 510275, China;
3. Guangdong Provinical Key Laboratory of Mineral Resources and Geological Processes, Guangzhou 510275, China
大数据分析是今后各学科和经济社会领域不可回避的重大课题。大数据正在成为国际科技界与企业界关注的热点,被许多发达国家列为未来国家战略优先发展领域。Nature和Science等杂志相继出版专刊来探讨大数据带来的挑战和机遇。美国政府2012年宣布投资2亿美元启动“大数据研究和发展计划”,这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署。美国政府认为大数据是“未来的新石油”,一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有和控制将成为国家间和企业间新的争夺焦点。
面对新形势和新挑战,欧美各国科学界纷纷制定了基于大数据的科学战略 (郭华东等,2015)。以美国地质调查局为例,在连续的2个十年规划中,都提出了基于大数据的核心科学体系,并制定了相应的战略目标和措施 (杨宗喜等,2015)。
各类监测—互联网-大数据应用催生了科学研究和管理手段的创新,越来越多科学家利用大数据分析支撑各级政府、行业与机构科学研究和管理顶层设计与决策。借着大数据时代的热潮,微软公司生产了一款数据驱动的软件,主要是为工程建设节约资源提高效率 (赵国栋等,2013)。微软的目标不仅是为了节约了能源,更加关注智能化运营。通过跟踪取暖器、空调、风扇以及灯光等积累下来的超大量数据,捕捉如何杜绝能源浪费。加拿大Geosoft公司采用微软Azure云计算技术,开发了VOXI反演软件,以消除数据采集中的噪声干扰,提高数据采集精度。
世界各国实施的“玻璃地球”计划,广泛采取以三维区域地质填图为主导与深部探测计划相结合的方式,应用了大数据理念和处理技术 (吴冲龙、刘刚,2015)。
2014年在北京召开了以“中国‘玻璃地球’建设的核心技术及发展战略”为主题的香山科学会议第491次学术讨论会。“玻璃地球”旨在利用大数据、物联网、云计算等新一代信息技术,融合、集成和利用各类海量地质数据,构建地球系统和地质勘查系统,提高国家在资源、环境和减灾等领域面临的复杂问题的应对能力,特别是对水资源、环境和地灾的管控和安全保障能力,满足社会需求。
中国研发的3DMine三维矿业软件通过国土资源部认证,它科学地组织各类矿山信息,将海量异质的矿山信息资源进行全面、高效和有序的管理和整合,运用数据库、三维模型、统计内插值和参数化概念,通过可视化技术、计算机技术和专业相结合,实现矿山重现,并可以快速计算,自动成图和综合应用的技术平台。
国务院于2015年9月印发《促进大数据发展行动纲要》,明确推动大数据发展和应用,培育高端智能、新兴繁荣的产业发展新生态。国家基金委与新疆维吾尔自治区联合基金将“基于大数据的大型矿集区成矿预测”列入2016年指南。
1 大数据研究存在的科学问题和主要困难大数据涉及数据量规模巨大,目前主流软件工具往往无法在合理时间内对数据进行接入、管理、处理及挖掘。需要发展新型处理模式,以从海量、高增长和多样化的大数据资源中挖掘优化的流程、智慧的知识和强力的决策。
大数据处理要求将多源、异构、动态、海量的非 (半) 结构化数据快速有效地转化为能被分析决策利用的结构化信息 (知识)。大数据处理普遍存在4大问题:①如何有序接纳多源异构、类型繁多的资料?②如何高效组织规模海量、时空密集的数据?③如何智能提纯结构清晰、关系明确的信息?④如何快速驾驭在线实时、自适应强的计算?
以往矿床学家主要依靠采样小数据和固有的模型和模式进行分析、预测,但效果往往不是十分理想。
矿床与地质大数据分析面临的主要问题有 (严光生等,2015): (1) 如何建立一个多学科整合的模块式科学框架来组织数据、科学、技术和模型;(2) 如何融合监测的动态数据与勘查的静态数据,实现数据与模型的一体化管理;(3) 如何融合多源异质异构的结构化、半结构化和非结构化数据,进行数据挖掘;(4) 如何直接基于大数据进行挖掘、预测和预警,突破参数、模型、模式的限制。
简言之,矿床与地质学家需要探索并建立一个把人类活动与多科学领域无缝整合的模块式科学框架,便于把数据、科学、技术方法和模型组织到恰当的时空尺度中去,实现基于地学时空大数据的知识发现,深化对整个矿床与地质系统运转的理解,提升对矿床与地质的认知程度和对它们开发的决策能力。
矿床与地质大数据分析平台的目标是,采用数据密集型的工作方法,实现矿床与地质科学大数据的高效存储、管理、集成、融合与深度挖掘,促进交叉学科的发展;提出并建立矿床与地质时空大数据统合利用的理论、方法和技术体系,提供能实现矿床与地质时空透视和智能分析的“玻璃地球”建设软件平台,提供矿床地质资源与开发利用监测、管控和预警的原型系统。
目前,矿床与地质大数据研究与应用存在的主要困难有:数据来源有限 (政府、机构公开数据不多)、数据类型混杂 (结构化、非结构化,数字、视频、文本)、数据来源分散 (部门分割,数据封锁)、数据质量存疑 (存在数据篡改、造假等现象)、数据应用方法不清晰 (难以清晰反映地质现状)、数据应用工具缺乏 (大数据的应用模型复杂)、缺乏最终解决方案的指引 (大数据最终产品匮乏)。
2 大数据研究的前景大数据的世界是一个由大量活动构件与多元参与者元素所构成的生态系统,终端设备提供商、基础设施提供商、网络服务提供商、网络接入服务提供商、数据服务使能者、数据服务提供商、触点服务、数据服务零售商等等一系列的参与者共同构建的生态系统。数据的资源化、与云计算的深度结合、高效的数据管理以及数据生态系统复合化程度的加强将是大数据研究的趋势。基于大数据分析技术,大数据分析应包括以下几方面的基本内容 (郭华东等,2015)。
2.1 数据挖掘大数据分析的理论核心就是数据挖掘算法。不同的数据类型和格式,需要不同的数据挖掘的算法,以更加科学地呈现数据本身具备的特点。各种多元统计方法,由于能通过相关关系挖掘出深度价值,因此是重要的数据挖掘分析工具。
2.2 预测性分析大数据表征的是过去,但可以用来预测未来的变化。预测性分析是大数据分析最终应用的重要领域之一,它从大数据中挖掘出特点,通过科学建模型,代入新数据,即可预测未来。
2.3 数据可视化分析大数据可视化是大数据分析的基本要求,它可以直观地呈现大数据特点,同时能够非常容易被人类所接受。常见的可视化技术包括基于集合/图标/图像的技术、面向像素的技术和分布式技术等。
2.4 语义引擎构建由于数据采集的多元化,数据类型的非结构化,如何将多样的信息转化成计算机可以识别和计算的语言是进行大数据分析的基础。
2.5 数据管理在地质时空大数据模型构建中,数据融合是基础性的研究课题,它贯穿于矿床与地质研究对象认知模型、矿床与地质时空数据感知模型、矿床与地质时空数据分析模型、矿床与地质时空数据挖掘模型、矿床与地质时空数据预测模型及地质时空数据决策模型的研究中。
各类专题的地质时空大数据链组织与实现,有赖于地质时空大数据平台的系统解决方案和整体架构,以及数据融合方法和技术研究,有赖于超算环境下矿床与地质时空大数据索引、调度机制和大数据引擎,有赖于建立统一的运行云平台及智能监测、预警与管控的数据链,发展矿床与地质时空大数据的安全存储、检索与隐蔽传输方法和技术。未来的大数据研究,将严重依赖于大数据平台的建设 (李超岭等,2015)。
矿床与地质时空数据除拥有一般大数据的“4V”共性特征外,亦有自己显著的个性特点,突出体现在其专业背景特点 (what、where、when、why、who、whom)。对矿床与地质领域的不同来源、不同获取方式、不同结构及不同格式的离散数据,开展结构化重建、关联分析、地学建模,将加速地学知识的融汇,深化对地球系统的认识和理解,可望引发地球科学研究方式的变革。
大数据理念和分析技术应用将是成矿规律研究的重要内容 (赵鹏大,2015)。成矿规律研究将更充分地利用与“矿”有关的各种数据,包括在一定的地质历史时期或构造运动阶段,在一定的地质构造单元及构造部位,与一定的地质成矿作用有关的时间、空间、成因及矿床产状的数据,以及庞大的矿床成因方面的数据信息 (如成矿温度、成矿压力、流体包裹体、同位素、微量元素等矿床地球化学数据)。
地质调查大数据研究,将针对以往解决得不理想的地质问题,充分利用新一代信息技术,更新当前数据处理环境,着重进行地质数据的智能分析与深度挖掘。在大数据处理方法上,将建立基于统一基础地理空间的多源数据集成与管理系统,将地质、构造、矿点、地球物理、地球化学、遥感钻孔等各类数据整合到统一的数据库中,利用云计算、大数据等方法,对多源综合数据进行集成、展示、分析和挖掘,由此建立数据驱动的成矿远景图件。同时,开展有效的三维模拟 (主要是反演),目前已有的三维地质建模软件 (如国外的GOCAD、MVS、MicroStation、Surpac,国内的QuantyView、GeoView、GeoMo3D、Titan3DM等) 将得到进一步的优化和功能拓展。
矿床与地质大数据研究已有一定的基础 (施俊法等,2014;杨宗喜等,2015)。例如,加拿大Diagnos公司在过去10年中为不同矿产勘查公司完成了数百个大数据分析、挖掘,进而圈定靶区的项目。这些项目位于加拿大魁北克、安大略、新不伦瑞克、纽芬兰、美国内华达州、多明尼加共和国,墨西哥,布基纳法索和坦桑尼亚等地。2011年,Diagnos公司编制了加拿大魁北克西北地区金、铜、银、锌和镍的成矿远景图,覆盖面积33.09×104 km2。2012年便取得了总计5242个矿权 (占地2335 km2),覆盖了最有远景和未勘查的目标。
深部找矿靶区的预测是未来5~10a矿床学研究的新热点,大数据分析成为不可或缺的技术。多元数据的集成以及不同学科、不同尺度的数据在三维空间的对比分析是其重要途径。这方面的研究基础包括澳大利亚以找矿为目的开展的四维地质填图;荷兰建立的全国1000 m以浅的3D地层框架模型;加拿大将三维地质填图用于盆地地下水调查;英国建立的全国4个尺度的三维地层框架模型;法国在地质调查等诸多领域开展三维地质建模;德国在北部多个盆地进行跨界三维地质建模;美国针对资源与环境评价开展三维地质框架研究等。
中国长期地质调查和探测取得的海量地质基础调查数据,将是超级计算机服务的重点对象之一。六年蝉联世界第一的“天河二号”超级计算机落户中山大学,并委托中山大学管理,可以成为强大的技术支撑平台。“天河二号”系统集高性能计算、大数据分析和云计算于一体,能高效处理普通云计算不能处理的计算密集型问题,并能满足对复杂大数据开展精准、实时分析的需求。
3 大数据-智能矿床成因模型与找矿模型的构建大数据-智能矿床研究刚刚起步。它将以地质-矿床大数据平台为依托,基于平台提供的大数据集与高性能计算能力,研发现代云计算、大数据环境下的矿产资源评价知识挖掘智能技术方法体系,加强大数据支撑的人工智能方法——机器学习、深度学习、可视分析的应用。与传统矿床与地质学家常规做法显著不同的是,它会引入自然语言处理技术,让机器能够理解地质报告,能进行知识提取和模式识别,特别是有别于显性知识信息预测的隐性知识信息发现。
矿床成因模型与找矿模型的建立,需要许多观察和数据作为支撑。从统计观点看,对数据信息进行挖掘,有经典统计和贝叶斯-拉普拉斯两类不同的思路。
经典统计着重频率统计,它强调,只要反复观察一个可重复的现象,直到积累了足够多的数据,就能从中推断出有意义的规律,揭示一切现象产生的原因。从理论上讲,它既不需要构建模型,也不需要默认条件,只要进行足够多次的测量,隐藏在数据背后的原因就会自动揭开面纱。如果数据量足够大,人们完全可以通过直接研究这些样本来推断总体的规律。
但当存在着大量数据,但数据又可能有各种各样的错误和遗漏的时候,如何才能从中找到真实的规律。这是贝叶斯-拉普拉斯方法关注的问题 (Brenden等,2015)。
贝叶斯-拉普拉斯方法则认为,可以根据先验知识进行的主观判断,即在人类认识事物不全面的情况下,可以利用已有经验帮助做出大致合理的判断、决策,以后如有客观的新信息、新数据更新最初关于某个事物的信念后,就会得到一个新的、改进了的信念。这就是说,当一个人不能准确知悉一个事物的本质时,他可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。用数学语言表达就是:支持某项属性的事件发生得愈多,则该属性成立的可能性就愈大。与经典统计统计学方法不同,贝叶斯-拉普拉斯方法建立在主观判断的基础上,先估计一个值,然后根据客观事实不断修正。
贝叶斯-拉普拉斯方法的数学表达是 (周永章等,2012):
P(A|B)=P(B|A)×P(A)/P(B)
式中:P(A) 是先验概率,P(A|B) 是后验概率,表示在以后B事件发生的条件下A事件发生的条件概率。
贝叶斯-拉普拉斯公式隐含下列思想:“大胆假设,小心求证”,“不断试错,快速迭代”。先验概率 (初始状态) 的重要性已经不是最重要,即使最初选择不理想,只要根据新情况不断进行调整,仍然可以取得成功。一个人完全可以按照自己的想法弄个粗放的原型出来,然后充分利用大数据和互联网的力量,让新数据加入进来帮助它快速迭代,逐渐使模型变得越来越完善。大数据时代获得信息的成本越来越低,社会也变得更加开放和包容,因此贝叶斯-拉普拉斯方法的很有力量的,只需要一个人对新鲜事物保持开放的心态,愿意根据新信息对自己的策略和行为进行调整。
矿床成因模型与找矿模型的建立,经常需要涉及半结构化和非结构化数据,图片、文本等非数字的数据也是具有极端的信息价值的。由于数据稀疏性问题,以前即使这类数据可以数学表达,计算机也根本无法满足大量信息处理的需要。
经典统计学比较适合于解决小型的问题,同时它要求足够多的样本数据,要求样本能够代表数据的整体特征。
科学家对自然语言处理方面的成功,开辟了一条全新的问题解决路径:原来看起来非常复杂的问题可以用贝叶斯公式转化为简单的数学问题;可以把贝叶斯公式和马尔科夫链结合以简化问题,使计算机能够方便求解,从实践看来它非常有效;将大量观测数据输入模型进行迭代——也就是对模型进行训练,就可以得到希望的结果 (Brenden等,2015)。随着计算能力的不断提高、大数据技术的发展,原来手工条件下看起来不可思议的进行模型训练的巨大工作量变得很容易实现,它们使贝叶斯公式巨大的实用价值体现出来。
科学家依托贝叶斯原理开发的语音识别系统对大数据-智能矿床成矿与找矿模型的构建具有很强的启迪意义。该系统不但能够识别静态的词库,而且对词汇的动态变化具有很好的适应性,即使是新出现的词汇,只要这个词已经被大家高频使用,用于训练的数据量足够多,系统就能正确地识别。这反映出贝叶斯公式对新增加知识 (数据) 变化的高度敏感,对增量信息有非常好的适应能力。
20世纪80年代,美国数学家朱迪亚·珀尔证明,贝叶斯网络可以用来有效揭示复杂现象背后的成因,把错综复杂的事件梳理清楚。揭示矿床的成因机制及它们背后的规律,同样可以采取贝叶斯网络。
贝叶斯网络操作思路如下 (Brenden等,2015):如果一个人不清楚一个现象的成因,那首先可以根据他认为最有可能的原因来建立一个模型,然后把每个可能的原因作为网络中的节点连接起来,根据已有的知识、他的预判或者专家意见给每个连接分配一个概率值 (先验概率)。接下来只需要向这个模型代入观测数据,通过网络节点间的贝叶斯公式重新计算出概率值。为每个新数据、每个连接重复这种计算,直到形成一个网络图,任意2个原因之间的连接都得到精确的概率值为止。即使实验数据存在空白或者充斥噪声和干扰信息,不懈追寻各种现象发生原因的贝叶斯网络依然能够构建出各种复杂现象的模型。
贝叶斯网络是马尔可夫链的推广,它给复杂问题提供了一个普适性的解决框架。与马尔可夫链类似的是,贝叶斯网络中每个节点的状态值取决于其前面的有限个状态,不同的是,贝叶斯网络不受马尔可夫链的链状结构的约束,因此可以更准确地描述事件之间的相关性。为了确定各个节点之间的相关性,需要用已知数据对贝叶斯网络进行迭代和训练。
贝叶斯网络是成因建模的一个革命性工具。贝叶斯公式的价值在于,当观测数据不充分时,它可以将专家意见和原始数据进行综合,以弥补测量中的不足。人类的认知缺陷越大,贝叶斯公式的价值就越大。
目前的人工智能通常需要从大量的数据中进行学习,而人类具有“仅从少量案例就形成概念”的能力,两者之间存在巨大差距。2015年,Science杂志封面刊登一篇人工智能论文:3名分别来自麻省理工学院、纽约大学和多伦多大学的研究者开发了一个“只看一眼就会写字”的计算机系统。人们只需向这个系统展示一个来自陌生文字系统的字符,它就能很快学到精髓,像人一样写出来,甚至还能写出其他类似的文字,更有甚者,它还通过了图灵测试,人们很难区分字符是人类还是机器的作品。而这个系统采用的方法就是一种基于贝叶斯公式的方法——贝叶斯程序学习 (Bayesian Program Learning)。心理学家证明,贝叶斯方法是儿童运用的思考方法。甚至有使科学家思考,人类的大脑结构就是一个贝叶斯网络,贝叶斯公式是人类在没有充分或准确信息时最优的推理结构,为了提高生存效率,进化会向这个模式演进。
当然,贝叶斯网络一般需通过超级计算才能有解,且随着数据的不断积累,所建立的成因模型才会完善。因网络结构较复杂,基于冯·诺依曼结构的计算机很难解决这种NP (Non-deterministic Polynomial) 复杂度的问题。但对于一些具体的应用,可以根据实际情况对网络结构 (采用网络拓扑的图同构技术) 和训练过程进行简化,使它在计算上可行。人们期望,量子计算机开发成功,以能够完全解决其计算问题。到那时,贝叶斯公式在大数据、人工智能处理中发挥的作用是无法想象的。
上述展示了构建大数据-智能矿床成矿与找矿模型值得研究的方向。来自地质调查、监测数据获得的与“矿”有关的大数据,包括在一定的地质历史时期或构造运动阶段,在一定的地质构造单元及构造部位,与一定的地质成矿作用有关的时间、空间、成因及矿床产状的数据,还包括庞大的成矿温度、成矿压力、流体包裹体、同位素、微量元素等矿床地球化学数据等,都可以利用来迭代计算出贝叶斯成因网络,完善所建立的矿床模型,并且通过互联网、云计算技术,使得世界各地的矿床研究团队共同参与,引发矿床模型研究方式的变革。
[] | Lake B M, Salakhutdinov R, Tenenbaum J B. 2015. Human-level concept learning through probabilistic program induction. Science, 350(6266): 1332–1338. DOI:10.1126/science.aab3050 |
[] | 郭华东, 王力哲, 陈方, 梁栋. 2015. 科学大数据与数字地球. 科学通报, 59(12): 1047–1054. |
[] | 李超岭, 李健强, 张宏春, 龚爱华, 魏东琦. 2015. 智能地质调查大数据应用体系架构与关键技术. 地质通报, 34(7): 1288–1299. |
[] | 施俊法, 唐金荣, 周平, 郑军卫. 2014. 世界地质调查工作发展趋势及其对中国的启示. 地质通报, 33(10): 1465–1472. |
[] | 吴冲龙, 刘刚. 2015. "玻璃地球"建设的现状、问题、趋势与对策. 地质通报, 34(7): 1280–1287. |
[] | 严光生, 薛群威, 肖克炎, 陈建平, 缪谨励, 余海龙. 2015. 地质调查大数据研究的主要问题分析. 地质通报, 34(7): 1273–1279. |
[] | 杨宗喜, 唐金荣, 周平, 张涛, 金玺. 2013. 大数据时代下美国地质调查局的科学新观. 地质通报, 32(9): 1337–1343. |
[] | 赵国栋, 易欢欢, 糜万军, 鄂维南. 2013. 大数据时代的历史机遇. 北京: 清华大学出版社. |
[] | 赵鹏大. 2015. 大数据时代数字找矿与定量评价. 地质通报, 34(7): 1255–1259. |
[] | 周永章, 王正海.侯卫生. 2012. 数学地球科学. 广州: 中山大学出版社: 247. |