2. 中国哈尔滨 150080 中国地震局工程力学研究所
2. Institute of Engineering Mechanics, China Earthquake Administration, Harbin 150080, China
目前,“大数据”的概念没有一个明确定义。维基百科中将大数据定义为:所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策更积极目的的资讯。IDC将大数据定义为:为更经济从高频率的、大容量的、不同结构和类型的数据中获取价值而设计的新一代架构和技术。虽然不同学者、不同研究机构对大数据的定义不尽相同,但均存在一个普遍共识,即“大数据”的关键是在种类繁多、数量庞大的数据中快速获取信息。
进入21世纪后,数据增长与应对数据增长的现有计算机技术之间的矛盾越来越大,最终引发大数据技术革命。大数据分析能力是大数据技术的关键,其核心思想是,解决在多种类型数据激增情况下,如何提高对数据的管理、分析和利用的问题(杨国伟,2014)。大数据的本质是利用分布式、云计算、数据挖掘等诸多技术,将原本分散的、多样性的数据有机融合在一起,进行统计关联分析,预测事物的发展趋势(Marx V,2013)。因此,大数据及其技术蕴含着巨大生产力,目前已被认为是一门新兴学科(Hey T et al,2012),不但成为科技界和企业界关注的热点,也成为国家间的竞争热点。很多国家将其提升到战略高度,对国家安全、政府决策和竞争模式产生了决定性影响。
随着互联网经济的崛起,大数据技术在中国迅猛发展。2016年中国大数据技术白皮书指出,在“十三五”期间:大数据基础设施建设持续增长;大数据开放共享进度加快;政府大数据应用逐步深入;数据立法与监管日趋完善;大数据合理合法流通加速;大数据与传统产业深度融合。2016年中国大数据技术大会上,CCF大数据专家委员会对外发布了2017年大数据发展趋势10大预测:机器学习继续成智能分析的核心技术;人工智能和脑科学相结合,成为大数据分析领域的热点;大数据的安全和隐私持续令人担忧;多学科融合与数据科学兴起;大数据处理多样化模式并存融合,流计算成主流模式之一;数据的语义化和知识化是数据价值的基础问题;开源成大数据技术生态主流;政府大数据发展迅速;推动数据立法、重视个人数据隐私;可视化技术和工具提升大数据分析工具的易用性(潘希,2016)。
近年来,地震信息化发展迅速,地震行业伴随着不断增长的数据量和数据种类衍生出“大数据”现象,挖掘“地震大数据”的核心价值及其对行业发展提供深刻、全面的洞察力,对地震数据管理、应急决策、震情分析、信息服务将产生巨大的影响(屈佳等,2014)。
大数据技术具有广阔的应用前景。本文从大数据角度,探讨大数据技术对地震数据处理的影响,认为大数据的深度挖掘为地震观测带来新的认知,同时给出一款利用大数据技术开发的地震目录关联分析软件案例,验证大数据技术在地震数据处理方面的可行性,揭示大数据对深度挖掘地震监测数据的价值。
1 大数据的4V特征大数据技术有4V特征,即Volume(容量大)、Variety (种类多)、Velocity(速度快)及重要的 Value(价值密度低)特征(Staff S,2011)。
(1)数据容量大(Volume),指处理的数据量在TB级别以上,甚至跃升到PB级别,1次处理的数据相当于过去美国国家图书馆全部纸质图书的数据量。
(2)数据类型繁多(Variety)。相对于以往便于存储的、以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
(3)处理速度快(Velocity)。1 s定律,一般要在秒级时间范围内给出分析结果,超出此时间,数据就失去价值了。这是大数据技术区别于传统数据挖掘技术的显著特征。根据IDC的“数字宇宙”报告,预计到2020年,全球数据使用量将达到35.2 ZB。在如此海量的数据面前,数据处理效率就是企业的生命。
(4)价值密度低(Value)。由于数据采集不及时,数据样本不全面,数据可能不连续或失真。但当数据量达到一定规模,可以通过更多数据达到更真实全面的反馈。这是大数据的最终意义——获得洞察力和价值。百度专家认为,大数据呈现价值的过程是:将信号转化为数据,将数据分析为信息,将信息提炼为知识,以知识促成决策和行动。
2 地震数据处理分析新思路地震数据主要包括地震波形数据、地震前兆观测数据、地震探测数据、地震调查数据、地震考察数据、地震试验数据、地震应急救援数据、地震科学研究数据等,其中以地震观测数据为主,满足大数据4V 特征,日产出量200 TB以上,历史数据存储量达到EB级。地震监测手段多,有测震学科、形变学科、电磁学科、流体学科、流动观测点以及宏观异常统计等。地震台站数量、采样率、仪器种类日趋增多,数据格式丰富。地震研究既与地球内部物质运动演化有关,也与气象、天体运动有关,形成多样性数据特征(张晁军等,2015)。存储的海量地震数据,有赖于大数据技术实现数据集中分析和深度数据挖掘。应用大数据技术开展地震数据处理与分析研究,需要具有以下思路。
(1)不再执着于寻找地震与对应地球物理场间的因果关系。“燕子低飞要落雨”是公认的自然常识,经过千百年总结获得的经验,可以认为是人们在海量数据中获得的燕子和下雨之间的一个关联关系,不能通过物理或数学公式支撑。基于此想法,必须修正小数据时代地震预测的2个方向:寻找因果关系及寻找与地震有关的异常样本。因为地震由复杂因素引起,具有时间复杂性和空间复杂性,哪些现象与地震真正相关,至今无确切答案。大数据时代预测将以密集观测和全样本或多样本分析为基础,有可能发现某些地震前兆与地震具有真正的关系。因此,在大数据技术下,地震与地震现象之间的关联关系是地震研究的重要方向。
(2)地震预测可靠性的提高必须依赖于海量地震样本。传统地震预测一般依赖于小数据分析,往往通过拼凑样本去解释地震的发生时间、空间和震级分布。在大数据环境下,地震预测研究倾向于对获取的所有样本(全样本)进行清洗、分析、挖掘,而不再依赖于随机采样。以孤立现象作为地震趋势预测的依据不再符合大数据时代地震预测、预报研究的思路。以多种类观测、大样本分析为基础研究和预测地震,才可能发现地震前兆与地震间真正的关联关系,提高地震预测的可靠性。
举例来说,分析地震趋势时,可以将各种地震前兆异常、地震活动性、地质构造、岩石强度与地震数据进行所谓的拉网统计分析,试图拓展新的认知。大数据时代,对不是非常了解其发生、发展规律的地震,在海量数据中探索并描绘时,有时会获得意想不到、更为清晰的认识。
(3)大数据时代更需要高密度综合地震观测。过去几十年,国内外为了探索地震发生原因并测定地震参数,建立了一套高精度观测网。虽然时间上采样率不断提高,但由于设备昂贵和观测条件限制,空间采样频率很难提高,严重妨碍大数据技术处理的地震数据空间广度。
大数据时代,地震观测密度在空间和时间上都要提高。当地震观测点密度足以提供大量数据时,仪器精确性可以降低。按照大数据思维,数据的广度可以弥补数据精度的不足。适当忽略微观层面上的精确度会让地震研究在宏观层面拥有更好的洞察力。
提高地震观测密度的方法较多,基于智能手机的观测平台是最有前途的方法之一。日本在此方面居于世界前列,利用手机中的重力加速度计和地震仪APP提高了地震观测、预警的密度。通过海量数据的数学网格分析可以校正误差,弥补数据的不精确性。
(4)大数据技术促进地震数据加速融合和实时分析。地震的预测、预报应是全球范围内的地学数据(包括天体与空间观测)与地震现象的综合判断分析。大数据思维需要将这些地震宏观异常和各学科数据融合分析,进行历史震例对比,也需要对比不同构造环境下地震异常与地震的发生,进行关联性分析。传统技术无法将这些海量地震数据汇总、融合、快速分析。采用大数据平台,如:Mongo数据库作为地震数据的海量存储平台,采用Mahout作为地震数据挖掘平台,可以让数据存储量更大、分发更快,数据分析更加及时,预测价值更高。
(5)大数据技术促使地震监测预报方式、方法改变。大数据将改变地震预测预报的片面认识和结论,以往一些数据模型、经验公式、震例分析、前兆映震效能有可能需要修正。这些修正的模型、公式、方法反过来促进了地震监测、预报水平的提高。
3 地震目录余震预测研究以大数据平台上基于地震目录的余震预测研究为例,给出地震大数据技术的1个应用。我们认为,主、余震地震参数间存在, 较为复杂的关联关系,很难用物理模型或物理公式进行描述,需要设计数据挖掘算法,探索主震的地震参数(震级、视应力、地震矩、震源深度、地震能量等)与最大余震的地震参数(震级、发生时间、发生空间等)之间的统计关系,为震后趋势快速判定提供一个可能方法。
通过分析,提出基于地震目录的余震预测研究思路:①选择合适的地震目录内容;②对不同地震目录中地震参数进行合并、整理,对缺失字段(特指能量字段)进行填充,并存储到Mongo数据库(分布式大数据数据库);③动态选择进行主、余震关系分析的地震参数;④基于支持向量回归模型,进行主、余震关联关系分析;⑤基于关联分析模型,开展余震预测研究(Wang M F et al, 2014)。大数据平台下基于CMT与NEIC地震目录的余震预测界面见图 1。
大数据为地震数据处理、分析,地震预测、预报提供了一种全新的数据挖掘方法和思路。地震大数据的存储、分发、共享、挖掘需要法律支撑,地震大数据的分析需要大数据技术人才与地震科技人员通力合作,创新思维,开辟一条新的地震监测预报研究道路,研发一系列基于大数据平台的地震数据分析与应用软件,为地震科技发展贡献力量。
潘希. 2017 年大数据发展趋势十大预测发布[N]. 中国科学报, 2016-12-13(4). | |
屈佳, 郑蕊, 王宁. 地震行业"大数据"应用探讨[J]. 城市与减灾(4): 24-26. | |
杨国伟. "大数据"引发的变革[J]. 软件(教育现代化), 2014(4): 293 | |
张晁军, 陈会忠, 李卫东, 等. 大数据时代对地震监测预报问题的思考[J]. 地球物理学进展, 2015, 30(4): 1 | |
Hey T, TansleyS, Tolle K. The fourth paradigm:data-intensive scientific discovery[M]. Washington: Microsoft Research, 2013. | |
Marx V. Biology:the big challenges of big data[J]. Nature, 498(7453): 255-260. DOI:10.1038/498255a | |
Staff S. Challenges and opportunities[J]. Science, 2011, 331(6 018): 692-693. | |
Wang M F, Jiang Q G, Feng J L. energy field filling of neic broadband radiated energy catalogue based on support vector machine regression model[J]. Applied Mechanics and Materials, 2014, 687-691: 1514-1517. DOI:10.4028/www.scientific.net/AMM.687-691 |