然而,大数据战略思维在地震行业还未有得到充分应用,缺少有效汇集、存储海量数据的大数据技术,来实现数据集中分析和深度挖掘.我们需要为地震监测预报大数据实现做好准备:1)决策管理层推动大数据平台建设,培养数据分析科学家;2)整合所有观测数据,实现数据共享,并加强不同行业间的数据交换和新技术应用;3)加密现有的地震监测网,拓展数据资源;4)挖掘与地震有关的现象,研究高密度观测下地震参数计算方法,真正实现大数据价值挖掘;5)创建大数据下地震监测预报新理论.总之,大数据时代会给人类社会、经济、生活方式、创新思维带来一系列变革.地震监测也一样随着大数据时代会有新的变革,会改变现有地震监测预报思维模式和方法,进而推动地震科学的创新.对此,决策层应做好顶层设计.
Seismic observation data is big one. Earthquake is one of the many phenomena of earth itself, and the earth also is a system of multiple spheres. Along with a major breakthrough of capacity and progress of the human's using the data and getting data, laws and trends hidden in data will continually be mined. This will bring new ways to exploring various phenomena on the earth and preventing and mitigating natural disasters, especially studying earthquake mechanism. First of all, at big data age, earthquake prediction is no longer interested in finding the causal relationship. The prediction will be based on intensive observation and much more sample analysis, the real relationship between somewhat precursors and earthquakes will be very likely found. Therefore, In the context of big data, cor-relativity relationship will promote the level of earthquake prediction and improve the reliability of earthquake prediction. The second, big data promote seismic data fusion stored and used by various departments in different regions and countries. And it will accelerate real-time data analysis to enhance the value of short impending prediction;Thirdly, the age of big data we also need more the high density and integrated observation to let us see more details which were not been previously noticed, for improving our insight. The fourth, big data will change the methods of earthquake monitoring and prediction. The past some data model, calculation methods of seismic parameters and recognition of precursor abnormalities need to be re-amended, so as to obtain more precise answers. The strategic thinking of big data were not be fully run in earthquake monitoring and prediction, however, the lack of the technology of effective data collection and mass data storage to realize large-scale scientific data analysis and data mining. We need to prepare for application of big data. Firstly, the decision-making management should promote platform construction of big data and train scientists of data analysis; The second, all of the observed data need to come together and realize the data sharing. At the same time, we need enhance the data exchange and new technology application between different areas. The third, we need encrypt earthquake monitoring network and expand data resources to get rich data. The Fourth, related phenomena about earthquake should be excavated. We should study the new ways of calculating seismic parameters under the conditions of high density observation to dig the something value hidden in big data. The fifth, a new theory of big data for earthquake monitoring and prediction should be created. In short, the age of big data will bring us a series of changes in human society, such as economy, life style and innovative thinking. Some new change will take place in the age of big data, too. And the existing mode of thinking and methods of earthquake monitoring and prediction will be changed. These will promote the innovation of the earthquake science. In this regard, the decision layer should do the top design well.
数据是描述世界和改造世界的重要工具,人类的一切生产、交换活动,都以数据为基础,数据的积累和利用,都极大地推动了人类文明的进步(邬贺铨,2014).“数据”(data)这个词在拉丁文里是“已知”的意思,也可以理解为“事实”.20多年的发展,“数据”从一个相当专业的词汇,逐步渗入我们的日常生活和工作,从大量收发邮件、短信和微博,到拍照、录像和高清电视,以及网页浏览、检索、网络存储等,都让我们感觉到网络时代生活的便捷.这些都是数据时代的一个侧面.
大数据的提出实质上是数据增长与应对数据增长技术之间的矛盾而引发的.大数据的关键是大数据分析技术,就是要解决在多种类型数据激增的情况下,如何提高对数据的管理、分析和利用的问题(杨国伟,2014). 麦肯锡全球研究所报告《大数据:创新、竞争和生产力的下一个前沿》对“大数据”的定义为:大数据指的是大小超常规的数据库工具获取、存储、管理和分析能力的数据集.大数据是各种信息技术和互联网发展到现今阶段的一种表象或特征.目前,大数据已被认为是一门新兴学科(Hey et al.,2012),不但成为科技界和企业界关注的热点,也成为国家间的竞争热点.
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对数据的深度挖掘.大数据不是简单的数据堆积,将一个系统的数据库升级到另一个系统数据库就是大数据;也不是云方式、分布式、虚拟式技术应用就是大数据,大数据的价值在于利用这些技术,将分散的、多样性的数据汇集到一起,进行关联分析,预测事物的发展趋势.大数据的核心就是积累数据、分析数据、应用数据.通过丰富的时空动态数据分析,大数据为我们提供了理解事物间相互作用的巨大可能性(Marx,2013;Lazer et al.,2014).因此,大数据蕴含着巨大生产力,大数据已经从战略高度对国家安全、政府决策和竞争模式产生了决定性影响.2012年3月,美国奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”,这是继1993年美国宣布“信息高速公路”计划后的又一次关于信息科学的重大部署.美国宣布信息高速公路计划导致了全球人类生活方式的重大变革,20年来使全球发生了天翻地覆的变化.美国政府认为大数据是“未来的新石油”,将“大数据研究”上升为国家意志.美国作为全球大数据领域的先行者,在运用大数据手段提升社会治理水平、维护社会和谐稳定方面已先行实践并取得显著成效,值得我国学习借鉴.大数据也将对全球人类生活、科技、经济、文化及政治发展带来深远影响.一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有和控制也将成为国家间和企业间新的争夺焦点(李国杰,2012;涂子沛,2012,2014).
大数据技术在我国成发展趋势.2013年中国大数据技术白皮书指出,网络大数据、金融大数据、健康医疗大数据、企业大数据、政府管理大数据和安全大数据将成为2014年最具发展优势的六大应用领域.大数据的发展,未来呈现以下趋势:一是大数据从概念化走向价值化;二是大数据处理架构的多样化模式并存;三是大数据安全与隐私越来越重要;四是大数据分析与可视化成为热点;五是大数据产业成为战略型产业;六是大数据的商品化和数据共享的联盟化;七是基于大数据的推荐和预测正逐步流行;八是深度学习与大数据性能成为支撑性技术;九是趋势数据科学的兴起;十是大数据生态环境逐步完善( Sun Gard,2012;李德伟等,2013).
地震学发展已有百年历史,但地震预测的水平还很低,地震孕育和发生与哪些观测有关,或哪些现象可能与地震有关,需要借助积累的经验和数据进行全新的分析.大数据技术可能会给我们一些启示.
本文仅从大数据角度探讨了大数据对地震监测预报的影响,认为大数据的深度挖掘,即大数据的全样本或多样本分析会给地震监测预报探索带来新的认识.
1 大数据的基本特征和技术组成大数据(Big Data)或称巨量资料,具有“4V特征”——大容量(Volume)、多样性(Variety)、高价值(Value)和快速获取分析(Velocity).大容量是指聚合在一起供分析的数据量非常庞大,使用目前的主流软件工具往往不能在合理的时间内通过采集、管理、处理并整理而成为预测趋势和决策的信息;海量数据引发的危机并不单纯是数据量的爆炸性增长,还牵涉到数据类型的改变,也即数据的多样化(Varitey),数据的多样化是指大数据不但包括结构化数据和各类非结构化数据,还包括不同领域来源用于同一目的分析的各类数据;高价值则是指挖掘出的相关关系对成功预测事物发展趋势有重要作用,是成功决策的重要依据;快速化是指对数据获取、处理、分析和应用的快速反应(IBM全球企业咨询服务部,执行报告:《分析:大数据在现实世界中的应用》,IBM商业价值研究院).
大数据是新兴产业,大数据技术是指设计用于高速收集、发现和分析从多种类型的大规模数据中提取预测价值的新一代技术和体系,涉及数据存储、合并压缩、清洗过滤、格式转换、统计分析、知识发现、可视呈现、关联规则、分类聚类、序列路径和决策支持等高技术问题.图 1描绘了大数据技术组成,大致包括三方面技术:云技术——涉及云计算、分布式处理技术、存储技术和感知技术,完成数据获取、汇集、存储和归类;数据挖掘技术——包括关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等,完成事物之间的相关分析,即采用尽可能多的数据进行相关分析,其实质是让人摒弃因数据量小而产生的认识偏见,让数据来证明客观事实,其核心就是对未来做出成功预测;可视化技术——包括新数据表达方式,多维坐标排列分析和动态变化演示等,完成数据和分析的结果展示,体现大数据的实质——让数据自己说话.大数据的网络安全问题也很重要,但其属于信息网络技术的共性问题,不在此讨论.
![]() | 图 1 大数据系统示意图 Fig. 1 Schematic diagram of big data system |
大数据技术通过挖掘不同来源的内部数据和外部数据而获得价值,大数据案例(维克托. 迈尔-舍恩伯格和肯尼思. 库克耶,2012)表明,大数据技术有重要作用:
1)大数据具有预测事物发展趋势的功能
谷歌成功预测2009年全球H1N1流感发生就是经典案例.谷歌每天全球搜索指令超过30亿条,通过检索流感爆发前几年“治疗咳嗽和发热的药物”词条上升和扩散趋势,得出流感在时间和空间上的相互关系,经过大量数学模型检验,与年美国疾控中心记录的实际流感病例进行了对比,在甲型H1N1流感爆发的几周前,成功预测了这次流感爆发.而传统的传染病的发现要在流感爆发一两周之后才可以做到.基于这样的技术理念和数据储备,下一次流感来袭的时候,世界将会拥有一种更好的预测工具,以预防流感的传播.
2)大数据具有改变传统观念和发现新事物的功能
美国早产儿的病情诊断就是一例.美国安大略理工大学与IBM一起和很多医院合作,在人体不同部位安置高采样监测装置,监测病人呼吸强度、体温变化、脉搏强度、心跳次数变化,用即时处理病人信息软件诊断早产儿的病情.对十几年早产儿病情案例研究,发现了一些传统看法相违背的相关关系,比如早产儿突然的病情稳定反而预示着病人发生了严重的感染.但是一般认为恶化的疼痛才是全面感染的征兆.这个系统依赖的是相关关系,而不是因果关系.它告诉人们会发生什么,而不是为什么发生.这正是这个系统的价值!大数据改变着我们的传统观念,并在现实生活中,发现哪些新事物同发生的事情相关.
3)大数据分析有助于从错误信息中挖掘有价值信息
错误本身就是一种信息,深度分析研究可为我们提供判断事物发展新的洞察力.英国石油公司(BP)切里波无线感应器错误数据分析避免了一次灾难事故发生提供了这样的案例.在华盛顿州布莱恩市的英国石油公司(BP)切里波无线感应器遍布于整个工厂,能够产生大量实时数据.有一个工作区,错误量明显增多,更换新器件依然无改观.工程师分析了大量损坏的元器件,认为这一区域有问题,结果表明:此区管道承压异常,原油在此区域形成比其他种类更具有腐蚀性的物质,存在爆炸危险,从而避免了一次灾难发生.
三个案例说明,大数据改变着人类探索世界的传统观念和方法.大数据意味着我们可以获得更精确的答案.通过提高人们自己的特殊技能和洞察力,尤其是通过了解模型的优点和局限性,大数据可以使数据产生知识(Spiegelhalter,2014).大数据不再受限于找原因或假想,也为力图发现以前不曾发现事物间的联系,把数学算法运用到海量的数据上来预测事情发生的可能性,从而实现大数据成功预测价值.大数据时代不受限于传统的思维模式和特定领域里隐含的固有偏见,模糊的认识都可以用大数据思维来验证,从而提高对某一事物的认知水平,也将为我们提供许多新的深刻洞见,这也是大数据受到重视的原因之一.大数据时代将要释放出的巨大价值使得我们选择大数据的理念和方法不再是一种权衡,而是通往未来的必然改变.
大数据的作用不是三个方面可以概括全面的,但从这几方面可以看大数据的精彩内涵:其一是它的数据思维:让数据说话,分析掌握的所有数据而非抽样;重视数据的复杂性,弱化精准性;关注数据的相关性,而非因果关系;其二是它的数据资产.大数据时代,资产观念发生了变化,资产由原来的实物形态延伸到数据领域,我们日常生活中使用的手机、汽车都具备物联网功能,所产生的大量数据,也将成为我们资产的一部分,且有可能上升为头号资产.这些资产将对我们的生活产生巨大的影响;其三是它的数据价值.有了数据资产,就要通过分析来挖掘资产的价值,然后变现为社会价值(维克托.迈尔-舍恩伯格和肯尼思. 库克耶,2012).
3 地震数据是大数据吗?地震数据是科学数据.科学数据是人类社会从事科技活动所产生的原始观测数据、探测数据、试验数据、实验数据、调查数据、考察数据、遥感数据、统计数据、研究数据以及相关的元数据和按照某种需求系统加工的数据,具有科学价值和使用价值.科学数据是信息时代一种特殊的社会资源,具有明显的潜在价值和可开发价值,并在应用过程中得以增值.很显然,大数据这一宽泛的概念包括科学数据.科学数据也是大数据的内容之一(左建安和陈雅,2014).地震数据主要包括地震波形数据和前兆学科观测数据、地震探测数据、地震调查数据、地震考察数据、地震试验数据、地震应急救援数据、地震科学研究数据等等,其中以地震观测数据为主.仅就观测产出的数据而言,就已经符合大数据的所谓“4V特征”.地震观测产出数据容量巨大,日产出量:在200TB以上,历史数据存储量达到EB级;地震监测手段多,有测震学科(如火山和水库微地震观测、密集台阵观测、地震定位台网、强地面运动观测网)、形变学科(如重力、倾斜、应力、航空观测、GPS)、电磁学科、流体学科、流动观测点以及宏观异常统计等,地震台站数量、采样率、仪器种类日趋增多,地震涉及的领域多,既与地球内部物质运动演化有关,也与气象、天体运动有关,形成了多样性的数据特征;不但各学科数据生成速度快,而且实现了连续的、可实时查询的数据流.
地震数据是地球科学、特别是固体地球科学的基础数据.受限于各种原因,我国地震台站监测和前兆台站监测密度低,同一测点采取的综合观测少,极大地限制了大数据的获取,导致地震观测数据价值密度低.可以说,到目前为止,大数据战略思维在地震行业还未有得到充分应用.随着国家财力增强,台站观测密度不断增大,数据量不断增多.目前缺少有效汇集、存储海量数据的大数据技术,来实现数据集中分析和深度挖掘.
4 大数据分析对地震监测预报的影响地震是地球的诸多现象之一,地球是一个多圈层的系统.随着人类获取数据、使用数据能力的重大突破和进展,数据当中隐藏的规律和趋势将不断被挖掘利用,给探索地球各种现象和减轻自然灾害,特别是地震灾害,带来新的途径.
互联网时代对天然地震的观测发生了巨大变化,地震观测呈网络化、信息化趋势,大量的地震观测数据得以远程传递、集中与共享.近几年互联网、物联网发展使密集地震观测得以实现,为探索地震成因和地震监测预报工作丰富了新的数据.大数据思维将改变我们对地震数据的认识和理解,尽管地震数据在技术系统上并没有形成大数据技术体系,但大数据思维对地震监测预报发展有一定借鉴意义.
我们仅就大数据对地震监测预报的影响做一些浅析:
1)大数据是多样本分析,地震预测的可靠性将得以提高
传统的地震预测是典型的小数据分析方法,往往企图找到和地震发生有关的的样本,来解释地震的发生.在大数据思维里,要对获取的所有样本或与某个特别现象相关的所有数据进行系统分析、检验、论证,而不再依赖于随机采样,以孤立的现象作为地震趋势预测的依据,无疑将会提高地震预测的可靠性,并带来新的发现.“大数据”通常用全样本或大样本数据的概率统计分析结果和数据与现象间的关系说话,需要阐述进行了多少数据分析得出了“结论”.因为大数据是建立在掌握所有数据,至少是尽可能多的数据的基础上的,所以就可以正确地考察细节并进行新的分析.
图 2是部分被认为与地震发生有关的现象,这些现象与地震究竟有怎样的关系,在大数据时代需要重新认识,特别是所谓前兆映震效能需重新评价.我们可以思考在地震周边500 km范围内各种前兆异常、地震活动性、地质构造、岩石强度与地震的关系是否已有足够的认识?这些认识与地震时空分布是否存在规律性?这是地震预报应回答的问题.大数据技术为我们找到更好的答案提供了一种途径.
![]() | 图 2 地震前的各种现象示意图 Fig. 2 Schematic diagram of various phenomena before earthquakes |
2)大数据促进地震数据融合,加速数据实时分析
地震是地球各个圈层相互作用的现象,在不同的仪器上,不同的区域和孕震构造体内,表现形式不同,因此,地震预测是综合研究.大数据分析的一个重要方面就是对现象间的相关关系进行挖掘,需分析多方面数据:一方面要加强数据获取方法,将不同学科观测数据进行汇集,进行统一分析;另一方面要加密观测点,以获取更多的数据.
地震的发生具有准周期性,同一地区发生强震的间隔往往为几年到几十年,甚至百年不等.因此,单个地震事件的样本太少,全球震例进行研究则会大大增加数据样本,这需要将国内数据和国外数据融合,促进全球地震的分析研究.当然,全球地震有异同,不同区域地震差异和相似性究竟如何,这也需要进行大数据分析.大数据思维不但需要将宏观异常和各学科数据融合分析,进行历史震例对比,也需要对比不同构造环境下哪些变化与地震的发生相关.所以,大数据将促进地震监测预报内部和外部数据源融合,促进国际合作进一步加强.
多样本分析更强调实时预测分析.数据分析越快、分析结果就越及时,预测价值就越大.地震预测预报应是全球范围内的地学数据(包括天体与空间观测)与地震现象的联合判断分析,这方面有很多工作要做,其效果无疑会提升地震预测预报的能力.
3)大数据时代更需要高密度综合观测,提高我们的洞察力
小数据时代,为了探索地震发生的原因和测定地震参数,建立了一套高精度的观测网.在时间上,采样率不断提高,但是由于设备昂贵和观测条件要求很高,在空间上就很稀疏.这严重妨碍了大数据分析.
为了研判地震发展趋势,需空间上和时间上都要提高密度,至于观测环境就无法苛求,廉价的精度不高的设备就可以满足要求,而且可以实现空间上密集观测.某种程度上,当观测点密度足以掌握大量数据时,仪器精确性可以降低.而这将为大数据处理带来好处,能够更好地理解地震与哪些因素相关或间接相关.适当忽略微观层面上的精确度会让我们在宏观层面拥有更好的洞察力.目前,用于地震监测预报的数据还很不完备,如有关震源区各种物理场的数据目前几乎为零,如:震前震源区的温度、介质性质、应力应变、流体压力等等.所以目前我们所拥有的数据还远远不能解决地震预报问题,有效获取数据成为大数据时代地震监测预报的首要问题.
在密集观测中,允许不精确的出现已经成为一个新的亮点,而非缺点.因为放松了容错的标准,人们掌握的数据也多了起来,还可以利用这些数据做更多新的事情.大量数据会创造更好的结果,因为小数据时代,很难排除个别虚假异常信息.例如,许多震例表明,强震前地温往往升高.以唐山地震为例,震前数月多个地区出现高达2 ℃以上的地温异常(《1976年唐山大地震》),但是由于观测台站稀疏,至今无法确认这一现象和地震的关系.如果采用廉价的普通的温度计,就可以大量密集布设,在空间和时间上获得丰富数据,可能会找到大地震和地温的关系.显然,密集观测更容易捕捉地震和地温的关系,而无需布设高价格的精度高达0.001 ℃的温度观测仪,而空间的稀疏,无法找到准确的相关关系.
无论是地震预测,还是地震预警,都是建立在高密度观测基础上的研究和应用.要想大密度布设观测仪器,必须成本低,免维护.高精准的仪器必然成本高,难于大面积布设,维护难度大.以地震预警为例,世界很多国家已经建设了廉价的地震预警观测台网,而且有识之士已经注意了密集地震观测网,将为地震学带来重大变革(Wu et al.,2014)为了获得更广泛的数据,空间密集观测可以替代高精度稀疏观测的功能,这将会使我们看到更多以前无法被关注到的细节.当然,提升仪器时间密度,获得高采样率数据也同样重要,可以让我们观察到一些本可能被错过的变化.
实际上大数据还可以接受适量错误的存在.我们知道,由于观测密度不够,前兆观测中许多虚假异常,需要人工进行异常落实,耗费很多人力物力和财力.即使这样,一些异常依然无法准确判断.当观测足够密集,地震虚假异常的判断会得到很好的解决之道,有可能改写我们对地震异常的认识.数据的规模越大,通常对数据挖掘所得到的事物演变规律越可信,数据分析的结果也越有代表性(邬贺铨,2014).
4)大数据让地震预测不再热衷于寻找因果关系
大数据用更便捷的方式找到数据的相关性,并且效果往往更好,而不必努力去寻找因果关系.小数据时代传统的地震预测有两个方向,一是寻找因果关系,二是需找和地震有关的样本,例如寻找异常点.但是地震是复杂因素引起的,具有时间复杂性和空间复杂性,还包括“数据量复杂性”,哪些现象与地震真正相关,至今没有确切的答案.
大数据时代预测将以密集观测和全样本或多样本分析为基础,极有可能发现哪些地震前兆与地震有真正的关系,因此,在大数据的背景下,相关关系可以帮助我们提高地震预测水平.即如果A和B经常一起发生,我们只需要注意到B发生了,就可以预测A也可能发生.这有助于我们捕捉可能和A一起发生的事情,即使我们不能直接测量或观察到A.通过应用相关关系,我们可以比以前更容易、更快捷、更清楚地分析各种观测信息,提高地震预测预报水平.
小数据时代传统方式是,给定一种模型,拼数据去解释现象.错误在于专家们会使用一些建立在理论基础上的假想来指导自己选择适当的数据.然后收集的数据往往来进行线性关系分析,以证明假设是否真的合适,常忽略大量的非线性现象.而且如果不合适,人们通常会固执地再次尝试,因为担心可能是数据收集的错误,而最终却不得不承认一开始的假想甚至假想建立的基础都是有缺陷和必须修改的.
这种对假想的反复试验促进了学科的发展.但是发展非常缓慢,因为个人以及团体的偏见会蒙蔽我们的双眼,导致我们在设立假想、应用假想和选择关联物的过程中犯错误.总之,这是一个烦琐的过程,只适用于小数据时代.在小数据时代,相关关系分析和因果分析都不容易,都要从建立假设开始.小数据分析得出的结果有受偏见影响的可能,而且极易导致错误.与此同时,用来做相关关系分析的数据很难得到,收集这些数据时也耗资巨大.
5)大数据改变地震监测预报方式方法
大数据是多样本甚至是某一现象所有样本的数理统计,需要深度挖掘才能体现数据价值.在大数据时代,地震预测预报更容易对全球的观测数据进行汇总和挖掘,不仅仅局限于中国现有的观测,这将极大丰富地震监测预报数据量,对于震情的把握更为准确.
大数据将改变地震预测预报的片面认识和结论,以往的有些数据模型、经验公式、震例分析、前兆映震效能有可能需修正.如台湾低成本、高密度地震预警台网的预警实践启示我们地震震级Mw的测定可用台网达到一定强度的台站面积来计算,而不再依赖于面波出现,也解决了震级饱和问题(Wu et al.,2013).这就是大数据带来的好处.
在大数据时代,一些有价值的现象将应用于地震预测.例如,2012年6月30日新疆和静M 6.6级地震前,克拉玛依地震台后山2号倾斜仪器漂移速度很快,6月15日调零后,到6月19日又漂出正常工作范围(见图 3).相同的现象,1970年1月5日通海M 7.7级地震前也出现过(石耀霖,2001).国内外的研究文献(冯德益等,1984;崎一郎,2013)表明,有些地震前会发生震颤现象,造成形变仪器漂移异常.图 3的锯齿状记录曲线很类似间歇性的震颤现象.像这样的现象以前地震中是否也发生过,需用大数据方法收集国内外资料,进行多样本统计分析,会得出是否具有预测应用价值的判断.
![]() | 图 3 克拉玛依地震台后山2号倾斜仪器震前漂移现象(据新疆台) Fig. 3 The drift of tilt instrument at Houshan station in Kelamayee before the MS 6.6 earthquake |
美国总统奥巴马在宣布美国大数据时代计划时,提到了USGS的任务之一就是全面搜集全球地震数据认识地震过程,说明美国要为认识地震做准备.地震监测预报要适应大数据时代的发展需在“掌握信息”的基础上“获取洞察力”,进而“采取行动”,进行“优化决策”,不断地“学习”,从地震大数据实践中获得反馈,提高地震监测预报水平.我们要为地震监测预报大数据创新做准备:
1)管理人是推动因素
大数据项目需要有人推动.技术并非关键问题.这不是指那些具有上述数据科学家技能的一些人,而是指那些能提出明确目标与需求,并能执行决策的一些人,称之为管理人.数据是天然存在的,而依靠个人的力量即使对一种前兆进行时空上与地震的关联分析都是困难的,不但涉及数据处理方法问题,还涉及多种数据融合问题.既涉及人才,又涉及经费.所以需要决策管理层推动大数据平台建设,培养数据分析科学家才能真正实现大数据价值挖掘.
2)实现数据共享,建立全球地震大数据平台和分析系统
大数据呼唤地震观测数据共享,数据共享是通向大数据的必经之路.只有在数据共享的基础上,才能做好地震观测大数据准备.目前,地震观测数据资源分散在各个单位,缺乏统一管理,影响数据的对外便捷服务,严重制约着地震预测数据挖掘.另外,也需要大数据平台和分析系统,来扩充数据资源,加强数据的深度整合,加强不同行业间的数据交换和新技术应用.同时,加强国际交流,建立全球地震观测数据分析系统,实现全球地震和震例数据的各学科协同研究,对地震进行多样本分析.
3)建设新一代地震观测网络
大数据需要新一代地震观测网络.我国地震观测网络是信息高速公路推动的地震观测系统,具有坚实的互联网基础.多年实践表明,这个观测系统正在向着大数据时代需要发展,也就是向着物联网发展,国家支持的IPv6地震应用项目和地震预警项目,已经为建设新的一代地震观测网络打下了基础.新型MEMS传感器、可穿戴传感器和传感器网络物联网技术,将会使各种物理化学的观测更加廉价,不仅可以建立密集的观测网络,而且是地震观测可以利用全球物联网上的振动、温度、地磁、重力、压力、气体的传感器以及移动互联网终端上的所有传感器,例如移动电话手机、Pad上的加速度计等传感器,我们还可以在设计可穿戴设备植入地震观测和探测需要的传感器设计APP应用软件.地震观测将进入数亿乃至数十亿传感器网络时代,同步的进入大数据时代.我国台湾2014年将完成500个密集地震预警观测网(Wu et al.,2013),在人口区域大约7.5公里就有一个台站,这个网将不仅用于地震预警,还将改变传统地震观测的处理方式和方法.
地震预测是综合分析方法,数据越多,分析范围越大大,结论会更有说服力.需要加密现有的地震监测网,拓展数据资源,形成无处不在的连接性,以获取丰富的和地震有关联的信息,从而具备高效率的捕捉、发现和分析前兆现象的能力,能够经济地从类型繁杂、数量庞大的各学科数据中挖掘与地震有关的现象;需要大数据分析来适应成千上亿的传感器观测数据,挖掘捕捉与地震有关的所有关联,在时间上、空间上、数据上满足地震预测大数据分析要求.
4)培养分析数据科学家
大数据处理和传统的数据库及数据仓库完全不同的技能.它还不仅仅限于数据处理,还要求能够将数据转换为可执行的建议,这是个大问题.也有很多人认为数据科学家的短缺将成为大数据技术采用的一个重要阻碍.目前就面临着如何提取前兆数据的客观问题,既要懂地球和地震科学知识,又要懂数理统计,还要懂业务流程、Java知识.大数据时代,地震预测预报更需要数据科学家的崛起.数学和统计学知识,甚至是有少许编程和网络科学的知识将会成为地震预测预报的基础.
数据科学家应具备:
· 娴熟的技能,能够帮助集成和准备构建大型的、多样化的数据集;
· 高级分析和建模技能,可帮助发现和理解隐藏的关系;
· 丰富的业务知识,以应用具体的信息;
· 出色的沟通技能,能够准确呈现成果.
5)研究新的数据表示方法
传统的表示数据的方法,不一定能直观地展现出数据本身的意义.要想有效利用数据并挖掘其中的知识,必须找到最合适的数据表示方法.若在一种不合适的数据表示中寻找大数据的固定模式、因果关系和关联时,可能会落入固有的偏见之中.数据表示方法和最初的数据填写者有着密切关系.如果原始数据有必要的标识,就会大大减轻事后数据识别和分类的困难.研究既有效又简易的数据表示方法是处理网络大数据网络必须解决的技术难题之一[9].6)借鉴其他学科的数据分析方法,对地震各学科数据进行分析
IBM的经验表明:电网数据分析的算法也可应用于供水和交通管理上.其他部门的数据分析方法,可能有利于地震观测数据的挖掘.
7)历史数据挖掘
要实现大数据创新并不容易.大数据应用面临的首要挑战是如何在浩如烟海的数据中找到“黄金”,即如何从单一的、没有规则的数据中找到关联性,不断发掘数据新价值.数据挖掘的进步,根本原因是人类能够不断设计出更强大的模式识别算法(覃雄派等,2012)(算法是运用数学和统计学的方法和技巧,解决某一类问题的特定步骤).地震监测预报要有大的突破,除了增加观测密度外,还需要找到挖掘数据的技术和方法.通过再利用、重组数据、数据扩展、开放数据等方式给数据新价值.对历史数据的挖掘已不再是过去简单震例的分析,而是统计震例发现的现象在其他国内外震例中与地震的关联度怎样,时空分布上与地震发生具有怎样的统计规律,并对此现象做出效能评价.
6 地震从观测的科学走向数据的科学传统上说地震科学是建立在观测基础上的科学,大数据时代地震科学将走向数据的科学.让数据自己说话,必须有大数据,地震监测预报才有可能上一个崭新的台阶.大数据时代更需要丰富的多样性的观测数据和各种各样的数据来进行地震关联统计分析,让数据显示何种现象与地震发生有关,摆脱人思维的片面性.因此,借助大数据的推力,地震预测预报将脱下“准科学”的外衣,真正迈进科学的殿堂.大数据是数据科学,更关注数据自由和数据话语权.地震行业所存储的数据更有针对性,所以其数据的价值密度更高,进行大数据处理的意义更强,运用大数据的需求也更为迫切.当然,大数据时代绝对不是一个理论消亡的时代,相反地,理论贯穿于大数据分析的方方面面,还会创建新的理论(阿尔文.托夫勒,2006).
7 结 语大数据为许多研究提供了IT环境下充分进行数据挖掘的一种趋势价值,也提供了产品数据和服务数据的应用价值(Broniatowski et al.,2014).大数据技术已经成为国家间的竞争热点,也成为一门新兴的学科.大数据又不仅是技术问题,大数据的挖掘需要法律支撑,大数据分析需要创新人才,大数据挖掘呼唤数据共享和体制改革.大数据即是一种资源,也是一种方法,不在意数据的杂乱,但强调数据的量;不要求数据精准,但看重其代表性;不刻意追求因果关系,但重视规律总结.这一模式不仅用于科学研究,更多的会用到各行各业,成为从复杂现象中透视本质的有用工具(Floridi,2012;邬贺铨,2014).就像信息高速公路一样(曼纽尔·卡斯特,2001),大数据时代的到来,会给人类社会、经济、生活方式、创新思维带来一系列变革.地震监测也一样随着大数据时代会有新的变革,会改变现有地震监测预报思维模式和方法,进而推动地震科学的创新.尽管现在地震监测预报还没有进入大数据时代,但需做好技术、分析方法、人才储备工作,除开展一定的实践应用外,地震大数据面临存放、关联分析,如何处理传统小数据和大数据关系等等一系列问题.对此,决策层应做好顶层设计.
致 谢 感谢地球物理研究所沈萍研究员及审稿人对本文提出的建设性意见.本文得到“国家科技支撑——地震科学数据共享”项目(503130108)的资助.
| [1] | Big data in cloud environment: Fusion Technology, .http://intel.com/content/www/us/en/big-data/big-data-cloud-technolo-giesbrief.html. |
| [2] | Broniatowski D A, Paul M J, Dredze M. 2014. Twitter: Big data opportunities[J]. Science, 345(6193): 148. |
| [3] | Castells M. 2001. The Rise of the Network Society (in Chinese) [M]. Xia ZJ, et al., Trans. Beijing: Social Sciences Academic Press. |
| [4] | Edited by Editing Group of State Seismological Bureau. 1982. 1976 Tangshan Earthquake (in Chinese) [M]. Beijing: Seismological Press. |
| [5] | Feng D Y, Pan Q L, Zheng S H, et al. 1984. Long-period deformational waves and short-term and imminent earthquake precursors[J]. Acta Seismologica Sinica (in Chinese), 6(1): 41-57. |
| [6] | Floridi I. 2012. Big data and their epistemological challenge[J]. Philos. Technol., 25(4): 435-437. |
| [7] | Hey T, Tansley S, Tolle K. 2012. The Fourth Paradigm: Data-Intensive Scientific Discovery (in Chinese) [M]. Beijing: Science Press. |
| [8] | Kawasaki I. 2013. What is Slow Earthquakes - Explore the Possibility of Huge Earthquake Prediction (in Chinese) [M]. Beijing: Seismological Press. |
| [9] | Lazer D, Kennedy R, King G, et al. 2014. The parable of google flu: traps in big data analysis[J]. Science, 343(6176): 1203-1205. |
| [10] | Li D W, Gu Y, Wang H P, et al. 2013. The World Changed by Big Data (in Chinese) [M]. Beijing: Publishing House of Electronics Industry, 7. |
| [11] | Li G J. 2012. The scientific value of studying on big data[J]. China Computer Communication (in Chinese), 8(9): 8-15. |
| [12] | Marx V. 2013. Biology: The big challenges of big data[J]. Nature, 498(7453): 255-260. |
| [13] | Mayer-Schonberger V, Cukier K. 2012. Big Data--A Revolution That Will Transform How We Live, Work and Think (in Chinese) [M]. Hangzhou: Zhejiang People's Publishing House. |
| [14] | Shi Y L. 2001. Stress triggers and stress shadows: How to apply these concepts to earthquake prediction[J]. Earthquake (in Chinese), 21(3): 1-7. |
| [15] | Spiegelhalter D J. 2014. The future lies in uncertainty[J]. Science, 345(6194): 264-265, doi: 10.1126/science.1251122. |
| [16] | Sun Gard. 2012. The ten major trends of "big data" development in the financial services industry. Communications World (in Chinese), (7): 62. |
| [17] | Tan X P, Wang H J, Du X Y, et al. 2012. Big data analysis-competition and symbiosis of RDBMS and MapReduce[J]. Journal of Software (in Chinese), 23(1): 32-45, doi: 10.3724/SP.J.1001.2012.04091. |
| [18] | Toffler A. 2006. The Third Wave (in Chinese) [M]. Beijing: CITIC Publishing House, 83-85. |
| [19] | Wu H Q. 2014. Thinking in big data[J]. Science and Society (in Chinese), 4(1): 1-13. |
| [20] | Wu Y M, Chen D Y, Lin T L, et al. 2013. A high-density seismic network for earthquake early warning in taiwan based on low cost sensors[J]. Seismological Research Letters, 84(6): 1048-1054. |
| [21] | Wu Y M, Chen D Y, Lin T L, et al. 2014. A aigh-density seismic network for earthquake early warning in Taiwan based on low cost sensors[J]. Recent Developments in World Seismology (in Chinese), (3): 23-31, doi: 10.3969/j.issn.0235-4975.2014.03.004. |
| [22] | Xu Z P. 2012. Big Data: the Coming Data Revolution (in Chinese) [M]. Guilin: Guangxi Normal University Press. |
| [23] | Xu Z P. 2014. Big data and its cause of formation[J]. Science and Society (in Chinese), 4(1): 14-26. |
| [24] | Yang G W. 2014. The Change caused by big data[J]. Education Modernization (in Chinese), (4): 293. |
| [25] | Zuo J A, Chen Y. 2014. The analysis on the sharing mode of scientific data in the era of big data[J]. New Century Library (in Chinese), (3): 32-35. |
| [26] | 阿尔文. 托夫勒. 2006. 第三次浪潮[M]. 北京: 中信出版社, 83-85. |
| [27] | 川崎一郎. 2013. 何谓慢地震: 探索巨大地震预报的可能性[M]. 北京: 地震出版社. |
| [28] | 冯德益, 潘琴龙, 郑斯华,等. 1984. 长周期形变波及其所反应的短期和临震地震前兆[J]. 地震学报, 6(1): 41-57. |
| [29] | 国家地震局编辑组编. 1982. 一九七六年唐山地震[M]. 北京: 地震出版社. |
| [30] | Hey T, Tansley S, Tolle K. 2012. 第四范式: 数据密集型科学发现[M]. 北京: 科学出版社. |
| [31] | 李德伟, 顾煜, 王海平,等. 2013. 大数据改变世界[M]. 北京: 电子工业出版社, 7. |
| [32] | 李国杰. 2012. 大数据研究的科学价值[J]. 中国计算机学会通讯, 8(9): 8-15. |
| [33] | 曼纽尔·卡斯特. 2001. 网络社会的崛起[M]. 夏铸九, 等译. 北京: 社会科学文献出版社. |
| [34] | 石耀霖. 2001. 关于应力触发和应力影概念在地震预报中应用的一些思考[J]. 地震, 21(3): 1-7. |
| [35] | Sun Gard. 2012. 金融服务业“大数据”发展10大趋势[J]. 通讯世界, (7): 62. |
| [36] | 涂子沛. 2012. 大数据: 正在到来的数据革命[M]. 桂林: 广西师范大学出版社. |
| [37] | 涂子沛. 2014. 大数据及其成因[J]. 科学与社会, 4(1): 14-26. |
| [38] | 维克托. 迈尔-舍恩伯格, 肯尼思. 库克耶. 2012. 大数据时代: 生活、工作与思维的大变革[M]. 杭州: 浙江人民出版社. |
| [39] | Wu Y M, Chen D Y, Lin T L, et al. 2014. 台湾低成本高密度地震预警台网[J].国际地震动态, (3): 23-31, doi: 10.3969/j.issn.0235-4975.2014.03.004. |
| [40] | 杨国伟. 2014. “大数据”引发的变革[J]. 软件(教育现代化), (4): 293. |
| [41] | 邬贺铨. 2014. 大数据思维[J]. 科学与社会, 4(1): 1-13. |
| [42] | 左建安, 陈雅. 2014. 大数据时代的科学数据共享模式研究[J]. 新世纪图书馆, (3): 32-35. |
| [43] | 覃雄派, 王会举, 杜小勇,等. 2012. 大数据分析—RDBMS与MapReduce的竞争与共生[J].软件学报, 23(1): 32-45, doi: 10.3724/SP.J.1001.2012.04091. |
2015, Vol. 30




