2. 爱达荷大学计算机系, 莫斯科 83844
2. Department of Computer Science, University of Idaho, Moscow ID 83844, USA
大数据作为新的研究热点,被认为是未来国家和企业创新、竞争的前沿阵地(Manyika et al., 2011)。虽然目前大数据技术相关理论和技术还未发展完善,但其发展已经对如今的商业模式、科学研究和社会发展带了颠覆性的变化(Lynch,2008;Chen et al., 2012;Marx,2013;Waller and Fawcett, 2013;Walker,2014;Lake et al., 2015)。大数据技术在掀起颠覆性变革的同时,对与其相关的数据的存储、数据结构化、领域知识链接、人工智能、机器学习、数据伦理以及可视化等方面的研究也带来新的挑战(Goldston,2008;Lynch,2008;O’Leary,2013;Keim et al., 2013;Sagiroglu and Sinanc, 2013;Sheth, 2014a, b;Suthaharan,2014;Ma et al., 2017)。近年来,众多学者从不同的角度探索和阐释了地学大数据在地质领域的应用,如在成矿规律、智能矿床模型、壳幔对流模型、岩石构造环境判别、矿物生态系统、地学本体及语义网(Iwamori et al., 2010;Ma et al., 2011, 2012;王登红等,2015;Morrison et al., 2016;张旗和周永章,2017;周永章等,2017;Ma, 2018)。
目前学术界对大数据的具体区分,以及大数据所代表的数据科学与传统应用统计学、计算机等科学之间的异同仍存有争议。比如,如何界定大数据的大和多样性;利用传统应用统计学可以解决的问题,是否需要大数据科学(邱东,2014);地质大数据是地质世界的数据映像,还是反应地质世界规律的数据世界(严光生等,2015)。诸如此类问题,在期刊、知乎和Quora社区论坛都有广泛讨论。地质数据不仅数量巨大,数据类型多样,同时还具有噪音强、混合型强、区域性强的特点,具有明显大数据的特征。现在与其定义地学数据是否属于大数据,不如利用数据开放、数据链接共享、数据挖掘与知识发现的理念以及数据科学思维,重新审视地学数据的挖掘与利用,促进数学地质与地学信息的发展。
地质科学包含有多学科知识及研究方向,其研究内容与技术手段是多种学科、多种技术的交叉。如地球物理、地球化学、遥感地质等研究方向,不仅涉及专业的地质知识,而且与物理学、化学、信息等学科密切相关。地质数据获取方法的多样性导致地学数据的多元性(赵鹏大,2015;Wang et al., 2017)。随着地质工作的不断推进,海量、多元的地质数据不仅打破了数据封闭和数据局限的传统模式,而且对数据的采集传输、存储、数据管理、计算模式、数据挖掘和知识发现方面带来了很大的挑战(陈建平等,2015;李丰丹等,2015;李婧等;2015;肖克炎等,2015;严光生等,2015;赵鹏大,2015)。
地质学作为数据密集型科学,长年积累的地质资料不仅包括传统意义上的数值数据,而且还包括一些非结构化的文本文档、图件数据。为了从海量的非结构化数据中提取信息与知识,很多学者提出了数据结构化以及智慧数据(Smart data)的概念。Sheth(2014a, b)利用语义认知(Semantic perception)、数据协议(Agreement)和连续语义(Continuous semantics)的方法将冗余的大数据转变为结构化的、小体量并具有可操作性的智慧数据,并在医学健康领域成功应用。Peters et al. (2014)、Peters and McClennen (2015)利用自然语言处理和语义技术从海量的非结构化的古生物文献中提出结构化的古生物信息(比如:名称、种类、所在位置、地层属性等),并建立Paleobiology生物数据库,提供交互式的查询和API服务。Giboin et al.(2013)利用面向文档(Document-oriented)方法建立文档间的本体语义模型。综上所述,在地学数据挖掘中,不管是数值数据的挖掘,还是非结构性数据的信息提取,都必须首先通过数据预处理技术,将非结构性大数据转为结构性的智慧数据;将含有缺失、噪音、冗余的原始数据转换为准确、可用的输入数据。
数据预处理技术,是针对于数值数据中的不完整或缺失数据进行数据“清理”,或者对数据进行各类转换,提高数据的质量,便于数据的处理、分析(Rahm and Hong, 2000;García et al., 2016)。面对多元、数量庞大的结构化、非结构化的地学数据,在对其进行数据处理、信息挖掘和知识发现之前,数据的预处理更显得尤其重要。本文拟从数据预处理的角度,剖析地学大数据在数据挖掘前存在的问题以及主要的对策,为地学大数据的发展提供技术支持。
1 数据预处理技术针对大数据处理技术的问题,在应用工具层面,研究人员设计开发了分布式计算框架,如Microsoft Azure①,Google Compute Engine②和Amazon Web Service③。大数据获取的原始数据所包含的噪音、缺失值、错误值以及原始数据的非结构化,对大数据信息的提取利用产生不利的影响。其中数据所包含的噪音、错误值等问题,导致信息挖掘结果出现颠覆性的偏差,从而造成决策失误。在数据科学中,在从数据转换成信息的过程中,数据预处理技术起到关键作用(图 1)。数据预处理对获取的原始数据进行初步的整理,消除了原始数据中不利于数据挖掘和信息提取的因素;通过对原始数据的整理,为数据的挖掘及知识的发现,提供准确、可靠的数据源,提高地质知识认识的准确性。
① https://azure.microsoft.com/
② https://cloud.google.com/compute/
![]() |
图 1 数据与知识转化流程图(据García et al., 2016修改) Fig. 1 The transform flowchart between data and knowledge(modified after García et al., 2016) |
以往,地学数据预处理对象大都是通过地学测试、分析、调查所获取的数值数据,如地球物理数据、地球化学勘查数据、遥感光谱、质谱分析曲线等。对于数值数据,通过数据清理,去除原始数据中不完整、不准确和不相关的数据,获得可用、准确、完整、具有一致性的完整数据集。除了数据的清理,数据的预处理技术还要根据数据挖掘的要求对数值数据进行一系列的操作,如数据的标准化、数据的转换、缺失值的插补、数据降维、数据的整合与除噪、数据结构化(图 2)。
![]() |
图 2 数据预处理内容(据García et al., 2016修改) Fig. 2 The description of data pre-processing(modified after García et al., 2016) |
随着地学数据的快速增加,地学数据不仅包括有数值数据,而且还包括非结构化的文档、图件等信息。地学数据的预处理技术的研究范围面临着重大的挑战,如文本和图件的结构化。
2 地学数据交互标准与语义大数据时代带来数据类型的多样、数据量的喷发式增加,以及在网络上的开放、共享与集成。很多的政府机构和科学组织为了响应大数据共享模式,不断地将科学数据对公众开放。在地学领域,如OneGeology①,USGIN②,AuScope③和美国地质调查局的矿产资源在线空间数据④(Mineral Resources On-Line Spatial Data),将其存储的地质图、矿床数据、地球化学、地球物理、古生物数据进行共享。由于学科知识背景的差异,很多的地学数据以自组织的形式存储于数据库中,形成信息孤岛,与相关的学科数据库缺乏相应的知识共享。为实现地学数据与信息的互联、互通,需要建立与完善地学数据的交互标准,构建基于本体论的地学语义以及编码技术。
国际地层协会(International Commission on Stratigraphy,ICS)建立了全球统一的地质年代表。我国建立了矿产资源潜力评价数据模型(左群超等,2016)。万维网联盟(World Wide Web Consortium,W3C)和开放地理空间联盟(Open Geospatial Consortium,OGC)制定并颁布了一系列的网络空间数据标准,如XML⑤、RDF⑥、RDFS⑦、SKOS⑧、OWL⑨、KML⑩、GeoSciML⑪ 、WFS⑫、WMS⑬ 和WCS⑭ 。这些数据标准不仅是用来进行数据的转存,而且可以进行信息的交互查询和数据在线处理与知识挖掘(Lacasta et al., 2007;Yue et al., 2007;Zhao et al., 2009, 2012;Ma,2017)。如在WMS(Web Map Service)标准中,在浏览器JavaScript环境,不仅可以利用getMap函数向服务器获取地图,也可以利用GetFeatureInfo函数命令对地图中各种地图要素的属性进行查询。
⑦ https://www.w3.org/TR/rdf-schema/
⑧ https://www.w3.org/2004/02/skos/
⑩ http://www.opengeospatial.org/standards/kml
⑪ http://www.opengeospatial.org/standards/geosciml
⑫ http://www.opengeospatial.org/standards/wfs
⑬ http://www.opengeospatial.org/standards/wms
⑭ http://www.opengeospatial.org/standards/wcs
本体论是哲学上用来描述物质的存在、属性、分类以及之间的关系。但在信息科学领域,本体论用来描述特定领域之中实体对象类型、属性以及实体之间形式上的共享链接关系,并可用计算机可读的语言编码(Gruber,1995;Duong et al., 2017)。对于不同类型的矿床,包含有位置、赋矿层位、品位、大地构造位置、地球化学特征、矿石类型、与其他矿床的关系等各种属性。矿床与属性之间的逻辑关系可以用本体论模型来描述,在技术上可以使用地质语义与其他属性之间的逻辑关系链接。建立一个知识领域的本体,首先要确定主题领域,然后收集主题领域内的概念,并建立概念之间的内在关系,最后编码概念以及概念之间的关系(Ma and Fox, 2013)。基于本体理论建立地质领域专业术语的语义网,展示地质学领域各个专业方向之间的知识信息,另外还可以依托可视化技术,实现不同地学信息孤岛之间的互联互通及知识可视化。
目前对于地学领域语义网的建立及编码已有研究,如Mastella et al.(2007)和Perrin et al.(2005)通过定义地质三维建模过程中各种要素之间的本体,指导地质建模工作;Zhong et al.(2009)建立了构造地质学中断裂与各属性之间的本体结构;OneGeology利用本体和语义网技术,提供地学数据18个语言版本的属性查询(Laxton et al., 2010)。SWEET(Semantic Web for Earth and Environmental Terminology)是地球及环境术语领域的本体库,起初是为了建立NASA全球变迁总目录资料库(Global Change Master Directory)中关键词的内在关系,目前SWEET本体包含地球科学及空间科学领域的200多个本体和6000条概念(Huang et al., 2014)。
地质年代表的本体和词典能够提供一个比较好的例子,不同的年代单元之间在时间序列和层级之间具有直观的逻辑关系,使其成为了研究地学本体与语义网的最佳的载体。在北美地质图数据模型中,用“Age Data”和“Age Interval”两个关键词代表地质年代中的时间点和时间间隔(NADM Steering Committee, 2004)。Cox and Richard(2005)认为地质年代只是时间参考系统的一部分,参照时间参考系统的本体结构,他们用Geochronologic Era、Geochron Era Rank、Geochronologic Boundary等属性来建立地质年代本体,并用统一建模语言(UML)进行了编码。Perrin et al.(2005)出于地层对比的目的设计了地质年代表本体。Ma et al.(2011, 2012)基于SKOS和RDF设计了多语言版本的地质年代表本体,用于地质图查询。
由于本体和词典的建模及编码工作尚不系统,地学领域的本体与语义网的应用也相对比较滞后。OGC和W3C的空间数据标准的制定是基于地理信息科学。Ma(2017)基于地学数据的特征,在吸收现有成果基础上,设计了地学空间大数据智慧化的方法(图 3),利用地学本体和词典的知识库,结合现有的W3C和OGC数据标准将地学大数据变为智慧数据服务,并可以与其他的相关数据资源链接,进行知识的挖掘和发现。在矿产资源定价领域,全国矿产资源潜力评价项目建立了统一的潜力评价数据模型,包括重力、遥感、图例、地质背景等共18册,但数据模型之前缺乏相应的语义连接。因此,为了实现数据的共享和继承,需建立起相应的知识对接规范标准和本体-语义模型,以便于不同研究方向之间的学科交叉与资料利用。
![]() |
图 3 利用地学本体和词典知识库、结合OGC和W3C标准进行地学数据服务重建技术流程图(据Ma,2017修改) Fig. 3 Technique flowchart to use knowledge bases of geoscience ontologies and vocabularies to leverage W3C and OGC standards in the construction of geoscience data services(modified after Ma, 2017) |
在全国地质大调查过程中,海量的区域勘查地球物理和地球化学数据是分图幅进行调查获取的,而且在数据的测试、分析以及仪器方面存在一定的差异。这种差异的存在导致了不同图幅之间数据的系统误差。在进行多图幅的区域异常信息提取时,图幅边界附近一般会有颜色“台阶”和等值线环绕边界的现象(戴慧敏等,2014)。为了降低不同图幅之间的系统误差,需要在制图和异常提取之前对不同图幅的数据进行调平预处理,降低系统误差的影响。
目前数据调平方法可以分为基于数据统计特征和基于数据场特征的数据调平。前者数据调平是基于不同图幅或在不同范围之间数据的统计的差异,选择一定的对照基准,通过数据的转换达到消除系统误差的目的。如分幅标准化(陈永清和纪宏金,1995)、分区标准化(纪宏金等,1993)、平差法(陈建国等,1997)、归一化法(刘大文,2004)、衬度法(汤正江等,2013)。基于数据场特定的调平方法主要是依据数据在空间变化性上的特定,消除在图幅边界的不连续性。比如移动平均法、滤波方法(Siemon,2009)、C型转换法(纪宏金等,2001)、实测切割线调平方法(胥值礼等,2010)、条件滤波法(朱月娥,1994)、伪切割线调平方法(孙东明等,2010)。
赣东北湖口幅1:20万水系沉积物地球化学数据,在安徽和江西省界附近具有明显的色阶存在(图 4b)。在研究区内新元古代地层在安徽和江西境内均有分布(图 4a),因此采用改进的分区标准化法。假设元古代地层范围内的水系沉积物地球化学数据具有一致的数据分布特征,将其作为参考标准,对两个省的地球化学数据进行调平处理。技术流程如图 5所示。其中,Xa和Xj分别代表着安徽和江西省境内某种元素的含量,X和σ分别代表元素浓度的均值和标准差;Xlg和σlg分别代表元素浓度对数转换后的均值和标准差;Xa_L代表安徽境内某元素调平之后的结果。
![]() |
图 4 湖口幅地球化学数据调平 (a)元古代地层在湖口幅分布;(b)调平前Au元素的化探异常图;(c)调平后Au元素化探异常图 Fig. 4 Geochemical data leveling in Hukou area (a) spatial distribution of Proterozoic Formations; (b) geochemical mapping of gold before data leveling; (c) geochemical mapping of gold after data leveling |
![]() |
图 5 湖口幅化探数据调平流程图 Fig. 5 The flowchart of geochemical data leveling in Hukou area |
地球化学数据调平结果,如图 4c所示,通过对化学数据的调平处理,消除了由系统误差产生的Au元素“阶梯状”色阶,更接近真实的地球化学异常。
4 地质图的接边处理分幅地质图的接边处理是一个世界难题(Asch et al., 2012)。我国幅员辽阔,地质调查工作是分图幅管理和实施的,因此,同一地质体在两幅相邻的地质图边界经常会出现几何错位以及属性不匹配等问题。随着地质工作的进行,在一个地区内,对于地层地质年代的划分、地层边界的划分都在不断的更新,不同时期的地质填图工作往往参考了不同的地质填图标准。此外,由于地质调查工作是带有经验性的科学,通常相邻图幅的地质填图工作是由不同的两个地质单位完成。因此,地质调查过程中参考标准的不同以及地质调查人员知识认知的差异,都有可能造成相邻图幅的地质要素不匹配。
图幅接边的处理方法可以分为半自动和自动法。前者需要人工判读和计算机处理相结合,后者由计算机自动完成相邻图幅的接边连接工作。很多学者从地理信息学及软件自动实现的角度,探讨地图接边的自动实现(华慧和童小华,2000;吴信才和郑贵洲,2001;赵江洪,2004)。地质图图幅接边在地图要素上与其他类型地图基本一致,主要是包括线和面两类要素,比如地形图的接边主要是基于等高线的高程属性。但地质图的图幅接边与其最大的差别在于:地质图的属性要素大多为文字描述性记录,记录的质量极易受地质人员认知和地质标准的影响,并且所引用的标准随着时间的推移在不断的更新。
不同比例尺的区域地质调查导致的不同的填图精度同样对地质图的接边有影响。在1:25万区域地质调查规范中,沉积岩地层单位划分到组,而在1:5万的区域地质填图中填图单位划分到组,但组内必须划分到段并进行翔实填绘。此外,地层不仅仅具有地质体属性,同时还具有时间属性。在地质图接边处理过程中,要考虑到地质规范及标准对接边匹配的影响。在地质图的接边处理过程中(图 6),首先要根据地质图的比例尺、地质规范以及参考的地层分类标准明确地质图的精度;根据地质图的填图精度,对接边附近的地质图要素进行地层名的匹配,但由于引用标准的不同以及地层分区的差异,此时就需要根据地层所代表的最小地层年代单位对接边的地层进行匹配,如果最小的地层年代单位不能满足要求,则尝试使用最小地层年代单位的父类进行匹配。然后,根据地层匹配的结果,修改接边附近地质要素的几何参数(如几何错位,颜色),使之成一幅完整的地质图件(图 7)。在接边处理过程中,为了保留原始的数据记录,可以通过增加属性字段的方法对地质要素的属性进行归一化处理。
![]() |
图 6 地图接边匹配流程 接边处理之前(左)与接边处理后(右) Fig. 6 The flowchart of edge processing of geological map The Left map is before edge processing, the right one after edge processing |
![]() |
图 7 哈密幅与沁城幅地质图接边处理(局部) Fig. 7 Edge processing on geological maps (local) of Harmi and Qincheng |
通过文本挖掘取代数据的再处理,是获取相关信息的一种重要手段。从海量的地质报告文档以及科技文献中提取主要的知识,首先要解决的就是文本文档的结构化的问题。
在自然语言处理和文本挖掘中,通常利用分词的方法将文本分割成具有独立语义的最小单元,然后提取其中的实体词(Entity-word),在实体词的基础上进行文本知识挖掘。在英文中由于单词之间存在有空格符,可以将每个单词作为一个独立语义单位。但是中文的文字之间没有空格符的存在,中文分词需要通过一定的技术手段和语义规则将文本句子切分成独立语义的词和字(Gao et al., 2005)。中文分词的方法可以分为基于字典匹配的方法(Dictionary-based)、基于统计的方法(Statistically-based)和基于理解的方法。基于字典的方法,通过给定一个知识域字典,通过最大匹配的方法将文本分割成独立语义单元(Nie et al., 1994;Chen and Goodman, 1999)。此方法需要大规模的语义词典,它对专业词汇具有很好的识别作用,但对未收录词汇识别效果较差。
目前对于地学类文本分词的研究主要是条件随机场模型方法。条件随机场模型在归一化时使用全局分布,消除了隐马尔可夫模型中的不合理假设条件。而且,条件随机场模型的方法,将专业领域词典引入语料。通过专业语料与日常语料的结合,使条件随机场模型方法,对日常词汇具有较强识别和新词发现能力。Huang et al.(2015)从知网中获得相应的地质语料,通过人工标注形成专业地质语料。Wang et al. (2018)利用用地质大辞典和地质矿产术语分类代码中的专业术语,构建地质矿产领域的专业知识库;利用专业知识库对语料进行匹配、标注,训练条件随机场模型的分词规则,使分词精度达到94.14%,比单独使用北大人民日报语料库的分词精度提高了7.84%。中文文本分词本身就是对文本数据的一种结构化的转变。其将复杂、冗余的文本信息转变为含有语义的最基本的词汇单元,然后对文档中的词汇单元进行大数据挖掘、语义分析、语义推理,然后利用可视化技术将提取的结果进行可视化表达。如图 8,弦图代表了从文档中提出来的主要信息实体以及实体之间的相互关系。
![]() |
图 8 文本知识结构可视化图 Fig. 8 Knowledge visualization extracted from text literatures |
数据融合是将不同来源的数据整合成一个更加准确、一致和可用的数据集合,使其发挥最大的数据价值(Haghighat et al., 2016;孟小峰和杜治娟,2016)。在地球科学领域,目前研究最多的数据融合主要是利用多源的空间数据,基于影像原理进行数据的整合。比如同一地区高空间分辨率与高光谱分辨率遥感数据的融合,基于HIS变换的遥感数据与地物化数据的融合,基于空间存在关系的数据融合(如证据权、信息量法)(刘星和胡光道,2003;张海玲等,2007),以及基于数据特征的测井曲线数据的融合(雷芬丽等,2014)。
而对于多尺度的地学数据的融合鲜有研究。在地学数据的采集过程中,尤其是在地质、矿产区域地质调查中,往往以侧重规范操作的面积性测量工作占主体。一般情况下,根据地质工作的递进原则,大比例尺的地质测量工作往往是小比例工作的一部分。而在地理数据中,一方面可以通过遥感观测手段获取相应的面积性的数据资料,另外一方面的数据则来自于零散分布于研究区内的一系列的观测站,形成了点-面数据多尺度的搭配格局。Moraga et al. (2017)利用贝叶斯地质统计模型将洛杉矶地区的PM2.5遥感获取浓度数据和地面观测站点数据进行融合,获得了更加精确的结果(图 9)。虽然在图 9中观测站以及区域栅格数据在研究区的南侧都具有高值区的存在,但通过数据融合后的结果发现其高值范围更靠近并集中在城市周边,该结果具有更高的准确性。对于点-面模式的地理数据,可以利用地质统计学之类的方法研究不同模式数据的空间变化性,然后利用点观测数据对区域性数据进行一个整体的校正融合,从而获得一个更加真实的结果。在不同尺度的地学数据融合过程中,可以借鉴地理中数据融合已有资料和经验来推动该项研究工作。
![]() |
图 9 美国洛杉矶地区PM2.5观测数据(据Moraga et al., 2017) (a)区域栅格数据和观测站分布;(b)点面数据融合结果;(c)栅格数据插值结果;(d)观测站数据插值结果 Fig. 9 The data of PM2.5 in Los Angeles, United States(after Moraga et al., 2017) (a) the raster grid data together with monitoring stations; (b) mapping result of data fusion; (c) mapping of raster grid data; (d) mapping of data recorded by the monitoring stations |
除了空间数值数据的融合,在地学领域中随着大数据的发展,异构、多源、非结构化、大规模的多元数据的融合更值得地学信息人员的注意。利用大跨度、深层次和综合型的研究方法,进行知识的发现(孟小峰和杜治娟,2016)。如图 10所示,首先,要建立完善的地学本体结构模型,并能够利用现在计算机技术从不同的数据库中对本体进行有效的识别;其次通过数据的溯源机制对数据进行有效的跟踪。对地学知识进行抽象和建模,通过其关系的推演进行新的地学知识发现的研究。
![]() |
图 10 地学大数据数据框架(据孟小峰和杜治娟,2016修改) Fig. 10 A data framework of big data in geosciences(modified after Meng and Du, 2016) |
基于地学数据整合的知识发现,其获得正确结果的前提条件是数据结构化、准确、可利用的信息集。随着地质工作的推进以及存储技术的发展,地学数据也快速增加,随之带来了海量的数据可供研究使用,同时也带来了海量的“噪声数据”和“垃圾数据”,对数据分析过程及提取的结果产生误导甚至灾难性的影响。从内容上讲,大数据在地学中的应用是一个非常宽泛的研究热点课题。对大数据在地学的应用的研究,类似于“盲人摸象”,不同专业背景的研究人员可以从大数据中看到自己研究专业的挑战与应用前景。比如,地学信息研究者关注的是大数据背景条件下多元数据的对接与可视化问题;矿床学研究人员更关注大数据对于未来智能矿床学模型与成矿规律研究的促进作用;地球化学研究者则关注数据驱动的壳幔交互对流模型和岩石构造判别类型的应用研究。大数据的魅力在于针对已有的数据资料,基于数据本身的特征来挖掘隐藏在数据背后的知识信息。虽然大数据信息的挖掘研究是基于已有的数据资料,但不代表已存在的数据资料可以直接应用到数据挖掘。在大数据挖掘中,统一、规范、准确结构化的数据信息才是大数据可靠推理结论的保证。
不管将大数据用于哪个地学方向的研究,在数据处理之前都要对数据进行预处理,将数据清理成可供利用的稳健数据信息。比如大数据中数值信息(如地球化学)的缺省值、异常值、噪声等问题;地学信息领域不同知识领域的语义实体链接过程中标准差异问题;区域测量数据(地质图、物化探数据)的边界调平以及不同尺度不同分布模式数据的融合问题都是需要在大数据挖掘之前的数据预处理阶段完成。工欲善其事,必先利其器。因此,在利用大数据之前,首先要对大数据进行清理与预处理,将冗余的大数据转变为结构化、可利用、准确的智慧数据
本文选取地学大数据的预处理技术为切入点,从地学数据交互标准与语义网、数据调平、地质图接边和文本结构化等四个方向,剖析了目前地学大数据在利用过程中存在的常见问题,并提出了相应了解决方案。地学数据的大数据时代已经来临,地学大数据的利用和信息提取,是近年来数学地质和地学信息研究人员讨论的热门话题。在对地学大数据的研究过程中,我们不仅要立足于自身专业,充分利用已有的工作成果,而且还要吸收目前数据科学以及计算机科学方面最新的研究进展,并将其引入地学领域,为地学信息的发展服务。
致谢 感谢中山大学周永章教授和编辑部对大数据与数学地球科学专辑的精心安排。感谢三位审稿人对论文提出的宝贵的修改意见和建议。同时感谢牟欣博士(University of Idaho)在论文写作过程中提供的建议和帮助。
Asch K, Mathers SJ and Kessler H. 2012. Geology. In: Kresse W and Danko DM (eds. ). Handbook of Geographic Information. Heidelberg: Springer, 857-884
|
Chen H, Chiang RHL and Storey VC. 2012. Business intelligence and analytics:From big data to big impact. MIS Quarterly, 36(4): 1165-1188. |
Chen JG, Guo XL and Liu CH. 1997. Map adjustment method for merging geochemical map. Earth Science (Journal of China University of Geosciences), 22(6): 619-626. |
Chen JP, Li J and Cui N and Yu PP. 2015. The construction and application of geological cloud under the big data background. Geological Bulletin of China, 34(7): 1260-1265. |
Chen SF and Goodman J. 1999. An empirical study of smoothing techniques for language modeling. Computer Speech & Language, 13(4): 359-394. |
Chen YQ and Ji HJ. 1995. The compiling method of standardized geochemical map and its application effects. Journal of Changchun University of Earth Sciences, 25(2): 216-221. |
Cox SJ and Richard SM. 2005. A formal model for the geologic time scale and global stratotype section and point, compatible with geospatial information transfer standards. Geosphere, 1(3): 119-137. DOI:10.1130/GES00022.1 |
Dai HM, Zhao J, Yang ZF, Gong CD, Zheng CY and Sun ZR. 2014. Multi-map systematic error correction method based on geochemical background:A case study on gold of regional geochemical survey. Acta Geoscientia Sinica, 35(5): 648-654. |
Duong TH, Nguyen HQ and Jo GS. 2017. Smart data:Where the big data meets the semantics. Computational Intelligence and Neuroscience, 2017: 6925138. |
Gao JF, Li M, Huang CN and Wu AD. 2005. Chinese word segmentation and named entity recognition:A pragmatic approach. Computational Linguistics, 31(4): 531-574. DOI:10.1162/089120105775299177 |
García S, Ramírez-Gallego S, Luengo J, Benítez JM and Herrera F. 2016. Big data preprocessing:Methods and prospects. Big Data Analytics, 1: 9. DOI:10.1186/s41044-016-0014-0 |
Giboin A, Grataloup S, Morel O and Durville P. 2013. Building ontologies for analyzing data expressed in natural language. In:Perrin M and Rainaud JF (eds.). Shared Earth Modeling:Knowledge Driven Solutions for Building, Managing Subsurface 3D Geological Models. Paris:Editions Technip: 231-259. |
Goldston D. 2008. Big data:Data wrangling. Nature, 455(7209): 15. DOI:10.1038/455015a |
Gruber TR. 1995. Toward principles for the design of ontologies used for knowledge sharing?. International Journal of Human-Computer Studies, 43(5-6): 907-928. DOI:10.1006/ijhc.1995.1081 |
Haghighat M, Abdel-Mottaleb M and Alhalabi W. 2016. Discriminant correlation analysis:Real-time feature level fusion for multimodal biometric recognition. IEEE Transactions on Information Forensics and Security, 11(9): 1984-1996. DOI:10.1109/TIFS.2016.2569061 |
Hua H and Tong XH. 2000. Automatic edge match of digital maps. Journal of Tongji University, 28(1): 33-36. |
Huang L, Du YF and Chen GY. 2015. GeoSegmenter:A statistically learned Chinese word segmenter for the geoscience domain. Computers & Geosciences, 76: 11-17. |
Huang T, Chang G, Armstrong EM and Boening C. 2014. Application of ontologies for big earth data. In: American Geophysical Union, Fall Meeting. Pasadena, CA, United States: American Geophysical Union
|
Iwamori H, Albaréde F and Nakamura H. 2010. Global structure of mantle isotopic heterogeneity and its implications for mantle differentiation and convection. Earth and Planetary Science Letters, 299(3-4): 339-351. DOI:10.1016/j.epsl.2010.09.014 |
Ji HJ, Lian CY and Du QF. 1993. Standardizatiaon and contrast transformation for chemical data. Computing Techniques for Geophysical and Geochemical Exploration, 15(1): 19-25. |
Ji HJ, Lin RQ and Zhou YC. 2001. A disscussion about some data processing methods in geochemical exploration. Geology and Prospecting, 37(4): 56-59. |
Keim D, Qu HM and Ma KL. 2013. Big-data visualization. IEEE Computer Graphics and Applications, 33(4): 20-21. DOI:10.1109/MCG.2013.54 |
Lacasta J, Nogueras-Iso J, Béjar R, Muro-Medrano PR and Zarazaga-Soria FJ. 2007. A Web Ontology service to facilitate interoperability within a spatial data infrastructure:Applicability to discovery. Data & Knowledge Engineering, 63(3): 947-971. |
Lake BM, Salakhutdinov R and Tenenbaum JB. 2015. Human-level concept learning through probabilistic program induction. Science, 350(6266): 1332-1338. DOI:10.1126/science.aab3050 |
Laxton J and Serrano JJ and Tellez-Arenas A. 2010. Geological applications using geospatial standards:An example from OneGeology-Europe and GeoSciML. International Journal of Digital Earth, 3(S1): 31-49. |
Lei FL, Xu P, Cheng WW and Huang SQ. 2014. Application of wavelet analysis to multi-scale fusion processing of well logging data. Chinese Journal of Engineering Geophysics, 11(1): 77-80. |
Li FD, Li CL, Wu L, Li JQ and Lv X. 2015. Data integration and services of digital geological mapping based on big data. Geological Bulletin of China, 34(7): 1300-1308. |
Li J, Chen JP and Wang X. 2015. A study of the storage technology of geological big data. Geological Bulletin of China, 34(8): 1589-1594. |
Liu DW. 2004. The normalization of regional geochemical data and its application. Geophysical and Geochemical Exploration, 28(3): 273-275, 279. |
Liu X and Hu GD. 2003. Multi-Source geo-data fusion and its application in metallogenic prognosis. Acta Geoscientia Sinica, 24(5): 463-468. |
Lynch C. 2008. Big data:How do your data grow. Nature, 455(7209): 28-29. DOI:10.1038/455028a |
Ma XG, Carranza EJM, Wu CL, van der Meer FD and Liu G. 2011. A SKOS-based multilingual thesaurus of geological time scale for interoperability of online geological maps. Computers & Geosciences, 37(10): 1602-1615. |
Ma XG, Carranza EJM, Wu CL and van der Meer FD. 2012. Ontology-aided annotation, visualization, and generalization of geological time-scale information from online geological map services. Computers & Geosciences, 40: 107-119. |
Ma XG and Fox P. 2013. Recent progress on geologic time ontologies and considerations for future works. Earth Science Informatics, 6(1): 31-46. DOI:10.1007/s12145-013-0110-x |
Ma XG. 2017. Linked geoscience data in practice:Where W3C standards meet domain knowledge, data visualization and OGC standards. Earth Science Informatics, 10(4): 429-441. DOI:10.1007/s12145-017-0304-8 |
Ma XG, West P, Zednik S, Zednik S, Erickson J, Eleish A, Chen Y, Wang H, Zhong H and Fox P. 2017. Weaving a knowledge network for deep carbon science. Frontiers in Earth Science, 5: 36. DOI:10.3389/feart.2017.00036 |
Ma XG. 2018. Data science for geoscience:Leveraging mathematical geosciences with semantics and open data. In:Sagar BSD, Cheng Q and Agterberg FD (eds.). Handbook of Mathematical Geosciences:Fifty Years of IAMG. Springer, 16. |
Manyika J, Chui M, Brown B, Bughin J, Dobbs R, Roxburgh C and Byers AH. 2011. Big data:The next frontier for innovation, competition, and productivity. McKinsey Global Institute, 156. |
Marx V. 2013. Biology:The big challenges of big data. Nature, 498(7453): 255-260. DOI:10.1038/498255a |
Mastella LS, Abel M, De Ros LF, Perrin M and Rainaud JF. 2007. Event ordering reasoning ontology applied to petrology and geological modelling. In:Castillo C, Melin P, Ross OM, Cruz RS, Pedrycz W and Kacprzyk J (eds.). Theoretical Advances, Applications of Fuzzy Logic and Soft Computing. Berlin, Heidelberg:Springer,: 465-475. |
Meng XF and Du ZJ. 2016. Research on the big data fusion:Issues and challenges. Journal of Computer Research and Development, 53(2): 231-246. |
Moraga P, Cramb SM, Mengersen KL and Pagano M. 2017. A geostatistical model for combined analysis of point-level and area-level data using INLA and SPDE. Spatial Statistics, 21: 27-41. DOI:10.1016/j.spasta.2017.04.006 |
Morrison SM, Liu C, Eleish A, Prabhu A, Li CR, Ralph J, Downs RT, Golden JJ, Fox P, Hummer DR and Meyer MB and Hazen RM. 2016. Network analysis of mineralogical systems. American Mineralogist, 102(8): 1588-1596. |
NADM Steering Committee. 2004. NADM Conceptual Model 1. 0: A conceptual Model For Geologic Map Information. In: U. S. Geological Survey Open-File Report, 2004-1334. Reston, North American Geologic Map Data Model (NADM)Steering Committee, 1-58
|
Nie J, Jin W and Hannan M. 1994. A hybrid approach to unknown word detection and segmentation of Chinese. In: Proceedings of the International Conference on Chinese Computing. Singapore: 326-335
|
O'Leary DE. 2013. Artificial intelligence and big data. IEEE Intelligent Systems, 28(2): 96-99. DOI:10.1109/MIS.2013.39 |
Perrin M, Zhu BT, Rainaud JF and Schneider S. 2005. Knowledge-driven applications for geological modeling. Journal of Petroleum Science and Engineering, 47(1-2): 89-104. DOI:10.1016/j.petrol.2004.11.010 |
Peters SE, Zhang C, Livny M and Ré C. 2014. A machine reading system for assembling synthetic paleontological databases. PLoS One, 9(12): e113523. DOI:10.1371/journal.pone.0113523 |
Peters SE and McClennen M. 2015. The paleobiology database application programming interface. Paleobiology, 42(1): 1-7. |
Qiu D. 2014. The challenge of statistics in the age of big data. Statistical Research, 31(1): 16-22. |
Rahm E and Hong HD. 2000. Data cleaning:Problems and current approaches. IEEE Data Engineering Bulletin, 23(4): 3-13. |
Sagiroglu S and Sinanc D. 2013. Big data: A review. In: Proceedings of 2013 International Conference on Collaboration Technologies and Systems (CTS). San Diego, CA: IEEE, 42-47
|
Sheth A. 2014a. Smart data-how you and I will exploit big data for personalized digital health and many other activities. In: Proceedings of 2014 IEEE International Conference on Big Data. Washington, DC: IEEE, 2-3
|
Sheth A. 2014b. Transforming big data into smart data: Deriving value via harnessing volume, variety, and velocity using semantic techniques and technologies. In: Proceedings of the 2014 IEEE 30th International Conference on Data Engineering (ICDE). Chicago, IL, USA: IEEE, 2
|
Siemon B. 2009. Levelling of helicopter-borne frequency-domain electromagnetic data. Journal of Applied Geophysics, 67(3): 206-218. DOI:10.1016/j.jappgeo.2007.11.001 |
Sun DM, Wang WP, Zeng ZF and Huang L. 2010. The pseudo tie-line automatic leveling method for frequency domain airborne electromagnetic survey. Geophysical and Geochemical Exploration, 34(2): 246-249. |
Suthaharan S. 2014. Big data classification:Problems and challenges in network intrusion prediction with machine learning. ACM SIGMETRICS Performance Evaluation Review, 41(4): 70-73. DOI:10.1145/2627534 |
Tang ZJ, Ying XX, Cheng ZM, Lai BS, Liang CK, Jiao YJ and Chen L. 2013. Application of contrast return method in stabilizing geochemical system bias. Geology of Anhui, 32(2): 116-117, 122. |
Walker JS. 2014. Big data:A revolution that will transform how we live, work, and think. International Journal of Advertising, 33(1): 181-183. DOI:10.2501/IJA-33-1-181-183 |
Waller MA and Fawcett SE. 2013. Data science, predictive analytics, and big data:A revolution that will transform supply chain design and management. Journal of Business Logistics, 34(2): 77-84. DOI:10.1111/jbl.12010 |
Wang CB, Rao JF, Chen JG, Ouyang YP, Qi SJ and Li Q. 2017. Prospectivity mapping for "Zhuxi-type" copper-tungsten polymetallic deposits in the Jingdezhen region of Jiangxi Province, South China. Ore Geology Reviews, 89: 1-14. DOI:10.1016/j.oregeorev.2017.05.022 |
Wang CB, Ma XG, Chen JG and Chen JW. 2018. Information extraction and knowledge graph construction from geoscience literature. Computers & Geosciences, 112: 112-120. |
Wang DH, Liu XX and Liu LJ. 2015. Characteristics of Big Geodata and its application to study of minerogenetic regularity and minerogenetic series. Mineral Deposits, 34(6): 1143-1154. |
Wu XC and Zheng GZ. 2001. Map digitizing and edge matching based on MAPGIS. Journal of Institute of Surveying and Mapping, 18(4): 307-309. |
Xiao KY, Li N, Wang K, Sun L and Fan JF and Ding JH. 2015. Mineral resources assessment under the thought of big data. Geological Bulletin of China, 34(7): 1266-1272. |
Xu ZL, Meng QM and Cui ZQ. 2010. GIS-based auto-leveling software of aeromagnetic measured cross line network. Computing Techniques for Geophysical and Geochemical Exploration, 32(4): 423-428. |
Yan GS, Xue QW, Xiao KY, Chen JP, Miao JL and Yu HL. 2015. An analysis of major problems in geological survey big data. Geological Bulletin of China, 34(7): 1273-1279. |
Yue P, Di LP, Yang WL, Yu GN and Zhao PS. 2007. Semantics-based automatic composition of geospatial Web service chains. Computers & Geosciences, 33(5): 649-665. |
Zhang HL, Wang JL, Xu HP and Shi R. 2007. Study of remote sensing data and multi-resource geological data fusion. Chinese Journal of Engineering Geophysics, 4(2): 95-98. |
Zhang Q and Zhou YZ. 2017. Big data will lead to a profound revolution in the field of geological science. Chinese Journal of Geology, 52(3): 637-648. |
Zhao JH. 2004. Design and the realization of the edgematching software for multi-mapsin GIS. Science of Surveying and Mapping, 29(1): 45-46. |
Zhao PD. 2015. Digital mineral exploration and quantitative evaluation in the big data age. Geological Bulletin of China, 34(7): 1255-1259. |
Zhao PS, Di LP, Yu GN, Yue P, Wei YX and Yang WL. 2009. Semantic Web-based geospatial knowledge transformation. Computers & Geosciences, 35(4): 798-808. |
Zhao PS, Foerster T and Yue P. 2012. The geoprocessing web. Computers & Geosciences, 47: 3-12. |
Zhong J, Aydina A and McGuinness DL. 2009. Ontology of fractures. Journal of Structural Geology, 31(3): 251-259. DOI:10.1016/j.jsg.2009.01.008 |
Zhou YZ, Li PX, Wang SG, Xiao F, Li JZ and Gao L. 2017. Research progress on big data and intelligent modelling of mineral deposits. Bulletin of Mineralogy, Petrology and Geochemistry, 36(2): 327-331, 344. |
Zhu YE. 1994. Conditional filtering method to eliminate interference stripes caused by flight lines on aeromagnetic maps. Computing Techniques for Geophysical and Geochemical Exploration, 16(1): 44-48. |
Zuo QC, Cai HH, Song Y, Wang XQ, Wen H, Wang CX, Deng Y, Zhang Y and Li L. 2016. Research, development and application of mineral resources potential evaluation data models and data Integration construction. Geomatics World, 23(1): 10-17. |
陈建国, 郭晓兰, 刘春华. 1997. 区域地球化学图件拼接中的图幅平差法. 地球科学-中国地质大学学报, 22(6): 619-626. |
陈建平, 李婧, 崔宁, 于萍萍. 2015. 大数据背景下地质云的构建与应用. 地质通报, 34(7): 1260-1265. |
陈永清, 纪宏金. 1995. 标准化区域地球化学图的编制方法及应用效果. 长春地质学院学报, 25(2): 216-221. |
戴慧敏, 赵君, 杨忠芳, 宫传东, 郑春颖, 孙中任. 2014. 基于地球化学背景的多图幅系统误差校正—以区域地球化学调查数据Au元素为例. 地球学报, 35(5): 648-654. DOI:10.3975/cagsb.2014.05.16 |
华慧, 童小华. 2000. 数字化地图的自动接边及其精度. 同济大学学报, 28(1): 33-36. |
纪宏金, 连长云, 杜庆丰. 1993. 地球化学数据的标准化与衬度变换. 物探化探计算技术, 15(1): 19-25. |
纪宏金, 林瑞庆, 周永昶. 2001. 关于若干化探数据处理方法的讨论. 地质与勘探, 37(4): 56-59. |
雷芬丽, 许平, 程武伟, 黄世强. 2014. 小波分析在测井数据融合处理中的应用. 工程地球物理学报, 11(1): 77-80. |
李丰丹, 李超岭, 吴亮, 李健强, 吕霞. 2015. 大数据环境下数字填图数据集成服务技术. 地质通报, 34(7): 1300-1308. |
李婧, 陈建平, 王翔. 2015. 地质大数据存储技术. 地质通报, 34(8): 1589-1594. |
刘大文. 2004. 区域地球化学数据的归一化处理及应用. 物探与化探, 28(3): 273-275, 279. |
刘星, 胡光道. 2003. 多源数据融合技术在成矿预测中的应用. 地球学报, 24(5): 463-468. |
孟小峰, 杜治娟. 2016. 大数据融合研究:问题与挑战. 计算机研究与发展, 53(2): 231-246. DOI:10.7544/issn1000-1239.2016.20150874 |
邱东. 2014. 大数据时代对统计学的挑战. 统计研究, 31(1): 16-22. |
孙东明, 王卫平, 曾昭发, 黄玲. 2010. 用于频率域航电数据处理的伪切割线自动调平法. 物探与化探, 34(2): 246-249. |
汤正江, 应祥熙, 程治民, 赖柏生, 梁昌阔, 焦彦军, 陈雷. 2013. 衬度返回法在平抑地球化学系统偏倚中应用. 安徽地质, 23(2): 116-117, 122. |
王登红, 刘新星, 刘丽君. 2015. 地质大数据的特点及其在成矿规律、成矿系列研究中的应用. 矿床地质, 34(6): 1143-1154. |
吴信才, 郑贵洲. 2001. 基于MAPGIS的地图数字化与地图接边. 测绘学院学报, 18(4): 307-309. |
肖克炎, 李楠, 王琨, 孙莉, 范建福, 丁建华. 2015. 大数据思维下的矿产资源评价. 地质通报, 34(7): 1266-1272. |
胥值礼, 孟庆敏, 崔志强. 2010. 基于GIS的航磁实测切割线网自动调平软件. 物探化探计算技术, 32(4): 423-428. |
严光生, 薛群威, 肖克炎, 陈建平, 缪谨励, 余海龙. 2015. 地质调查大数据研究的主要问题分析. 地质通报, 34(7): 1273-1279. |
张海玲, 王家林, 许惠平, 史榕. 2007. 遥感数据和多源地学数据的融合研究. 工程地球物理学报, 4(2): 95-98. |
张旗, 周永章. 2017. 大数据正在引发地球科学领域一场深刻的革命—《地质科学》2017年大数据专题代序. 地质科学, 52(3): 637-648. DOI:10.12017/dzkx.2017.041 |
赵江洪. 2004. 地理信息系统中多图幅接边的设计与实现. 测绘科学, 29(1): 45-46. |
赵鹏大. 2015. 大数据时代数字找矿与定量评价. 地质通报, 34(7): 1255-1259. |
周永章, 黎培兴, 王树功, 肖凡, 李景哲, 高乐. 2017. 矿床大数据及智能矿床模型研究背景与进展. 矿物岩石地球化学通报, 36(2): 327-331, 344. |
朱月娥. 1994. 用条件滤波法消除航磁图像测线干扰条带. 物探化探计算技术, 16(1): 44-48. |
左群超, 蔡惠慧, 宋越, 汪新庆, 文辉, 王成锡, 邓勇, 张源, 李林. 2016. 矿产资源潜力评价数据模型研制、开发、应用与数据集成建设. 地理信息世界, 23(1): 10-17. |