2. 国土资源部地质信息技术重点实验室, 北京 100037;
3. 中国地质调查局发展研究中心, 北京 100037;
4. 中国矿业大学, 北京 100037;
5. 中国地质大学, 北京 100037
2. Key Laboratory of Geological Information Technology, Ministry of Land and Resources, Beijing 100037, China;
3. Development Research Center, China Geological Survey, Beijing 100037, China;
4. China University of Mining and Technology, Beijing 100037, China;
5. China University of Geoscience, Beijing 100037, China
经过几轮全国范围内区域地质调查工作,国家地质数据库体系已经基本形成(谭永杰,2016a)。地质数据是地质工作的真实记录和成果的最终表达载体,具有海量、类型复杂和应用广等特点(谭永杰,2016b;朱月琴等,2015)。2016年7月国土资源部制定发布了《关于促进国土资源大数据应用发展的实施意见》,意见指出建立地质大数据支撑平台,挖掘和释放数据资源的潜在价值,建立“用数据说话、用数据决策、用数据管理、用数据创新”的管理机制,让机器学习、深度学习、可视分析等大数据技术逐步成为必需(张旗和周永章,2017)。
成矿信息是指指示和识别某种矿床的成矿条件和赋存方式的地质信息的总和,可以分为描述性信息、事实性信息和通过深加工才能获取的加工型信息(肖克炎等,1999)。陈毓川(2011)和叶天竺(2013)强调了运用多学科、多来源数据进行综合信息成矿预测方法的重要性。通常进行成矿信息提取的数据包括区域构造、岩类信息(沉积岩、变质岩、岩浆岩)、大地构造背景以及物化探遥等综合信息。从这些复杂多源的数据中提取成矿信息,目标就是研究矿产产出的规律,总结成矿标志特征和控矿要素,发现可能赋存矿产的空间位置,圈定矿致异常区,即解决矿产“在哪儿”的问题。地质大数据的应用,为数据的统计分析和空间关联性分析等信息提取技术提供了契机。如何利用多来源、多模态的地质大数据进行相关性和模式分析,挖掘、预测和预警是目前需要解决的问题(严光生等,2015;周永章等,2017)。研究数据之间的相关关系对于充分利用多源地质数据,发现数据之间关系,挖掘矿产预测信息,具有重要的意义。
关联规则挖掘是发现数据集中隐藏的关联关系。随着地质大数据的应用,发现和提取大数据中的关联规则成为一个方向。关联规则挖掘首先由Agrawal et al.(1993)提出,并于1994年提出Apriori算法(Agrawal and Srikant, 1994),1995年Agrawal and Srikant(1995)提出序列模式挖掘,Koperski and Han(1995)将关联规则应用到空间数据挖掘。陈江平等(2003)提出了一种基于空间分析的空间关联规则的挖掘算法。马荣华等(2005)借鉴Apriori算法探讨了多层多关系空间关联规则方法,何彬彬等(2011)则应用Apriori算法进行了成矿关联规则的提取和质量评价。在地质大数据挖掘与可视化表达方面,也有相关的研究,例如我们前期基于地质图书文献的关联分析,基于知识图谱的地质大数据的可视化表达与关联分析等相关研究等(张戈一等,2017;Zhu et al., 2015, 2017;Luo et al., 2017)。
本文从我们前期的研究基础出发,特别是在地质大数据关联规则挖掘及可视化表达研究的基础上(张戈一等,2016;Zhu et al., 2015, 2017),以全国矿产地数据库中的热液型金矿数据和潜力评价数据为研究对象进行关联性分析,进而提取关联规则。其核心方法就是首先通过空间位置建立不同类型数据之间的联系,形成热液型金矿属性数据库,并基于统计方法分析不同数据之间的联系,最终挖掘矿产资源信息与其它信息的关联规则。
1 地学数据中的空间关联性地学数据的空间关联性是指两个或多个地质现象或实体之间的相互关联关系。根据地理学第一定律,空间内一切事物都是相互关联的,并且距离相近的事物关联度更高(Tobler,2004)。在以内生成矿作用为核心的地学事件中,与之紧密关联的事件主要为大地构造运动、岩浆活动(如火山)、热液活动等。在野外的一些地质现象经常受控于大的构造背景或地质历史事件。此外,在同一地质现象内部属性之间也经常存在空间依赖关系或空间自相关,可以对不同地质现象属性之间进行关联分析。
空间关联性是对形成矿床的各个地质要素之间相互作用和形成规律的研究。构成矿床的各个地质要素往往是共生的,存在一定的关系,可能是相互依赖的,也可能是互为因果,对地质要素进行统计关联分析,有助于认识要素之间的关联关系或模式。
2 面向矿产资源信息的空间关联性分析 2.1 矿产资源数据特征从地学数据的空间特征出发,数据可以分为三种类型:点型数据,如地球化学采样点、矿产地等;线型数据,如地层界限、断裂等;面型数据如地层、岩浆岩等。而在实际的矿产资源评价工作中,地学数据还包括了数值型地球化学数据、地球物理数据、图像数据(如遥感影像数据)、图形数据(如不同GIS平台数据)以及文本数据(如地质资料数据等)。
矿产资源数据与空间数据类似,具有空间、属性、时间等特征,其具体特征如下:
(1) 空间:包括空间位置和空间关系。其中,空间位置包含三层含义:①矿点或矿床的本身空间位置;②与矿床相关联的空间实体如构造、火山、侵入岩、古生物化石等的位置;③矿床及相关实体的空间分布特征。
(2) 属性:反映了地质实体在不同维度上的行为特性,如金矿形成深度、类型、温度等,以定性或定量的数据进行描述。结合时间维度则可以揭示地质实体在某个属性维度上的演化特征,而结合位置则可以反映某个属性维度的空间变化特征。
(3) 时间:地质实体的形成时间或在某一时间段所发生的特殊事件。
2.2 面向矿产资源信息的空间关联性分析模型框架不同类型的地质空间数据从某一个方面反映了地质对象的属性特征,而对于空间位置相邻或相同的数据,在空间特征上也往往存在着相似性,属性特征上呈现出一定的空间关联性。因此,可以针对不同类型的空间数据,建立数据之间基于位置的强关联。将不同专题类型的空间数据统一至相同的坐标系统下,提取数据的空间属性特征,建立数据的空间属性数据库(如图 1)。关联性分析则是在空间数据库的基础上发现和挖掘不同项集之间隐藏的关联关系。统计矿床产出位置不同的地质现象、地质体、地球化学元素等空间实体出现的频数。将频数最高的特征属性或超过一定阈值范围的特征属性转换为关联规则。
|
图 1 空间关联规则提取框架 Fig. 1 Spatial association rule extraction framework |
空间关联规则最初用于发现顾客在购买商品时同时购买商品A和商品B的搭配规律。主要是统计商品A和商品B同时出现的频数,然后将搭配规律转换为关联规则。具体表示为A=>B(s%,c%),s%是规则支持度,一般以半分比表示。如干部竞选,总人数为100人,选A当选的人数为80人,则A的支持度为80/100×100%=80%。c%是规则置信度,表示在出现A的情况下,出现B的概率,即条件概率P(A|B)。
空间关联规则主要可以分为两个问题(区玉明等,2004):(1)在事务集D中寻找满足所有最小支持度阈值的频繁项集;(2)利用频繁项集来生成所有满足最小置信度阈值的关联规则。Apriori算法主要包含以下3个步骤(区玉明等,2004):(1)连接步骤:连接(k-1)-频繁项集生成k-项候选集;(2)删除步骤:利用Apriori性质对k-项候选集进行剪枝;(3)计数步骤:扫描数据库,累加k-项候选集在交易数据库中出现的次数。对于一条交易记录和一个候选项集,若交易记录包含该候选项集,则该候选项集出现的次数就加1个l。最后根据给定的最小支持度阈值生成k-项频繁集。
支持度support(A=>B):表示规则A=>B的重要性,sup
规则置信度Confidence:表示规则A=>B的可靠性程度。

提升度(Lift):表示在事件A发生的条件下事件B发生的概率,与不含事件A条件下事件B发生的概率之比。相对于不使用规则,使用规则后事件发生的概率可以提升多少。
|
本次研究选取的实验数据为全国矿产地数据库中的金矿数据以及全国矿产资源潜力评价数据库中的沉积建造、岩浆岩、变质岩、区域地质构造等类型数据。通过对数据进行投影转换,统一至地理坐标系;基于金矿空间位置坐标,对距离金矿最近的不同类型的空间单元数据提取属性并添加至金矿属性表中,导出最终形成以金矿产地为中心的空间属性数据库;最后对数据进行检查,剔除数据中的空值,错误值。
3.2 实验结果与分析对热液型金矿属性数据进行统计分析,可以得到图 2和图 3。其中,图 2为热液型金矿形成时代分布图,图 3为火山岩时代分布图。从图中可以看出,热液型金矿成矿时代主要集中于侏罗纪-白垩纪,与火山岩主要形成时代基本一致,说明热液型金矿与火山作用关系密切。另外根据统计数值,火山岩时代为早白垩世的为203次,占比为33.7%;中侏罗世为62次,晚侏罗世为56次,占比分别为10.3%和9.3%。由于热液型金矿数据中形成时代与火山岩时代不完全一致,如热液型金矿形成时代多为中侏罗世-晚侏罗世,火山岩时代多为早白垩世晚期等。因此,对其进行合并统计,白垩纪与侏罗纪形成金矿的个数为合计为291个,火山岩个数为351个,占比分别为69.1%和58.2%。元古代形成金矿个数为26个,火山岩个数为50个,占比分别为6.2%和8.3%。从数据统计的角度,说明热液型金矿与火山作用存在明显的关联性。
|
图 2 全国热液型金矿成矿时代分布图 Fig. 2 The distribution map of the metallogenic epochs of hydrothermal gold deposits in China |
|
图 3 火山岩时代分布图 Fig. 3 The distribution of the formation ages of volcanic rocks in China |
从蚀变类型统计图(图 4)可以看出,与金矿有关的蚀变是以角岩化、硅化、矽卡岩化、大理岩化为主。而陆相火山岩-次火山岩,高硫型和低硫型浅成低温热液型金矿中发育硅化、黄铁矿化、绢云母化和绿泥石化。尽管统计结果与理论存在一定的偏差,但二者基本吻合。
|
图 4 中国热液型金矿蚀变类型统计图 Fig. 4 Statistical graph of alteration types of hydrothermal gold deposits in China |
金矿通常伴生其他矿产,如银、铜铁、铅锌等,表 1中银矿=>二长花岗岩,支持度为20.26%,置信度为28.97%,提升度为1.01,出现的次数为31次。该频繁项集说明出现银矿的同时出现二长花岗岩。提升度>1且值越大表明两个项集正相关性越高,提升度 < 1且值越低表明两个项集负相关性越高。因此,根据表 1的结果可知,硫铁矿=>二长花岗岩,铁矿=>闪长岩支持度较低,分别为7.84%和1.96%,但是置信度和提升度均较高,其中铁矿=>闪长岩提升度为10.2,表明硫铁矿与二长花岗岩、铁矿与闪长岩存在正相关性,铅矿在二长花岗岩出现相对于花岗岩、花岗闪长岩、闪长岩等置信度、提升度更高,且提升度逐渐降低。
|
|
表 1 伴生矿与侵入岩的关联规则分析结果 Table 1 Result of association rules analysis of associated ore and intrusive lithology |
空间关联性本质是对形成矿床的各个地质要素之间相互作用和形成规律的研究。构成矿床的各个地质要素往往是共生在一起的,可能互为因果。对地质要素进行统计关联分析,有助于认识要素之间的关联关系或模式。基于Apriori算法挖掘地质要素属性之间的关联关系,实现频繁项集的提取是解决该问题的思路之一。运用统计方法分析成矿数据,对于发现和认识地质现象及相互之间的规律具有重要的意义。
Agrawal R, Imieliński T and Swami A. 1993. Mining association rules between sets of items in large databases. ACM SIGMOD Record, 22(2): 207-216. DOI:10.1145/170036 |
Agrawal R and Srikant R. 1994. Fast algorithms for mining association rules in large databases. In: Proceedings of the 20th International Conference on Very Large Data Bases. San Francisco, CA, USA: Morgan Kaufmann, 487-499
|
Agrawal R and Srikant R. 1995. Mining sequential patterns. In: Proceedings of the 11th International Conference on Data Engineering. Taipei: International Conference on Data Engineering, 3-14
|
Chen JP, Fu ZL, Bian FL and Sha ZY. 2003. Mining spatial association rules with spatial analysis. Computer Engineering, 29(11): 29-31. |
Chen YC. 2011. A tentative discussion on the breakthrough of ore prospecting in China. Mineral Deposits, 30(5): 767-772. |
He BB, Cui Y, Chen CH and Chen JH. 2011. Geology spatial data mining method for regional metallogenic prediction. Advances in Earth Science, 26(6): 615-623. |
Koperski K and Han JW. 1995. Discovery of spatial association rules in geographic information databases. In: Egenhofer MJ and Herring JR (eds. ). Advances in Spatial Databases. Berlin, Heidelberg: Springer, 951: 47-66
|
Luo X, Deng J, Wang WP, Wang JH and Zhao WB. 2017. A quantized kernel learning algorithm using a minimum kernel risk-sensitive loss criterion and bilateral gradient technique. Entropy, 19(7): 365. |
Ma RH, Ma XD and Pu YX. 2005. Spatial association rule mining from GIS database. Journal of Remote Sensing, 9(6): 733-741. |
Qu YM, Zhang SC, Xu ZY, Lu JL and Liu ML. 2004. Improved Apriori algorithm for efficiency. Computer Engineering and Design, 25(5): 846-848. |
Tan YJ. 2016a. Architecture and key issues of geological big data and information service project. Geomatics World, 23(1): 1-9. |
Tan YJ. 2016b. Architecture investigation of the construction of geological big data system. Geological Survey of China, 3(3): 1-6. |
Tobler W. 2004. On the first law of geography:A reply. Annals of the Association of American Geographers, 94(2): 304-310. DOI:10.1111/j.1467-8306.2004.09402009.x |
Xiao KY, Zhu YS, Zhang XH, Song GY and Chen ZH. 1999. The extraction and integration technology of minerogenic information in mineral resources assessment. Mineral Deposits, 18(4): 379-384. |
Yan GS, Xue QW, Xiao KY, Chen JP, Miao JL and Yu HL. 2015. An analysis of major problems in geological survey big data. Geological Bulletin of China, 34(7): 1273-1279. |
Ye TZ. 2013. Theoretical framework of methodology of deposit modeling and integrated geological information for mineral resource potential assessment. Journal of Jilin University (Earth Science Edition), 43(4): 1053-1072. |
Zhang GY, Zhu YQ, Lv PF, Liu GK and Hu BR. 2017. Hybrid of collaborative filtering recommendation and correlation analysis of book recommendation method study. China Mining Magazine, 26(S1): 425-430. |
Zhang Q and Zhou YZ. 2017. Big data will lead to a profound revolution in the field of geological science. Chinese Journal of Geology, 52(3): 637-648. |
Zhou YZ, Li PX, Wang SG, Xiao F, Li JZ and Gao L. 2017. Research progress on big data and intelligent modelling of mineral deposits. Bulletin of Mineralogy, Petrology and Geochemistry, 36(2): 327-331, 344. |
Zhu YQ, Tan YJ, Li RX and Luo X. 2015. Cyber-physical-social-thinking modeling and computing for geological information service system. In: Proceedings of 2015 International Conference on Identification, Information, and Knowledge in the Internet of Things. Beijing, China: IEEE, 193-196
|
Zhu YQ, Tan YJ, Zhang JT, Mao B, Shen J and Ji CF. 2015. A framework of hadoop based geology big data fusion and mining technologies. Acta Geodaetica et Cartographica Sinica, 44(Suppl.1): 152-159. |
Zhu YQ, Zhou WW, Xu Y, Liu J and Tan YJ. 2017. Intelligent learning for knowledge graph towards geological data. Scientific Programming, 2017: 5072427. |
陈江平, 傅仲良, 边馥苓, 沙衷尧. 2003. 基于空间分析的空间关联规则提取. 计算机工程, 29(11): 29-31. |
陈毓川. 2011. 实现找矿突破的探索. 矿床地质, 30(5): 767-772. |
何彬彬, 崔莹, 陈翠华, 陈建华. 2011. 基于地质空间数据挖掘的区域成矿预测方法. 地球科学进展, 26(6): 615-623. |
马荣华, 马晓冬, 蒲英霞. 2005. 从GIS数据库中挖掘空间关联规则研究. 遥感学报, 9(6): 733-741. DOI:10.11834/jrs.200506106 |
区玉明, 张师超, 徐章艳, 卢景丽, 刘美玲. 2004. 一种提高Apriori算法效率的方法. 计算机工程与设计, 25(5): 846-848. |
谭永杰. 2016a. 地质大数据与信息服务工程技术框架. 地理信息世界, 23(1): 1-9. |
谭永杰. 2016b. 地质大数据体系建设的总体框架研究. 中国地质调查, 3(3): 1-6. |
肖克炎, 朱裕生, 张晓华, 宋国耀, 陈郑辉. 1999. 矿产资源评价中的成矿信息提取与综合技术. 矿床地质, 18(4): 379-384. |
严光生, 薛群威, 肖克炎, 陈建平, 缪谨励, 余海龙. 2015. 地质调查大数据研究的主要问题分析. 地质通报, 34(7): 1273-1279. |
叶天竺. 2013. 矿床模型综合地质信息预测技术方法理论框架. 吉林大学学报(地球科学版), 43(4): 1053-1072. |
张戈一, 朱月琴, 吕鹏飞, 刘广开, 胡博然. 2017. 耦合协同过滤推荐与关联分析的图书推荐方法研究. 中国矿业, 26(S1): 425-430. |
张旗, 周永章. 2017. 大数据正在引发地球科学领域一场深刻的革命—《地质科学》2017年大数据专题代序. 地质科学, 52(3): 637-648. DOI:10.12017/dzkx.2017.041 |
周永章, 黎培兴, 王树功, 肖凡, 李景哲, 高乐. 2017. 矿床大数据及智能矿床模型研究背景与进展. 矿物岩石地球化学通报, 36(2): 327-331, 344. |
朱月琴, 谭永杰, 张建通, 毛波, 沈婕, 汲超飞. 2015. 基于Hadoop的地质大数据融合与挖掘技术框架. 测绘学报, 44(S1): 152-159. |
2018, Vol. 34

