2. 中国地震台网中心, 北京 100029
2. China Earthquake Networks Center, Beijing 100029, China
地震是一种由板块运动引起的自然现象, 在地震监测的过程中, 我们记录到了许多天然地震事件, 同时也记录到了许多由于人类活动而引起的地表震动事件, 如:爆炸、塌陷、滑坡、飞行物坠落等.二者的震源性质有所不同, 天然地震大多发生于地下几公里至几十公里的地壳深处, 其震源是非对称剪切源(曾融生等, 2000), 而非天然震动事件种类多样, 其中, 爆破事件为膨胀源, 滑坡事件主要为单力偶源, 塌陷事件随着不同塌陷方式又有区别等.
随着地震台网中台站密度的增加, 人类对震动事件的监测能力也逐步增强, 记录到的小规模震动事件的数量也呈指数级上升(龙锋和阮祥, 2017).在这些震动事件中, 天然地震与非天然震动事件相互参杂, 且两者波形较为相似, 需要一定的经验才能将二者区分开来.一直以来, 地震台网工作人员都是依靠经验对天然震动事件与非天然震动事件加以区分, 受主观因素影响较多, 难以实现统一判别标准.识别过程中要求工作人员掌握较为丰富的实践经验和较为扎实的地震学功底, 且事件性质判断所需时间较长, 效率和准确率不高.由于部分工作人员在事件性质分析识别方面经验相对不足, 造成波形性质判断不准确的现象时有发生, 这些误判事件如果不能及时剔除, 会混淆我们的地震目录, 对后续的科研和预报工作造成较大的影响.因此提出一种快速、准确对天然地震与非天然震动事件进行区分的方法就显得尤为重要.
在地震事件性质分类过程中, 如何提取出有效特征是分类的关键.自20世纪50年代开始, 国内外在地震事件性质识别方面进行了广泛和深入的研究, 并提出了多种识别判据, 主要有, P波初动(康英等, 2001)、震源深度、体波震级与面波震级之比、P波初动振幅与P波最大振幅比、勒夫波和瑞利波振幅比、P波与S波谱振幅比、P波与勒夫波谱振幅比、倒谱、小波变换(刘希强等, 2003; 边银菊, 2002; 杨选辉等, 2005; 和雪松等, 2006; Taylor, 2011)、瞬态谱等(Giudicepietro et al., 2017), 但是由于地震信号本身的复杂性, 有些识别判据的识别效果或适用性仍有不足, 造成某些判据仅仅适用于一些特定的地区和台站记录.
机器学习理论和应用研究始于1986年(Perol et al., 2018), 其在图像识别(Bai et al., 2018)、信号处理、预测评估、组合优化及知识工程等领域有着广泛的应用.近年来机器学习方法开始被用来对地震波形数据进行分析和处理.Dowla等利用多层感知器(MLP)神经网络识别天然地震与地下爆炸(Giudicepietro et al., 2017); 黄汉明(黄汉明等, 2010; 王婷婷和边银菊, 2011; 毕明霞等, 2011)等使用提取的特征值作为输入数据, 使用支持向量机的方法对天然地震与爆破进行识别.
随着人工智能的突飞猛进, 如何把日新月异的计算机前沿技术应用于地震事件分类中, 从而提高识别的准确率、稳定性仍是当前需要研究的课题之一.本文首先从波形记录中提取出有效、适用的特征值, 在此基础上用决策树模型作为基分类器, 采用Bagging集成方法将其集合成一个强分类器, 从而提高单个分类器的识别准确率.
1 事件性质分类算法根据样本策略, 集成学习方法主要分为Bagging、Boost(Pham et al., 2016; Breiman, 1996; Freund and Schapire, 1996)两种.Bagging算法是一种用来提高弱分类器准确率的集成方法, 这种方法基本思想是对训练集实施有放回的随机样本重新抽样, 形成多个与训练集规模相近但各不相同的训练子集, 在此基础上形成多个基分类器, 在多个基分类器的基础上使用多数投票原则(Bayar and Stamm, 2018).它利用训练集中随机抽取出的子集来训练每个模型, 这有助于降低方差并有助于避免过拟合现象的发生.其算法过程如下:
(1) 从原始样本集中抽取训练集.每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本(在训练集中, 有些样本可能被多次抽取到, 而有些样本可能一次都没有被抽中).共进行k轮抽取, 得到k个训练集(k个训练集相互独立).
(2) 每次使用一个训练集得到一个模型, k个训练集共得到k个模型(注:根据具体问题采用不同的分类或回归方法, 如决策树、神经网络等).
(3) 对分类问题:将上一步得到的k个模型采用投票的方式得到分类结果.对回归问题, 计算上述模型的均值作为最后的结果.
为了让大家更好地理解Bagging方法, 这里提供一个例子.X表示一维属性, Y表示类标号(1或-1)测试条件, 当x≤k时, y=?, 当x>k时, y=?, k为最佳分裂点, 属性x对应的唯一正确的y类别如表 1所示.
现在进行5轮随机抽样, 抽取结果如表 2所示, 其中黑体数字表示未命中.
每一轮随机抽样后, 都会生成一个分类器, 然后再将五轮分类融合, 融合结果如表 3所示.
对比符号和实际类, 我们可以发现, 在该例子中, Bagging使得分类准确率高达90%.由此, 总结Bagging方法的特点如下:
(1) Bagging通过降低基分类器的方差, 改善了泛化误差.
(2) 其性能依赖于基分类器的稳定性, 如果基分类器不稳定, Bagging有助于降低训练数据的随机波动导致的误差.如果稳定, 则集成分类器的误差主要由基分类器的偏倚引起.
(3) 由于每个样本被选中的概率相同, 因此Bagging并不侧重于训练数据集中的任何特定实例.
2 数据预处理 2.1 数据集的选取本文从中国地震台网中心获取震动事件波形数据, 用于天然地震和非天然地震的识别.为了最大限度的提取出适用于不同台站记录的波形特征, 本文从2012—2015年发生的ML≥2.0级震动事件中随机抽取出1058次震动事件(含4887条台站纪录)作为研究对象, 其中训练集包含天然地震事件358次(含2394条台站波形), 其余为非天然地震事件.测试集包含天然地震事件272次(含785条台站波形), 其余为非天然地震事件(具体震动事件分布如图 1所示).
地震台站在记录波形数据的过程中会受到各种外界因素的影响形成噪声, 同时由于通讯问题或设备故障等因素会造成波形信号中断, 这些都会给后期的信号处理带来影响.因此, 需要对采集到的原始地震波形进行预处理, 去除断记、信噪比低的地震波形数据.
2.3 台站选择本文选取震中距在80~200 km范围内的所有台站波形数据作为训练集和测试集.在系统验证时选取震中距80~200 km范围内的所有台站波形数据进行识别.
2.4 P波到时的拾取在对地震事件性质进行分析识别时, 需要首先拾取到P波到时.拾取P波到时的方法有很多, 如STA/LTA算法、瞬时频率算法、AIC算法、动态特征算法(刘晗和张建中, 2014; Allen, 1978, 1982; Freund and Schapire, 1996; Baer and Kradolfer, 1987).本文采用AIC算法进行P波到时拾取, 并以拾取到的P波到时作为地震事件的起点(Maeda, 1985).从拾取到的P波到时开始, 截取之后169 s的事件波形作为训练和测试数据.
3 波形特征提取为了鉴别天然震动事件和非天然震动事件的波形差异和事件类型, 本文提取天然地震和非天然地震波形的波形复杂度、谱比值、自相关系数、波形复杂度和自相关系数的综合比值作为波形特征来完成天然地震和非天然震动事件的区分识别.
3.1 波形复杂度(C)波形复杂度特征最早是由英国的一个隶属于原子武器组织的研究小组提出的.相关研究人员注意到, 地下核爆炸所产生的P波波形相对简单—大振幅的P波持续一两个周期, 紧随其后的是小振幅的尾波.与此相应的天然地震的波形通常比较复杂, 有很多相似振幅的波至, 持续35 s或更长时间.如果非天然震动事件源于复杂非均匀的环境中或是地震伴有大的应力降或者很快的破裂速度时, 该判别方法较为显著(韩绍卿等, 2011).针对二者P波能量衰减速度不同的特点, 本文选择波形复杂度作为判断事件类型的特征值之一, 其定义如下:
(1) |
其中, y(t)为时域波形中t时刻的幅值, 积分限中的0代表P波到达该台站的时刻, 5为经验系数, 代表使用从P波初至开始5 s的波形段(经验表明, 非天然震动事件P波能量衰减主要在5 s左右完成, 而天然地震事件P波能量衰减周期相对较长), x为S波与P波的到时差, 本文选择中国地区P波和S波传播的平均速度为6 km·s-1和3.5 km·s-1进行计算, 则x=Δ/3.5-Δ/6(Δ为震中距).本文中选择震中距在80至200 km之间的台站进行计算.
波形复杂度度量的是P波初始段与P波尾波段能量的比值.计算后得到不同波形复杂度取值范围所占百分比分布如图 2所示.
由图 2可知天然地震和非天然震动的波形复杂度取值在[0, 5]范围内, 当波形复杂度取值在0至1.4范围内时, 本次事件为天然地震事件的概率较大, 当波形复杂度取值大于1.4时, 本次事件为非天然震动事件的概率较大.
3.2 频谱比(SR)经验表明, 天然地震和非天然震动事件的频谱可能存在差异.图 3分别代表了2018年6月17日甘肃酒泉市阿克塞县M4.5级地震时甘肃石包城台站(SBC)记录到地震波形的频谱分析和2018年2月6日11时34分23秒宁夏平罗地区爆破时内蒙巴彦浩特台站(BYT)记录波形的频谱分析.
本文采用波形数据频谱的比值作为特征值之一, 其定义如下:
(2) |
其中, x(f)为傅里叶频谱中频率为f处幅值的模; H1、L1为波形频谱中频率较低部分的频率上限值和下限值, 本文中取值为L1=0, H1=1, L2=1, H2=+∞.计算后得到不同频谱比取值所占百分比情况如图 4所示.
由图 4可知天然地震和非天然震动的频谱比取值在[0, 10]范围内, 由图 4b可知当频谱比的取值在0至0.97范围内时, 本次事件为非天然震动的概率较大, 当频谱比的取值大于0.97时, 为天然地震的概率较大.
3.3 自相关系数(R)自相关系数度量的是同一事件在两个不同时期之间的相关程度, 形象地讲就是度量自己过去的行为对自己现在的影响.由于大多数非天然震动都是能量瞬间爆发, 幅度变化大, 而天然地震相对于非天然震动衰减时间慢, 幅度变化相对较小.这种幅度的变化可以反应在自相关系数的变化上.自相关系数的计算如下:
(3) |
其中, n为采样点个数, h为计算自相关系数时波形时间差, η为全部波形数据的均值.鉴于非天然震动事件震级一般不会大于4级, 且P波衰减时间一般在5 s左右, 所以本文选择用当前波形数据与5 s前的波形数据做自相关, 希望通过P波衰减的速度反映出二者的差异, 从而实现事件性质判断的目标.使用三分向地震数据, 分别求出三个分向的自相关系数, 然后将三分向的自相关系数计算结果求和, 作为参与判定的特征值之一.计算后得到的自相关系数结果的取值及其所占百分比如图 5所示.
由图 5可知, 天然地震和非天然震动的自相关系数取值主要集中在[-2, 3]范围内.当自相关系数取值在-2至1.34范围内时, 本次事件为天然地震的概率较大, 当自相关系数取值在1.34至3范围内时, 为非天然震动事件的概率较大, 且非天然地震事件的自相关系数取值主要集中在1.34至3区间内.
3.4 波形复杂度和自相关系数的比值(Z)波形复杂度、频谱和自相关系数分别代表了地震波形事件的某种特性, 为了提高模型识别准确率, 综合考虑波形复杂度和自相关系数, 对同一事件的波形复杂度和自相关系数求比值, 即综合比=波形复杂度/自相关系数, 从而得到综合比计算公式如下:
(4) |
计算后综合比值的结果分布和不同综合比取值所占百分比分布如图 6所示.
由图 6可知, 综合比的取值在[-1, 3]区间内.当综合比的取值在-1至0.64区间范围内时, 本次事件为天然震动的概率较大; 当综合比的取值大于0.64时, 为天然地震事件的概率较大.且非天然震动事件的综合比取值主要分布在0.64至3区间.
4 事件性质判断对于每次震动事件, 首先计算出所选择震中距范围内所有符合规则台站的相关特征值, 再送入模型中进行分类识别.结果判断时, 采用少数服从多数的原则, 以多数台站的分类预测结果为本次震动事件的最终类型判断结果.当预测结果为1和-1的台站个数相同时, 以震中距最近台站的投票判定结果为准.
5 实验及分析在Windows操作系统下, 采用Python 3.6作为开发环境.分类模型用来识别区分天然地震事件还是非天然震动事件, 也就是将模型的输出设为两类, 其中输出为1代表是天然地震事件, 输出为-1代表是非天然震动事件.由上述分析, 本文基于决策树集成的地震事件识别流程如图 7所示.
图 7是基于本文设计实现的一种地震事件识别过程, 数据处理模块对数据进行预处理及特征提取, 形成输入向量.在此基础上通过Bootstrap采样得到训练子集并形成基分类器, 得到集成识别模型, 在测试时采用多数投票方法对数据进行预测并输出.
基分类器的个数是对Bagging集成模型影响最大的参数, 理论上, 数据量越大, 集成的基分类器个数应适当增加(Melkl et al., 2018).本文设计了5个对比实验, 分别选取10、60、100、150、200个基分类器进行训练.并分别使用准确率(Accuracy)和召回率(Recall)两个度量值, 用来评价结果的质量, 一般来说:准确率=提取出的正确信息条数/提取出的信息条数, 召回率=提取出的正确信息条数/样本中的信息条数.测试结果如图 8所示.
由图 8可知, 不同基分类器个数的模型准确率均大于85%, 说明Bagging集成学习算法可以很好地对地震事件性质进行分类.同时, 随着基分类器的不断增加, 准确率和召回率均呈现不断上升的趋势, 且在基分类器的个数为200个时, 准确率和召回率均达到最高, 为86.62%.因此本文选择200个决策树为基分类器的Bagging集成模型.
为验证本文集成学习模型的识别能力, 利用200个基分类器的集成学习模型与支持向量机(SVM)和决策树(Decision Tree)进行非集成学习模型实验对比.实验数据如表 4所示.
表 4中数据表明, 这两种方法的准确率和召回率均小于本文所用模型, 这是由于集成学习的主要思想是对新的实例进行分类的时候, 把若干个单个分类器集成起来, 通过对多个分类器的分类结果进行某种组合来决定最终的分类, 而这种方法在一定程度上可以提高模型的准确率和训练速度.从数据分析看, 决策树模型的准确率和召回率要稍高于支持向量机模型, 这是由于决策树具有在相对短的时间内能够对数据做出可行且效果良好的结果且对缺失值不敏感的特性.
为验证训练模型的准确率, 我们从2012—2015年和2017年1—7月间中国地震台网记录到的1058次震动事件(含4887条台站纪录)中除去训练集部分, 然后随机抽取天然地震事件272次(含785条台站波形), 非天然震动事件326次(含437条台站波形), 送入训练好的系统中进行自动分类, 识别准确率为86.62%.具体事件识别结果如表 5所示(训练集事件分布见图 1).
表 5数据表明, 本方法对内蒙、江苏、西藏、吉林、广东、重庆、贵州、黑龙江地区识别准确率小于85%, 效果还需加强, 这可能是由于受到不同区域地质构造不同、地下速度结构不同、台站分布密度不同, 随机抽取到的事件类型不同等因素影响而导致的.除此之外, 其余地区的识别准确率均大于85%, 能够较为准确的对天然地震和非天然震动事件进行区分.
6 结论本文使用Bagging采样策略, 以决策树为基分类器, 运用多数投票方法进行集成学习, 在地震事件数据集上仿真实验的结果证明该方案是可行有效的.从实验和地震事件识别分析可知, 该方法具有以下特点:一是通过Bagging采样策略, 形成不同的训练子集, 可以在一定程度上缓解样本不足的问题.二是将决策树算法集成到一起, 可以缓解单个分类器过拟合的问题.三是通过与非集成实验对比可知, Bagging集成学习算法具有更快的训练速度和较好的稳定性.该方法可用于对地震事件类型进行初步的识别区分, 形成实用的技术系统, 实现对天然地震和非天然震动事件的准实时判定, 从而实现震动事件类型的快速和准确判定; 还可以在此基础上, 进一步将非天然震动事件进行分类, 确认其具体事件性质(爆破、塌陷、滑坡等).
未来可在此系统基础上, 形成相对准确的中国地震台网统一地震目录和中国地震台网非天然震动事件目录, 为后续的科研和紧急事件处理提供有效服务.
Allen R V. 1978. Automatic earthquake recognition and timing from single traces. Bulletin of the Seismological Society of America, 68(5): 1521-1532. |
Allen R V. 1982. Automatic phase pickers:their present use and future prospects. Bulletin of the Seismological Society of America, 72(6B): S225-S242. |
Baer M, Kradolfer U. 1987. An automatic phase picker for local and teleseismic events. Bulletin of the Seismological Society of America, 77(4): 1437-1445. |
Bai C, Huang L, Pan X, et al. 2018. Optimization of deep convolutional neural network for large scale image retrieval. Neurocomputing, 303: 60-67. DOI:10.1016/j.neucom.2018.04.034 |
Bayar B, Stamm M C. 2018. Constrained convolutional neural networks:a new approach towards general purpose image manipulation detection. IEEE Transactions on Information Forensics and Security, 13(11): 2691-2706. DOI:10.1109/TIFS.2018.2825953 |
Bi M X, Huang H M, Bian Y J, et al. 2011. A study on seismic signal HHT features extraction and SVM recognition of earthquake and explosion. Progress in Geophysics (in Chinese), 26(4): 1157-1164. DOI:10.3969/j.issn.1004-2903.2011.04.004 |
Bian Y J. 2002. Application of genetic BP network to discriminating earthquakes and explosions. Acta Seismologica Sinica (in Chinese), 24(5): 516-524. |
Breiman L. 1996. Bagging predictors. Machine Learning, 24(2): 123-140. |
Freund Y, Schapire R E.1996.Experiments with a new boosting algorithm.//Proceedings of the 13th International Conference on Machine Learning.Bari, Italy: Morgan Kaufmann Publishers Inc., 148-156.
|
Giudicepietro F, Esposito A M, Ricciolino P. 2017. Fast discrimination of local earthquakes using a neural approach. Seismological Research Letters, 88(4): 1089-1096. DOI:10.1785/0220160222 |
Han S Q, Song Z B, Wu H J. 2011. The application of improved algorithms of P-wave complexity in nuclear explosion monitoring. Journal of Vibration and Shock (in Chinese), 30(2): 205-209. |
He X S, Li S Y, Shen P, et al. 2006. A wavelet packet approach to wave classification of earthquakes and mining shocks. Earthquake Research in China (in Chinese), 22(4): 425-434. |
Huang H M, Bian Y J, Lu S J, et al. 2010. A wavelet feature research on seismic waveforms of earthquakes and explosions. Acta Seismologica Sinica (in Chinese), 32(3): 270-276. |
Kang Y, Chen L F, Lin W, et al. 2001. Identification of earthquake and blasting in Xinfengjiang. South China Journal of Seismology (in Chinese), 21(S1): 40-46. |
Liu H, Zhang J Z. 2014. STA/LTA algorithm analysis and improvement of Microseismic signal automatic detection. Progress in Geophysics (in Chinese), 29(4): 1708-1714. DOI:10.6038/pg20140429 |
Liu X Q, Shen P, Zhang L, et al. 2003. Using method of energy linearity in wavelet transform to distinguish explosion or collapse from nature earthquake. Northwestern Seismological Journal (in Chinese), 25(3): 204-209. |
Long F, Ruan X. 2017. Challenges and research prospects of induced earthquakes. Recent Developments in World Seismology (in Chinese), (5): 11-15. |
Maeda N. 1985. A method for reading and checking phase time in auto-processing system of seismic wave data. Zisin, 38(3): 365-379. DOI:10.4294/zisin1948.38.3_365 |
Melkl G, Cano A, Ventura S. 2018. MIRSVM:Multi-instance support vector machine with bag representatives. Pattern Recognition, 79: 228-241. DOI:10.1016/j.patcog.2018.02.007 |
Perol T, Gharbl M, Denolle M. 2018. Convolutional neural network for earthquake detection and location. Science Advances, 4(2): e1700578. DOI:10.1126/sciadv.1700578 |
Pham B T, Bul D T, Dholakla M B, et al. 2016. A novel ensemble classifier of rotation forest and Naive Bayer for landslide susceptibility assessment at the Luc Yen district, Yen Bai Province (Viet Nam) using GIS. Geomatics, Natural Hazards & Risk, 8(2): 649-671. |
Taylor S R. 2011. Statistical discriminants from two-dimensional grids of regional P/S spectral ratios. Bulletin of the Seismological Society of America, 101(4): 1584-1589. DOI:10.1785/0120100123 |
Wang T T, Bian Y J. 2011. Criterion selection of earthquake and explosion recognition. Seismological and Geomagnetic Observation and Research (in Chinese), 32(6): 62-67. |
Yang X H, Shen P, Liu X Q, et al. 2005. Application of method of spectral component ratio of wavelet-packets to discrimination between earthquakes and nuclear explosions. Chinese Journal of Geophysics (in Chinese), 48(1): 148-156. |
Zeng R S, Ding Z F, Wu Q J, et al. 2000. Seismological evidences for the multiple incomplete crustal subductions in Himalaya and southern Tibet. Chinese Journal of Geophysics (in Chinese), 43(6): 780-797. |
毕明霞, 黄汉明, 边银菊, 等. 2011. 天然地震与人工爆破波形信号HHT特征提取和SVM识别研究. 地球物理学进展, 26(4): 1157-1164. DOI:10.3969/j.issn.1004-2903.2011.04.004 |
边银菊. 2002. 遗传BP网络在地震和爆破识别中的应用. 地震学报, 24(5): 516-524. DOI:10.3321/j.issn:0253-3782.2002.05.009 |
韩绍卿, 宋仔标, 伍海军. 2011. 改进的波形复杂度算法在核爆炸监测中的应用. 振动与冲击, 30(2): 205-209. DOI:10.3969/j.issn.1000-3835.2011.02.041 |
和雪松, 李世愚, 沈萍, 等. 2006. 用小波包识别地震和矿震. 中国地震, 22(4): 425-434. DOI:10.3969/j.issn.1001-4683.2006.04.010 |
黄汉明, 边银菊, 卢世军, 等. 2010. 天然地震与人工爆破的波形小波特征研究. 地震学报, 32(3): 270-276. DOI:10.3969/j.issn.0253-3782.2010.03.002 |
康英, 陈丽芬, 林伟, 等. 2001. 新丰江地震与爆破的识别. 华南地震, 21(增刊): 40-46. |
刘晗, 张建中. 2014. 微震信号自动检测的STA/LTA算法及其改进分析. 地球物理学进展, 29(4): 1708-1714. DOI:10.6038/pg20140429 |
刘希强, 沈萍, 张玲, 等. 2003. 用小波变换能量线性度方法识别天然地震与爆破或塌方. 西北地震学报, 25(3): 204-209. DOI:10.3969/j.issn.1000-0844.2003.03.003 |
龙锋, 阮祥. 2017. 诱发地震带来的挑战及研究前景. 国际地震动态, (5): 11-15. DOI:10.3969/j.issn.0253-4975.2017.05.002 |
王婷婷, 边银菊. 2011. 识别天然地震和人工爆破的判据选择. 地震地磁观测, 32(6): 62-67. DOI:10.3969/j.issn.1003-3246.2011.06.012 |
杨选辉, 沈萍, 刘希强, 等. 2005. 地震与核爆识别的小波包分量比方法. 地球物理学报, 48(1): 148-156. DOI:10.3321/j.issn:0001-5733.2005.01.020 |
曾融生, 丁志峰, 吴庆举, 等. 2000. 喜马拉雅及南藏的地壳俯冲带—地震学证据. 地球物理学报, 43(6): 780-797. DOI:10.3321/j.issn:0001-5733.2000.06.007 |