地球物理学报  2017, Vol. 60 Issue (12): 4623-4632   PDF    
形变观测数据的多异常形态统一识别
杨德贺1, 袁静2, 王秀英1 , 申旭辉1, 滕海涛3, 李文静1, 谭巧1, 卫清1     
1. 中国地震局地壳应力研究所(地壳动力学重点实验室), 北京 100085;
2. 防灾科技学院, 河北三河 065201;
3. 中国地震局新疆维吾尔自治区地震局, 乌鲁木齐 830011
摘要:地震前兆数据中的形变观测数据变化复杂,地球物理场变化和环境干扰等信息识别与剔除是与地震相关现象分析的关键.传统的信号识别主要采用回归分析、经验模态分解、频域信号分解等方法,但它们难以统一识别高幅值变化(尖峰、阶跃)与高频变化波形.本文利用信息熵参与形变时序数据的自动化分段构造子序列,一定程度上避免了这两种波形被分割的弊端,然后以统计描述方式表达子序列,最后利用角度异常因子(Angle-Based Outlier Factor,ABOF)和局部异常因子(Local Outlier Factor,LOF)构建对数函数定义离群点,以解决统一识别高幅度变化与高频率变化的问题.实验表明,对于特征向量维度变化的情况,LOF-ABOF算法的计算效率呈线性变化关系;在特征表达策略改变的情况下,该算法对高幅值变化和高频变化的异常识别效果良好.本文所提供方法可以检测出高幅值变化与高频率变化的异常形态,为地震前兆数据中形变观测数据"前兆信号"的识别提供指导与参考,为深入认识地震现象及其产生机理奠定基础.
关键词: 形变观测数据      高幅值变化      高频变化      信息熵      角度异常因子      局部异常因子     
Identification of multi-anomalies of precursory deformation data
YANG De-He1, YUAN Jing2, WANG Xiu-Ying1, SHEN Xu-Hui1, TENG Hai-Tao3, LI Wen-Jing1, TAN Qiao1, WEI Qing1     
1. Key Laboratory of Crustal Dynamics, Institute of Crustal Dynamics, China Earthquake Administration, Beijing 100085, China;
2. Institute of Disaster Prevention Science and Technology, Hebei Sanhe 065201, China;
3. Earthquake Administration of Xinjiang Uygur Autonomous Region, Vrümqi 830011, China
Abstract: Seismic precursory data are generally very complicated. Thus identification of geophysical field changes and elimination of ambient noise is crucial to analysis of the phenomenon associated with earthquakes. Traditional methods, including regression analysis, empirical mode decomposition and signal frequency domain analysis, are not feasible to recognize the changes of high amplitude (peaks and steps) and frequency simultaneously. In this study, the entropy of time series was used to automatically segment deformation time-series data into subsequences, partly avoiding the dissection of waveforms with high amplitude and frequency. Then the subsequences were featured by statistics, and outliers log function through Angle-Based Outlier Factor and Local Density Outlier Factor were defined to solve the problem of recognition of those waveforms. Experimental results show that there is a linear relationship between the efficiency of the algorithm and the changes of feature dimensions. When the dimension of feature changes, the LOF-ABOF algorithm takes effect on the recognition of high amplitude and high frequency. Our method can be used to detect the types of anomalies, which provide the guideline for precursor recognition and lay a foundation for further understanding seismic phenomena and their mechanism.
Key words: Precursory deformation data    High amplitude changes    High frequency changes    Entropy    Angle outlier factor    Local outlier factor    
1 引言

地球物理、地球化学观测传感器,可连续观测地球及环境的变化,并形成前兆观测时序数据,其可应用到地震监测预报及相关地球科学的研究中.现有地形变观测数据中地震前兆等异常的识别是地震前兆研究的关键.形变观测到的地震前兆包含由孕震到破裂过程中地壳介质产生形变、应变等力学特性变化的信息.近年来,对于地震前兆及破裂的研究,不仅体现在重力卫星、GPS及地面电磁等观测数据的应用上(Zhou et al., 2014王桥和黄清华,2016),还体现在地下形变观测数据应用方面.目前,地形变观测包括重力、地倾斜、应力-应变、断层形变与区域形变等方面.在监测预报实践中,可以发现应变、倾斜观测所体现的异常特征(牛安福等,2011李杰等,2007),如高频扰动、短时突跳、趋势转折等,以及倾斜仪及应变仪对地震响应的特性(张创军等,2012).基于形变数据表现出的以上特点,我们将其作为本文研究对象.

形变观测数据中的前兆异常主要表现为趋势异常和高频异常.对于这两种异常的识别,可以利用经验模态分解(Empirical Mode Decomposition,EMD)将数据分为趋势项与IMF(Intrinsic Mode Function,IMF)分量,其中IMF分量代表不同时间尺度的细节信号,典型干扰信号就包含在IMF1分量中,实现信噪分离的目的(孙小龙等,2011),但是这种方法难以解决模态混叠难题(Huang et al., 2003).另外一种趋势和高频信息识别的方法,就是小波变换.利用小波变换可以分离趋势和细节,对细节进行短时傅里叶变换,得到高频信号的时频谱图(吕品姬等,2011),这里小波基函数、小波分层层数与傅里叶窗长都是细节分辨的关键点,然而由于数据中存在大量干扰因素,在实际监测预报工作中,这种方法的应用较不理想.此外,也可以利用多元线性回归分析剔除干扰因素影响,然后对消除干扰后的数据利用小波变换识别细节信息(崔青发等,2014),但是多元线性回归分析需要选择不存在干扰的模型初始值.以上研究,将信号转换到频率域,从细节角度去探测高频信号,然而并没有对高幅值变化与高频变化的差异性进行清晰描述、表达与区分,使得在一些复杂情况下难以从细节信息中发现时域中存在的这些变化.虽然前兆数据趋势性变化识别也很重要,但是这并不作为本文的讨论对象.

本文针对地倾斜与应力-应变观测数据,开展高幅变化与高频变化的异常识别研究.以上两种异常,可能包括由岩石破裂产生的波形,这些变化可能与地震引起的地球物理环境变化相关,因而统一识别这两种信号显得异常重要.由于高幅值变化异常远离类簇,这种情况较容易识别.事实上,高幅值变化(尖峰、阶跃)与高频变化的异常识别难点在于:高频变化异常可能处于类簇与高幅值变化点之间的区域,也可能处于类簇边沿,但又远离高幅值变化点;这就使得如果仅采用基于角度定义异常因子,就可能漏掉前者.如果仅采用局部密度定义异常因子,就又可能漏掉后者.因而,同时利用这两种异常因子,构建对数函数进行识别,可能会改善这种情况.

2 异常识别建模过程

在前兆经验分析和机理分析中,由于异常形态的多样性、复杂性,异常信息识别成为研究重点.为实现以上目的,就要从大量的观测数据中更全面地识别异常信息.然而,判断异常信息是否为前兆,还需要开展以下方面的工作:首先,从统计学角度,计算历史地震与异常之间的关系,以反映前兆群集的可能性,或者对照特定地震,计算波形的模型参数,发现可能存在的某些类型的前兆异常;其次,结合观测仪器、震源机制解与断裂等因素,从前兆的表现特征来区分“源兆”与“场兆”(张超和陈连旺,1997),进一步积累前兆的认知经验,以形成异常发生的机理性认识.

鉴于以上分析,如果建立前兆与地震之间的关系,就需要对前兆数据异常进行全面挖掘.因此,本文从多种异常形态统一识别方面展开研究:首先,利用信息熵自动化分段,构造子序列对象;然后,以均值、方差、高度、宽度、斜率正负变化次数作为对象的特征;最后,结合角度异常因子与局部密度异常因子,构建对数函数判别模型,统一识别高幅值变化与高频变化的异常形态.

2.1 时序分段

由于直接利用序列重要点进行分段,会将尖峰波形、高频变化波形的变化分离开,这种分段策略存在盲目性缺陷(周大镯和李敏强,2008).同时,如果利用信息熵寻找重要点(赵建秀等,2013),虽然避免了分段的无序性,但是当存在较长子序列时,此方法仍旧存在很多不确定性,且难以清晰直观地理解分段的意义(Hall, 1999).为改善这种情形,本文提出基于信息熵控制分段的思想,通过利用信息熵选择分段区域,对存在的区域范围进行基于垂直距离重要点的分段,可以较好地实现将尖峰、台阶、高频变化波形从原始时序数据中分离的目的.

图 1所示为时序信息熵计算过程:首先,对原始数据,计算前后点之间的差值(xi+1-xi),如果差值大于0,差值序列difference的对应位置i+1处值为1,反之则为0.其次,利用窗长为3和步长为1的滑动窗口进行滑动,得到窗内的二进制串binary code,并将其转换为十进制decimal code;最后,统计十进制编码的计数,就可以根据总计数统计每个编码所对应的概率.时间长度为L的Shannon熵如下:

图 1 符号序列编码统计 Fig. 1 Statistics of decoding for symbol sequences

(1)

式中,Ps1s2sL为长度L的十进制符号序列中每个编码所对应的概率.

公式(1)中的熵反映了时间序列数据随机分布的不确定性,可以利用这一点选择较大的熵值作为分段优先区域,以替换垂直距离计算中寻找最大距离的过程,其优势在于:一方面可以避免特征波形被分割的情形,另一方面减少了垂直距离计算中进行对比的时间复杂度.虽然以上替换增加了熵计算的时间复杂度,但是这一部分可以在程序设计中分开计算,本文暂不展开讨论整体时间复杂度的问题.

图 2所示为信息熵分段过程:首先, 对熵变值从大到小进行排序,获得前20%(这个比例阈值, 对于不同的数据需要进行调整, 使得子序列长度可以在一定范围内变化)的熵值,这些熵值点一般是周期变化或趋势变化点, 即波动性大且较为复杂的区域;然后,对这些熵值点进行直接分段;当可能处在某个范围时,就选择垂直距离最大的点进行分段;由于熵变的分段,减少了全局范围内数据波动变化的复杂性,因而得到每个子序列的变化程度相对较小.最后,就可以得到一个时间序列的分段子序列对象.

图 2 熵化垂直距离分段 Fig. 2 Vertical distance segment by using Shannon
2.2 对象特征表达

设计表达子序列对象的特征,以构造可用于计算距离测度的向量.为了更全面地描述特征对象,计算子序列5个维度的特征,其分别为均值M、方差D、高度H、宽度W、斜率正负变化次数PN,则(M, D, H, W, PN)为特征向量.例如,对以下四个子序列:L1=〈13.83, 14.34, 13.97, 13.93, 14.11, 13.64, 14.2, 13.74, 14.07, 14.04, 13.50〉, L2=〈12.61, 12.53, 13, 12.74, 12.44, 12.34〉, L3=〈12.23, 12.25, 12.25, 12.27, 12.27〉, L4=〈4.15, 4.03, 4.83, 4.39, 5.55, 4.49, 4.97, 4.33, 4.33〉进行特征表达, 以上子序列如图 3所示.

图 3 四种类型的分段对象 Fig. 3 Four kinds of segments

表 1所示为4个子序列的5个特征向量.其中,高度和宽度代表分段对象的二维度(垂直向和水平向)空间大小的信息,前者指点值的最大与最小之差,后者指点的个数;均值反映了数据的集中趋势,方差反映了数据的离散程度,斜率正负变化次数反映了数据的波动频次.当数据的空间大小及波动程度变化较大时,仅利用方差和斜率正负变化次数难以检测出尖峰(L2)与阶跃(L3),因此采用5个统计特征对数据的描述更加完备.对于特定分布的数据类别, 多个特征可能存在冗余的现象.针对国际上公开的标准数据集,可以采用特征选择的方式,计算模型误差得到最佳特征组合(Hall, 1999; Kohavi and John, 1997).也可以采用投影寻踪的方式,计算最佳投影方向,将数据高维度投影成1到3维度,使得数据类别具有可分性(Friedman and Tukey, 1974).然而,对于多种类、长时间序列地震前兆观测数据,利用我们的分段方法和特征表达方式计算,需要花费较大的时间代价,以验证不同的特征组合对类别区分的效果,且对于不同的应用也需要优选特征组合方式,这里就不再赘述.

表 1 四个对象的特征向量 Table 1 Feature vectors of four segments
2.3 双因子定义异常

从原始时间序列到分段后的子序列,再到子序列的5维度特征化表达,我们将时间序列表达为多维空间点集.如何计算点集内部对象之间的相似性才能达到点集中异常点识别的目的?传统异常识别的过程为:利用对象之间的客观相似度,即距离测度、相似测度、匹配测度等方法,通过衡量对象之间的相似程度,对相似的对象统计聚类;再利用类别特点,构造异常判别的准则.然而这很难对特定的异常形态(尖峰、阶跃、高频变化)定义异常的判别准则.因而,为统一识别多种类型的异常形态,我们利用双因子,构建对数函数定义异常,以达到更多地识别异常形态的目的.

图 4所示,对于a点无论是利用角度还是密度都很容易被检测为异常点,对于4个b点单纯利用密度可以检测为异常点,对于4个d点利用角度分布可以检测为异常点.然而,对于c点无论是只利用密度还是只利用角度,都比较难以检测为异常点,可是从整体角度来看,同时利用密度和角度却可能将c点及邻域点识别为异常.虽然这是二维度特征向量,对于高维度特征向量,需要进行降维才能可视化数据点潜在的分布情形;另外,对于一些高维度空间特征向量,我们基于二维或三维空间数据点分布特征,选择合适的数据点表征方法,也可反映数据点在高维空间的离群特性.

图 4 角度离群因子和局部密度离群因子 Fig. 4 Angle and local density outlier

对于高维度数据集合,可以利用点的角度分布检测异常点及边界点(Kriegel et al., 2008; Pham and Pagh, 2012).对于由时间序列构造出的高维度点集,这种角度分布虽然可以检测出部分边界点(朴昌浩等,2014),但仍旧有一些边界点难以被检测出.但是,未检测出的边界点却可能是我们所要识别的异常点.事实上,角度分布的计算复杂度较高,可以利用随机投影的策略提高时间效率(李桥等,2013).如图 4所示,对于异常点a,它的角度变化显著地小.类簇中心点o,它的角度差别显然很大.对于边界点d,与类簇中心点o相比,它们的角度变化较小.理论上,基于角的离群点就是结合距离和角度对离群点定义,即对于集合中的每一个点,采用距离加权的角度方差作为离群点评分.那么对于任意给定的点集P,对于其中的每个点pP,定义基于角度的离群点因子(Angle-Based Outlier Factor, ABOF)(Kriegel et al., 2008; Pham and Pagh, 2012)为

(2)

式(2)中,〈, 〉是点积操作,而dist(, )是标准距离.公式(2)表明,点离类簇越远,点的角度的方差越小,那么角度离群因子ABOF越小.

对于低维度数据集合,利用局部密度检测异常点,也可以检测出离簇比较远的点,以及一些边界点.理论上,局部异常因子基于这样一种想法,它利用局部密度检测异常,可以减小不同群组之间的密度差异的影响(Breunig et al., 2000).其实,它为每一个对象定义一个异常因子,以区分正常与异常.局部异常因子构造过程如下所示:

(3)

式中,p, qo是集合中的对象.k为正整数.MinPt为最小对象数,等价于k.d(p, q)表示pq之间的距离.k-distance(p)表示p和属于集合但不包括p的点o之间的距离d(p, o).o\p}表示o属于集合但是排除了p.Nk(p)表示对象pk距离邻居的数量,其值可能大于k.reach-distk(p, o)为k-distance(o)和d(p, o)之间的最大值.lrdMinPts(p)为对象p的局部可达密度.很明显,为避免局部密度值可能为∞,就要求数据中没有重复的点.LOFMinPts(p)就是p的局部异常因子.从公式(3)中不难发现,如果p的局部可达密度越低,并且p的MinPts最邻近的邻居局部可达密度越高,那么p的LOF值越大.

实际上,数据的分布类型是难以确定的,特别是当数据分布规律较复杂时,角度分布检测难以识别一些边界点c,而这些点很可能是局部密度相对较小的区域.而对于一些点c及邻域点,当检测数据的维度提升时,局部密度检测难以区分近邻与远邻,且维度大小对局部密度的影响也难以确定,也有学者将高维数据进行投影到低维子空间,构造有意义的子空间挖掘潜在的离群对象(张继福等,2015).然而,本文所定义的对象特征向量维度为5,相比其他文献所构造特征向量的维度较小,所以并不做子空间方面的分析.针对这些问题,本文尝试通过角度分布因子和局部异常因子,构建对数函数的综合异常指标判别模型,以识别这种潜在的边界点(也被称作异常点).对于这两个异常因子,如何定义可能的异常呢?角度分布因子越小,异常的可能性越大;局部异常因子越大,异常的可能性越大.根据(Breunig et al., 2000)文中对L取值的建议,结合我们的数据特点,发现局部因子L>2,高幅值和高频变化波形检测效果明显,而当L<2时检测出大量的非异常波形.因而我们提出定义综合异常判别模型:

(4)

式中,A为ABOF所代表的值,L为LOF所代表的值,True表示识别结果为异常,False表示识别结果为正常,undefined为待定的情况.公式(4)中存在undefined情况,说明特定情况下,仍旧存在一些异常很可能邻近正常区域,或者与正常点相似;对于这些点利用模型判断就比较困难,虽然这些点在应用认知上归于异常点.

3 实验分析 3.1 数据源及异常形态

本文所采用的数据源于地震前兆观测数据库,数据类型为形变类观测数据,采样时间为秒值;针对的异常形态主要是尖峰、阶跃和高频变化波形.其中,尖峰波形呈现出较大峰度,较厚尾度,这是相对于标准正态分布的概念而言的;标准正态分布的偏度为0,峰度为3.然而,实际数据中很多尖峰并不符合正态分布,它们更像尖峰厚尾,也就是峰度大于3,并且两边的尾巴比正态分布的厚,即下降的速度不如正态分布的快;实际上,尖峰波形可能是某些类型的地震之前的孤立波等波形(周聪和王庆良,2015),那么识别尖峰波形也显得非常有意义.阶跃波形可分为两种情况,一种是近似垂直阶跃,一种是渐变阶跃.垂直阶跃大部分情况可以在数据整体预处理阶段被消除,而渐变阶跃则一般难以被去除,并且渐变阶跃可能是某些类型的地震(慢地震)前的波形(王少江和殷志山,1989),所以检测渐变阶跃也显得较为重要.此外,高频变化波形主要受同震及余震的影响(陈佳维等, 2015, 2017),还有可能代表一些干扰因素,这两种情况需要根据观测环境进行落实区分.如图 5所示,曲线波形为某台站的钻孔形变观测数据,箭头所指为异常形态.

图 5 数据源 Fig. 5 Data sources
3.2 特征维度变化效率分析

为测试识别算法的精度和执行效率,对比了LOF,ABOF,和LOF-ABOF的识别精度.这里采用仿真数据集作为测试集,子序列段数为100,特征维度为5维,并且加入10%和子序列对象具有较大差异的异常子序列,定义识别精度为识别的异常数量除所有的异常数量,如图 6所示利用以上三个因子所得识别精度都为90%以上.

图 6 三个不同识别算法精度对比 Fig. 6 Precisions of LOF, ABOF, LOF-ABOF

由于双因子算法比单因子算法的时间复杂度高,测试了不同维度下双因子算法异常检测的效率变化情况,即测试双因子加权异常识别算法对特征维度的伸缩性.将子序列的维度分为1,2,3,4,5维(这里并不讨论维度的组合变化情况),发现执行时间随着维度增加呈现线性变化的特征,这表明识别算法对数据点的特征维数具有较好的伸缩性(图 7).

图 7 对特征维数的伸缩性 Fig. 7 Scaling of calculating time change with feature dimensionality
3.3 双异常因子分布情况

为了便于可视化不同分布下的双异常因子变化特点,我们构建了一个2维的仿真数据集合,如图 8a所示,它包含一个低密度(50个对象)和一个高密度(400个对象)的高斯分布(分别是蓝色点和绿色点),一个低密度(50个对象)和一个高密度(400个对象)的均匀分布(分别是黑色点和黄色点),并且加入了一些异常数据点(红色点),X轴和Y轴分别代表两个维度的值.

图 8 数据点集的双异常因子 Fig. 8 Data points' double outlier-factors

图 8b所示,我们绘制了所有对象的双因子值,X轴和Y轴分别代表两个维度的值,Z轴代表双异常因子值.很明显,可以看到对于均匀分布和高斯分布的类别区域,它们的双因子值都大于零.而对于异常点,虽然有一些异常点位于这些类别分布的附近,但是它们的双因子值都小于零,且明显地小于零.此外,从图 8b中可以发现双异常因子值依赖于点的密度、距离、角度等三个因素.

3.4 不同算法精度对比评价

实验中,在不同维度特征下测试了三种算法的精度.为验证不同算法的检测能力,设计异常数量为10个,并采用精确度和召回率对比图的方法,作为衡量算法优劣的标准.实际上,我们希望检测出所有的异常.召回率为已经检测到的异常占所有异常的百分比,对每一个结果,计算精确度和召回率,这样就可以在每新发现一个异常后,得到召回率的变化水平.对于每个召回率计算了精确度,将精确度定义为结果中真正异常数量的比例,即检测到的异常点在所返回的数据点中比例.对于不同维度,对比了LOF,ABOF,和LOF-ABOF的识别效果.

图 9是在不同维度(2维与5维)与不同数据点数(100和1000)下三种检测算法的精确度与召回率对比图.对于较低维度(2维),三个算法都难以发现所有的异常情况(图 9a图 9c).在图 9a中虽然LOF-ABOF算法优于LOF和ABOF算法,但是对于较大的召回率其精确度仍然较差.出现这种情况的原因主要有两点:一是在数据分布规律较复杂的情况下,维度相对较低会导致信息的不完备,二是LOF-ABOF模型较复杂导致了过拟合.在图 9c中,从三种算法对比的效果发现,LOF-ABOF算法的精确度也并不好.对于低维度的数据点,这三种算法的检测效果均不理想.对于5维数据点,LOF-ABOF算法达到了较为理想的效果,对于较少数据点的情况,此算法在检测到非异常之前,可以识别出4个异常;对于较大数据点的情况,LOF-ABOF算法在检测到非异常之前,仍可以识别出3个异常,略大于ABOF算法识别的2个异常.此外,还可以看出LOF算法在较小维度下变化情况,当维度升高时其并没有表现出较大的变化;可以这样认为,可能在更高的维度下,LOF才可能有较差的效果.同时发现,LOF和ABOF这两种算法也表现出了相似的性能.由此可见,对于5维数据点,LOF-ABOF算法的效果最好.

图 9 对于2维和5维数据点的精确度-召回率对比图 (a) 2维特征向量且100个数据点; (b) 5维特征向量且100个数据点; (c) 2维特征向量且1000个数据点; (d) 5维特征向量且1000个数据点. Fig. 9 Precision-Recall graphs on data for 2 and 5 dimensions (a) 2 dimensions and 100 data points; (b) 5 dimensions and 100 data points; (c) 2 dimensions and 1000 data points; (d) 5 dimensions and 1000 data points.
4 讨论

(1) 应用方向

为了对前兆观测数据获得更加全面的认识,就要从大量的观测数据中挖掘出更多的异常形态(尖峰、阶跃、高频变化),这些异常中包含由地震波引起的观测数据异常变化,也包含由岩石破裂导致的观测数据异常变化.对于地震前兆异常来说,存在“源兆”和“场兆”之分.“源兆”异常是震源在接近失稳和临界失稳过程中具有比区域场和其他断裂更为显著的状态增量,这种增量产生的物理效应使其附近台站出现前兆异常.“场兆”异常则是假设区域性力学作用在较长一段时间内导致的局部力学效应,异常的出现可能在更大程度上反映大范围区域场及伴生的多条断层的综合效应.这两种效应可能会在近震源和远震源的形变观测仪器上有所反映.通过对波形的识别与提取,一方面有助于增加对地震前兆异常与非地震前兆异常(干扰)的认识,另一方面可为孕震机理的深入分析提供更多数据支持.

(2) 数据特性

从提高前兆数据应用方面来说,一个重要方面就是应该通过研究前兆数据以确认仪器对环境变化的反映.由于多种类、长时间前兆数据存在大量的高幅值或高频率的异常形态,通过本文的识别方法去检测数据,尽管很多时候难以确认是否为确定性前兆信号,但是我们可以发现孕震、同震、震后波形信号或者其他未知信号,进而就可以发掘出前兆仪器对地震等系统性变化的反映性能.只有当这种应震性能存在的前提下,仪器才有可能观测到一些微弱的地震前兆信号,一方面验证了观测数据的质量,另一方面当异常出现时可为异常可信度提供判定依据.

(3) 挖掘方法

从海量的观测数据中挖掘地震前兆信息,首要需要解决的问题是设计出异常自动识别的方法.从异常评分的角度,前兆数据的序列分段、特征表达、异常指标都是非常重要的研究方向.实验中发现子序列的特征维度变化对计算效率的影响呈线性相关.对于数据的统计描述,后续可以考虑加入与分布有关的特征,比如峰度和偏度等.此外,子序列的潜在特征维度变化与子序列长度变化存在着关联,即特征维度是建立在子序列长度基础上.在自动分段过程中,数据窗口大小及步长的变化,对信息熵存在粒度级别变化的影响,进而影响子序列的长度.当对象的特征向量维度逐渐变大时,在异常与正常较难区分的情况下,这些正常对象和异常对象的综合异常因子值差异较大.而对于综合异常指标判别模型中未定义(undefined)的变化情况,特别是当数据变化情况较为复杂时,较难给出清晰明确的解释.

5 结论

本文构建了信息熵自动分段流程,设计了特征表达向量,利用双异常因子构建对数函数定义综合异常指标,实现了多异常类型的统一识别.一方面,发现维度变化对计算效率呈现线性影响关系.另外一方面,与单一因子的异常检测相比,本文提出的综合异常定义方法,提高了多异常统一识别的精度.利用大量的前兆数据,检测出尽可能多的潜在异常形态(尖峰、阶跃、高频变化),为今后研究与地震等有关系统性变化的关系奠定了基础.此外,若掌握观测环境或日志等信息,也可为探索前兆观测数据中可能存在的“前兆信号”提供新的认识与指导.

致谢

感谢中国地震局台网中心提供的前兆观测数据,感谢匿名审稿专家提出的评审意见,其对论文的逻辑性与完整性起到关键作用.

参考文献
Breunig M M, Kriegel H P, Ng R T, et al. 2000. LOF:identifying density-based local outliers.//Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. Dallas, Texas, USA:ACM, 93-104. https://dl.acm.org/citation.cfm?doid=335191.335388
Chen J W, Niu F L, Ning J Y. 2015. Anisotropy of the innermost inner core further constrained by Chinese data. Acta Scientiarum Naturalium Universitatis Pekinensis , 51(5): 843-849.
Chen J W, Cui X F, Hu X P. 2017. Middle-small earthquake relocation and tectonic characteristics of Tangshan and its adjacent area. North China Earthquake Sciences , 35(1): 1-9.
Cui Q F, Han X F, Zhang L, et al. 2014. Analysis of response of body strain in Xi'an Seismostation to Wenchuan earthquake. Journal of Geodesy and Geodynamics , 34(4): 96-101.
Friedman J H, Tukey J W. 1974. A projection pursuit algorithm for exploratory data analysis. IEEE Transactions on Computers, C-23(9): 881-890. DOI:10.1109/T-C.1974.224051
Hall M A. 1999. Correlation-based feature selection for machine learning[Ph. D]. Hamilton:The University of Waikato. https://www.researchgate.net/publication/2805648_Correlation-Based_Feature_Selection_for_Machine_Learning
Huang N E, Wu M L C, Long S R, et al. 2003. A confidence limit for the empirical mode decomposition and Hilbert spectral analysis. Proceedings of the Royal Society A:Mathematical, Physical and Engineering Sciences, 459(2037): 2317-2345. DOI:10.1098/rspa.2003.1123
Kohavi R, John G H. 1997. Wrappers for feature subset selection. Artificial Intelligence, 97(1-2): 273-324. DOI:10.1016/S0004-3702(97)00043-X
Kriegel H P, Hubert M S, Zimek A. 2008. Angle-based outlier detection in high-dimensional data.//Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Las Vegas, Nevada, USA:ACM, 444-452. http://dl.acm.org/citation.cfm?id=1401946
Li J, Li X L, Lu S L, et al. 2007. On characteristics of deformation anomalies at Taian station before Puyang ML4.6 earthquake. Journal of Geodesy and Geodynamics , 27(4): 100-104.
Li Q, Zhou Y L, Huang S, et al. 2013. Random projection algorithm for outlier mining technology research. Computer Engineering and Applications , 49(24): 122-129.
Lü P J, Zhao B, Chen Z Y, et al. 2011. Application of wavelet-decomposition and STFT method in continuous deformation observation analysis. Journal of Geodesy and Geodynamics , 31(5): 136-140.
Niu A F, Zhang L K, Yan W, et al. 2011. Borehole strain measurement and application to earthquake prediction in China. Journal of Geodesy and Geodynamics , 31(2): 48-52.
Pham N, Pagh R. 2012. A near-linear time approximation algorithm for angle-based outlier detection in high-dimensional data.//Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA:ACM, 877-885. http://dl.acm.org/citation.cfm?id=2339669
Pu C H, Huang Z, Su L, et al. 2014. High-dimensional data stream outlier detection algorithm based on angle distribution. Journal of Shanghai Jiaotong University , 48(5): 647-652.
Sun X L, Liu Y W, Yan R. 2011. Application of empirical mode decomposition method to groundwater data. Journal of Geodesy and Geodynamics , 31(2): 80-83.
Wang Q, Huang Q H. 2016. The spatio-temporal characteristics of geomagnetic induction vectors in North China. Chinese J. Geophys. (in Chinese), 59(1): 215-228. DOI:10.6038/cjg20160118
Wang S J, Yin Z S. 1989. Long period deformational waves and slow earthquake. Crustal Deformation and Earthquake(3): 1-10.
Zhang C J, Shao H C, Shi C W, et al. 2012. Study on coseismic response characteristics of digital deformation observation records at Qianling seismostation. Journal of Geodesy and Geodynamics , 32(6): 41-44.
Zhang J F, Li Y H, Qin X, et al. 2015. Related-subspace-based local outlier detection algorithm using MapReduce. Journal of Software , 26(5): 1079-1095.
Zhao J X, Wang H G, Shao Z Z, et al. 2013. Piecewise linear representation based on information entropy of time series. Application Research of Computers , 30(8): 2391-2394.
Zhou C, Wang Q L. 2015. One-dimension nonlinear and dispersive seismic wave modeling in solid media. Acta Phys. Sin. , 64: 239101.
Zhou D Z, Li M Q. 2008. Time series segmentation based on series importance point. Computer Engineering , 34(23): 14-16.
Zhou X, Cambiotti G, Sun W, et al. 2014. The coseismic slip distribution of a shallow subduction fault constrained by prior information:the example of 2011 Tohoku (MW9.0) megathrust earthquake. Geophys. J. Int., 199(2): 981-995. DOI:10.1093/gji/ggu310
陈佳维, 钮凤林, 宁杰远. 2015. 用中国资料进一步约束地球最内核的各向异性. 北京大学学报(自然科学版), 51(5): 843–849.
陈佳维, 崔效锋, 胡幸平. 2017. 唐山及周边地区中小地震重定位及其构造特征. 华北地震科学, 35(1): 1–9.
崔青发, 韩晓飞, 张璐, 等. 2014. 西安台体应变对汶川大地震的响应分析. 大地测量与地球动力学, 34(4): 96–101.
李杰, 李希亮, 卢双苓, 等. 2007. 濮阳ML4.6地震前泰安台形变异常特征分析. 大地测量与地球动力学, 27(4): 100–104.
李桥, 周莹莲, 黄胜, 等. 2013. 对随机投影算法的离群数据挖掘技术研究. 计算机工程与应用, 49(24): 122–129. DOI:10.3778/j.issn.1002-8331.1305-0442
吕品姬, 赵斌, 陈志遥, 等. 2011. 小波分解-STFT方法在地形变观测数据中的应用. 大地测量与地球动力学, 31(5): 136–140.
牛安福, 张凌空, 闫伟, 等. 2011. 中国钻孔应变观测能力及在地震预报中的应用. 大地测量与地球动力学, 31(2): 48–52.
朴昌浩, 黄质, 苏岭, 等. 2014. 基于角度分布的高维数据流异常点检测算法. 上海交通大学学报, 48(5): 647–652.
孙小龙, 刘耀炜, 晏锐. 2011. 经验模态分解法在地下水资料处理中的应用. 大地测量与地球动力学, 31(2): 80–83.
王桥, 黄清华. 2016. 华北地磁感应矢量时空特征分析. 地球物理学报, 59(1): 215–228. DOI:10.6038/cjg20160118
王少江, 殷志山. 1989. 长周期形变波与慢地震. 地壳形变与地震(3): 1–10.
张超, 陈连旺. 1997. 我国大陆断层现代形变与地震活动关系的研究. //地震短临预报的理论与方法——"八五"攻关三级课题论文集. 北京: 地震出版社.
张创军, 邵辉成, 史春伟, 等. 2012. 乾陵台数字形变资料同震响应特征研究. 大地测量与地球动力学, 32(6): 41–44.
张继福, 李永红, 秦啸, 等. 2015. 基于MapReduce与相关子空间的局部离群数据挖掘算法. 软件学报, 26(5): 1079–1095.
赵建秀, 王洪国, 邵增珍, 等. 2013. 一种基于信息熵的时间序列分段线性表示方法. 计算机应用研究, 30(8): 2391–2394.
周聪, 王庆良. 2015. 考虑频散效应的一维非线性地震波数值模拟. 物理学报, 64: 239101. DOI:10.7498/aps.64.239101
周大镯, 李敏强. 2008. 基于序列重要点的时间序列分割. 计算机工程, 34(23): 14–16.