2. 中国地震应急搜救中心, 北京市玉泉西路1号,100049
根据我国跨断层测量规范[1],复测周期允许有1个月、2个月、3个月、4个月、6个月、12个月等多种情况。复测周期还需保持等间隔、同月份观测,复测日期可在其1/6周期时间内变动,视震情等需要还可以加密或改变复测周期。对于首都圈跨断层测量的复测周期,7/8为1个月,1/8为2个月[2]。若甲测项复测周期为1个月,乙测项复测周期为2个月,在比较甲、乙两测项的相对变化时,由于复测周期不同,两者的数据在匹配时变成不等间隔,这种变化来源于空间因素。又若甲、乙两测项复测周期相同,复测周期内观测月份不同,按月为单位计算时,它们不同步。如观测了数10 a的某测项,中间改变过复测周期,或出现过补测、地震前后加密、室外测点破坏缺数等情况,都会造成观测数据在时间上不等间隔。按规范要求,复测周期乘以(1±0.17)为检测限,检查有30 a以上观测历史的水准、基线数据,100%落入检测限内的不足20%,大部分数据为不等间隔。由此可见,无论在空间上还是时间上,跨断层测量的观测数据整体上视为不等间隔数据更为合理。对于等间隔数据,可使用现有软件[3-5]进行处理;对不等间隔数据,一般先采用某种预处理算法,使之成为等间隔数据,再进行复杂的后续计算[6]。
在跨断层测量的数据处理中,除了把原始数据预处理成等间隔数据后再进行计算,更为常用的是尽可能直接使用不等间隔数据进行计算,输出结果尽可能也是不等间隔数据,由此会产生一系列新问题。如计算2个时间序列的相关系数,必须先进行数据配对(等间隔的2组数据计算时只要按顺序配对就能算得结果,不用事先检验每对数据是否同步)。在2个不等间隔的时间序列中,起止时间相同,时间间隔不等,数据配对的时间同步需要检验,检验的标准需要事先确定。如测项1的复测周期是1个月,测项2的复测周期是4个月,观测时间用年-月-日表示,如把年-月-日相等作为同步条件,由于规范允许复测日期可在1/6复测周期内变动,配对结果使大量数据被舍弃,显然不合理,设定测值配对的时间同步域成为必需的条件。本例中,同步域选1个月、2个月、3个月、4个月都是合理的,至于哪个最佳,还需要分析各自数据特点及用户对数据可信程度的把握,期望在运算过程中舍去的数据最少、数据对在时间上的分布相对均匀、计算得到的相关系数最接近实际。由此可见,同步域设定不同,选取的数据不同,算得的相关系数也不同。本文通过合理的约定,对不等间隔数据作必要的匹配处理,满足各种算法的要求。
1 几个常用约定在跨断层测量的数据处理中,算法不同,对数据的要求也不同。现就一些常用的约定分述如下。
1) 时间算法约定。在地震监测中,滑动算法是一种常用的算法,跨断层测量的观测日期用年-月-日表示,窗长、步长用月表示。由于年长、月长的不均匀性,时间计算存在以月为单位、以日为单位、以复测周期为单位、以日历年-月-日表示、均匀等多种算法,它们都是合理的,但适用范围不完全相同,不同的时间算法计算结果存在差异。如采用年长等于365.24 d的均匀算法,则月长、窗长、步长等均为小数,日期取整时存在舍入误差,使计算得到的时间段长度不完全相同。这种现象也存在于以月为单位的各种算法中,即实际算得的年长、月长、窗长、步长都不会严格相等。均匀算法简单、误差小、科学性强,虽有悖于日常习惯,但效果较好。选定时间算法是一种约定,无特别声明,同一个软件系统中应使用一种算法,混合使用将会降低结果的可比性。
2) 同步域约定。同步域是一个时间区域,根据数据特征、算法要求、用户经验等人为设定。同步域内的所有测值被视为同步,如某测项在1月份施测2次,同步域设定为1个月,这2次观测视为同步。在进行去年变、相关系数、差分、速率、应变、断层活动量等计算时,都需要数据匹配,时间同步通常是数据匹配的基本要求。如2个测项的相关系数计算时,测项1第1个数的观测日期为ta1、测值为a1,测项2第i个数为(tbi,bi),遍历测项2所有测值,当绝对值│ta1- tbi│小于等于同步域时,则同步配得;若i不存在,则为失配。显然,同步域的确定与复测周期有关,对测项1的数据进行统计,每个月观测1次比例占17%,每2个月观测1次的比例占80%,则测项1最可能的复测周期是2个月。同样可统计得出,测项2的最可能复测周期是3个月。这时,同步域大小有3种选择——2个月、3个月或其他。同步域选定后,同步域内数据配对存在失配、唯一、多对3种情况,多对的情况时,还需要根据算法、信度等要求选择最佳方法,期望得到最佳配对。
3) 主从约定。去年变、速率、应变、断层活动量等计算中,都存在减法的运算,被减数为“主”,减数为“从”。被减数所在的同步域称主同步域,减数所在的同步域称从同步域。在相关系数的计算中,理论上没有主次之分,即测项1和测项2是平等的。假设测项1在同步域内有2个数,测项2在同步域内有6个数,若测值时间最接近配对,可配得1对,舍弃6个观测值;数据的序号配对,得2对,舍弃4个数;测项1为主,测项2为从,配得2对,舍弃4个数;各测项同步域内的平均值,可配成1对;测项2为主,测项1为从,配得6对,无舍弃数。若以尽可能多地使用观测数据为前提,最后一种配对法效果最佳。可见,在不等间隔数据处理中,没有主从关系的算法,也可以通过设定主从关系,达到最佳匹配的目的。
4) 可比性约定。计算结果数据之间如果没有可比性,其结果无意义。跨断层测量的数据可简化为日期、测值2列,对测值作差分运算,即后一个测值减前一个测值,可得测值差分的时间序列。设想一种极端情况,同测项的2个测值差等于10 mm,它们的观测时间差为1 d,则可能发生了地震;同测项的2个测值差等于10 mm,测值的时间差为10 a,则属于正常变化。因此,单纯考虑测值差、不考虑测值之间的时间差,这类比较在理论上没有意义,即不满足可比性要求。测值差在跨断层测量计算中经常用到,有些计算公式还含有差分因子,在求解有关差值的时间序列时,要考虑它们的时间差是否相同,即是否满足可比性条件。速率计算的分母为时间差,分子为测值差,速率的时间序列是可比的。因此尽量用速率代替差分,不能代替时,要评估不等间隔造成的影响,当不等间隔数据的时间离散度小时,可以进行差分运算,否则进行必要的预处理。当然适当减小同步域,能使离散度变小,同时也会使舍弃测值的数量增多。
2 不等间隔数据匹配实例下文数据匹配的实例中,把合理、最佳作为目标,尽可能多地直接利用不等间隔数据作为条件,不叙述对某测项的原始数据、突跳检验、平移、排除干扰等数据处理过程。
1) 消趋势。当时间序列变化趋势为线性时,测值的时间序列可用线性回归得到的拟合值和残差值来完成消趋势计算。当趋势可用其他形式函数拟合时,计算过程类似。对于这类不等间隔数据的算法,数据的配对是测值和测值本身的时间,所有输入数据都能被应用,输出结果也是不等间隔数据。图 1(a)是线性消趋势示意图,实心圈为主测值(被减数,输入值),空心圈为从测值(减数,拟合值),空心圈的折线为拟合线(为突出数据配对特点,图中未画X、Y轴)。
2) 去年变(距平法)。去年变与消趋势类似,先用同步域将年分段,后用距平法去年变,输出结果也是不等间隔数据。如给定数据中3个月复测周期者占70%,可设同步域为3个月,计算时间序列中每个季度所有测值的平均值,用这4个季度的平均值表示平均年变。距平计算中,测值系列为“主”、平均年变值为“从”,同步域内配对相减,完成去年变的计算,本算法所有输入数据均被应用。图 1(b)是距平去年变示意图(未画X、Y轴),实心圈为实测值,空心圈为拟合值,连续4个拟合值为1 a,按年度周期循环,空心圈的折线为平均年变曲线。
3) 相关系数。相关系数计算上文已有叙述,图 1(c)中列出同步域中测值的多种配对方式,还可举出更多的配对方式,只要有需要、有道理,都可以认为是合理的。图 1(c)中,测项1、测项2都可视为等间隔复测,但在同一个同步域中,测项1复测2次,测项2复测6次,相关系数计算时需作为不等间隔数据对待。理论上2组数据计算相关系数没有主从要求,为了使更多的输入数据被直接应用,人为定义测项2为主测项,得图 1(c5)为最佳选择。选择数据量较多的作为主测项,舍弃的测值少,能获得较多的试算次数。
4) 单测项速率(或差分)计算。单测项速率计算是跨断层测量数据处理使用频率很高的一种基本算法,速率、累积强度等计算均为单测项计算。速率计算的被减数所在的同步域为主同步域,减数所在的同步域为从同步域,主、从同步域等宽,两者中心值的时间差Δ由用户设定(如求年速率,Δ等于12个月)。单测项计算速率时,选择测值时间为主同步域的中心值,从同步域中无数时为失配;有数时,计算从同步域中各测值时间与主同步域中心值的差,取最接近Δ者配对(图 1(d1)无数;图 1(d2)唯一;图 1(d3)多数,取与Δ近者配对)。单测项计算速率时,选择较宽的同步域,适配的机会多,舍弃的数据较少。
5) 多测项速率(或差分)计算。断层活动量、应变、合成等为多测项计算,多测项速率计算首先需确定主同步域。主同步域一般应符合以下几个条件:①可以选择数据最多的测项为主测项,按序遍历所有测值,主测值时间为结果的输出时间,主同步域内其他测项为从测项;②主同步域内所有测值之间的时间差均应小于等于同步域;③某从测项在主同步域内有2个或2个以上测值可选时,应选择最接近主测值时间的测值;④某从测项无测值可匹配,视算法需要选择取舍、继续或退出。多测项速率计算的从同步域确定如图 1(e)所示,由主同步域中各测值自行计算,方法同上述单测项速率计算,各测项的从同步域在时间上不重合。
3 结语一般而言,将跨断层测量数据视为不等间隔数据更为合理,数据处理时,应直接使用不等间隔数据进行计算。本文结合一些算法要求、数据特点、实践经验,采用约定方式试图解决数据匹配中遇到的一些新问题。初步认为:1)跨断层测量的测值时间用年-月-日表示,窗长、步长等参数用月表示;用不同的时间计算方法选取数据也会不同,计算结果不同,无特别声明,同一个软件约定使用同一种算法。2)同步域是数据匹配的基本限制。同步域内所有数据的时间属性不要求相等,只是视为同步,同步域外的数据和同步域内数据不同步。同步域是由算法、数据特点、实践经验确定的时间区域。3)对于主从关系,速率计算中被减数为“主”,减数为“从”。主从关系不仅能用于减法运算,也适用于多测项计算中同步域的确定。为了满足直接使用不等间隔数据的要求,在没有主从关系的相关系数等计算中,选择可信度高、数据个数多的测项作为主测项,能配得更多的数据对。4)时间序列的差分计算在等间隔数据处理中可比,在不等间隔数据处理中理论上不可比。计算时尽可能用速率替代差分,不能替代时,需对不等间隔数据的时间离散度进行评估,确定是否需要预处理。
本文的设计已由跨断层测量数据处理软件实现。为了能更多地直接使用不等间隔数据,把数据个数多的测项作为主测项;但研究时间序列的正常变化,则应把每个复测周期只观测1次的测项作为主测项。同步域的加宽能得到更多的匹配机会,也会造成不等间隔数据的时间离散度增加、可比性下降。不同的时间算法适用范围不同,选择的数据也不同。均匀算法科学,不通俗;日历年-月-日算法通俗,不能保证匹配时间最接近,这些矛盾需要在实践中权衡。
[1] |
国家地震局.跨断层测量规范[S].北京: 地震出版社, 1991 (State Seismological Bureau. Cross-Fault Measurement Standard[S].Beijing: Seismological Press, 1991)
(0) |
[2] |
陆明勇, 刘天海, 黄宝森, 等. 跨断层流动形变监测环境及监测技术探讨[J]. 大地测量与地球动力学, 2011, 31(5): 141-145 (Lu Mingyong, Liu Tianhai, Huang Baosen, et al. Discussion of Environment and Monitoring Technology for Cross-Fault Mobile Deformation Monitoring[J]. Journal of Geodesy and Geodynamics, 2011, 31(5): 141-145)
(0) |
[3] |
国家地震局软件技术组. 中国地震分析预报软件系统[M]. 北京: 地震出版社, 1994 (Software Technology Group, State Seismological Bureau. The Software System for Earthquake Prediction in China[M]. Beijing: Seismological Press, 1994)
(0) |
[4] |
蒋骏, 李胜乐, 张雁滨, 等. 地震前兆信息处理与软件系统[M]. 北京: 地震出版社, 2000 (Jiang Jun, Li Shengle, Zhang Yanbin, et al. Earthquake Precursor Information Processing and Software System[M]. Beijing: Seismological Press, 2000)
(0) |
[5] |
陆远忠, 李胜乐, 邓志辉, 等. 基于GIS的地震分析预报系统[M]. 成都: 成都地图出版社, 2002 (Lu Yuanzhong, Li Shengle, Deng Zhihui, et al. GIS-Based Seismic Analysis and Forecasting System[M]. Chengdu: Chengdu Cartographic Publishing House, 2002)
(0) |
[6] |
徐士良. C常用算法程序集[M]. 北京: 清华大学出版社, 1994 (Xu Shiliang. C Common Algorithms Assembly[M]. Beijing: Tsinghua University Press, 1994)
(0) |
2. National Earthquake Response Support Service, 1 West-Yuquan Road, Beijing 100049, China