地震前兆观测数据多是等间隔采样的,观测过程中如果受停电、仪器故障等影响会导致数据缺失。但对前兆数据进行统计分析时,往往要求数据序列必须是一个连续完整的数据集,不能包含缺失值。地下流体水位观测是地震前兆台网重要观测手段之一, 在前兆异常提取、地震预测研究、震情跟踪中发挥着重要作用。由于观测井条件和受干扰因素等不同,各种频率信息叠加使水位数据形态各异[1-2]。因此,研究不同缺值情况下典型水位的最佳插值法极为必要。
1 插值方法及水位数据 1.1 插值方法及评价标准本文选用5种常用的数据插值方法:最邻近插值法、线性插值法、三次多项式插值法、三次样条插值法和ARMA模型预测插值法。其中,ARMA模型预测插值法使用缺失值前360个数据的一阶差分作为建立ARMA模型的基础,通过确定模型阶数、估计模型参数和残差分析判定最佳的ARMA模型,利用模型预测数据作为插值结果[3-4]。本文利用插值与观测值的均方根误差RMSE的大小、变化情况来评估5种插值法对3种典型固体潮水位数据的插值效果。
1.2 水位数据筛选水位变化分为宏观动态和微观动态,对浅部承压含水层来说,宏观动态变化较明显;随着含水层埋深越来越深,微观动态增强[1-2]。本文根据水位变化特征,筛选出具有固体潮效应的9口观测井的3类典型水位数据,观测井信息见表 1,3类典型水位数据变化特征如下。
第1类数据趋势变化较大,固体潮被压制。该类观测井普遍受地下水开采和降雨径流补给影响,如张道口井、永清井和东三旗井。3口井水位最大月变幅分别为5.25 m、8.06 m和2.71 m,最大日变幅分别为0.44 m、0.40 m和0.25 m,表现为快速大幅上升或下降,有清晰固体潮,但被压制在趋势变化之下。
第2类数据趋势变化平稳,固体潮明显。该类观测井受开采和降雨影响小,如抚顺山龙峪井、沈家台井、上海大学井。3口井水位最大月变幅分别为0.56 m、0.25 m和0.29 m, 最大日变幅分别为0.26 m、0.23 m和0.11 m,固体潮波动与趋势、日变幅差距不大,潮汐波动明显。
第3类数据起伏波动,固体潮清晰。该类观测井易受浅层开采和降雨直接补给影响,如冀20井、孝义井和良乡井。3口井水位月变幅分别为0.45 m、0.47 m和0.93 m,日变幅分别为0.19 m、0.22 m和0.22 m,既有固体潮波动,月变和日变也存在较大起伏。
2 不同插值结果对比分析 2.1 插值方案选取上述9口观测井2016年相近时段水位整点值序列180组,每个类型60组,每组不小于480个数。人为设计缺失1/4 d、1 d、2 d和3 d的情况,用前述5种插值法对缺失序列进行插值,分别计算每种插值的RMSE。另选3类、12组数据进行回溯性检验。
2.2 不同插值结果的对比分析从3类数据的RMSE变化曲线(图 1)和优势插值法占比情况(表 2)可知,在连续缺失1/4 d的情况下,三次多项式插值法的RMSE值小且波动小,3类数据的优势占比分别为96.67%、63.33%和88.33%,表明该方法对少量数据缺失的插值优势比较突出。线性插值法对第1类数据缺1 d、2 d和3 d的情况插值优势较大,最优占比最大达71.67%(表 2),且对第3类数据的插值优势与ARMA模型预测插值法基本相当,两者最优占比之和为91.66%,是缺失较多的第3类数据较优的2种插值方法。ARMA模型预测插值法的RMSE波动最小(图 1),特别是对第2类数据,其插值最优比都在80%以上(表 2),是不同缺值情况下该类数据的最优插值方法。随着缺失值的增加,各插值法的误差有增大的趋势,但ARMA模型预测插值法的变化幅度相对较小,其优势一直很明显。
最邻近插值法与线性插值法的RMSE很相似(图 1),但后者的优势更突显。三次样条插值法的RMSE波动较大(图 1),除对部分第1类数据外,其他插值RMSE都较大,但该方法对数据缺失量不敏感,不会随缺失值增多而明显增大。
2.3 回溯性检验选取3类观测井同一时段的12组数据,假设整点值缺1/4 d、1 d、2 d和3 d,计算5种插值法的RMSE,比较插值与观测值曲线,检验上述结论是否正确。
对第1类水位数据(图 2(a)、表 3),当数据缺失1/4 d时,三次多项式插值法的RMSE为0.001 5 m,其插值结果更优。当数据缺失1 d、2 d和3 d时,线性插值法的RMSE分别为0.023 7 m、0.048 9 m和0.065 8 m,小于其他插值法结果。
对第2类水位数据(图 2(b)、表 3),当数据缺失1/4 d和1 d时, ARMA模型预测插值法的RMSE分别为0.000 5 m和0.010 5 m,与三次多项式插值法RMSE的0.005 1 m和0.015 3 m相差不大;当数据缺失2 d时,ARMA模型预测插值法的RMSE远小于其他插值法,插值优势突显;当数据缺失3 d时,ARMA模型预测插值法虽能还原潮汐波动周期,但很难还原波动幅度,与线性插值法的优势相当。
对第3类观测数据(图 2(c)、表 3),当数据缺失1/4 d时,线性、ARMA模型预测和三次多项式插值法的RMSE分别为0.006 5 m、0.008 7 m和0.002 9 m,三次多项式插值法更有优势;当数据缺失1 d、2 d和3 d时,线性插值法与ARMA模型预测插值法的RMSE相近,但ARMA模型预测插值法的RMSE波动更小,插值结果更有优势。
3 结语本文选取9口有固体潮效应的观测井的180组水位数据,在不同缺值情况下进行5种插值方法的对比研究,得出以下结论:
1) 三次多项式插值法对数据缺失1/4 d的插值RMSE小,且波动较小,其优势占比分别为96.67%(第1类数据)、63.33%(第2类数据)和88.33%(第3类数据),表明该插值法普遍适用于少量数据缺失的情况;
2) 对趋势变化大、固体潮效应被压制的数据(第1类数据),当数据缺失1 d、2 d和3 d时,线性插值法能延续数据趋势变化,是最佳插值方法;
3) 对固体潮显著、趋势变化平稳的水位数据(第2类数据),当数据缺失1 d、2 d和3 d时,ARMA模型预测插值法能还原规则潮汐波动和单一趋势的变化,插值最优比都在80%以上;
4) 对固体潮汐明显,又兼有起伏波动的水位数据(第3类数据),线性插值法和ARMA模型预测插值法的优势相当,线性插值法能还原趋势变化,ARMA模型预测插值法能还原周期的潮汐波动。
[1] |
邹凤华. 由井水位对气压和潮汐的响应反演含水层参数[D]. 北京: 中国地质大学(北京), 2020 (Zou Fenghua. Obtaining Aquifer Parameter from Groundwater Level Response[D]. Beijing: China University of Geosciences, 2020)
(0) |
[2] |
王金维. 由井水位的固体潮效应反演含水层参数[D]. 北京: 中国地质大学(北京), 2013 (Wang Jinwei. Obtaining Aquifer Parameter by Earth Tidal Effect[D]. Beijing: China University of Geosciences, 2013)
(0) |
[3] |
何书元. 应用时间序列分析[M]. 北京: 北京大学出版社, 2003 (He Shuyuan. Applied Time Series Analysis[M]. Beijing: Peking University Press, 2003)
(0) |
[4] |
董宝伟, 钱秋亮, 任亚飞, 等. 基于ARMA模型的地磁偏角缺数处理方法[J]. 大地测量与地球动力学, 2021, 41(11): 1 152-1 156 (Dong Baowei, Qian Qiuliang, Ren Yafei, et al. Processing Method of Missing Number of Geomagnetic Declination Based on ARMA Model[J]. Journal of Geodesy and Geodynamics, 2021, 41(11): 1 152-1 156)
(0) |