我国是世界上构造活动强烈且地震灾害严重的国家之一。体应变观测作为地震地球物理研究的一种重要手段,为地震学研究、防震减灾工程提供基础性背景资料。然而,体应变仪深埋地下,其观测数据受到应变固体潮、气温、气压、钻孔水位等因素的影响,使用常规方法很难有效识别和提取到此类异常。我国对体应变观测干扰因素的分析取得诸多成果,如:赵小贺等(2018)通过对马陵山和相公庄地震台体应变观测资料的分析,发现2个台站受降雨、水位和气压影响明显,且特征相似,其中气压对体应变影响显著;李章等(2021)通过分析黄山地震台体应变观测资料,发现数据与气压相关系数达0.9以上,与降雨、水位呈正相关性;宋晓煜等(2022)研究怀来地震台TJ-Ⅱ型钻孔体应变仪,发现观测数据与钻孔气压呈正相关,与钻孔水位呈负相关。在前人研究中,通常采用传统方法进行体应变观测数据分析,如:巫继兰等(2016)、何斌等(2018)、张晨蕾等(2022)采取调和分析方法;吴明等(2022)采用小波分解方法;赵小贺等(2018)、卢双苓等(2018)采取对比观测方法。然而,采用以上分析方法很难精准识别并剔除各种干扰。当前,机器学习及人工智能取得较大进展,并在地球物理领域展现出广阔的应用前景。相关研究有:宋建国等(2016)将随机森林回归算法引入地震储层预测,建立地震属性与储层特征参数之间的非线性关系;敖亦乐(2019)将随机森林算法应用于地球物理勘探,为具体的地球物理解释任务提供相应的优化解决方案;韩晓冰等(2020)提出基于疏密交叉网格建模的KNN大地电磁反演方法,提高了反演准确率;王怀秀等(2023)基于随机森林算法模型,对多种地震属性进行融合分类,提高了地质构造识别准确率;刘金平等(2024)基于随机森林算法训练评估地震直接经济损失模型,为抗震救灾提供决策支持;梁梓豪等(2024)基于随机森林模型,实现地震损失预测与机器学习的交叉应用,改善现有研究应用于建筑物损失预测中数据受限、研究地域泛化能力缺乏、研究建筑物属性多方面多样化缺乏、破坏等级划分不精细和最严重破坏状态精度低的问题;龚丽文等(2023)利用机器学习方法,提取发震断层三维几何形态特征和4条破裂面,揭示该区域部分发震构造,为后续深入挖掘地震信息提供新的借鉴;赵小艳等(2024)通过决策树模型,给出川滇地区不同时段数据集特征参数重要性结果,为震后早期阶段,从繁杂众多特征参数中确定合适参数提供新思路。为此,尝试将机器学习方法引入体应变观测影响因素分析。本文以新安江地震台(下文简称新安江台)钻孔应变观测为例,通过构建不同的机器学习模型(线性回归模型、K-近邻算法、随机森林模型),进行钻孔体应变数据拟合,并根据模型评价指标寻找性能最佳模型,以最佳性能模型结果为标准,探讨影响体应变观测数据的主要因素,为后续相关研究提供有力的数据支撑。
1 数据准备 1.1 数据来源本研究数据来源于新安江台,研究时段为2020年1月1日至2023年1月1日,数据包含钻孔体应变观测数据及同期温度、水位、气压等辅助测项数据。所选数据年变曲线见图 1。
![]() |
图 1 新安江台体应变及辅助测向年变曲线 (a)气压;(b)水位;(c)温度;(d)体应变 Fig.1 Annual variation curves of body strain observation at Xinanjiang station |
新安江体应变测项于2019年10月安装运行,考虑到仪器稳定性,本研究选取2020年5月1日至2023年1月1日的观测数据进行分析。体应变及辅助测项数据以小时为单位,每日均产出24行数据。鉴于数据采集过程中存在设备故障、人工失误等因素,对各类原始数据进行无效数据剔除和缺失值处理,最终各得到22 131行数据,并将4列有效数据用于模型的学习训练。
体应变、温度、水位、气压4类特征值数据集基本参数统计结果见表 1,统计量包含均值、标准差、最小值、最大值、中位数等。
![]() |
表 1 数据集基本参数统计 Table 1 Basic information of the dataset |
在数据集中,特征值往往具有不同的量纲和范围。为了提升数据处理效率和准确性,并确保不同特征之间具有相似尺度,有必要进行数据标准化处理。常用标准化方法有Z-score标准化和Min-Max标准化等。Z-score标准化适用于绝大多数数据分布,能够有效保留数据的分布信息,并具有一定的鲁棒性以处理异常值,故本研究采用Z-score标准化方法进行数据处理。
Z-score标准化也称为标准差标准化,是一种将数据减去均值并除以标准差的处理方法。该方法可使得数据均值为0,标准差为1,从而符合标准正态分布,具体公式如下
$z=\frac{x-\mu}{\sigma}$ | (1) |
基于式(1),可消除不同特征值间的量纲影响,使得数据更易于比较和分析。
2 研究方法 2.1 机器学习算法鉴于本研究使用的数据具备标注数据的特性,选用机器学习领域的监督学习(Supervised Learning)模型来进行数据拟合。监督学习是指从标注数据中学习预测模型的机器学习问题。标注数据通常表示输入与输出的对应关系,预测模型基于给定输入生成相应输出。监督学习的本质在于学习输入到输出映射的统计规律。下文介绍本研究所用的3个监督学习模型的理论方法。
(1)线性回归模型:线性回归是一种常用统计技术,根据输入的值对记录进行分类。拟合1条直线或曲面,使预测值和实际输出值之间的差异最小化。一元线性回归是指自变量个数为1的情况,一般表达式为Y = aX + b。当自变量为多个时,则为多元线性回归。直观表达式如下
$f(x)=w_0+w_1 x_1+w_2 x_2+\cdots+w_n x_n$ | (2) |
使用矩阵表示,即为
$f(x)=\boldsymbol{X} \boldsymbol{W}$ | (3) |
式中,
线性回归模型的目标是确定1组参数W,使得预测值f (x)尽可能贴近实际值。作为一种监督学习模型,其简单易懂,易于实现和解释,适用本研究使用的标注数据。因此,文中将首先尝试运用线性回归模型进行数据拟合。
(2)K-近邻算法:将每个样本看作是特征空间中的一个点,通过计算新样本与训练集中所有样本的距离,找到距离最近的K个样本,并根据K个最近邻居的类别来预测新样本的类别。在回归问题中,计算K个最近邻样本的平均值,作为未知样本的预测值。
K-近邻算法是一种监督学习算法,简单且易于实现,适用于本研究使用的数据集,将在后续研究中采用该模型进行对比分析。
(3)随机森林模型:随机森林是一种集成学习思想,通过将随机抽样获得的数据输入众多弱学习器(决策树),并进行投票,获得最终输出结果。决策树是监督学习的一种方法,为树形结构,由节点和有向边组成。通常,一棵决策树包含一个根节点、若干内部节点和若干叶节点,能够从一系列有特征和标签的数据中总结决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。而随机森林(Random Forest)是利用多棵决策树对样本进行训练并预测的一种分类器,可以弥补单个决策树泛化能力弱的问题(张雷等,2014)。
随机森林模型具有高准确度、强大的数据处理和特征选择能力以及易于实现的并行化等特点,且契合本项目数据特性,因此引入该模型进行数据拟合。
2.2 模型评价指标采用均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)和确定系数(R2)等指标进行模型评估。
(1)均方误差(Mean Square Error,MSE):通过计算预测值与实际值之间差异的平方和来衡量模型的预测精度,常被用于评价数据变化程度和预测数据精确度。均方误差越接近于0,说明模型拟合越好,适用于需要精确量化预测误差的场景,公式如下
$\mathrm{MSE}=\frac{1}{m} \sum\nolimits_{i=1}^m\left(y_i-f\left(x_i\right)\right)^2$ | (4) |
式中,yi表示真实值,f (xi)表示预测值。
(2)均方根误差(Root Mean Squared Error,RMSE):是均方误差的平方根,用于消除量纲影响,使得误差值更具实际意义。均方根误差适用于需要精确量化预测误差的场景,公式如下
$\mathrm{RMSE}=\sqrt{\frac{1}{m} \sum\nolimits_{i=1}^m\left(y_i-f\left(x_i\right)\right)^2}$ | (5) |
与均方误差相比,均方根误差对误差进行平方根运算,使其与预测值和真实值的单位保持一致,从而更直观地反映预测值与真实值之间的平均差异。其值越小,表明模型预测误差越小,即精度越高。
(3)平均绝对误差(Mean Absolute Error,MAE):是预测值与实际值误差绝对值的平均数,值越小,表明模型预测误差越小。计算公式如下
$\text { MAE }=\frac{1}{n} \sum\nolimits_{i=1}^n\left|y_i-f\left(x_i\right)\right|$ | (6) |
式中,yi表示实际值,f (xi)表示预测值,n表示观测值的数量。平均绝对误差通过计算预测值与真实值差值绝对值的平均值,来评估模型的预测精度,对异常值不敏感,能够提供更稳定的误差估计。
(4)确定系数(Coefficient of Determination,R2):一般用于回归中评估模型的好坏程度,其值越接近1,代表模型性能越好,小于0则通常表示模型效果差,表达式如下
$R^2=1-\frac{\sum\nolimits_i\left(y_i-f\left(x_i\right)\right)^2}{\sum\nolimits_i\left(y_i-\bar{y}\right)^2}$ | (7) |
式中,yi表示实际观察值,f (xi)表示预测值,y表示所有实际观测值的均值。
3 模型构建与参数优化在构建模型前,根据帕累托原理将数据集按80%和20%分为训练集(Train Set)和测试集(Test Set)。训练集用于训练模型,在训练过程中,模型会尝试学习训练集中的数据特征,以便对未知数据做出正确预测。测试集用于在模型训练和调整完毕后,评估模型在未知数据上的泛化能力。测试集的性能可作为模型在实际应用中的预期性能。为确保测试集的独立性,在模型训练和调整阶段将不使用测试集。
3.1 模型构建基于Jupyter notebook平台进行程序设计,以Python为编程语言,运用Sklearn包中封装的线性回归、K-近邻算法、随机森林模型等机器学习方法,进行数据挖掘和模型评估。Scikit-learn(Sklearn)是机器学习中常用的第三方模块,对回归(Regression)、分类(Classfication)、聚类(Clustering)、降维(Dimensionality Reduction)等常用机器学习方法进行封装。
使用Sklearn包中封装的LinearRegression、KNeighborsRegressor、RandomForestRegressor方法,使用来自新安江台体积应变仪产出的80%的观测数据进行训练,生成线性回归模型、K-近邻算法和随机森林模型。
3.2 模型参数优化参数调优是机器学习模型优化中关键的一步,通过微调模型参数提升模型在训练数据上的性能,从而进一步提高模型泛化能力。文中采用网格搜索方法(Grid Search)对模型参数进行调优。
网格搜索法(Grid Search)是一种基于穷举策略的超参数搜索方法。其思路是,将所有可能的超参数组合逐一列出,依次尝试各种组合,直至得到最佳解。具体而言,网格搜索为每个超参数设定1组候选值,并对每组候选值进行排列组合,从而构建超参数组合空间。对于每个组合,均使用交叉验证方法进行评估,评估指标可以是模型的准确率、F1值等。最终,根据评估结果,选择表现最佳的超参数组合。在此过程中,使用R2值作为参数评估指标。在进行网格搜索后,得到各模型最佳参数结果,见表 2。
![]() |
表 2 各模型最佳参数 Table 2 Optimal parameters for three models |
根据调参后生成的3个模型及测试集来进行模型评估,各指标评价结果见表 3,具体指标有均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)和确定系数(R2)数值。对比发现,随机森林模型评分,即R2值接近1,且其MSE、RMSE及MAE最小。
![]() |
表 3 性能评价指标 Table 3 Indicators for evaluating performance |
将3个模型的训练集和测试集的预测结果进行比较,结果见图 2、图 3、图 4。由图 2可知,线性回归模型的泛化能力较弱,在训练集和测试集上的预测结果均远离误差线。如图 3所示,K-近邻算法在训练集上的表现优秀,训练集的预测结果贴近误差线,但在测试集上的表现较弱,预测结果远离误差线。由图 4可见,随机森林模型无论在在训练集上还是在测试集上,表现均比较优秀,且预测结果均较贴近误差线。
![]() |
图 2 线性回归模型预测结果 (a)训练集;(b)测试集 Fig.2 The prediction results of the linear regression model |
![]() |
图 3 K-近邻算法模型预测结果 (a)训练集;(b)测试集 Fig.3 The prediction results of the K-nearest neighbor model |
![]() |
图 4 随机森林模型预测结果 (a)训练集;(b)测试集 Fig.4 The prediction results of the random forest model |
综合来看,随机森林模型的拟合效果最佳,对项目数据具备一定解释性和良好的泛化能力。因此,在后续研究中,将采用随机森林模型进行实验分析。
4.2 实验结果通过对比各模型,采用效果最佳的随机森林模型进行最终实验,得到新安江台钻孔体应变观测各影响因素的特征值,结果见图 5,可见:影响最大因素为温度,其次为水位和气压。
![]() |
图 5 影响钻孔体应变观测影响因素的量化排名 Fig.5 Feature importance bar chart |
通过以上研究,发现线性回归模型、K-近邻算法、随机森林模型3种机器学习模型均能有效识别新安江台钻孔体应变观测数据影响因素,且随机森林模型预测结果更为可靠。依据随机森林模型的计算结果,可以得出以下结论:温度、气压和水位等因素对新安江台钻孔体应变观测均存在影响,且主要干扰因素为温度,其次为水位和气压。
温度对体应变的影响可能来源于2个方面:大气温度变化使得台站周边岩石发生热胀冷缩,所产生的应变变化直接作用于探头;气温变化通过钻孔内的水热传导机制作用于探头。水位对体应变的影响主要源于水位变化引起的岩石内部压力变化,从而使得体应变观测数据发生相应变化。而气压以负载荷的方式作用于地壳表面,造成岩体孔隙压力的改变,进而导致体应变测值的变化。在新安江台体应变观测的辅助测项中,温度测项测量大气温度,气压测项测量井内气压。通过对原始图的分析,明显可知,气温对井内气压具有显著影响,二者呈负相关关系。具体而言,气温的变化会影响井内气压,进而造成岩体孔隙压力的改变,导致体应变测值发生相应变化。
本研究将机器学习方法应用于新安江台体应变观测数据影响因素的分析,其模型预测精度仍有提升空间,后续将引入深度学习算法,利用其他台站体应变观测数据进行模型检验,以提高模型精度,提升其准确性和普适性。
敖亦乐. 随机森林类算法在地球物理勘探中的相关应用技术研究[D]. 北京: 中国石油大学(北京), 2019.
|
龚丽文, 张怀, 陈石, 等. 基于机器学习的长宁地震三维断层面几何特征建模[J]. 地震学报, 2023, 45(6): 1 040-1 054. |
韩晓冰, 柳庆瑜, 范梦宁, 等. 基于疏密交叉网格建模的KNN大地电磁反演方法[J]. 采矿技术, 2020, 20(3): 155-159. DOI:10.3969/j.issn.1671-2900.2020.03.049 |
何斌, 田韬, 王恒知. 基于钻孔特性的体应变观测相关性研究[J]. 地震工程学报, 2018, 40(1): 153-158. |
李章, 李本有, 曹志磊, 等. 体应变观测干扰分析[J]. 科技资讯, 2021, 19(19): 57-59. |
梁梓豪, 苗鹏宇, Wang J M, 等. 基于随机森林方法的地震损失预测[J]. 地震学报, 2024, 46(4): 649-662. |
刘金平, 姜立新, 杨天青, 等. 基于随机森林的地震灾害直接经济损失评估研究——以中国西部地区为例[J]. 中国地震, 2024, 40(2): 355-367. |
卢双苓, 李惠玲, 范晓易, 等. 体应变观测数据稳定性影响因素[J]. 地震地磁观测与研究, 2018, 39(1): 123-128. |
宋建国, 高强山, 李哲. 随机森林回归在地震储层预测中的应用[J]. 石油地球物理勘探, 2016, 51(6): 1 202-1 211. |
宋晓煜, 马广庆, 王志敏, 等. 怀来台体应变干扰因素分析及质量评价[J]. 四川地震, 2022(2): 30-34. |
王怀秀, 冯思怡, 刘最亮. 基于改进随机森林算法的地质构造识别模型[J]. 煤炭科学技术, 2023, 51(4): 149-156. |
巫继兰, 陈小云, 洛旦巴珠, 等. 拉萨地震台钻孔体应变观测资料分析[J]. 地震地磁观测与研究, 2016, 37(6): 85-89. DOI:10.3969/j.issn.1003-3246.2016.06.015 |
吴明, 杨晓东, 齐银峰, 等. 基于小波分解的宁陕钻孔体应变观测数据分析[J]. 科技与创新, 2022(9): 68-69. |
张晨蕾, 何明文, 杨晓东, 等. 乾陵地震台钻孔体应变观测资料分析[J]. 地震地磁观测与研究, 2022, 43(2): 128-133. |
张雷, 王琳琳, 张旭东, 等. 随机森林算法基本思想及其在生态学中的应用——以云南松分布模拟为例[J]. 生态学报, 2014, 34(3): 650-659. |
赵小贺, 公续升, 闫万晓, 等. 马陵山和相公庄台钻孔体应变观测质量影响因素分析[J]. 地震工程学报, 2018, 40(Z1): 95-100. |
赵小艳, 蒋海昆, 孟令媛, 等. 基于决策树的川滇地区地震序列类型判定特征重要性研究[J]. 地震研究, 2024, 47(3): 321-335. |