文章快速检索     高级检索
  中国石油勘探  2025, Vol. 30 Issue (2): 115-132  DOI:10.3969/j.issn.1672-7703.2025.02.009
0

引用本文 

王芷含, 温韬. 基于树结构Parzen估计器优化后两层Stacking模型的岩石脆性指数预测[J]. 中国石油勘探, 2025, 30(2): 115-132. DOI: 10.3969/j.issn.1672-7703.2025.02.009.
Wang Zhihan, Wen Tao. Prediction of rock brittleness index using two-layer Stacking model optimized by tree-structured Parzen estimator[J]. China Petroleum Exploration, 2025, 30(2): 115-132. DOI: 10.3969/j.issn.1672-7703.2025.02.009.

基金项目

国家自然科学基金“冻融循环作用下藏东南高海拔山区岩质滑坡解锁力学机制与启滑判据”(42477174);西藏自治区重大科技专项“西藏重大自然灾害风险预判与防治关键技术及示范应用”(XZ202402ZD0001);西藏自治区科技项目“复杂地质环境下边境地区滑坡风险识别及应急预警方案研究——以西藏山南市为例”(XZ202301YD0034C);青海省基础研究计划项目“河湟谷地多灾种山地灾害形成机制及预判预警研究”(2024-ZJ-904)

第一作者简介

王芷含(2004-),男,湖北荆州人,在读学士,主要从事机器学习算法预测与滑坡地质灾害工作。地址:湖北省武汉市蔡甸区大学路111号,邮政编码:430100。E-mail:encounter925@foxmail.com

通信作者简介

温韬(1990-),男,江西宜春人,博士,2018年毕业于中国地质大学(武汉),教授,主要从事地质灾害方面的科研与教学工作。地址:湖北省武汉市蔡甸区大学路111号,邮政编码:430100。E-mail:wentao200840@yangtzeu.edu.cn

文章历史

收稿日期:2024-09-18
修改日期:2025-03-08
基于树结构Parzen估计器优化后两层Stacking模型的岩石脆性指数预测
王芷含1, 温韬1,2     
1. 长江大学地球科学学院;
2. 湖北长大科技开发有限公司加查县分公司
摘要: 目前岩石脆性指数的评价方法众多,主要基于矿物组分或岩石力学性质开展评价,但多数评价指标获取费用高昂、耗时长。采用机器学习的手段,提出一种基于Stacking集成学习思想的岩石脆性指数预测方法,并行训练梯度提升决策树模型(GBDT)、随机森林模型(RF)、朴素决策树模型(DT)、支持向量回归模型(SVR)以及LightGBM模型等,并加以树结构Parzen估计器对各模型进行超参数调优后,串行使用XGBoost模型对基模型训练结果进行融合,从而实现各参数的快速寻优和岩石脆性指数的预测。结果表明,基于树结构Parzen估计器优化后的两层Stacking模型预测结果与使用的基模型预测结果相比具有明显优势,其可释方差得分(EVS)最高达到0.97,决定系数(R2)最高达到0.967,在同样的数据集表现中,该模型平均绝对误差(MAE)和均方根误差(RMSE)均最小,表明该模型能够在有监督学习的技术背景下较好地拟合岩石脆性指数的变化规律,验证了其在预测岩石脆性指数方面具有一定的实用价值。
关键词: 岩石脆性指数    Stacking模型    集成学习    树结构Parzen估计器    
Prediction of rock brittleness index using two-layer Stacking model optimized by tree-structured Parzen estimator
Wang Zhihan1 , Wen Tao1,2     
1. School of Geosciences, Yangtze University;
2. Jiacha County branch, Hubei Yangtze University Technology Development Co., Ltd
Abstract: Currently, there are numerous methods for evaluating rock brittleness index, which are mainly based on mineral composition or rock mechanical properties, but most evaluation indicators are costly and time-consuming to obtain. By utilizing machine learning technique, a rock brittleness index prediction method based on Stacking ensemble learning concept has been proposed, which involves parallel training of Gradient Boosting Decision Tree model (GBDT), Random Forest model (RF), Naive Decision Tree model (DT), Support Vector Regression model (SVR), and LightGBM model. After hyperparameter optimization using a tree-structured Parzen estimator for each model, the XGBoost model has sequentially been used to fuse training results of the base models to achieve rapid parameter optimization and prediction of rock brittleness index. The study results indicate that the prediction results using two-layer Stacking model optimized by tree-structured Parzen estimator show significant advantages compared to those by the base models, with the explained variance score (EVS) reaching up to 0.97, and the coefficient of determination (R2) reaching a maximum of 0.967. Given the same dataset, this model obtains the lowest Mean Absolute Error (MAE) and Root Mean Square Error (RMSE), indicating that it can effectively fit the variation pattern of rock brittleness index in the technical context of supervision and learning, which verifies its practical value in predicting rock brittleness index.
Key words: rock brittleness index    Stacking model    ensemble learning    tree-structured Parzen estimator    
0 引言

岩石脆性是决定岩石在加载和卸载条件下破坏特性的关键参数[1],具有重要的工程意义,已经在海上低渗油藏资源的压裂研究[2]、非常规储层油气的甜点范围预测和水力压裂研究[3]等方面做出了实际工程贡献。当前各专家、学者对岩石脆性的理解并不一致,对脆性指数的定义各有不同,现存的计算方法有很多,基本可分为由岩石不同组分导出的脆性指数评价机制,如李钜源[4]在2013年提出的根据石英和碳酸盐岩含量综合标定岩石脆性的方法,曹丹平等[5]在2023年提出的结合不同矿物成分对页岩脆性指数贡献程度进行自适应调整的矿物脆性指数计算方法;由岩石弹塑性导出的脆性指数评价机制[6-7];由岩石强度参数导出的脆性指数评价机制等[8-9]。这些方法目前在岩石脆性评价领域均得到了广泛应用,但某些参数的获取需要对采集的标准岩心样本进行实验室破坏性实验,以获取矿物组分、弹塑性参数、强度参数等,过程相对来说较为复杂且不可逆,对人力、物力、财力的消耗较大。若采集到的岩心样本不完整或某些关键区域的岩心样本难以获取时,将无法为这些评价方法提供进行岩石脆性指数评价的主要依据,导致岩石脆性指数评价陷入瓶颈。

面对这样的困难,许多学者提出使用近期发展迅速的人工智能技术,借助计算机这一辅助工具,采用机器学习的方法并选用一些较为容易获得的指标来预测的所需参数,取得了良好的成绩。如Khandelwal等[10]提出了使用混合遗传算法(GA)优化的人工神经网络算法预测岩石强度及其可钻性,Momeni等[11]提出了使用基于混合粒子群优化后的人工神经网络算法预测岩石的单轴抗压强度,杜睿山等[12]提出了使用基于粒子群算法优化的双向长短期记忆模型预测岩石的脆性指数。这些学者致力于发掘岩石强度与其他易于获得的参数之间的非线性关系,并利用深度学习和机器学习的总框架,突破传统回归分析的壁垒,在未知传统回归方程式的情况下对岩石强度参数做出了相应的预测,并得到了较为理想的结果。

但是这些研究存在训练过程中算法单一、相关超参数调节烦琐、对于小规模数据适用下实际泛化性能存在差异等问题。为此,特提出一种可以融合多个基学习器不同预测效果的两层Stacking模型:使用多种不同算法作为基学习器,选取一种元学习器,并结合树结构Parzen估计器对各学习器进行超参数优化,运用两层Stacking模型的思想进行融合,最终得出相应的预测结果。该方案已在多个领域参与实际应用,郑颖颖等[13]提出基于Stacking多模型融合的极端天气短期风电功率预测,Liu等[14]提出的使用线性回归作为元学习器的Stacking模型预测岩石三轴抗压强度。

本文选取了梯度提升决策树(GBDT)、随机森林(RF)、朴素决策树(DT)、支持向量回归(SVR)及LightGBM 5种模型作为第一层基学习器,以极端梯度提升树(XGBoost)作为第二层元学习器,结合树结构Parzen估计器进行超参数优化,运用两层Stacking的集成学习思想构建模型对岩石脆性指数进行预测。该方法可为岩石脆性指数预测提供一种新思路。

1 数据准备 1.1 数据分析

对于机器学习而言,数据的相关性是获得较好预测结果的重要前提。本研究使用了收集到的87组包含岩石点荷载强度(Is50)、纵波速度(vp)、施密特硬度(SHH)、邵氏硬度(SSH)、单位重量(UW)、单轴抗压强度(UCS)和巴西抗拉强度(BTS)特征变量的数据,对输入数据的各个特征变量的描述见表 1,部分数据展示见表 2

表 1 输入属性解释统计表 Table 1 Statistics of input attribute interpretation results
表 2 部分原始数据统计表 Table 2 Statistics of some raw data

为了更加直观地表现输入数据的特征,本研究将各个输入参数标准化处理。将输入数据以标准化转换函数进行转换,即按其在最小值至最大值区间的占位比例缩放至0~1区间,并统计了各项输入数据在各个分段的数量,计算了归一化后的数理统计参数,同时绘制出了各输入参数的正态分布曲线,如图 1所示。可以看出,将输入数据归一化后的分布情况基本服从标准正态分布,符合事实情况预期,能够代表普遍输入参数水平。

图 1 输入数据的归一化分布图 Fig. 1 Normalized distribution of input data

对前文中提到的3种岩石脆性指数评价方法进行筛选发现,由岩石强度参数导出的脆性指数评价机制能够在使用较少实验数据的情况下准确地表达岩石脆性程度,获取方式便捷,在实际工程中应用时间较长,应用范围较为广泛,即采用下述公式:

$ B_i=0.5 \mathrm{UCS} \cdot \mathrm{BTS}^{[8]} $ (1)
$ B_i=0.5 \sqrt{\mathrm{UCS} \cdot \mathrm{BTS}}{ }^{[9]} $ (2)
$ B_i=\sqrt{\mathrm{UCS} \cdot \mathrm{BTS} / 2}{ }^{[9]} $ (3)

式中  Bi——岩石脆性指数。

对收集的原始数据中的UCS和BTS进行相关计算,得到各个公式所对应的岩石脆性指数Bi,将计算出的Bi作为模型的输出特征。为降低输入数据与输出数据的相关性,展现机器学习实际学习、预测效果,选取没有在上述公式中提及的Is50vp、SHH、SSH、UW值作为模型的输入特征进行训练、预测,选用不同的公式可以得到3组不同的实验数据,图 2表述了利用3种不同公式计算得出的Bi值的分布情况。

图 2 使用不同公式计算Bi后数据分布散点图 Fig. 2 Data distribution scatter plot after calculating Bi using different formulas

本研究选用皮尔逊相关系数来表征所选择的输入特征与输出特征间的相关性,当输入两组特征变量为X=(x1, x2, …, xn),Y=(y1, y2, …, yn)时,皮尔逊相关系数r可由两个变量的协方差除以它们的标准差的乘积来计算[19],即:

$ r=\frac{\sum\limits_{i=1}^n\left(X_i-\bar{X}\right)\left(Y_i-\bar{Y}\right)}{\sqrt{\sum \limits_{i=1}^n\left(X_i-X\right)^2} \sqrt{\sum \limits_{i=1}^n\left(X_i-X\right)^2}} $ (4)

式中  i——样品数,i=1, 2, …, n

        XiYi——样本值;

        XY——样本平均值。

对于上述公式(1)、(2)、(3)计算得出的各组Bi数据,均可使用公式(4)计算出其Bi值与其输入特征间的皮尔逊相关系数r,并可由此绘制出相应的皮尔逊系数热力图。经计算发现,使用公式(2)和公式(3)计算得出的皮尔逊相关系数r一致,绘制出的皮尔逊系数热力图(图 3)。

图 3 基于不同公式计算的Bi与输入参数相关系数热力图 Fig. 3 Correlation coefficient heat map between input parameters and Bi calculated by different formulas

从样本分布的散点图中可以看出,3种计算方式产生的数据集结合覆盖了较大范围的岩石脆性指数,容纳的数据规模跨度大,在表征岩石脆性指数的性质上具有一定的代表性。同时从绘制的皮尔逊相关系数热力图中可以发现,输入变量与输出变量间、输入变量间的数据相关性属于中等至中等偏上的水平,在数据层面上保证了模型的预测效果,也可以确保训练出来的模型具有一定的泛化能力。

1.2 结果评价指标

为了量化评估拟合结果的准确性,本研究选用了4种不同的机器学习常用评价指标。

(1)平均绝对误差MAE (Mean Absolute Error): 用于评估模型预测值和数据真实值间的拟合差异距离,恒为正值,其值越小代表模型的拟合效果越好。

(2)可释方差得分EVS(Explained Variance Score):用于评价回归模型准确度的指标,能够体现模型在解释数据时预测值方差与真实方差的准确度,其值越接近于1说明模型训练数据的表现越好。

(3)决定系数R2(Coefficient of Determination):表征了模型的拟合程度,由总离差平方和与残差平方和决定,是一个直观地表现模型好坏的评价指标,不受数据本身大小的影响。

(4)均方根误差RMSE(Root Mean Squared Error):描述模型预测误差的大小,受异常值的影响很大,其值越小说明模型拟合效果越好。

表 3描述了所选用的评价指标相应的计算公式,本文中的预测结果将按照其中的公式进行计算、对比。有的评价指标有明显的取值范围,如EVS评价指标;有的评价指标取值范围较为模糊,如R2的取值,当R2=1(最大值)时,预测模型没有犯任何错误;当R2=0时,预测模型不能解释其输出值的总变异,在模型中输出值的变异由与输入值无关的因素引起;当预测结果与真实值偏差非常大而导致残差平方和超过总离差平方和时,R2取值将为负,这也表明模型预测效果非常差。

表 3 评价性指标计算公式和理想值表 Table 3 Calculation formula for evaluation indicator and ideal value
2 基于TPE优化的两层Stacking预测模型 2.1 树结构Parzen估计器优化(TPE优化)

树结构Parzen估计器优化方案是一种黑盒优化策略,即提供需要优化的模型和参数,寻找并输出最优参数,还可以设定提前终止条件,避免长时间陷入低效子树而影响调参结果,具有简单易用、效率较高的特点。其基于顺序模型的进行全局优化(Sequential Model-Based Global Optimization, SMBO)算法,相较于GA遗传算法与PSO优化算法,它采取了近似适应度函数替代真实适应度函数,降低了适应度函数评估成本[20]。在本研究中还对其参数验证阶段做了五折交叉验证,以确保相应参数的质量。

本研究中采用了Python中Hyperopt机器学习库中的fmin函数提供的TPE超参优化方案,并实现设定好适合的参数搜索空间,编写自动迭代、提前终止和交叉验证的相关程序,自动搜索相关超参数。较传统网格搜索方式具有搜索效率更高、搜索速度更快、搜索范围更大、搜索参数更精确的特点,并将TPE超参优化算法嵌入到两层Stacking模型中进行运用,以调整模型效果至最优。

2.2 基学习器

基学习器是Stacking模型第一层的重要组成部分,基学习器的选取直接关系到模型第二层训练拟合的实际效果,这对基学习器的模型性能、回归策略及实现效果均提出了更高的要求。经过实验和筛选,本研究选取了梯度提升决策树算法(GBDT)、随机森林算法(RF)、朴素决策树算法(DT)、支持向量回归算法(SVR)及LightGBM算法,这些算法在数据集中表现优异,在实际运行中性能较优秀,适合用于拟合岩石脆性指数。在参与运算前,所有基学习器均根据所划分的训练集数据,采用TPE超参优化算法进行参数调优,以确保模型效果。

(1)梯度提升决策树算法(GBDT):梯度提升决策树算法是机器学习领域的热门算法之一,它利用了集成学习中Boosting的思想,不断训练弱回归器,并进行迭代后组合成强回归器,可以有效地处理非线性关系的回归分析[21]。但梯度提升决策树算法具有相当的异常值敏感性,容易出现过拟合现象。

(2)随机森林算法(RF):随机森林算法是集成学习中只包含一种基学习器的典型算法,它利用了集成学习中Bagging的思想[22]。随机森林算法通过并行训练多个弱回归器,从而生成比单个基学习器更具有鲁棒性的集成模型。随机森林对异常值不敏感,在实际训练中容易导致欠拟合。

(3)朴素决策树算法(DT):决策树算法是其他树型算法的本源,能基于给入的参数生成决策树,以实现期望最大化的图解法。决策树会从训练集中归纳出一套回归规则,且具有较好的泛化能力,同时尽量不出现过拟合现象。

(4)支持向量回归算法(SVR):支持向量回归算法在解决小样本问题数据时准确率高,泛化能力较强,可以灵活地运用各种核函数进行拟合[23]。SVR算法常用核函数有线性核、多项式核和高斯核(rbf)。其中高斯核函数具有将样本映射到高维空间的能力,线性核函数可视作其一个特例,且高斯核函数较多项式核所需参数更少,能减少数值计算的困难。综上,本研究选用高斯核函数(rbf)。

(5)LightGBM算法:LightGBM算法基于具有深度限制的按叶子生长算法,采用基于直方图的决策树进行提升,将连续的浮点特征值离散化,最终寻找最大增益点从而获得回归结果[21]。LightGBM算法在处理本研究数据时展现了高度的集中性和优异的拟合效果,在参与元模型整合的过程中均表现出较高的重要性,但过拟合和欠拟合现象较为普遍。

2.3 元学习器和Stacking思想

本研究采用了极端梯度提升树(XGBoost)作为元学习器。XGBoost算法是基于梯度提升的Boosting集成学习方法,能基于参数和训练数据进行自由迭代,并将迭代后的结果重新送入模型中进行再训练,以串行的方式不断优化模型的训练效果。此外,XGBoost还引入二阶导数来作为损失函数,同时辅助有多种手段,进一步加强了拟合效果[24]。本研究采用XGBoost作为二层元学习器,可以自由调整各个基模型在实际预测过程中的权重,从而整合第一层基模型的不平衡数据,最大限度利用第一层基模型的拟合效果。

Stacking思想是集成学习中的重要基本思想之一,在大多数情况下,集成学习方案会对同质弱学习器进行组合,如Bagging集成学习思想即采用并行的方式独立训练各个同质弱学习器,最终采用相对平均的方式进行组合、选举,而Boosting集成学习思想采用串行的方式按序列训练、提升同质弱学习器,最终按照一定的权重进行自助加权聚合。Stacking思想则采用异质集成的方案,同时引入并行处理层的基学习器和串行处理层的元学习器,能聚合多种不同基学习器的学习优势,从而具有更好的整体性能。

在基学习器和元学习器中,有基于Bagging集成学习方案的随机森林算法,也有基于Boosting集成学习方案的梯度提升决策树算法。现利用Stacking的思想,以上述5种基学习器交叉验证、并行训练、交叉预测,以各个基模型为基准生成第一层模型的训练集结果矩阵和测试集结果矩阵,将第一层的训练结果引入第二层XGBoost元学习器进行整合训练,从而得出最终结果的两层Stacking模型算法(图 4)。

图 4 Stacking模型组成结构图 Fig. 4 Stacking model composition structure

图 5所示,本研究采用5折交叉训练的方式来创建Stacking模型,具体实现表述为,对输入数据按8∶2的比例分割为训练集K、测试集T,将训练集分为五折数据数量均等的部分,即K1K2K3K4K5。对于每一折数据Kn,输入除当前折Kn以外剩下的四折, 对当前基学习器Basen进行训练,并运用当前模型Basen对当前的Kn折进行验证,即得到当前折Kn的验证结果Kny,此为一次交叉验证。同时运用当前模型Basen对测试集T进行预测,得到当前模型对测试集T的预测结果Tn,将该操作进行5次,得到Kn各自的交叉验证输出结果K1yK2yK3yK4yK5y和5个对测试集的预测结果T1T2T3T4T5

图 5 TPE-Stacking融合具体过程 Fig. 5 Specific process of TPE-Stacking fusion

将每一折的交叉验证结果整合为一组与原训练集数据编号一致、数量一致、顺序一致的当前基模型训练集交叉验证输出结果Pn(K1yK2yK3yK4yK5y)T,将五次对测试集的预测结果取平均值Ta作为当前基模型测试集训练结果Yn

对5个基模型均进行上述操作,可得到五组基模型训练集交叉验证结果P1P2P3P4P5和5组基模型测试集预测结果Y1Y2Y3Y4Y5。将基模型训练集交叉验证结果拼接为矩阵(P1P2P3P4P5)与训练集真实结果输入第二层元模型进行训练,并将基模型测试集训练结果拼接为矩阵(Y1Y2Y3Y4Y5)输入训练好的第二层元模型进行预测,即得到Stacking模型对测试集的预测结果。

这种Stacking的思想融合了各个基模型的训练结果,并通过元模型进行整合训练,从而在理论上能够比较各个基模型的预测差异,一定程度上修正当仅使用一种模型进行预测时所产生的过拟合或欠拟合现象,弱化基模型短板,发挥不同模型的拟合特征,进而达到更优秀的拟合效果。

3 模型实施效果 3.1 具体实施环境

本研究中完成该模型拟合的电脑采用Intel(R) Core(TM) i7-10700KF CPU @3.8GHz,配备16GB内存,装载有NVIDIA GeForce GT 710显卡,使用Windows10专业版22H2。使用的Python版本为3.10.11,使用的机器学习库scikit-learn版本为1.5.1、xgboost版本为2.1.1、lightgbm版本为4.5.0,使用的超参优化工具hyperopt版本为0.2.7。

3.2 超参数调整

按照前文描述的思想和流程编写相关代码,在各个模型中挑选较为重要的超参数进行调整,每组数据对相应的调参操作重复运行3次,取最好结果代入最后模型进行计算。设定的超参数搜索范围如表 4所示。本研究仅选取了各个模型部分重要参数进行调整,调整时根据各超参数的理论范围划分为若干区间,预先使用各个区间的特征值进行测试,从而将表现较好的区间设定为表 4中的超参数范围后执行进一步的超参数搜索。

表 4 设定的超参数调整范围统计表 Table 4 Statistics of hyperparameter adjustment range

在使用大范围、大步长的寻优空间进行参数范围初筛时发现,3组实验数据的粗调参结果均落在表 4所指定的超参数调整范围内,即证明表 4中的寻优空间可以完全覆盖本研究3组实验数据。更大的寻优空间和更精细的步长会导致更长的调参时间,但更精细的参数在模型上展现预测结果的优化是有限的,这有违使用TPE超参数优化的初衷,也会带来不必要的消耗。

3.3 预测结果分析

基于上述描述,分别使用3个公式计算得出的岩石脆性指数进行训练,所构建的Stacking集成模型与各个基模型在测试集上的预测结果如图 6所示,可以看出在所采取的模型中,Stacking集成模型发挥相对较为稳定,不仅在正常预测时拟合较好,而且在面对异常数据波动时相较于其他模型表现出更为不错的泛化能力。

图 6 使用不同公式计算Bi后的各模型预测结果折线图 Fig. 6 Line chart of prediction results of various models after calculating Bi using different formulas

为进一步分析Stacking模型预测结果,本研究绘制了相应的Stacking模型预测效果图(图 7),效果图的各散点位置由预测值和真实值共同决定,1∶1线是按预测值和真实值的对角线(y=x)进行绘制的,回归线是对投射后的散点进行线性回归拟合并做出的线性回归线。效果图上还展示了关于线性回归线95%的预测带,当预测值与真实值的散点落在95%预测带内且距离1∶1线越近时,表明该模型预测效果越可靠。可以发现,训练集在重新使用构建的模型进行预测时其回归线基本与1∶1线重合,所投射的散点距离1∶1线普遍偏低,说明该模型对于训练集有较好的拟合效果,能充分接受训练集的变异性,并进行合理的模型建设;测试集经过坐标投射后的预测结果均落在其线性回归线的95%预测带内,且大部分预测值围绕在1∶1线附近,这代表本研究所构建的Stacking模型测试集预测值在与原数据对比时具有相当的可信程度。

图 7 使用不同公式计算Bi后的Stacking模型预测效果图 Fig. 7 Prediction performance of Stacking model after calculating Bi using different formulas

表 5为各个模型在各个数据集上进行预测的评价性指标,可以发现本研究构建的Stacking模型在预测经过3个公式计算后的脆性指数时其决定系数R2分别达到了0.967、0.950和0.937,均为各组数据最优成绩;Stacking模型预测的平均绝对误差MAE分别达到了96.080、1.662和2.059,在与其他基模型对比时相对更低。

表 5 使用不同公式计算Bi后的各模型评价结果统计表 Table 5 Statistics of evaluation results of various models after calculating Bi using different formulas

表 5中还列出了各模型可释方差得分EVS指标情况,发现在3种实验中本研究构建的TPE-Stacking模型EVS得分均最高,这说明本次选用的Stacking方案集成模型在各个指标上都优于所选用的基模型。为了进一步验证TPE-Stacking模型的效果,本研究同时使用了不带Stacking集成的XGBoost模型重新拟合,发现TPE-Stacking模型在所选用的评价参数上相较于只经过超参数优化的TPE-XGBoost模型更接近理想值,3组数据验证中在决定系数R2上Stacking模型平均优于XGBoost模型0.036%,仍然表现更优异。这说明本研究构建的基于树结构Parzen估计器优化后的两层Stacking模型可以较为准确、可靠地预测岩石脆性指数。

图 8以各模型预测测试集结果表现出的决定系数R2为横轴,以各模型预测训练集结果表现出的决定系数R2为纵轴进行投点,同时绘制了衡量训练集拟合、测试集预测结果间平衡程度的1∶1线,能够更好地评估模型的拟合效果。在理想情况下,训练后的模型既应当能够较好地拟合训练数据,又应当对未知的数据集表现出一定的泛化能力,并在其间寻求性能上的平衡。

图 8 使用不同公式计算Bi的拟合效果(以R2为例) Fig. 8 Fitting results after calculating Bi using different formulas (taking R2 as an example)

图 9使用类泰勒图的方式,选取各模型预测时的均方根误差RMSE作为极径,选取决定系数R2为0时作为相位角0°位置、R2为1时作为相位角90°位置进行放缩,将各模型的预测效果按照相应的极径和相位角进行投点,直观地表征了各个模型拟合表现的精确度。在该图中,所投的点在极径方向越接近圆心即代表该模型预测时的均方根误差RMSE越小,即预测数据与实际数据的差距越小;所投的点在相位上越接近90°位置即代表该模型预测的值与真实值相比的R2越接近于1,即预测数据与实际数据的相关性越强,理想模型的投点应在极径维度上达到圆心点,在相位角维度上接近于90°。

图 9 使用不同公式计算Bi后的各模型拟合精确度综合表现图 Fig. 9 Comprehensive fitting accuracy of various models after calculating Bi using different formulas

图 10中可以看出,本研究提出的TPE-Stacking模型与其他模型相比,在保证预测效果的前提下,一定程度上能够在训练集、测试集预测表现间寻求平衡,在缓解过拟合、欠拟合现象上与其他对比模型相比具有一定的优势,凸显了Stacking集成思想的优化能力和鲁棒性。在对公式(2)计算的岩石脆性指数进行拟合训练、测试集预测的过程中发现,XGBoost对比模型在寻求拟合和预测效果间的平衡中获得了更好的效果,投点更接近所绘制的1∶1线,但总体预测拟合精确度不如本研究构建的TPE-Stacking集成模型。在对公式(3)计算的Bi进行训练时发现,DT对比模型在预测结果的精确度上也获得了较好的效果,但在寻求拟合和预测效果间的平衡中仍然存在一定的缺陷,不如本研究所构建的集成模型。

图 10 不同公式计算Bi后各模型超参优化过程图 Fig. 10 Hyperparameter optimization process for various models after calculating Bi using different formulas

除使用两层Stacking模型提升预测精度外,本研究采用了树结构Parzen估计器来进行模型的超参数优化,这是一种基于模型的序列全局优化(SMBO)算法,将高斯过程模型融入贝叶斯优化当中,使用最优化算法在当前模型上基于相应的训练数据集以采样的方式来寻找适合当前模型运行条件的最优解,能够合理分配计算资源实现并行计算,结合树结构存储和密度估计器Parzen-window搜索参数空间[20],快速得到所需的参数搜索结果。图 10体现了在使用不同基模型时的TPE超参优化过程。为了对比不同模型在迭代时的损失函数值的变化情况,将其值标准化处理后,投影到[0, 1]区间进行绘制。可以发现,使用TPE超参优化算法进行参数优化时,各个模型均在2000次迭代以内找寻到最好参数,部分模型甚至在1000次迭代以内就达到认定的最佳参数,具有较高的搜索效率。

为进一步评价树结构Parzen估计器的超参数优化效果,将各个模型在3种数据集下的超参数优化前后模型预测效果进行对比(图 11),可以发现,所有模型在经过树结构Parzen估计器方案优化后,预测效果较优化前MAE和RMSE更小、EVS和R2更大,性能均得到了一定提升。表明树结构Parzen估计器优化方案在面对不同的数据集时,均能给出较为合理的超参数组合,实现面向模型和数据集的精准参数调优,从而优化模型的预测效果。

图 11 不同公式计算Bi后各模型优化效果对比图 Fig. 11 Comparison of optimization results of various models after calculating Bi using different formulas
3.4 讨论

本研究探寻了以两层Stacking模型预测岩石脆性指数的可靠路径,利用计算机工具研究了岩石的Is50vp、SHH、SSH、UW等指标与不同定义方式下的岩石脆性指数间的非线性关系,同时借助机器学习、集成学习建立了可靠的回归预测模型,并在一定程度上取得了优秀的评价结果。

从研究结果上看,与其他模型相比较而言本研究创建的基于TPE超参数优化的两层Stacking集成学习模型具有相对较强的准确性、鲁棒性、可靠性,凸显出两层Stacking集成学习思想的可应用性,能够集成多个模型共同的预测结果,改善模型预测性能,具有更好的泛化能力,同时也证明了其在预测岩石脆性指数方面具有一定的实用价值,可以为工程中确定岩石脆性指数的需要提供参考。

但在研究中也发现,尽管在评价性指标上Stacking模型表现优异,但是从预测结果和拟合效果来看,该模型仍然存在部分过拟合、欠拟合的现象,在预测精度上仍然需要进一步提升。为此,绘制了元模型整合基模型数据向量组时各个基模型的重要性程度评估柱状图(图 12),可以发现,对于不同的数据集,XGBoost利用各个模型的权重有所变化,而支持向量回归(SVR)算法在3种数据集中的相对占比不大。为进一步提升模型预测精度,构建更符合岩石脆性指数实际情况的集成学习模型,可以替换部分表现不良的基模型,以确保预测质量和预测精度;也可以改用更为复杂的三层Stacking集成思想,进一步提升模型的鲁棒性,获得更加精准的拟合效果。

图 12 各基模型整合过程重要程度柱状图 Fig. 12 Importance level histogram of integration process of various base models
4 结论

(1)基于树结构Parzen估计器优化后的两层Stacking模型方法,提出了将传统机器学习模型与超参数优化、Stacking集成策略结合的框架,并代入相应的参数空间进行参数调整、多种数据集进行结果检验,最终以优秀的表现完成了预测,可以为预测岩石脆性指数提供一种可靠方法。

(2)利用树结构Parzen估计器方案可以动态地调整各模型的超参数,同时模型也将反馈当前超参数下的模型效果,优化后的模型预测效果与优化前相比较MAE和RMSE更小、EVS和R2更大,性能均得到了一定的提升,实现面向模型和数据集的精准参数调优。

(3)在3组数据集的检验下,本方法提出的模型结果的各项评价指标中Stacking集成学习模型预测结果的MAE、RMSE相对其他模型最小,R2、EVS最接近于1,最高R2达到0.967,最高可释方差得分EVS达到0.97,均优于本研究过程中所做的其他模型,验证了本方案提出的模型在一定程度上能够拟合岩石脆性指数的变化趋势。

参考文献
[1]
Meng F, Wong L N Y, Zhou H. Rock brittleness indices and their applications to different fields of rock engineering: a review[J]. Journal of Rock Mechanics and Geotechnical Engineering, 2021, 13(1): 221-247. DOI:10.1016/j.jrmge.2020.06.008
[2]
江锚, 张丽平, 周俊, 等. 海上低渗油藏体积压裂可行性研究[J]. 非常规油气, 2024, 11(3): 130-138.
Jiang Mao, Zhang Liping, Zhou Jun, et al. Feasibility study of volume fracturing in offshore low-permeability reservoir[J]. Unconventional Oil & Gas, 2024, 11(3): 130-138.
[3]
刘震, 张军华, 于正军, 等. 非常规储层脆性研究进展及展望[J]. 石油地球物理勘探, 2023, 58(6): 1499-1507.
Liu Zhen, Zhang Junhua, Yu Zhengjun, et al. Progress and prospects of brittleness research in unconventional reservoirs[J]. Oil Geophysical Prospecting, 2023, 58(6): 1499-1507.
[4]
李钜源. 东营凹陷泥页岩矿物组成及脆度分析[J]. 沉积学报, 2013, 31(4): 616-620.
Li Juyan. Analysis on mineral components and frangibility of shales in Dongying Depression[J]. Acta Sedimentologica Sinica, 2013, 31(4): 616-620.
[5]
曹丹平, 韩金鑫, 肖竣夫, 等. 弹性特征约束下的矿物成分页岩脆性评价方法研究[J]. 地球物理学报, 2023, 66(11): 4781-4791.
Cao Danping, Han Jinxin, Xiao Junfu, et al. Method for evaluating the brittleness of shale minerals under the constraints of elastic characteristics[J]. Chinese Journal of Geophysics, 2023, 66(11): 4781-4791.
[6]
Rickman R, Mullen M, Petre E, et al. A practical use of shale petrophysics for stimulation design optimization: all shale plays are not clones of the barnett shale[J]. Society of Petroleum Engineers, 2008, 47-50.
[7]
李坪东, 苏幽雅, 邵晓岩, 等. 盐池地区延长组长8段致密油储层脆性指数测井评价[J]. 石油地质与工程, 2024, 38(1): 6-12.
Li Pingdong, Su Youya, Shao Xiaoyan, et al. Logging evaluation of brittleness index of tight oil sandstone in Chang 8 member of Yanchang Formation in Yanchi area[J]. Petroleum Geology and Engineering, 2024, 38(1): 6-12.
[8]
Andreev G E. Brittle failure of rock materials [M]. Boca Raton: CRC Press, 1995.
[9]
Hucka V, Das B. Brittleness determination of rocks by different methods[J]. International Journal of Rock Mechanics and Mining Sciences & Geomechanics Abstracts, 1974, 11(10): 389-392.
[10]
Khandelwal M, Armaghani D J. Prediction of drillability of rocks with strength properties using a hybrid GA-ANN technique[J]. Geotechnical and Geological Engineering, 2015, 34(2): 605-620.
[11]
Momeni E, Jahed Armaghani D, Hajihassani M, et al. Prediction of uniaxial compressive strength of rock samples using hybrid particle swarm optimization-based artificial neural networks[J]. Measurement, 2015, 60: 50-63. DOI:10.1016/j.measurement.2014.09.075
[12]
杜睿山, 李宏杰, 孟令东, 等. 基于PSO-BiLSTM的储层岩石脆性指数预测[J]. 海南大学学报(自然科学版), 2023, 41(3): 260-267.
Du Ruishan, Li Hongjie, Meng Lingdong, et al. Prediction of reservoir rock brittleness index based on PSO-BiLSTM[J]. Journal of Hainan University (Natural Science), 2023, 41(3): 260-267.
[13]
郑颖颖, 李鑫, 陈延旭, 等. 基于Stacking多模型融合的极端天气短期风电功率预测方法[J]. 高电压技术, 2024, 50(9): 1-12.
Zheng Yingying, Li Xin, Chen Yanxu, et al. Short-term wind power forecasting method in extreme weather based on stacking multi-model Fusion[J]. High Voltage Engineering, 2024, 50(9): 1-12.
[14]
Liu Z, Li D, Liu Y, et al. Prediction of uniaxial compressive strength of rock based on lithology using stacking models[J]. Rock Mechanics Bulletin, 2023, 2(4): 1-5.
[15]
黄遂, 孙润, 徐琪超, 等. 不同温度条件下花岗岩的点荷载强度特征试验研究[J]. 工程与试验, 2023, 63(2): 10-14.
Huang Sui, Sun Run, Xu Qichao, et al. Experimental study on point load strength characteristics of granite under different temperature conditions[J]. Engineering & Test, 2023, 63(2): 10-14.
[16]
李家棒, 王军成, 王斌, 等. 纵横波联合勘探在ZY核电厂选址中的应用[J]. 地质学刊, 2024, 48(4): 1-9.
Li Jiabang, Wang Juncheng, Wang Bin, et al. Application of joint compressional and shear wave exploration in ZY nuclear power plant site selection[J]. Journal of Geology, 2024, 48(4): 1-9.
[17]
范祥, 林杭, 熊威, 等. 吸水率和吸水时间对红砂岩施密特硬度的影响[J]. 中国矿业大学学报, 2015, 44(2): 233-240.
Fan Xiang, Lin Hang, Xiong Wei, et al. Influence of water absorption rate and time on the schmidt hardness of red sandstone[J]. Journal of China University of Mining & Technology, 2015, 44(2): 233-240.
[18]
周洁. 一种深孔内壁邵氏硬度测量装置[J]. 上海电气技术, 2022, 15(4): 52-55, 65.
Zhou Jie. A deep-home inner wall shore hardness measuring device[J]. Journal of Shanghai Electric Technology, 2022, 15(4): 52-55, 65.
[19]
郭亮, 郭子雪, 贾洪涛, 等. 基于皮尔逊相关系数与SVM的居民窃电识别[J]. 河北大学学报(自然科学版), 2023, 43(4): 357-363.
Guo Liang, Guo Zixue, Jia Hongtao, et al. Residents electric larceny detection based on Pearson correlation coefficient and SVM[J]. Journal of Hebei University(Natural Science Edition), 2023, 43(4): 357-363.
[20]
罗敏, 杨劲锋, 俞蕙, 等. 基于树结构Parzen估计器优化集成学习的短期负荷预测方法[J]. 上海交通大学学报, 2024, 58(6): 819-825.
Luo Min, Yang Jinfeng, Yu Hui, et al. TPE-based boosting short-term load forecasting method[J]. Journal of Shanghai Jiao Tong University, 2024, 58(6): 819-825.
[21]
高嘉鑫, 张伟, 高铭. 基于梯度提升决策树的材料计算时间预测模型[J]. 软件导刊, 2024, 23(3): 15-20.
Gao Jiaxin, Zhang Wei, Gao Ming. Material calculation time prediction model based on gradient boosting decision trees[J]. Software Guide, 2024, 23(3): 15-20.
[22]
车志宏, 吕峰. 基于随机森林的集成算法研究[J]. 电脑编程技巧与维护, 2024(5): 48-50, 80.
Che Zhihong, Lv Feng. Research on ensemble algorithm based on Random Forest[J]. Programming Skills & Maintenance, 2024(5): 48-50, 80.
[23]
李强, 杨林, 李超凡, 等. 基于SVR和电化学阻抗谱的锂电池内部温度在线估计[J]. 电源技术, 2024, 48(9): 1738-1746.
Li Qiang, Yang Lin, Li Chaofan, et al. Online estimation of internal temperature of lithium battery based on SVR and electrochemical impedance spectroscopy[J]. Chinese Journal of Power Sources, 2024, 48(9): 1738-1746.
[24]
田仁飞, 李山, 刘涛, 等. 基于XGBoost算法的vP/vS预测及其在储层检测中的应用[J]. 石油地球物理勘探, 2024, 59(4): 653-663.
Tian Renfei, Li Shan, Liu Tao, et al. vP/vS prediction based on XGBoost algorithm and its application in reservoir detection[J]. Oil Geophysical Prospecting, 2024, 59(4): 653-663.