基于XGBoost算法的复杂碳酸盐岩岩性测井识别

引用本文

孙予舒, 黄芸, 梁婷, 等. 基于XGBoost算法的复杂碳酸盐岩岩性测井识别. 岩性油气藏, 2020, 32(4): 98-106, doi: 10.12108/yxyqc.20200410.

SUN Y S, HUANG Y, LIANG T, et al. Identification of complex carbonate lithology by logging based on XGBoost algorithm. Lithologic Reservoirs, 2020, 32(4): 98-106, doi: 10.12108/yxyqc.20200410.

基于XGBoost算法的复杂碳酸盐岩岩性测井识别

孙予舒^1,2, 黄芸³, 梁婷^1,2, 季汉成^1,2, 向鹏飞^1,2, 徐新蓉^1,2

1. 中国石油大学(北京)地球科学学院, 北京 102249;
2. 中国石油大学(北京)油气资源与探测国家重点实验室, 北京 102249;
3. 中国石油华北油田分公司勘探开发研究院, 河北任丘 062550

收稿日期: 2019-09-12; 修回日期: 2019-11-29; 网络首发日期: 2020-02-29

基金项目: 中国石油天然气股份有限公司重大科技专项“华北油田持续有效稳产勘探开发关键技术研究与应用”（编号：2017E-15）和“冀中凹陷下古生界潜山及内幕优势储层成因、演化及分布特征研究”（编号：HBYT-YJY-2018-JS-274）联合资助

作者简介: 孙予舒(1994-), 男, 中国石油大学(北京)在读硕士研究生, 研究方向为机器学习、沉积学及储层地质学。地址:(102249)北京市昌平区府学路18号。Email:sunyushu1022@163.com.

通讯作者: 季汉成(1966-), 男, 博士, 教授, 主要从事沉积学、储层地质学、石油地质学方面的教学和研究工作。Email:jihancheng@vip.sina.com.

摘要: 碳酸盐岩储层在形成过程中受到多种因素的影响，储层岩性复杂多样，基于测井资料对碳酸盐岩岩性识别具有重要意义。为了解决传统的测井岩性识别方法和机器学习方法对于复杂碳酸盐岩岩性识别准确率不高的问题，以廊固凹陷北部奥陶系碳酸盐岩为例，将XGBoost算法应用于复杂碳酸盐岩岩性识别，并将模型的性能与决策树C4.5算法和支持向量机算法进行对比。结果表明，采用的XGBoost算法的岩性识别模型对研究区碳酸盐岩岩性识别的准确率达到了88.18%，相较于决策树C4.5算法和支持向量机算法准确率均提高了10%左右，且由于XGBoost算法采用多线程和分布式计算的方法，使得训练时间大大缩短。基于XGBoost算法建立的岩性识别模型能够有效地识别复杂碳酸盐岩岩性，为复杂碳酸盐岩岩性的测井识别提供了新的思路。

关键词: XGBoost算法机器学习碳酸盐岩岩性识别测井解释

Identification of complex carbonate lithology by logging based on XGBoost algorithm

SUN Yushu^1,2, HUANG Yun³, LIANG Ting^1,2, JI Hancheng^1,2, XIANG Pengfei^1,2, XU Xinrong^1,2

1. College of Geoscience, China University of Petroleum(Beijing), Beijing 102249, China;
2. State Key Laboratory of Petroleum Resources and Prospecting, China University of Petroleum(Beijing), Beijing 102249, China;
3. Research Institute of Exploration & Development, PetroChina Huabei Oilfield Company, Renqiu 062550, Hebei, China

Abstract: Carbonate reservoirs are affected by a variety of factors during the formation process, and the reservoir lithology is complex and diverse. Logging data are of great significance for carbonate lithology identification. In order to solve the problem that the traditional logging lithology identification method and traditional machine learning have low recognition accuracy for complex carbonate lithology, taking the Ordovician carbonate rocks in the northern Langgu Depression as an example, based on log data, XGBoost algorithm was appied to lithology identification of complex carbonate rocks, and the performance of the model was comparied with the decision tree C4.5 algorithm and the support vector machine algorithm. The results show that the lithology identification model based on XGBoost algorithm has an accuracy rate of 88.18% for the identification of carbonate lithology in the study area. Compared with decision tree C4.5 and support vector machine, the accuracy rate is increased by about 10%. And the XGBoost algorithm uses multi-threaded and distributed computing methods, the training time is greatly shortened. It shows that the lithology identification model established by XGBoost algorithm can effectively identify complex carbonate lithology and provide a new idea for logging identification of complex carbonate lithology.

Key words: XGBoost algorithm machine learning carbonate lithology identification log interpretation

0 引言

岩性识别是储层评价中重要的研究内容之一。目前识别岩性最可靠的方法为钻井取心，然而，受取心成本较高以及取心率不高等问题的限制，常常不能做到全井段取心。因此，在实际勘探过程中，利用测井资料间接对目的层进行岩性解释成为了研究储层的重要手段。

目前利用测井数据进行岩性解释的方法主要分为传统的测井岩性解释方法，以及基于机器学习的智能化方法^[1]。前者包括：基于测井曲线响应特征的定性解释方法、基于测井响应方程的定量解释方法、图版法；后者则包括：支持向量机、神经网络和分类决策树等方法。对于碳酸盐岩来讲，由于其矿物成分较为单一，测井岩电响应特征不明显^[2]。同时，由于各测井曲线间存在着大量的信息冗余，导致其相关性较高，因此仅运用测井曲线资料难以全面而准确地识别岩性。因此，传统的测井解释方法在判断复杂碳酸盐岩岩性上有很大的局限性，大部分方法仅能识别出灰岩和白云岩或3~4种岩性^[3-4]。随着机器学习技术的不断发展，采用机器智能化学习的手段识别复杂碳酸盐岩岩性成为了研究的热点，不少学者已经采用向量机^[5-6]，神经网络^[7-9]，模糊识别^[10-11]和传统决策树方法^[12-14]识别复杂碳酸盐岩岩性或碳酸盐岩成岩相，然而这些方法普遍采用单一学习器进行学习，不能对错误样本进行二次学习，对复杂碳酸盐岩的岩性识别具有一定的局限性。近年来，Chen等^[15]在梯度提升决策树算法（GBDT）的基础上进行了改进，提出了一种设计高效、灵活并且可移植性强的最优分布式决策梯度提升库XGBoost。其原理是通过弱分类器的迭代计算从而实现准确的分类效果，具有高效性和扩展性强的特征^[16]。其优势主要在于在代价函数中引入了正则化项，控制了模型的复杂度，降低了模型的方差，防止模型过拟合。同时该算法会在完成一次迭代之后，将叶子节点的权重与缩减系数相乘，来进一步缩减某一个决策树对整体的影响，从而使得后面有更多的学习余地，使其判断的准确性较同类方法得到有效提升。同时，该方法之前也鲜用于测井解释。鉴于此，笔者以测井、录井资料为基础，采用XGBoost系统对廊固凹陷北部奥陶系建立碳酸盐岩识别模型，并以最终分类结果的准确率作为评价标准，验证XGBoost算法应用于测井岩性识别的可行性，以期为复杂碳酸盐岩岩性的测井识别提供新思路。

1 XGBoost算法的原理

GBDT算法由决策树和梯度提升两部分组成，是Friedman^[17]提出的一种Boosting算法。该算法通过让每一轮迭代得到的损失函数沿着梯度方向下降来构造一个弱分类器函数，然后把多个弱分类器的结果以一定权重组合形成强分类器作为最终的预测输出^[18]，其训练过程如图 1所示。

下载原图图 1 GBDT的训练原理（据文献[17]修改） Fig. 1 GBDT training principle

XGBoost是GBDT算法的优化。其特点在于模型能自动利用CPU进行多线程并行计算，提高运算速度，并且对损失函数进行泰勒公式二阶展开使得预测精度更高，在损失函数后面增加正则项，可以约束损失函数的下降和模型整体的复杂度^[19]。XGBoost的目标函数T为

$ T = \sum\limits_{i = 1}^n l \left( {{y_i}, {{\hat y}_i}} \right) + \sum\limits_{k = 1}^K \mathit{\Omega } \left( {{f_k}} \right) $

(1)

式中：l为损失函数；k为分类回归树的个数，个；ŷ_i为模型的预测值；y_i为样本x_i的分类标签；Ω为正则惩罚项函数；f_k为第k个树的模型。

其正则惩罚项Ω (f_k)的表达式为

$ \mathit{\Omega }\left( {{f_k}} \right) = \gamma J + \frac{1}{2}\lambda {\left\| \omega \right\|^2} $

(2)

式中：J为每个分类回归树叶子节点的数量；ω为该个树叶子节点的权重之和；γ和λ为惩罚系数，为常数，在具体应用中可以调节。

对于第t轮迭代，模型的目标函数为

$ T\left( {{f_t}} \right) = \sum\limits_{i = 1}^n l \left[ {{y_i}, \hat y_i^{(t - 1)} + {f_t}\left( {{x_i}} \right)} \right] + \mathit{\Omega }\left( {{f_t}} \right) + c $

(3)

式中：f_t(x_i)表示第t个分类回归树；c为常数项。

对式（3）进行二阶泰勒展开

$ \begin{array}{l} T\left( {{f_t}} \right) \approx \sum\limits_{i = 1}^n {\left\{ {l\left[ {{y_i}, \hat y_i^{(t - 1)} + {g_i}{f_t}\left( {{x_i}} \right) + \frac{1}{2}{h_i}f_t^2\left( {{x_i}} \right)} \right]} \right\}} \mathit{\Omega }\left( {{f_t}} \right)\\ {g_i} = {\partial _{^{{{\hat y}^{(t - 1)}}}}}l\left( {{y_i}, \hat y_i^{(t - 1)}} \right)\\ {h_i} = \partial _{{{\hat j}^{(t - 1)}}}^2l\left( {{y_i}, \hat y_i^{(t - 1)}} \right) \end{array} $

(4)

式中：g_i表示l(ŷ_i(t-1))对ŷ_i(t-1)的一阶导数；h_i表示l(ŷ_i(t-1))对ŷ_i(t-1)的二阶导数。

化简后，最终目标函数的形式为

$ T = \sum\limits_{i = 1}^n {\left[ {{g_i}{f_t}\left( {{x_i}} \right) + \frac{1}{2}{h_i}f_t^2\left( {{x_i}} \right)} \right]} + \mathit{\Omega }\left( {{f_t}} \right) $

(5)

2 应用实例 2.1 研究区概况

本次研究数据来源于廊固凹陷北部奥陶系碳酸盐岩地层，通过层序和岩相古地理分析，整体为潮坪相沉积；研究区地层经历了加里东运动、海西-印支运动、燕山运动和喜山运动等多次构造作用，风化剥蚀作用强烈。因此导致该区地层经历的成岩作用较为复杂，岩性变化较为频繁，形成的岩石类型较为多样。根据研究区取心井段的岩心观察和薄片镜下鉴定结果，识别出该研究区地层主要发育灰岩、泥质灰岩、白云质灰岩、灰质白云岩、泥质白云岩、白云岩等6种碳酸盐岩类型（图 2）。其中，含油气储集层主要发育在白云岩和白云质灰岩段。所以，对于研究区地层岩性有效的识别是储层评价的重要步骤，对后续进行油气储层预测具有重要意义。

下载原图图 2 研究区碳酸盐岩岩性镜下识别（a）白云质灰岩，安探2 x井，5 186.0 m，下马家沟组上段，单偏光；（b）泥晶灰岩，安探101 x井，5 815.0 m，上马家沟组上段，单偏光；（c）泥质灰岩，安探4 x井，峰峰组上段，4 805.3 m，单偏光；（d）灰质白云岩，务古1井，4 865.0 m，峰峰组下段，单偏光；（e）泥质白云岩，安探3井，4 806.2 m，峰峰组下段，单偏光；（f）粉晶白云岩，安探5 x井，5 965.0 m，亮甲山组，单偏光。其中蓝色部分为铸体，红色为茜素红染色的方解石 Fig. 2 Microscopic identification of carbonate lithology in the study area

2.2 样本构建

本文采用研究区内目的层7口井共2 101个数据点作为岩性识别模型的数据集，其中将89个取心样品和537个随井XRD数据作为本次模型的训练集，训练集中各个岩性的样本比例如表 1所列，其余1 475个随井XRD数据作为测试集来验证XG‐Boost算法的岩性识别效果。在建立岩性识别模型时，选取的测井曲线类型会直接影响预测精度，故须要进行测井属性优选。

下载CSV 表 1 训练集不同岩性样本比例 Table 1 Proportion of different lithological samples in the training set

本文调研了前人在碳酸盐岩储层相关研究中常用的测井曲线^[20-24]，选取了对碳酸盐岩岩性比较敏感的声波时差（AC）、自然伽马（GR）、光电吸收截面指数（PE）、补偿中子（CNL）、补偿密度（DEN）、深侧向电阻率（R_LLD）等6种测井曲线作为模型样本的属性值（表 2）。结合研究区不同类型碳酸盐岩典型岩性测井响应特征（图 3），挑选研究区内每种岩性中最符合岩性描述的深度段具有的测井响应特征制成图版，使其具有一定的代表性。从图 3可以看出，不同岩性的测井响应特征不同，泥质灰岩和泥质白云岩的GR值与其他4种岩性相差较大，其典型测井曲线值为80~130 API，灰岩、灰质白云岩、白云质灰岩和白云岩的GR值均较小，为0~50 API；AC，DEN，PE这3条测井曲线在不同岩性中响应特征的区分度较差，形态上也没有太大波动，具体来讲，研究区灰岩的DEN值稍低，PE值稍高，白云岩的PE值稍低；从CNL上看，泥质白云岩和灰质白云岩的值稍高，为8%~10%，其次是白云岩，为5%~8%，灰岩、泥质灰岩和白云质灰岩的值十分接近，均为0~5%；R_LLD曲线特征主要呈现为泥质灰岩和泥质白云岩的相对低值和白云质灰岩、灰岩和白云质灰岩的相对高值，白云岩的R_LLD值位于这两类岩性之间。

下载CSV 表 2 研究区不同岩性原始测井响应特征统计 Table 2 Original logging response characteristics of different lithologies in the study area

下载原图图 3 研究区不同类型碳酸盐岩典型测井响应曲线特征注：R_LLD曲线值取为以10为底的对数值；薄片照片为单偏光照片，其中红色为茜素红染色的方解石 Fig. 3 Characteristics of typical logging response curves of different types of carbonate rocks in the study area

和砂岩的岩性识别不同，碳酸盐岩通常由于矿物成分相似，非均质性较强，使用单一曲线往往很难识别其中的过渡类型。虽然泥质灰岩和泥质白云岩的典型测井特征与其他类型碳酸盐岩有所区别，但从整体来看，研究区不同类型碳酸盐岩的测井曲线区别不是十分明显，取值区间较为重叠，说明单一使用某一测井曲线数据无法达到识别碳酸盐岩岩性的目的。为了进一步探究测井曲线的相关性，通过交会分析各类测井响应参数对于储层的敏感性，并用置信椭圆来加以表征（图 4）。椭圆越窄，说明2种测井曲线在该岩性中的相关性较好，对于岩性区分有效性较强。在同一个二维测井交会图中，不同岩性的椭圆离散，说明该二维交会图对岩性的区分度较好。研究样本结果表明，在研究区内的碳酸盐岩样品中，CNL和PE，CNL和R_LLD以及GR和DEN的置信椭圆较窄（长轴与短轴之比大于2），总体上看，不同岩性之间的置信椭圆分散程度一般。因此，二维测井曲线交会图版不能将复杂碳酸盐岩岩性很好地区分开，须要采用机器学习的方法进一步识别研究区碳酸盐岩岩性。

下载原图图 4 二维测井响应参数置信椭圆交会图（90%置信区间）图中置信椭圆表示90%的点所落到的区域，椭圆越窄，说明2种测井曲线相关性越好，椭圆越分散，说明测井响应参数对岩性的判别越敏感 Fig. 4 Two-dimensional logging response parameter confidence ellipse intersection graph

2.3 数据处理

由于XGBoost在进行建模时不能识别字符串类型的文本，为了方便编程处理以及避免简单用数值替换后数值的大小对模型产生影响，本文对岩性标签采用了One-HotEncoding进行了编码，通过One-Hot编码将岩性的n个取值转换为n个二元特征，以稀疏矩阵的形式储存在模型的标签列中。在进行算法识别岩性时，不同类型的测井曲线具有不同的量纲和数量级，其差异性会对模型的识别精度产生影响，故对6种测井曲线进行了标准化处理，由于不同井的测井曲线属性值大小不一，也不存在统一的上下限标准，因此本文采取标准分数的方法进行标准化，其计算式为

$ z = \frac{{x - \mu }}{\sigma } $

(6)

式中：z为标准化处理后的数据；x为样本数据；μ为样本数据均值；σ为样本数据的标准差。

2.4 模型应用及对比 2.4.1 模型参数设置

通过XGBoost算法建立岩性识别模型，其中对模型性能影响较大的参数主要为：迭代次数，即生成决策树的个数t，若迭代次数太大则容易使得模型过拟合，从而导致模型的泛化能力下降；学习率eta，用于控制每一次迭代的步长，提高模型的稳定性，学习率太高会降低模型识别的正确率，太低则会影响模型的运算速度；最大树深度D_max与子节点中最小样本权重和W_min，如果一个叶子节点的样本权重和小于设置的W_min，则此次叶子节点的拆分过程结束。该参数用于控制模型的复杂度，树太浅会降低模型的准确率，树太深则会使得模型过拟合，降低模型的泛化能力；叶子节点所需的最小损失函数的下降值γ，γ值越大，算法越保守，计算时间越长；以及用于增加模型随机性的参数随机采样训练样本的比例S，若将S设置为0.5表示XGBoost将随机从整个样本集合中抽取50%的子样本建立树模型，通过调整S的大小，可以提高模型的稳定性，增加最终识别的正确率。

由于本次模型所用数据规模较小，故采用k-折交叉验证的方法对模型的参数进行调优。k-折交叉验证的过程是将数据集分成k份，轮流将其中k-1份作为训练数据，剩余的1份作为测试数据进行试验。每次试验都会得出相应的测试正确率，k次测试正确率的平均值作为最终的测试正确率^[25]，在本次调优中根据样本量较小的特点将k的值取5。在模型参数为默认值的情况下（eta = 0.3，D_max=6，W_min=1，S = 1，γ = 1）对迭代次数进行调优（图 5），从图中可以看出，随着迭代次数的增加，模型测试集的对数似然损失值逐渐下降，迭代到420次左右逐渐稳定在0.27左右；模型的错误率随着迭代次数的增加先下降后上升，迭代到660次左右后错误率取得最小值，为0.112，以选取最小误差和迭代精度不再出现明显变化为原则，最终选定岩性识别模型的迭代次数为660次。

下载原图图 5 模型的对数似然损失值（a）和错误率（b）随迭代次数的变化 Fig. 5 Logloss value(a)and error rate(b)of the model vary with the number of iterations

在确定迭代次数的基础上，对模型的其他参数进行调优，其中对eta，S，γ的调优步长设置为0.1，D_max，W_min的调优步长设置为1，并按照eta，D_max，W_min，S和γ的顺序依次进行调节，最终调节完成后模型的参数为eta = 0.1，D_max，= 10，W_min= 6，S = 0.5，γ =0.1。

2.4.2 实验结果及方法对比

通过交叉检验对模型参数调节后，进行模型的训练，并采用测试集样本对建立的岩性识别模型预测效果进行验证，结果如表 3所列。

下载CSV 表 3 岩性识别模型预测结果 Table 3 Prediction results of lithology identification model

从表 3可以看出，模型对灰岩和白云岩的识别效果均较好，识别准确率分别达到了91.76%和90%，其次是泥质灰岩、白云质灰岩和泥质白云岩，这3种岩性的识别率均达到了85%以上，灰质白云岩的识别准确率较低，仅为81.25%。对灰质白云岩识别率较低的问题，本文采取了多种方式调节参数均不能提高其准确率，这可能是因为所选取的测井曲线对灰质白云岩的敏感程度较低。若想进一步优化，可以采取构造测井曲线的特征参数等特征工程进一步提高岩性识别的准确率^[26-27]。

同时将采用XGBoost算法的岩性识别结果与采用分类决策树、支持向量机方法所得到的岩性识别结果进行比较（表 4）。其中，分类决策树采用C4.5算法，表 4中的运行时间为训练和测试模型的总时间，准确率是测试的结果。为进一步证明XG‐ Boost算法对碳酸盐岩岩性识别的优越性，本文在测试集中选取了XRD测试数据密度较大的安探4 X井进行了单井预测验证（图 6）。与XRD测试数据的对比结果显示，XGBoost方法对于碳酸盐岩岩性识别较为准确，尤其是在岩性快速变化及曲线变化特征不明显的井段，XGBoost相较于SVM和决策树方法可以更准确地作出响应，识别率更高。

下载CSV 表 4 不同模型的性能比较 Table 4 Comparison of performance of different models

下载原图图 6 安探4 x井单井岩性识别效果图 Fig. 6 Lithology identification results of well Antan 4x

对于廊固凹陷北部奥陶系碳酸盐岩地层，XG‐boost识别模型对于岩性识别的准确率为三者最高，达到了88.18%（表 4）。其次是分类决策树，岩性识别的准确率为76.64%，支持向量机的性能较弱，识别的准确率为73.59%（表 4）。从时间上来看分类决策树和支持向量机的耗时相近，分别为2.27 s和2.45 s，XGBoost由于采用多个弱分类器组合的方式进行机器学习，其运算相对于其他2种算法耗时稍长，为3.52 s，由于其采用并行运算，在进行较大模型性训练和测试时并不会大幅度增加运算时间。

综合来看，采用XGBoost算法构建的复杂碳酸盐岩岩性识别模型，通过采用对多个弱学习器的线性组合以及在损失函数后面增加正则项的方式，在稍微增加了运算时长的情况下提升了其岩性识别的准确率，为复杂碳酸盐岩岩性的测井识别方面提供了新的思路。

3 结论

（1）XGBoost算法的优势主要在于在代价函数中引入正则化项，控制了模型的复杂度，降低了模型的方差，防止模型过拟合。同时在完成一次迭代之后，将叶子节点的权重，乘上缩减系数，来缩减一颗树的影响，从而使得后面有更多的学习的余地，可以很好地解决常规测井岩性识别方法中过拟合以及准确性不高的问题，使其在利用测井信息在岩性识别的准确性上较同类方法得到有效提升。

（2）模型对灰岩和白云岩的识别效果均较好，识别准确率分别达到了91.76%和90%，其次是泥质灰岩、白云质灰岩和泥质白云岩，这3种岩性的识别率均达到了85%以上，灰质白云岩的识别率较低，仅为81.08%，且相较于传统的机器学习模型，其准确率提升了10%以上。验证了XGBoost算法应用于测井岩性识别方面的可行性。

（3）数据的选取和预处理、模型的参数优化对于模型的准确率有着十分重要的影响。通过测井相关专业知识、置信椭圆的分析，确定了6种与岩性较为相关的测井曲线作为模型的变量数据，并通过交叉验证和对模型参数的调节确定了初步最优化模型，但参数调优进行模型优化存在优化上限，若想进一步优化岩性识别模型，须采用特征工程、模型组合等方法。

（4）基于XGBoost算法的岩性识别模型对复杂碳酸盐岩岩性的识别的准确率优于分类决策树、向量机这2种传统的机器识别方法，且由于XGBoost算法采用多线程和分布式计算的方法，使得训练时间大大缩短，因此该方法可以应用于数据较为庞大的模型。

参考文献

[1]	江凯, 王守东, 胡永静, 等. 基于Boosting Tree算法的测井岩性识别模型. 测井技术, 2018, 42(4): 396. JIANG K, WANG S D, HU Y J, et al. Lithology identification model by well logging based on boosting tree algorithm. Well Logging Technology, 2018, 42(4): 396.
[2]	王瑞, 朱筱敏, 王礼常. 用数据挖掘方法识别碳酸盐岩岩性. 测井技术, 2012, 36(2): 197. WANG R, ZHU X M, WANG L C. Using data mining to identify carbonate lithology. Well Logging Technology, 2012, 36(2): 197.
[3]	吴施楷, 曹俊兴. 基于连续限制玻尔兹曼机的支持向量机岩性识别方法. 地球物理学进展, 2016, 31(2): 821-828. WU S K, CAO J X. Lithology identification method based on continuous restricted Boltzmann machine and support vector machine. Progress in Geophysics, 2016, 31(2): 821-828.
[4]	杨冬. BP神经网络技术在碳酸盐岩岩性识别中的应用. 石化技术, 2016, 23(1): 58. YANG D. Application of BP neural network technology in carbonate lithology identification. Petrochemical Industry Technology, 2016, 23(1): 58.
[5]	张翔, 肖小玲, 严良俊, 等. 基于模糊支持向量机方法的岩性识别. 石油天然气学报(江汉石油学院学报), 2009, 31(6): 115-118. ZHANG X, XIAO X L, YAN L J, et al. Lithologic identification based on fuzzy support vector machines. Journal of Oil and Gas Technology(Journal of Jianghan Petroleum Institute), 2009, 31(6): 115-118.
[6]	钟仪华, 李榕. 基于主成分分析的最小二乘支持向量机岩性识别方法. 测井技术, 2009, 33(5): 425-429. ZHONG Y H, LI R. Application of principal component analysis and least square support vector machine to lithology identification. Well Logging Technology, 2009, 33(5): 425-429.
[7]	赵忠军, 黄强东, 石林辉, 等. 基于BP神经网络算法识别苏里格气田致密砂岩储层岩性. 测井技术, 2015, 39(3): 363-367. ZHAO Z J, HUANG Q D, SHI L H, et al. Identification of lithology in tight sandstone reservoir in Sulige Gas Field based on BP neural net algorithm. Well Logging Technology, 2015, 39(3): 363-367.
[8]	范存辉, 梁则亮, 秦启荣, 等. 基于测井参数的遗传BP神经网络识别火山岩岩性:以准噶尔盆地西北缘中拐凸起石炭系火山岩为例. 石油天然气学报, 2012, 34(1): 68-71. FAN C H, LIANG Z L, QIN Q R, et al. Identification of volcanic-rock lithology by using genetic BP neural network based on logging parameters:By taking carboniferous volcanic rocks in Zhongguai uplift of northwestern margin of Junggar Basin for instance. Journal of Oil and Gas Technology, 2012, 34(1): 68-71.
[9]	王振洲, 张春雷, 高世臣. 利用决策树方法识别复杂碳酸盐岩岩性:以苏里格气田苏东41-33区块为例. 油气地质与采收率, 2017, 24(6): 25-33. WANG Z Z, ZHANG C L, GAO S C. Lithology identification of complex carbonate rocks based on decision tree method:an example from block Sudong 41-33 in Sulige Gas Field. Petroleum Geology and Recovery Efficiency, 2017, 24(6): 25-33.
[10]	仲鸿儒, 成育红, 林孟雄, 等. 基于SOM和模糊识别的复杂碳酸盐岩岩性识别. 岩性油气藏, 2019, 31(5): 84-91. ZHONG H R, CHENG Y H, LIN M X, et al. Lithology identification of complex carbonate based on SOM and fuzzy recognition. Lithologic Reservoirs, 2019, 31(5): 84-91.
[11]	马峥, 张春雷, 高世臣. 主成分分析与模糊识别在岩性识别中的应用. 岩性油气藏, 2017, 29(5): 127-133. MA Z, ZHANG C L, GAO S C. Lithology identification based on principal component analysis and fuzzy recognition. Lithologic Reservoirs, 2017, 29(5): 127-133.
[12]	宋延杰, 王团, 付健, 等. 雷64区块砂砾岩储层岩性识别方法研究. 哈尔滨商业大学学报(自然科学版), 2015, 31(1): 73-78. SONG Y J, WANG T, FU J, et al. Research on technology of lithology identification of sand-conglomerate rock in Lei 64. Journal of Harbin University of Commerce(Natural Sciences Edition), 2015, 31(1): 73-78.
[13]	李洪奇, 谭锋奇, 许长福, 等. 基于决策树方法的砾岩油藏岩性识别:以克拉玛依油田六中区克下组油藏为例. 石油天然气学报(江汉石油学院学报), 2010, 32(3): 73-79. LI H Q, TAN F Q, XU C F, et al. Lithological identification of conglomerate reservoirs base on decision tree method. Journal of Oil and Gas Technology(Journal of Jianghan Petroleum Institute), 2010, 32(3): 73-79.
[14]	李百强, 张小莉, 王起琮, 等. 低渗-特低渗白云岩储层成岩相分析及测井识别:以伊陕斜坡马五段为例. 岩性油气藏, 2019, 31(5): 70-83. LI B Q, ZHANG X L, WANG Q C, et al. Analysis and logging identification of diagenetic facies of dolomite reservoir with low and ultra-low permeability:a case study from Ma 5 memberin Yishan slope, Ordos Basin. Lithologic Reservoirs, 2019, 31(5): 70-83.
[15]	CHEN T Q, GUESTRIN C. XGBoost: a scalable tree boosting system. Proceedings of the 22 nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco, California, USA, 2016: 785-794.
[16]	刘宇, 乔木. 基于聚类和XGboost算法的心脏病预测. 计算机系统应用, 2019, 28(1): 229. LIU Y, QIAO M. Heart disease prediction based on clustering and XGboost. Computer Systems & Applications, 2019, 28(1): 229.
[17]	FRIEDMAN J H. Greedy function approximation:a gradient boosting machine. The Annals of Statistics, 2001, 29(5): 1189-1232.
[18]	李超, 张文辉, 林基明. 基于XGBoost算法的恒星/星系分类研究. 天文学报, 2019, 60(2): 75. LI C, ZHANG W H, LIN J M. Research on star/galaxy classification based on XGBoost algorithm. Acta Astronomica Sinica, 2019, 60(2): 75.
[19]	沈倩倩, 邵峰晶, 孙仁诚. 基于XGBoost的乳腺癌预测模型. 青岛大学学报(自然科学版), 2019, 32(1): 97. SHEN Q Q, SHAO F J, SUN R C. Prediction model of breast cancer based on XGBoost. Journal of Qingdao University (Natural Science Edition), 2019, 32(1): 97.
[20]	罗菊兰, 陈彦竹, 高波, 等. 基于矿物组合分类的碳酸盐岩储层岩性识别模型的建立. 国外测井技术, 2018, 39(2): 21-26. LUO J L, CHEN Y Z, GAO B, et al. Establishment of lithology recognition model for carbonate reservoir based on mineral assemblage classification. World Well Logging Technology, 2018, 39(2): 21-26.
[21]	高雅琴, 谢润成, 吕志洲, 等. 基于多元概率因子识别复杂碳酸盐岩岩性方法的应用. 石化技术, 2018, 25(2): 122-123. GAO Y Q, XIE R C, LYU Z Z, et al. The application of methods of identifying lithology of complex carbonate rocks based on multiple probability factor. Petrochemical Industry Technology, 2018, 25(2): 122-123.
[22]	孙哲, 韦阿娟, 江尚昆, 等. 元素录井技术在渤海潜山岩性识别中的应用. 特种油气藏, 2017, 24(5): 78-84. SUN Z, WEI A J, JIANG S K, et al. Application of element logging technology in identifying buried hill lithologies in Bohai Sea. Special Oil and Gas Reservoirs, 2017, 24(5): 78-84.
[23]	关新, 陈世加, 苏旺, 等. 四川盆地西北部栖霞组碳酸盐岩储层特征及主控因素. 岩性油气藏, 2018, 30(2): 67-76. GUAN X, CHEN S J, SU W, et al. Carbonate reservoir characteristics and main controlling factors of Middle Permian Qixia Formation in NW Sichuan Basin. Lithologic Reservoirs, 2018, 30(2): 67-76.
[24]	刘冬冬, 杨东旭, 张子亚, 等. 基于常规测井和成像测井的致密储层裂缝识别方法:以准噶尔盆地吉木萨尔凹陷芦草沟组为例. 岩性油气藏, 2019, 31(3): 76-85. LIU D D, YANG D X, ZHANG Z Y, et al. Fracture identification for tight reservoirs by conventional and imaging logging:a case study of Permian Lucaogou Formation in Jimsar Sag, Junggar Basin. Lithologic Reservoirs, 2019, 31(3): 76-85.
[25]	杨柳, 王钰. 泛化误差的各种交叉验证估计方法综述. 计算机应用研究, 2015, 32(5): 1288-1289. YANG L, WANG Y. Survey for various cross-validation estimators of generalization error. Application Research of Computers, 2015, 32(5): 1288-1289.
[26]	KHALID S, KHALIL T, NASREEN S. A survey of feature selection and feature extraction techniques in machine leaing. 2014 Science and Information Conference. London, UK, 2014: 372-378.
[27]	RAMASUBRAMANIAN K, SINGH A. Machine learning using R. New York: Apress, 2017: 181-184.


岩性油气藏 2020, Vol. 32 Issue (4): 98-106	PDF