文章快速检索     高级检索
  中国石油勘探  2023, Vol. 28 Issue (3): 167-172  DOI:10.3969/j.issn.1672-7703.2023.03.014
0

引用本文 

石磊. 一种基于随机森林算法的探明储量预测新方法[J]. 中国石油勘探, 2023, 28(3): 167-172. DOI: 10.3969/j.issn.1672-7703.2023.03.014.
Shi Lei. A new method for predicting proven reserves based on random forest algorithm[J]. China Petroleum Exploration, 2023, 28(3): 167-172. DOI: 10.3969/j.issn.1672-7703.2023.03.014.

第一作者简介

石磊(1983-),女,江苏扬州人,硕士,2009年毕业于中国石油大学(北京),高级工程师,现主要从事油气勘探与规划部署研究工作。地址:北京市昌平区沙河镇百沙路5号中石化科学技术中心石油勘探开发研究院规划所,邮政编码:102206。E-mail:shilei.syky@sinopec.com

文章历史

收稿日期:2023-03-21
修改日期:2023-05-06
一种基于随机森林算法的探明储量预测新方法
石磊     
中国石化石油勘探开发研究院
摘要: 传统的哈伯特模型、翁氏模型等预测方法主要采用一元多项式拟合储量增长趋势,无法解决多变量对储量预测的影响,使得预测结果与客观实际存在较大差距。文章基于随机森林机器学习模型,建立了一种预测累计探明储量增长趋势的新方法。该方法通过相关性分析找出影响探明储量增长的可量化指标,从而确定模型训练中的输入属性,以同类盆地油田年度累计探明储量为评价单元,建立随机森林机器学习样本数据集,通过调整决策树个数和单个决策树的最大特征数,对模型进行优化训练,从而建立累计探明储量预测模型,成功解决了多因素叠加下储量非线性增长预测的难题。该方法在东部断陷盆地油田年度累计探明储量预测中应用成效显著,预测模型拟合的准确率达到88.19%,具有巨大的推广应用价值。
关键词: 机器学习    随机森林算法    储量增长趋势    东部断陷盆地    油田年度累计探明储量    
A new method for predicting proven reserves based on random forest algorithm
Shi Lei     
Sinopec Petroleum Exploration and Production Research Institute
Abstract: In terms of the traditional reserve prediction methods, such as Hubbert model and Weng's model, univariate polynomials are generally used to fit the reserve growth trend, which are unable to determine the influence of multiple variables on reserve prediction, resulting in a significant gap between the predicted results and objective reality. Based on the random forest machine learning model, a new method for predicting the growth trend of cumulative proven reserves is established, with the details as follows: Identify the quantifiable indicators that affect the growth of proven reserves through correlation analysis to determine the input attributes in the training model; Establish a random forest machine learning sample data set by taking the annual cumulative proven reserves of oilfields in the same basin as the evaluation unit; Optimize and train the model by adjusting the number of decision trees and the maximum characteristic number of a single decision tree, thus establishing a prediction model for the cumulative proven reserves, which supports to predict the nonlinear reserve growth affected by multiple factors. As a result, remarkable results have been achieved in predicting the annual cumulative proven reserves of oil fields in the eastern fault basin by applying this method, with a fitting accuracy of up to 88.19%, showing great promotion and application value.
Key words: machine learning    random forest algorithm    reserve growth trend    eastern fault basin    annual cumulative proven reserves of oilfield    
0 引言

储量是勘探工作的目标和导向,采用科学的方法预测储量增长趋势和合理确定储量指标对于油公司发展规划编制和勘探工作部署制定具有至关重要的意义。传统的油气储量增长趋势的预测方法包括基于生命旋回的哈伯特模型、翁氏模型、逻辑斯谛模型、高斯模型等,以及基于概率论与蒙特卡洛统计模拟法的油田规模序列法[1-5],这些方法在国外广泛应用,国内油公司在学习、引进这些方法的同时,也在实际应用过程中建立了适合本地区储量增长特征的方法,例如对储量发现历史数据进行拟合的“帚状”预测模型以及针对勘探发现中储量“多峰”增长问题建立的多旋回哈伯特模型、多旋回高斯模型等[6-7]

现有的方法技术存在的主要问题包括:目前广泛应用的哈伯特模型、翁氏模型等预测的是盆地整个油气勘探生命旋回的资源量、最终探明储量,无法有效解决中短期储量增长预测的问题;现有的预测方法主要研究对象为单一盆地或凹陷,缺少对同种类型盆地的研究;目前的方法主要采用一元多项式拟合储量增长趋势,无法解决多变量对储量预测的影响,使得预测结果与客观实际存在较大差距。

随着人工智能技术的快速发展,机器学习等智能算法也开始广泛应用于油气勘探领域。例如半监督模糊C均值机器学习、卷积神经网络(CNN)、支持向量回归与长短期记忆网络等方法被应用于沉积相分析中,进行储层孔隙度、渗透率等的预测[8-14]。但是在规划计划编制过程中,规划指标的建立等方面仍然缺乏智能方法的应用,主要依靠专家的经验,主观性较强。

本文建立的随机森林(Random Forest,RF)机器学习模型能更为合理地解决多因素影响下的储量增长趋势预测的问题,更为真实地反映储量增长的客观规律,提高储量预测的准确度,从而为年度油气勘探规划储量目标的制定提供更为科学精准的依据。

1 方法原理 1.1 基于随机森林算法的机器学习预测模型

前人的研究主要是根据石油储量历史数据通过线性拟合建立储量与相关影响参数之间的数学关系,但是储量增长是不同勘探阶段的地质认识、勘探投入、勘探理论和技术进步共同影响的结果[15]。这种多因素影响下的储量增长趋势预测的问题,往往是非线性相关的,普通的数学模型很难建立相关因素与储量之间的关系。因而尝试采用机器学习的方法可以解决更为复杂的、多维度的、非线性的多参数的智能预测问题。

机器学习中的一个大类叫集成学习(Ensemble Learning),集成学习的基本思想就是将多个分类器组合,从而实现一个预测效果更好的集成分类器。随机森林就属于集成学习,是将许多棵决策树(Decision Tree)整合成森林并用来预测最终结果的方法。Breiman等在20世纪80年代首先提出了决策树算法,算法的核心是将数据反复分类或回归以减少计算量。这种方法可以高效处理大规模数据集,且预测效果良好。但是这种算法容易忽略数据之间的关联性,容易出现过拟合。2001年Breiman提出随机森林的概念,这种方法是基于单一决策树模型,采用集成学习的思想创造出的一种更为高级的算法,既可以处理属性为离散值的量,也可以处理属性为连续值的量[16-18]。随机森林,顾名思义,是用随机的方式建立一个森林,森林由很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行判断,看这个样本应该属于哪一类,选择次数最多的类别就是样本预测的那一类(图 1)。

图 1 随机森林算法原理示意图 Fig. 1 Schematic diagram of random forest algorithm

随机森林模型训练的特点是随机选取样本和特征属性,而随机森林分类的过程近乎是一个黑箱操作,这就在最大程度上避免了主观因素的干扰,从而提高模型算法的模糊性和多样性。且随机森林模型对于解决小样本、非线性、高维度的问题具有简单易行、运算效率高、不易过拟合的优点,其预测效果要远好于线性回归预测[19-20]。由此,对于小样本条件下、非线性多因素影响的中短期探明储量增长趋势的预测,随机森林机器学习模型具有较大优势。

随机森林算法预测累计探明储量的核心是机器学习样本集生成、超参数优选、模型训练和预测模型建立。决策树数量和特征属性数是影响随机森林模型性能的两个超参数,这就需要一定数量的样本来保证模型随机抽取数据特征形成多个决策树,构建森林。解剖大量已发现油气藏的储量发现历程,分析储量增长的可量化影响因素,能够提供模型训练所需的随机特征属性,该过程是对模型进行优化的过程,会影响到最终预测结果的精度。因此,随机森林算法更适合解决具有一定历史数据的成熟探区的储量增长预测问题,而对于勘探新区储量增长的预测则具有局限性。

1.2 样本点的建立及模型参数的选择 1.2.1 预测模型样本点的建立

选取某油田年度累计探明石油储量作为模型的样本点以及基本评价单元,细化评价单元可以为机器学习算法提供更加充足的样本点,提高最终预测结果的精度和可靠性。

盆地的基本石油地质条件是影响探明储量增长的关键性因素。前人研究认为储量的增长受含油气盆地的构造特征影响,不同类型盆地其储量增长特点各异。东部拉张型坳陷盆地储量呈现典型的分段式增长的规律。勘探早期发现大规模构造油气藏,储量实现高速增长,经过初期以背斜勘探为主、主力油田率先发现之后,逐步走向斜坡带和向斜区的中小型地层油气藏、岩性油气藏等非背斜油气藏勘探,储量增长速度明显减小。东部拉张型断陷盆地中,油气藏呈断裂构造背景整体控制下的复杂断块油气田群分布,类型多样、规模小而分散。勘探早期,储量增长的规律性较差,呈现明显的跳跃性变化,随着规律性认识的不断深入,进入储量高速增长阶段,最终进入稳定阶段。西部叠合盆地演化则更为复杂,认识过程更为漫长,呈现出储量多峰增长的特点[15]。由于同类盆地在成藏条件、储量增长高峰期和持续增储周期上均具有共性特征,因此将以油田为单元的样本点按照盆地进行归类,更符合储量增长的客观地质规律。

1.2.2 模型参数的选择

在随机森林模型中,数据特征属性是模型决策树训练过程中随机属性选择的重要输入变量,会影响最终预测的准确率。变量与预测目标相关性好,才能避免模型过度拟合、收敛性差等问题[21]

资源禀赋是储量增长的物质基础和先决条件,国内众多含油气盆地的勘探实践和综合研究表明,石油地质储量的发现规模和增长速度与盆地的资源规模成明显正相关关系。而实施钻探是推动储量发现最直接的因素,其既可以证实储量规模大小,也可以推动勘探工作进程,促进探明储量的评价落实。因而选取资源量、探井数和进尺数这3类与储量增长密切相关的因素作为建立模型的重要输入特征参数。

不同勘探阶段的地质认识、勘探理论和技术进步等定性指标则作为预测的参考标准以及对预测结果的约束指标。因为在实际生产中,针对某些领域持续投入勘探工作量也未能实现勘探突破和储量发现,预示着唯有在理论认识上有新突破才能推动勘探新发现。

2 实现步骤

(1)确定研究的盆地类型,并以油田年度累计探明石油储量为评价基本单元,即模型中的样本点。采用线性拟合方式对各影响因素与年度累计探明石油储量的关系进行分析,寻找相关性强的因素,即主控因素,聚焦规律性,提高计算效率,减少由于误差叠加的放大效应,提高预测结果的精度。根据主控因素、研究的基本单元和盆地类型,建立机器学习样本数据集。

(2)对机器学习模型进行训练,获得年度累计探明石油储量预测模型。在使用随机森林算法进行模型训练时,非常重要的步骤是对决策树数量和单个决策树可使用的最大特征值数量进行优选。本文取值决策树数量在10~100个之间,特征属性数量根据最大特征值数量分别取1、2、3、4个,交叉验证后选择最优参数。决策树数量为10个时,随机森林模型的识别准确率整体偏低,随机选取的特征属性数量从1个增加至4个时,随机森林的识别准确率有所增长,平均增幅在2%左右,之后随着随机选取特征属性数量的增加,模型的性能趋于稳定。当随机选取的特征属性数量达到4个,决策树的数量超过20个时,随机森林的识别准确率超过了80%,但决策树数量大于45时准确率有所下降(图 2)。因此,为保证识别准确率,最终设置随机森林的特征属性数量为4个,决策树数量为45个。

图 2 不同参数设置下随机森林模型识别准确率对比图 Fig. 2 Comparison of recognition accuracy of random forest model by setting different parameters

(3)采用基于随机森林算法的预测模型对年度累计探明石油储量进行预测,获得预测结果。从学习样本中随机选取90%的样本建立训练集,10%的样本建立验证集,对模型预测的准确性进行验证。

3 实例分析

研究选取233个油田的年度累计探明储量作为模拟的样本点。用于建模的油田样本数据均来源于某公司经过审查、入库的探明储量数据,因而数据来源可靠,准确性较高。并且样本来源广泛,涵盖了某公司东部断陷盆地2016—2020年所有上报探明储量的油田。

采用线性拟合的方式对累计探井数、累计进尺数、资源量这3类影响因素与累计探明储量进行相关性分析(图 3图 5),可以看出累计探井数、累计进尺数、资源量均与累计探明储量呈现出正相关关系,表明这3种因素与累计探明储量的增长均密切相关,可以作为机器学习中控制因素的输入值。

图 3 东部断陷盆地各油田年度累计探井数与石油累计探明储量相关性图 Fig. 3 Correlation between annual cumulative number of exploratory wells and cumulative proven oil reserves of various oilfields in the eastern fault basin
图 4 东部断陷盆地各油田年度累计进尺数与石油累计探明储量相关性图 Fig. 4 Correlation between annual cumulative footage and cumulative proven oil reserves of various oilfields in the eastern fault basin
图 5 东部断陷盆地各油田资源量与石油累计探明储量相关性图 Fig. 5 Correlation between resources and cumulative proven oil reserves of various oilfields in the eastern fault basin

通过分析储量发现的历程及增长的规律, 发现某公司东部断陷盆地探明储量主要来源于近5年预测地质储量升级、控制地质储量升级、“出油点”升级等,而储量的5年升级率接近3年升级率,近年来许多上报的储量基本在3年内完成升级,因而研究近期的勘探主要目标、增储领域对于预测年度储量目标及制定年度计划更具有参考价值。统计2016—2020年各油田的年度累计探井数、累计进尺数及资源量,同时综合考虑探明程度、勘探成效及地质认识程度,对样本数据进行预处理,将探明程度低、地质可靠性较差的样本点以及工作量累积到一定程度而探明储量不再增长的无效点去除,由此建立起机器学习样本数据集。

采用机器学习中的随机森林模型进行训练。模拟中总有效样本点为210个油田,随机抽取其中193个油田的年度累计工作量、资源量及探明储量建立训练集,抽取17个油田进行预测验证。在实际储量数据和随机森林预测储量数据交会图中,越靠近斜率线的点与实际数据偏差越小。模拟结果显示,大部分的数据点位于斜率线附近(图 6),使用回归模型的性能评价指标——决定系数(即图 6中的R2),判定预测数据和实际数据的误差,其原理是通过采用预测值与均值的比例关系[公式(1)至公式(3)],反映回归预测值与真实值的拟合准确度。计算得到决定系数为0.8819(即拟合准确率为88.19%),验证预测的准确性较高,基本能够满足东部断陷盆地油田探明储量级别的预测。由于东部断陷盆地探明程度相对较高,而大规模的油田发现难度较大,导致大部分样本点的累计探明储量值处于低值区,这与油气藏发现的客观规律是相吻合的。

图 6 年度累计石油探明储量实际值与预测值交会图 Fig. 6 Cross plot of actual and predicted annual cumulative oil reserves
$ R^2=1-\frac{U}{V} $ (1)
$ U=\sum\limits_{i=1}^m\left(Y_{\mathrm{p} i}-Y_{\mathrm{t} i}\right)^2 $ (2)
$ V = m\sum\limits_{i = 1}^m {{{\left( {{Y_{{\rm{t}}\mathit{i}}} - {{\bar Y}_{\rm{t}}}} \right)}^2}} $ (3)

式中 Ypi——样品i的预测值;

Yti——样品i的实际值;

${{{\bar Y}_{\rm{t}}}} $——实际值均值;

m——样品个数。

本研究是一个机器学习的算法应用于储量趋势预测的首次尝试,机器学习的优势在于能够处理大量的数据,为类型多样、影响因素各异、非线性增长的复杂数据分析提供了一种新思路、新方法。当然,采用机器学习算法来预测储量也具有一定的适用条件。首先,要有足够多的样本点,才能保证足够多的数据用于模型的训练,如果储量数据能够细化到层系,有更多的样本点,携带更多的地质信息,就可以更好地提高预测精度。其次,地质认识程度对勘探领域的认识也影响到预测结果,在预测过程中发现,尽管一些工作量在增加,但储量未发生变化,这可能要结合地质认识进行具体分析,也启示决策者要调整勘探目标和部署思路,才能实现勘探突破,取得储量发现。

4 结论与建议

(1)相比传统方法,基于随机森林的机器学习算法能够解决更为复杂的储量非线性增长的问题,对多维度复杂数据处理是一种全新的尝试。

(2)随机森林算法的特征属性为可量化的、相互独立的影响储量增长的各类因素,算法的中间实现过程类似于一个黑箱操作,减少了人为主观因素对结果的干扰,使得预测值更贴近客观事实。

(3)基于随机森林算法的机器学习预测模型能够较为准确地预测油田年度累计探明储量值。在某公司东部断陷盆地进行应用,取得了比较好的预测效果,回归模型的性能评价指标显示模型拟合的准确率达到88.19%。

(4)足够多的数据样本点是采用机器学习算法预测探明储量的前提条件,充分加工利用数据所携带的地质信息是提高机器学习算法预测精度的重要手段,所预测地区的地质认识程度、勘探成效和探明程度也是影响预测结果的重要因素。

参考文献
[1]
王屿涛, 雷玲, 向英, 等. 准噶尔盆地重点区带石油储量增长规律及勘探潜力分析[J]. 中国石油勘探, 2012, 17(4): 8-14.
Wang Yutao, Lei Ling, Xiang Ying, et al. Analysis about growth law and exploration potential of oil reserves in key zones of Junggar Basin[J]. China Petroleum Exploration, 2012, 17(4): 8-14. DOI:10.3969/j.issn.1672-7703.2012.04.002
[2]
刘鹏, 邱雯, 李杭兵, 等. 数理模型储量预测法在泌阳凹陷的应用研究[J]. 石油地质与工程, 2016, 30(2): 17-20.
Liu Peng, Qiu Wen, Li Hangbing, et al. Application of mathematical model reserves prediction method in Biyang Depression[J]. Petroleum Geology and Engineering, 2016, 30(2): 17-20.
[3]
高磊, 郭元岭, 宗国洪, 等. 探明储量增长"帚状"预测模型: 以济阳坳陷为例[J]. 石油勘探与开发, 2002, 29(6): 45-47.
Gao Lei, Guo Yuanling, Zong Guohong, et al. A broom-type model for predicting incremental proved reserves[J]. Petroleum Exploration and Development, 2002, 29(6): 45-47. DOI:10.3321/j.issn:1000-0747.2002.06.014
[4]
刘国全, 贾丽, 刘娟霞, 等. 石油探明储量增长趋势预测方法及应用[J]. 中国石油勘探, 2014, 19(4): 70-74.
Liu Guoquan, Jia Li, Liu Juanxia, et al. Prediction method of proven oil reserve growth trend and its application[J]. China Petroleum Exploration, 2014, 19(4): 70-74.
[5]
余果, 李海涛, 陈艳茹. 四川盆地天然气储量增长趋势[J]. 天然气勘探与开发, 2021, 44(1): 30-37.
Yu Guo, Li Haitao, Chen Yanru. Predicting the growth trend of natural-gas reserves in Sichuan Basin based on multi-cycle models[J]. Natural Gas Exploration and Development, 2021, 44(1): 30-37.
[6]
刘鹏, 李显路, 孙凤华. 泌阳凹陷油气勘探规划指标预测及方法研究[J]. 石油地质与工程, 2020, 34(6): 43-46.
Liu Peng, Li Xianlu, Sun Fenghua. Indicators prediction and method research of oil and gas exploration planning in Biyang Sag[J]. Petroleum Geology and Engineering, 2020, 34(6): 43-46.
[7]
王伟锋, 刘鹏, 郑玲, 等. 鄂尔多斯盆地天然气储量和产量预测分析[J]. 天然气地球科学, 2014, 25(9): 1483-1490.
Wang Weifeng, Liu Peng, Zheng Ling, et al. Natural gas reserves and production prediction of Ordos Basin[J]. Natural Gas Geoscience, 2014, 25(9): 1483-1490.
[8]
张艳, 张春雷, 成育红, 等. 基于机器学习的多地震属性沉积相分析[J]. 特种油气藏, 2018, 25(3): 13-17.
Zhang Yan, Zhang Chunlei, Cheng Yuhong, et al. Multi-attribute seismic sedimentary facies analysis based on machine learning[J]. Special Oil & Gas Reservoirs, 2018, 25(3): 13-17.
[9]
Das V, Mukerji T. Petrophysical properties prediction from pre-stack seismic data using convolutional neural networks[M]// Bevc D, Nedorub O. SEG Technical Program Expanded Abstracts 2019. Houston: Society of Exploration Geophysicists, 2019: 2328-2332.
[10]
吴正阳, 莫修文, 柳建华, 等. 裂缝性储层分级评价中的卷积神经网络算法研究与应用[J]. 石油物探, 2018, 57(4): 618-626.
Wu Zhengyang, Mo Xiuwen, Liu Jianhua, et al. Convolutional neural network algorithm for classification evaluation of fractured reservoirs[J]. Geophysical Prospecting for Petroleum, 2018, 57(4): 618-626.
[11]
安鹏, 曹丹平, 赵宝银, 等. 基于LSTM循环神经网络的储层物性参数预测方法研究[J]. 地球物理学进展, 2019, 34(5): 1849-1858.
An Peng, Cao Danping, Zhao Baoyin, et al. Reservoir physical parameters prediction based on LSTM recurrent neural network[J]. Progress in Geophysics, 2019, 34(5): 1849-1858.
[12]
Alfarrja M, Alregib G. Semi-supervised learning for acoustic impedance inversion[M]//Bevc D, Nedorub O. SEG Technical Program Expanded Abstracts 2019. Houston: Society of Exploration Geophysicists, 2019: 2298-2302.
[13]
黄旭日, 代月, 徐云贵, 等. 基于深度学习算法不同数据集的地震反演实验[J]. 西南石油大学学报(自然科学版), 2020, 42(6): 16-25.
Huang Xuri, Dai Yue, Xu Yungui, et al. Seismic inversion experiments based on deep learning algorithm using different datasets[J]. Journal of Southwest Petroleum University (Science & Technology Edition), 2020, 42(6): 16-25.
[14]
王惠君, 赵桂萍, 李良, 等. 基于卷积神经网络(CNN)的泥质烃源岩TOC预测模型: 以鄂尔多斯盆地杭锦旗地区为例[J]. 中国科学院大学学报, 2020, 37(1): 103-112.
Wang Huijun, Zhao Guiping, Li Liang, et al. TOC prediction model for muddy source rocks based on convolutional neural network (CNN): a case study of the Hangjinqi area of the Ordos Basin[J]. Journal of University of Chinese Academy of Sciences, 2020, 37(1): 103-112.
[15]
傅瑞军, 郭元岭. 探明储量增长影响因素分析[J]. 油气地质与采收率, 2003, 10(4): 14-15.
Fu Ruijun, Guo Yuanling. Analysis on factors of influencing the increase of proven reserves[J]. Petroleum Geology and Recovery Efficiency, 2003, 10(4): 14-15.
[16]
Robin G, Jeanmichel P, Christine T M, et al. Random forests for big data[J]. Big Data Research, 2017, 9: 28-46.
[17]
Vigneau E, Courcoux P, Symoneauxr, et al. Random forests: a machine learning methodology to high-light the volatile organic compounds involved in olfactory perception[J]. Food Quality and Preference, 2018, 68: 135-145.
[18]
Christoph B, Christian P, Marianr. Testing the optimality of inflation forecasts under flexible loss with random forests[J]. Economic Modelling, 2018, 72: 270-277.
[19]
侯贤沐, 王付勇, 宰芸, 等. 基于机器学习和测井数据的碳酸盐岩孔隙度与渗透率预测[J]. 吉林大学学报(地球科学版), 2022, 52(2): 644-653.
Hou Xianmu, Wang Fuyong, Zai Yun, et al. Prediction of carbonate porosity and permeability based on machine learning and logging data[J]. Journal of Jilin University(Earth Science Edition), 2022, 52(2): 644-653.
[20]
刘燊, 刘啸奔, 李睿, 等. 基于机器学习的冻土区融沉变形管段识别方法[J]. 石油机械, 2022, 50(3): 106-114.
Liu Shen, Liu Xiaoben, Li Rui, et al. Identification of thaw settlement deformation pipe section in frozen soil area based on machine learning[J]. China Petroleum Machinery, 2022, 50(3): 106-114.
[21]
柴明锐, 程丹, 张昌民, 等. 机器学习方法对砂砾岩岩屑成分的预测: 以西北缘X723井百口泉组为例[J]. 西安石油大学学报(自然科学版), 2017, 32(5): 22-28.
Chai Mingrui, Cheng Dan, Zhang Changmin, et al. Prediction of debris composition in glutenite by machine learning method: a case study in Baikouquan Formation of Well X723 in the NW margin of Junggar Basin[J]. Journal of Xi'an Shiyou University(Natural Science Edition), 2017, 32(5): 22-28.