利用随机森林回归算法预测总有机碳含量

引用本文

冯明刚, 严伟, 葛新民, 朱林奇. 2018. 利用随机森林回归算法预测总有机碳含量. 矿物岩石地球化学通报, 37(3): 475-481 复制到剪切板

FENG Ming-gang, YAN Wei, GE Xin-min, ZHU Lin-qi. 2018. Predicting Total Organic Carbon Content by Random Forest Regression Algorithm. Bulletin of Mineralogy, Petrology and Geochemistry, 37(3): 475-481 复制到剪切板

利用随机森林回归算法预测总有机碳含量

冯明刚¹, 严伟¹, 葛新民², 朱林奇³

1. 中国石化勘探分公司勘探研究院, 成都 610041;
2. 中国石油大学(华东)地球科学与技术学院, 山东青岛 266580;
3. 长江大学油气资源与勘探技术教育部重点实验室, 非常规油气湖北省协同创新中心, 武汉 430100

收稿日期: 2017-07-28 收到; 2017-12-22 改回

基金项目: 国家科技重大专项（2017ZX05036005）；中石化科技部项目（P16110）

第一作者简介: 冯明刚(1972-), 男, 高级工程师, 研究方向:测井资料解释与方法.E-mail:36693410@qq.com

摘要: 针对现有页岩气储集层总有机碳含量预测模型存在的模型泛化能力弱、稳定性差的问题，提出了一种利用随机森林回归算法预测储集层总有机碳含量的方法。该方法使用地球物理测井提供的密度、铀含量、钍含量、自然伽马及光电吸收截面吸收指数等测井响应值作为输入，岩芯实验总有机碳含量作为输出，通过学习输入曲线与总有机碳含量的函数关系，动态预测整口井的总有机碳含量曲线。通过对焦石坝地区两口页岩气探井建模及预测可知，当随机森林中树的数量达到500时，建立的模型即可对训练样本中输入与输出的函数关系进行完全学习。通过训练结果及预测结果可知，随机森林回归方法不易发生过拟合现象，泛化能力极强，同时预测得到的曲线更为平滑，预测总有机碳含量较其他方法更为准确，有效地提高测井信息预测总有机碳含量模型的精度，对页岩气储集层评价提供帮助。

关键词: 页岩气总有机碳含量随机森林回归机器学习

Predicting Total Organic Carbon Content by Random Forest Regression Algorithm

FENG Ming-gang¹, YAN Wei¹, GE Xin-min², ZHU Lin-qi³

1. Explorationand Research Institute of Sinopec, Chengdu 610041, China;
2. School of Geoscience, China University of Petroleum, Shandong Qingdao 266580, China;
3. Key Laboratory of Exploration Technologies for Oil and Gas Resources, Ministry of Education, Hubei Cooperative Innovation Center of Unconventional Oil and Gas, Yangtze University, Wuhan 430100, China

Abstract: The existing TOC prediction model of shale gas reservoir has weak generalization ability and is not stable, thus, a method for predicting reservoir TOC using random forest regression algorithm is proposed. The method takes logging responses of density, uranium and thorium contents, gamma ray and photoelectric absorption cross section as input and TOC content as output. By studying the function relation between input and TOC, the variation of TOC of the whole well is predicted dynamically. The modeling and prediction results for two wells in the Jiaoshiba area have shown that the established model can completely study the input and output functions when the number of trees in random forest reaches 500. Through the comparison between training and prediction results, random forest regression method is difficult to be overfitting and generalization ability is very strong. At the same time, TOC forecast can generate more accurate results and smoother predicted curve than other methods. The above results show that the random forest regression algorithm is powerful to improve the accuracy of logging prediction TOC model, and can be helpful for the exploration and development of shale gas.

Key words: shale gas total organic carbon Random Forest Regression machine learning

受美国“页岩气革命”的影响，页岩气勘探受到了大量的关注(董大忠等，2012；王红岩等，2013；张东晓和杨婷云，2013；郭旭升，2014)。页岩气是典型的“自生自储”式油气藏，决定其储量的应为其生烃潜力。总有机碳含量(TOC)的准确计算对于优质储集层的寻找至关重要，意义甚至超过砂岩中的含油饱和度(陈文玲等，2013；曹晓萌等，2014；王玉满等，2014)。确定地层不同深度TOC最准确的方法是取芯实验，但这存在着样本数有限、实验成本高、耗时长等问题。测井曲线由于能够测得整个目的层段的连续的地层参数，所以较常见的确定TOC的方法是建立测井曲线响应值与储层TOC的关系，利用测井曲线沿井轴剖面预测储层段的TOC。

现有利用测井曲线预测TOC的方法有4类：①利用单曲线或多曲线建立回归关系的预测方法，如利用密度曲线(DEN)预测TOC、利用U含量曲线(U)预测TOC等(黄薇等，2015；贺聪等，2016；王健等，2016)；②利用干酪根的物理性质建立模型的方法，如ΔlgR法、CARBOLOG法等(黄晨和潘保芝，2006；刘俊民等，2008；王濡岳等，2015；刘苍宇和辛仁臣，2015)；③利用非常规测井进行预测的方法，如元素俘获(ECS)测井、核磁共振(NMR)测井等(袁超等，2014；李军等，2014；王志宏等，2015；路菁等，2016)；④利用机器学习算法预测TOC的方法，如神经网络(BPNN)、支持向量机(SVM)预测TOC的方法(Ouadfeul and Aliouane, 2015；朱林奇等，2016；刘志刚等，2017)。

单元拟合方法优势是建模方法简单，但从信息论的角度来说，单元拟合所使用的地层信息过少(仅使用地层某一地层响应特征与TOC建关系)，在该曲线测量效果较差或者储集层TOC较低时，地层关于TOC的响应受到压制，预测精度会有所下降。多元拟合方法所建立的模型为非理论模型，仅能确定响应值与TOC的正负相关性，这种线性或非线性约束存在其不合理性，所建立的模型并不可靠。第2类方法从其理论来说，对储集层的成熟度有要求，对于过成熟页岩效果并不理想。而利用非常规测井预测TOC的方法确实能在一定程度上提高TOC的预测精度，但是测量价格较为昂贵，即使存在效果较好的模型也难以推广。

机器学习算法能通过对样本的学习，自动确定各测井响应值与TOC的综合关系。其最大的优势在于，可以较好的利用大量地层信息对TOC进行综合预测，使得模型较为稳定，不会因为某一曲线失真而使精度大大下降。不同算法由于机理不同效果不尽相同，而机器学习算法的表征函数能力是研究的关键，针对该思路，作者提出了一种基于随机森林回归算法预测TOC的模型，其较现有机器学习预测TOC算法来说具有更强的泛化能力与稳定性。通过对实际资料的处理，认为该模型预测TOC较其他算法精度更高，较为可靠。该模型可有效提高TOC预测的精度和可靠性，对页岩气的勘探开发帮助很大。

1 总有机碳含量与测井响应关系研究

机器学习方法的精度在很大程度上取决于模型的输入，这是因为不同的测井曲线与TOC的相关程度不同，若曲线与TOC的相关性弱或者关系过于复杂，在样本不足的情况下很容易使算法学到错误的函数关系，造成过拟合。利用焦石坝地区2口井(A、B)237块龙马溪组-五峰组页岩岩样资料研究TOC与测井响应值的关系。焦石坝地区为典型的海相页岩储集层，岩性以暗色页岩为主，岩石类型丰富，常见的有含放射虫碳质笔石页岩、碳质笔石页岩、含骨针放射虫笔石页岩、含碳含粉砂泥岩、含碳质笔石页岩以及含粉砂泥岩；主要沉积相是深水陆棚亚相和浅水陆棚亚相沉积的滨外陆棚相；页岩矿物成分主要包括石英、长石、方解石、白云石、黄铁矿和黏土等矿物；页岩有机碳含量总体较高，原始生烃潜力巨大，有机质类型主要为Ⅰ型，为过成熟演化阶段，以生成干气为主；页岩现场含气检测总含气量较高，吸附气量较大；页岩储集空间以孔隙为主，主要为低-中孔、特低渗-低渗储集层。对应的TOC与各测井曲线响应值相关关系表见表 1。从表 1可以看出，密度曲线(DEN)、补偿中子曲线(CNL)、无铀伽马曲线(KTH)、铀含量曲线(U)、光电吸收截面指数曲线(PE)、钍含量曲线(TH)及自然伽马曲线(GR)与岩芯实验有机碳含量(TOC)具有着一定的相关性(图 1)。其他曲线响应值与TOC相关性较差，若作为模型的输入，不仅提高了模型维数使得模型更难以寻找到最优结果，而且其中潜在人工测量误差更可能造成模型泛化能力低下，影响模型对新数据预测能力。选取了上述7条曲线并绘制了相应的交会图(图 1)。

表 1 焦石坝地区2口井的TOC与各测井曲线响应值相关性 Table 1 Correlation between TOC and logging response of two logging wells in the Jiaoshiba area

R²	TOC	AC	CNL	GR	K	KTH	PE	RD	RS	TH	U	DEN
TOC	1.00
AC	0.01	1.00
CNL	0.55	0.14	1.00
GR	0.32	0.11	0.17	1.00
K	0.29	0.08	0.06	0.01	1.00
KTH	0.46	0.10	0.24	0.03	0.83	1.00
PE	0.50	0.06	0.39	0.02	0.31	0.46	1.00
RD	0.04	0.06	0.15	0.15	0.22	0.09	0.06	1.00
RS	0.05	0.05	0.17	0.15	0.21	0.08	0.05	1.00	1.00
TH	0.47	0.08	0.47	0.05	0.35	0.74	0.41	0.02	0.02	1.00
U	0.63	0.00	0.35	0.61	0.35	0.53	0.28	0.06	0.06	0.51	1.00
DEN	0.81	0.01	0.59	0.21	0.27	0.43	0.37	0.04	0.04	0.46	0.59	1.00

表 1 焦石坝地区2口井的TOC与各测井曲线响应值相关性 Table 1 Correlation between TOC and logging response of two logging wells in the Jiaoshiba area

图 1 建模曲线与TOC相关性关系图 Fig.1 Relationship between modeling curves and TOC

如图 1中所示，DEN、U、TH、PE、GR曲线均与TOC存在着一定的相关性且不同井的样本分布重叠部分较多，可作为模型的输入曲线，而KTH曲线和CNL曲线对于不同井的分布并不相同，考虑可能为不同井位对KTH和CNL曲线会造成影响，需要做进一步的研究。其中，DEN曲线与TOC相关性最好，这是因为干酪根的密度较低，一般为1.4 g/cm³以下，富含干酪根的储集层密度会有明显的下降，对应TOC的值则变大。但是也可以看出，在TOC含量较低的储集层，干酪根的响应明显的被地层中其他信息所压制，密度与TOC的关系变差。由于干酪根中含有放射性的元素U，所以U曲线及GR曲线也与TOC具有一定相关性，相应的，由自然伽马能谱测井的反演方法可知，TH曲线应与TOC存在负相关关系。通过前人研究可知，石英与TOC为负相关关系，而PE曲线与石英为正相关关系，故PE曲线与TOC呈负相关关系。从相关性分析可知，有些曲线与TOC相关性较为间接，这也是他们相关性差的原因，但是这种间接的相关性能够对TOC的预测提供更多的信息，产生约束，提高TOC的预测精度。这也是本文认为利用机器学习算法预测TOC方法具有研究价值的关键。同时可从图 1中看出，A井与B井的响应值具有一定差异，可能存在取芯不均的情况，为了使预测算法能真正的学习到相应的函数关系，在实际建模时，并未使用单井建模其他井进行预测的思路，而是将样本随机分为两部分，一部分进行建模，另一部分进行预测。

2 随机森林回归方法

随机森林是2001年所提出的一种机器学习算法，以决策树为基学习器，通过将若干个建立好的模型所得到的结果进行综合得到一个模型，而最后的预测结果由所有模型的预测结果平均而得。随机森林算法具有分类和回归两种情况，若用于分类，则决策树使用分类树(一般使用C4.5)，若用于回归，则决策树使用回归树(一般使用CART，图 2)。对应的算法基本步骤如下：

图 2 随机森林算法训练流程 Fig.2 Random forest algorithm training process

(1) 抽样：从训练数据集S中，通过有放回的Boostrasp抽样，生成K组数据集，每组数据集分为被抽中数据与未被抽中数据(被称作袋外数据)2种，每组数据集会通过训练产生一个决策树。

(2) 生长：通过训练数据对每个决策树进行训练。在每次分节点时，从M个属性中(及M个不同测井的测井响应值)随机选取m个特征(推荐m=log₂d)，依据Gini指标选取最优特征进行分支充分生长，直到无法再生长为止，不进行剪枝。

(3) 利用袋外数据检验模型的精度，由于袋外数据未参与建模，其能一定程度上检验模型效果与泛化能力。通过袋外数据的预测误差，确定算法中最佳决策树数目重新进行建模。

(4) 利用确定的模型对新数据集进行预测，所有决策树的预测结果的平均即为最终的输出结果。

随机森林的最大优势是每个决策树均利用所有样本中的一部分，并只抽取其中一部分属性进行建模。这种做法能极大的提高模型的多样性，最小化了各棵决策树的相关性。依照集成学习理论来说，基学习器的多样性越强，其泛化能力就越高。

3 基于随机森林算法的储集层TOC含量计算模型

为了建立较为可靠的模型以验证模型对于TOC预测问题的适应程度，需要对模型的参数进行确定。对于随机森林来说，最重要参数即是决策树的个数，较少的决策树个数会使得模型的效果无法完全发挥，而较多的决策树个数不仅会使模型的训练与预测速度降低，还会使模型产生过拟合的隐患。将237个样本随机分成5组，其中37个样本作为预测样本，另外200个样本平均分为4组，每组50个样本，以便于进行交叉验证，确定最佳决策树的个数(江沸菠等，2015)。交叉验证是一种较为常用且有效的对抗过学习、提高预测性能的方法，其基本思路是在某种意义下(多为随机)，将原始数据分组，一部分作为训练集，一部分作为验证集，首先利用训练集对模型进行训练，再利用验证集来测试训练得到的模型，以验证集的MSE作为模型的性能指标。在对样本集进行了均分之后，需要对比不同组样本集的TOC分布，只有不同样本集的TOC分布范围相似，交叉验证所得到的结果才是有意义的。

从图 3中可以看出，5组数据的TOC分布范围类似，多分布在1.5%~3%，交叉验证所得到的模型中决策树的个数是可信的。考虑到分组后若仅使用袋外误差作为检验样本，会使得建模样本与预测样本均过少，影响样本的验证结果。中交叉验证的具体做法为，利用4组样本中的某3组数据进行模型的建立，当模型建立好之后，预测另一组的50个样本，通过预测的结果得到最优的决策树个数。这样，4组数据可得到4个最优决策树个数，将最优个数平均，即可得到最后的最优决策数个数值。在实际模拟时，通过在商业软件MATLAB2016a上编制相应程序进行。在进行交叉验证时，决策树的个数以10为单位进增加。

图 3 各分组样本TOC分布 Fig.3 TOC distribution of each sample

图 4为随机森林算法的迭代次数与预测样本均方误差的关系。从交叉验证结果可以看出，随机森林算法是一种非常稳定的算法，并不会发生预测样本的均方误差过于震荡的情况。当迭代次数大于400时，针对TOC预测问题，随机森林预测就可以达到最好效果。从模拟速度来看，用于进行交叉验证的电脑处理器为10核的E5-2660，内存为32 GB，在并行计算的情况下，整个交叉验证过程进行了409 s，平均单组数据训练-预测过程仅为0.1 s。综合程序运行时间与迭代次数，认为针对TOC预测问题，建立500颗决策树较为合适。

图 4 随机森林迭代次数与均方误差的关系 Fig.4 The relationship between random forest iteration times and mean square error

利用上述200块岩芯数据组成的样本集对模型进行建模，其中决策树颗数设置为500，利用袋外误差去评价模型是否充分学习到数据输入与输出之间的关系。对应的迭代次数与袋外误差的关系见图 5。

图 5 随机森林迭代次数与袋外均方误差的关系 Fig.5 Relationship between random forest iteration times and out-of-bag error

从图 5中可以看出，由于样本数目增加的原因，袋外误差的抖动性变得更弱。除此之外，从图 5中也可以看出，在迭代次数达到500时，模型已经充分地学习了输入与输出的函数关系，袋外误差为0.25左右，预测的结果可靠。利用得到的模型对训练样本集进行回判，并对预测样本集进行预测，得到的结果分别见图 6和图 7。

图 6 建模样本精度关系图 Fig.6 Plots between modeling and analyzed results

图 7 预测样本精度关系图 Fig.7 Plots between predicting and analyzed results

从图 6中可以看出，对于建模样本来说预测TOC与实际TOC值相差不大。对应图 7可以看出，对于预测样本预测精度与建模样本差别不大，模型的抗过拟合能力极强。同时也可以看出，在TOC小于1.5%时，随机森林算法预测的TOC偏小。该问题发生的原因需要进一步进行分析。

4 实例分析

利用已建立好的模型预测A、B井储集层TOC曲线，以确定模型对整口井的预测效果。同时，利用之前具有200个样本的训练样本建立DEN曲线单元拟合模型与CART回归树模型。上述模型对A、B井的预测结果见表 2。

表 2 A、B井各算法预测精度对比表 Table 2 Comparison of accuracy of A, B well algorithm

表 2中分别展现了A井与B井的预测结果，其中可以明显的看出，随机森林算法模型的预测误差明显小于其他模型，这也说明了，随机森林算法的有效性。综合上述研究，认为随机森林算法可较好地解决TOC问题，指导页岩气储集层勘探开发。

5 结论

(1) 通过对各条测井曲线响应值与TOC的相关性分析可知，对于TOC预测问题来说，密度、铀含量、钍含量、光电吸收截面指数及自然伽马曲线与TOC关系较好，且其响应范围不会受到井位分布的影响。

(2) 通过对随机森林算法的交叉验证可知，针对TOC问题，当决策树个数为500个时，可对输入曲线与输出TOC的响应关系做到完全学习，对应的输出应较为可靠。

(3) 通过对实例进行分析，发现该算法对TOC的预测效果较好，预测得到的TOC曲线较为平滑，精度较高。该算法可有效提高TOC的预测精度，为页岩气储集层评价提供帮助。

参考文献

Ouadfeul S A, Aliouane L. 2015. Total organic carbon prediction in shale gas reservoirs from well logs data using the multilayer perceptron neural network with levenberg Marquardt training algorithm:Application to Barnett shale. Arabian Journal for Science and Engineering, 40(11): 3345-3349. DOI:10.1007/s13369-015-1685-y

曹晓萌, 于炳松, 李心童, 孙梦迪, 张玲. 2014. 渝东南下寒武统页岩储层特征及测井评价——以渝科1井和酉科1井为例. 石油学报, 35(2): 233-244.

陈文玲, 周文, 罗平, 邓虎成, 李沁, 单蕊, 戚明辉. 2013. 四川盆地长芯1井下志留统龙马溪组页岩气储层特征研究. 岩石学报, 29(3): 1073-1086.

董大忠, 邹才能, 杨桦, 王玉满, 李新景, 陈更生, 王世谦, 吕宗刚, 黄勇斌. 2012. 中国页岩气勘探开发进展与发展前景. 石油学报, 33(S1): 107-114. DOI:10.7623/syxb2012S1013

郭旭升. 2014. 南方海相页岩气"二元富集"规律——四川盆地及周缘龙马溪组页岩气勘探实践认识. 地质学报, 88(7): 1209-1218.

贺聪, 苏奥, 张明震, 吴远东, 吉利明. 2016. 鄂尔多斯盆地延长组烃源岩有机碳含量测井预测方法优选及应用. 天然气地球科学, 27(4): 754-764.

黄晨, 潘保芝. 2006. 利用测井资料识别与评价大庆外围盆地烃源岩. 吉林大学学报(地球科学版), 36(S1): 162-165.

黄薇, 张小莉, 李浩, 祁攀文, 王军. 2015. 鄂尔多斯盆地中南部延长组7段页岩有机碳含量解释模型. 石油学报, 36(12): 1508-1515. DOI:10.7623/syxb201512005

江沸菠, 戴前伟, 董莉. 2015. 基于主成分-正则化极限学习机的超高密度电法非线性反演. 地球物理学报, 58(9): 3356-3369.

李军, 路菁, 李争, 武清钊, 南泽宇. 2014. 页岩气储层"四孔隙"模型建立及测井定量表征方法. 石油与天然气地质, 35(2): 266-271.

刘苍宇, 辛仁臣. 2015. ΔlgR方法在深水沉积物层序分析中的应用——以松辽盆地古龙凹陷古57井青山口组为例. 岩性油气藏, 27(5): 30-36. DOI:10.3969/j.issn.1673-8926.2015.05.007

刘俊民, 彭平安, 黄开权, 张林晔. 2008. 改进评价生油岩有机质含量的CARBOLOG法及其初步应用. 地球化学, 37(6): 581-586. DOI:10.3321/j.issn:0379-1726.2008.06.008

刘志刚, 许少华, 李盼池, 肖佃师. 2017. 基于量子衍生布谷鸟的脊波过程神经网络及TOC预测. 控制与决策, 32(6): 1115-1120.

路菁, 李军, 武清钊, 金武军, 郝士博. 2016. 页岩油气储层有机碳含量测井评价方法研究及应用. 科学技术与工程, 16(6): 143-147. DOI:10.3969/j.issn.1671-1815.2016.06.026

王健, 石万忠, 舒志国, 徐清海, 张晓明, 徐壮. 2016. 富有机质页岩TOC含量的地球物理定量化预测. 石油地球物理勘探, 51(3): 596-604.

王红岩, 刘玉章, 董大忠, 赵群, 杜东. 2013. 中国南方海相页岩器高效开发的科学问题. 石油勘探与开发, 40(5): 574-579.

王玉满, 董大忠, 杨桦, 何伶, 王世谦, 黄金亮, 蒲泊伶, 王淑芳. 2014. 川南下志留统龙马溪组页岩储集空间定量表征. 中国科学:地球科学, 44(6): 1348-1356.

王志宏, 韩璐, 戚磊. 2015. 随机森林分类方法在储层岩性识别中的应用. 辽宁工程技术大学学报(自然科学版), 34(9): 1083-1088.

王濡岳, 丁文龙, 龚大建, 冷济高, 王兴华, 尹帅. 2015. 页岩有机碳含量测井评价方法及应用——以贵州岑巩区块下寒武统牛蹄塘组为例. 煤炭学报, 40(12): 2874-2883.

袁超, 周灿灿, 胡松, 程相志, 窦洋. 2014. 地层有机碳含量测井评价方法综述. 地球物理学进展, 29(6): 2831-2837.

张东晓, 杨婷云. 2013. 页岩气开发综述. 石油学报, 34(4): 792-801.

朱林奇, 张冲, 魏旸, 郭聪, 周雪晴, 陈雨龙. 2016. 基于改进雨林模糊神经网络模型的页岩储层总有机碳含量评价方法. 高校地质学报, 22(4): 716-723.


矿物岩石地球化学通报 2018, Vol. 37 Issue (3): 475-481	PDF