石油地球物理勘探  2021, Vol. 56 Issue (6): 1205-1213  DOI: 10.13810/j.cnki.issn.1000-7210.2021.06.001
0
文章快速检索     高级检索

引用本文 

徐雷良, 徐维秀. 海量地震采集资料现场质量评价方法探讨. 石油地球物理勘探, 2021, 56(6): 1205-1213. DOI: 10.13810/j.cnki.issn.1000-7210.2021.06.001.
XU Leiliang, XU Weixiu. Field quality evaluation method of massive seismic acquisition data. Oil Geophysical Prospecting, 2021, 56(6): 1205-1213. DOI: 10.13810/j.cnki.issn.1000-7210.2021.06.001.

本项研究受国家科技重大专项“大型油气田及煤层气开发”(2017ZX05005004-03)、中国石化科技项目“海量地震数据现场质量分析监控及软件”(JP17036)和中石化石油工程有限公司科技项目“海量地震采集质控系统升级及推广应用”(SG20-60K)联合资助

作者简介

徐雷良   高级工程师,1983年生;2005年毕业于东华理工学院,获勘查技术与工程专业学士学位,2014年获中国石油大学(华东)地质工程专业获硕士学位;现为SEG会员,就职于中石化石油工程地球物理有限公司胜利分公司,主要从事地震采集技术研究与技术管理工作

徐雷良, 山东省东营市东营区牛庄镇中石化石油工程地球物理有限公司胜利分公司, 257000。Email: sl-xull.osgc@sinopec.com

文章历史

本文于2020年12月3日收到,最终修改稿于2021年8月29日收到
海量地震采集资料现场质量评价方法探讨
徐雷良 , 徐维秀     
中石化石油工程地球物理有限公司胜利分公司, 山东东营 257000
摘要:随着高效采集和“两宽一高”地震勘探技术的发展,地震采集数据呈现指数级的增长,这给地震采集资料现场质量评价带来了挑战。为此,研究了海量地震资料现场评价理论方法及其在海量地震数据采集质控中的适应性。由于任何单属性模型均难以完全表征地震资料品质,因此设计了多元属性单炮记录判别分析模型及其生产流程;针对多元属性单炮记录判别分析模型完全依赖标准记录和阈值存在主观性强的缺陷,提出了海量地震资料品质智能分类模型;结合海量地震数据特征分析,建立了基于随机森林的单炮记录智能评价流程;利用三种样本增强技术,解决了单炮记录学习样本少及不平衡问题;研究了单炮记录随机森林分类算法及其关键技术,包括连续性地震属性的分支节点构建、建模参数选取及分类结果评估方法。实验数据处理结果说明,新方法结果正确且易于高度并行化处理。最后,通过对这些模型的相互关系及其适应性与时效性分析,说明多模型的联合应用可满足海量地震数据采集现场质控需求。
关键词随机森林    单炮记录智能分类    多元属性评价模型    单炮记录评价方法    现场质量评价    海量地震    资料    
Field quality evaluation method of massive seismic acquisition data
XU Leiliang , XU Weixiu     
Shengli Branch, Geophysical Company of Sino-pec, Dongying, Shandong 257000, China
Abstract: With the development of high-efficiency acquisition and wide frequency, wide azimath, high density seismic exploration technology, seismic acquisition data shows exponential growth, which brings challenges to the field quality evaluation of such data. The present theoretical field evaluation method of massive seismic data and its adaptability in quality control of massive seismic acquisition data are studied in this paper. It is difficult for single attribute models to fully characterize the quality of seismic data. A multi-attribute discriminant analysis model for single shot records and its production process are designed. Given the severe subjectivity of the multi-attribute discriminant analysis model that completely relies on the standard records and the threshold value, an intelligent quality classification model for massive seismic data is put forward. With feature analysis of massive seismic data, an intelligent evaluation process of single shot records based on the random forest is proposed. Three sample enhancement techniques are used to solve the problem of small and unbalanced samples of single shot records. The random forest classification algorithm of single shot records and its key technologies are studied, including the branch node construction based on continuous seismic attri-butes, the selection of modeling parameters, and the evaluation of the classification results. The application of experimental data shows that the results of the new method are correct and ready to be highly parallelized. Finally, according to the ana-lysis of the correlations of these models as well as their adaptability and timeliness, the combined application of multiple models can meet the requirements of field quality control of massive seismic acquisition data.
Keywords: random forest    intelligent single shot record classification    multi-attribute evaluation model    evaluation method of single shot record    field quality evaluation    massive seismic data    
0 引言

地震勘探技术的发展对地震资料质量监控技术的要求越来越高。早期,仅凭肉眼和经验查看监视记录每天即可完成二维地震数十道、上百道的单炮质量监控。地震勘探技术与地震采集设备以及计算机技术的发展催生了现场地震资料处理技术[1],并以此作为现场延时质控的重要手段。随着高精度、高密度三维地震勘探技术的出现以及地震采集设备的不断升级,陆续出现了地震资料现场实时质控技术[2-3],并研发了大量软件成果[4-7],完全改变了依靠监视记录和部分资料抽检进行人工定性监控模式,现场实时质控技术具有比较全面、定量化及相对科学的特性[7]。以小面元、大道数为典型特征的“两宽一高”与高效地震采集技术的发展应用在持续推动技术进步的同时,也引起了数据量的急剧攀升,亦即俗称的“海量地震数据”。近年来,三维区块部署的单炮数据量动辄数百兆字节,而相邻两炮激发的时差已在半分钟内(井炮),甚至仅有数秒(可控震源),因此传统定性质控模式很难有效监控海量地震资料,现有的定量化监控技术与评价软件面临巨大挑战[7-8]。地震资料评价技术是质量监控技术的重要组成部分,二者同步发展。从最初人工定性分析发展到基于标准进行多因素评价[4-5, 7],再发展为基于单个属性的资料评价[2-3],直到如今多元地震属性综合统计分析评价[6-7],逐步形成了由激发、接收、环境噪声及地震属性等全方位要素参与的评价体系,特别是基于地震属性的资料评价模式已由单炮记录面貌转向内部特征,为目前油气勘探开发所急需的高精度、高分辨率地震资料提供了更为可靠的质量保障。地震记录一般是在连续地表与地质条件及相同激发与接收环境下获得的,因此各炮之间存在天然的、隐性的联系,需要一种自学习算法寻找其潜在的关系,以快速完成单炮记录品质评价。目前,人工智能[9-10]已在许多领域取得成功,显著地改变了人们的生产、生活方式。它在地震资料评价方面也有一定应用成果,但其着眼点主要是针对地震成果数据[11-13],在现场资料评价方面的应用才刚刚起步[14]。本文首先讨论了目前常用的单炮记录评价理论方法,接着探讨了基于随机森林(Random Forest, RF)[15-16]的海量地震资料智能评价流程及其关键技术。

1 多因素确定性评价模型

国家标准[17]和一些行业标准、企业标准中对地震资料分级制定了明确的技术规范,这些规范是对地震仪器、设备、激发与接收等各种因素性能指标的限定,是多年地震勘探实践所形成的确定性指标。例如,TB时差、不正常道数量或占比、断排列数、震源畸变超限等。根据标准,把这些参数硬性指标的考核称为确定性评价模型。目前,通用或商用监控软件[7, 18-20]全部采用了该模型。这类确定性评价模型专注于施工因素监控,但并不能充分反映地表与地质、环境以及偶然因素对地震资料的影响,该评价模式并不对单炮记录品质进行评判。

2 数理统计评价模型 2.1 单属性评价模型

这种模型是通过新老资料对比确定地震属性阈值,利用单一属性的阈值是否超限进行资料分级[3],该模型的优势在于针对性强,对于特定油气勘探目标资料品质分析具有指导意义。但不同地震属性体现资料的不同特征,且每种地震属性对资料品质的反映具有片面性和模糊性,依赖单一地震属性判定原始单炮记录合格与否显然是不科学的。

2.2 基于多元属性判别分析的评价模型

多元属性单炮记录评价的实质是多元判别分析问题,以下先讨论两级分类。

假设施工前已知合格炮集G1和废炮集G2,从这两类炮集样本中分别提取N个地震属性,由这些属性求取G1G2的重心μ1μ2。对于生产炮X,只要计算该炮的地震属性μ与两个重心的距离D1(μ, G1)、D2(μ, G2),即可根据距离远近确定该炮是否合格。此处通常采用欧氏距离,但由于地震属性间可能存在强相关性,用马氏距离更合适,计算公式为

$ {D_1}\left( {\mathit{\boldsymbol{\mu }}, {\mathit{\boldsymbol{G}}_1}} \right) = \sqrt {{{\left( {\mathit{\boldsymbol{\mu }} - {{\mathit{\boldsymbol{\bar \mu }}}_1}} \right)}^{\rm{T}}}\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}_1^{ - 1}\left( {\mathit{\boldsymbol{\mu }} - {{\mathit{\boldsymbol{\bar \mu }}}_1}} \right)} $ (1)
$ {D_2}\left( {\mathit{\boldsymbol{\mu }}, {\mathit{\boldsymbol{G}}_2}} \right) = \sqrt {{{\left( {\mathit{\boldsymbol{\mu }} - {{\mathit{\boldsymbol{\bar \mu }}}_2}} \right)}^{\rm{T}}}\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}_2^{ - 1}\left( {\mathit{\boldsymbol{\mu }} - {{\mathit{\boldsymbol{\bar \mu }}}_2}} \right)} $ (2)

式中Σ1Σ2分别为G1G2属性的协方差矩阵。

生产炮合格判定的准则可描述为

$ \left\{ {\begin{array}{*{20}{l}} {合格}&{{D_1}\left( {\mathit{\boldsymbol{\mu }}, {\mathit{\boldsymbol{G}}_1}} \right) < {D_2}\left( {\mathit{\boldsymbol{\mu }}, {\mathit{\boldsymbol{G}}_2}} \right)}\\ {不合格}&{{D_1}\left( {\mathit{\boldsymbol{\mu }}, {\mathit{\boldsymbol{G}}_1}} \right) > {D_2}\left( {\mathit{\boldsymbol{\mu }}, {\mathit{\boldsymbol{G}}_2}} \right)}\\ {待定}&{{D_1}\left( {\mathit{\boldsymbol{\mu }}, {\mathit{\boldsymbol{G}}_1}} \right) = {D_2}\left( {\mathit{\boldsymbol{\mu }}, {\mathit{\boldsymbol{G}}_2}} \right)} \end{array}} \right. $ (3)

通过生产试验易获得G1的样本,但G2样本难以得到。尽管生产中采集到废炮,但引起不合格的因素多种多样,已采集的炮集重心无法反映废炮的整体特征,甚至μ2可能在无限远处,此时,D2(μ, G2)不存在。于是,给定阈值θ(θ≥0),判别准则式(3)修正为

$ \left\{ {\begin{array}{*{20}{l}} {合格}&{{D_1}\left( {\mathit{\boldsymbol{\mu }}, {\mathit{\boldsymbol{G}}_1}} \right) \le \theta }\\ {不合格}&{{D_1}\left( {\mathit{\boldsymbol{\mu }}, {\mathit{\boldsymbol{G}}_1}} \right) > \theta } \end{array}} \right. $ (4)

式(4)为单炮记录两级分类判别准则。如果做三级分类,可增加一个阈值。

实际生产中,也可采用品质好的生产炮替代试验炮。为了确保协方差矩阵的秩存在,炮数应大于地震属性个数,一般选择最近采集的20~30炮为宜。考虑到多线束施工模式,这些炮应兼顾到每束线、每个排列,空间分布应相对均匀,从而使其更具代表性。如果选取一条优质生产炮记录S(称为标准记录)作为G1的重心,判别准则变为

$ \left\{ {\begin{array}{*{20}{l}} {合格}&{\left| {{\mu _i} - {s_i}} \right| \le {\theta _i}, \forall i \in \left\{ {1, 2, \ldots , N} \right\}}\\ {不合格}&{其他} \end{array}} \right. $ (5)

式中:μisi分别表示生产炮XS炮的第i个属性;θi为设定的第i个属性的阈值,且有θi≥0。

所有与S炮具有相似地表和地下地质条件、相同激发与接收及环境因素的生产炮以式(5)为判别准则。但是,一旦与以上条件不符,如不同激发药量,就需要建立新的炮集重心。因此,同一个工区可建立多个区域,每个区域形成一个炮集G1,每个炮集只有一条标准记录(重心)。图 1为据此开发的监控软件M[8]所设计的多区域海量地震资料评价流程。

图 1 区域化海量地震资料评价流程

多元属性评价模型理念易于接受、方便计算机实现,适于现场实时监控与评价。工程技术人员利用经验并结合老资料可检验分类效果,通过标准差、方差对监控结果进行统计分析,并将结果叠合在遥感影像上,便于全区资料分析,指导地震采集施工。图 2为M软件在某工区的合格炮能量分布图(背景为卫星照片),可见单炮能量与沙丘高程呈正相关。

图 2 某工区合格单炮能量分布(背景为卫星照片)

多元属性评价单炮的分类模式隐含着“异类即错”的思想,目的在于严格实时监控废炮,以便及时补炮。该模型的主要局限在于阈值θi的定义,主观性太强,难以适应多变的地震地质条件,生产中不易把握且极易引起争议。

3 单炮记录智能评价模型

人工智能是利用数字计算机或者数字计算机控制的机器开发用于模拟、延伸和扩展人类智能的理论、方法、技术及其应用的一门新兴技术科学[9, 21]。实现单炮记录智能评价有多种途径,但需要结合应用领域知识才能获得正确的解决思路。

3.1 海量地震资料特征分析

地震属性研究已产生了丰富的研究成果,定义的地震属性多达几百种[22],其中振幅、能量属性就有30种之多。海量地震资料采集单炮数据量大、炮数多,但提取的地震属性,特别是反映单炮记录品质的基本属性相对较少。表征野外单炮记录特征的属性可分为单炮、单道、初至前、初至区及目的层等的能量、频率、信噪比等。多个工区的实验分析表明,同一工区的单炮记录属性大多呈高斯分布或偏态分布(图 3a),这一特征为地震属性的数据预处理和统计学分析提供了数学基础。

图 3 某工区地震属性分布特征 (a)目的层能量分布;(b)炮集能量与目的层能量曲线对比

地震属性体现单炮品质的程度不同,其间相关性差异较大。图 3b是该工区炮集能量与目的层能量对比图,图中蓝色折线为炮集能量分布,黄色折线为目的层能量分布,显然,这两类能量间具有较强的相关性。一般地,机器学习应避免相关性强的属性参与。通过对这些属性所反映的单炮品质深入挖掘,发现其潜在联系,进而形成分类模型。

3.2 基于RF的单炮记录智能评价流程

图 4为基于RF的单炮记录智能评价流程。使用前期勘探成果及试验炮建立初始样本集,提取样本属性并构建协方差矩阵,求解该矩阵的特征值和特征向量,利用主成分分析法(该步可选),在剔除强相关属性后,将对地震资料品质更具敏感的属性挑选出来,基于这些优化属性并结合废品库,扩增样本以满足机器学习样本数量;对训练集样本进行RF训练,如果没有通过验证,则调整参数后重新训练;输入生产炮,按RF分类,在模型评估后,如果没有达到精准度要求,则调整参数处理后重新进行分类;如果达到精准度要求,在输出分类结果后检测样本集是否完备,若需要则把生产炮作为学习样本补充到样本集中,重新组成模型训练,否则,关闭训练模型,陆续对生产炮进行自动分类。

图 4 单炮记录智能评价流程图
3.3 样本集的建立及扩充

样本集是人工智能学习的基础,必须具有大量代表性及多样性的样本所建立的分类模型才能防止过拟合[15, 23],且各类别样本数目尽量平衡,否则, 样本数特别少的类别分类精准度低。

利用以往勘探中地理位置邻近或地表、地质条件及激发与接收因素相似的地震采集工区成果,抽取具有代表性的单炮记录,如一、二级品记录、低频炮、低信噪比炮;废炮库是由不同激发条件和接收因素以及在各种地表地质条件下所采集的不合格单炮组成,如断排列炮、串感炮、噪声炮等;试验资料具有当前工区地震激发与接收的广泛代表性,可将其作为一、二级品样本以减少对前期成果样本的过度依赖。以上这些单炮组成初始样本集。

在智能评价建模应用初期,初始样本集普遍存在样本不足的情况,需要扩增样本,在增加样本数量时应尽量避免由此造成的过拟合问题,扩增渠道包括对部分样本做样本增强技术[23-24]及纳入后期正确分类的生产炮,扩增方法一般通过数学变换或增加噪声方式实现。

由于高斯白噪的功率谱密度服从均匀分布,幅度分布服从高斯分布,利用高斯白噪声对原始样本集进行重构,形成新样本集。假设地震波有效信号为W(t), 时间为t,环境噪声为H(t), 高斯白噪声为nG(t),则重构信号Y(t)为

$ Y\left( t \right) = W\left( t \right) + H\left( t \right) + {n_{\rm{G}}}\left( t \right) $ (6)

在样本扩增时,对nG(t)做如下限定

$ - E\left( Y \right) \le \lambda E\left( {{n_{\rm{G}}}} \right) \le E\left( Y \right) $ (7)

式中:E(Y)为重构信号能量;E(nG)为高斯噪声能量;λ为约束因子, |λ|≤1。

为了更好地反映特定工区中的一些特殊勘探目标要求,在试验炮属性提取后,按照高斯白噪声分布规律,在限定范围内由试验炮重构新属性。设试验炮数为M1, 新增样本数为M2,于是,新增样本i(i=1, 2, …, M2)的属性值wi

$ w_i^\prime = \frac{1}{{{M_1}}}\sum\limits_{j = 1}^{{M_1}} {{w_j} + \lambda {n_{{\rm{G}}i}}} $ (8)

式中:wj为第j个试验炮的属性值;nGi为高斯白噪声因子。式(8)中的λ确定了新样本类别,由勘探目标及工区地表地质条件等因素确定。

图 5为LJ工区样本扩增10倍前后单炮能量与最小优势频率对比,定义|λ|≤0.20为一级品,0.25 < |λ|≤0.50为二级品,0.55 < |λ| < 1.00为废炮。图中横轴为单炮能量的自然对数值,纵轴为最小优势频率(Hz)。需要说明的是,此处出现了0.20~0.25、0.50~0.55的数据间隙,这是因为统计分析认为该范围内生成的新样本存在二义性(即可能为上一级,也可能为下一级)。

图 5 LJ工区样本扩增前后单炮能量与最小频率交会图

废炮样本较其他样本少,有些废炮与其他两类样本属性差异极大。为弥补这二者间的边界,设原始废炮数为M3,按照三类样本数大致相同的原则,由M3在三类样本集中的占比确定新扩增样本数量M4;求取二级品所有样本方差,然后,用方差最大的[M4/M3]个样本与原始废炮构建新样本,公式为

$ w_p^\prime = {x_i} + {\rm{rand}}\left( {0, 1} \right) \times \left( {{y_k} - {x_i}} \right) $ (9)

式中: wp为新样本p(p=1, 2, …, M4)的属性;xi为第i(i=1, 2, …, M3)个原始废炮样本的属性;yk为二级品样本集中方差最大的第k(k=1, 2, …, [M4/M3])个样本的属性;rand(0, 1)为0~1之间随机实数取值函数。

将原始废炮与二级品样本结合(式(9)),比单独增加新废炮样本方式(式(8))更能改善样本集性能,提高分类效率。

3.4 单炮记录RF分类建模算法 3.4.1 分类建模算法

基于RF单炮记录分类建模过程如下:

(1) 从原始样本集G1中以样本放回方式随机抽取M个样本组成训练集G,按如下过程递归生成决策树:

1) 从N个地震属性中采用放回方式随机抽取K(K < N)个属性;

2) 在具有K个连续属性的M个样本中求最优属性,以最优属性建立分支节点;

3) 分别判断分支节点的左右支样本集中各样本的类别标签(一级品、二级品和废炮)是否属同一类,或是叶节点,如果不是,K=K-1,返回2);

(2) 重复步骤(1)P次,生成P棵决策树,形成RF;

(3) 对于生产炮,遍历RF的每颗决策树,统计每棵树的分类结果,取最多的类别为该炮类别。

3.4.2 连续性属性的分支节点构建

基于RF的单炮记录分类最基础也是最重要的工作是分支节点的建立。

通常,决策树采用离散值作为节点,而地震属性是连续数据。为此,对于由M个样本组成的训练集G,若每个样本只取K个属性,则G可表示为G={(xi, 1, xi, 2, …, xi, K, li)|i=1, 2, …, M},其中,xi, j为样本i的第j个属性,li为样本炮i的类别标签。

就某类地震属性j(j=1, 2, …, K-1)而言,不失一般性,假设xi, j < xi, j+1(i=1, 2, …, M),建立属性j的集合${\mathit{\boldsymbol{F}}_j} = \{ {f_i} = \frac{{{x_{i, j}} + {x_{i, j + 1}}}}{2}|$, i=1, 2, …, M-1}。则该集合中每个元素把集合G分为j的属性值不大于fi的样本子集Gfi1及其补集Gfi2。这样,即可将fi作为候选分支节点,把连续性地震属性离散化处理,左支是样本子集Gfi1, 右支是样本子集Gfi2

为了从K个地震属性中最优构建决策树的分支节点,定义信息增益作为决策树最优属性的衡量指标。地震属性j的信息增益定义如下

$ \begin{array}{*{20}{l}} {{\rm{Gain}}\left( {\mathit{\boldsymbol{G}}, j} \right) = \mathop {{\rm{max}}}\limits_{f \in {F_j}} {\rm{Gain}}\left( {\mathit{\boldsymbol{G}}, j, f} \right)}\\ { = \mathop {{\rm{max}}}\limits_{f \in {F_j}} [{\rm{Ent}}\left( \mathit{\boldsymbol{G}} \right) - \frac{{\left| {\mathit{\boldsymbol{G}}_f^1} \right|}}{{\left| \mathit{\boldsymbol{G}} \right|}} \times {\rm{Ent}}\left( {\mathit{\boldsymbol{G}}_f^1} \right) - }\\ {\frac{{\left| {\mathit{\boldsymbol{G}}_f^2} \right|}}{{\left| \mathit{\boldsymbol{G}} \right|}} \times {\rm{Ent}}\left( {\mathit{\boldsymbol{G}}_f^2} \right)]} \end{array} $ (10)

式中:${\mathop {{\rm{max}}}\limits_{f \in {F_j}} {\rm{Gain}}\left( {\mathit{\boldsymbol{G}}, j, f} \right)}$为经f离散化后样本集G上属性j的信息增益中的最大者;|·|为集合元素数量;Ent(G)、Ent(Gf1)和Ent(Gf2)分别为样本集GGf1Gf2的信息熵,Ent(G)定义为

$ {\rm{Ent}}\left( \mathit{\boldsymbol{G}} \right) = - \sum\limits_{k = 1}^3 {{p_k} \times {\rm{lo}}{{\rm{g}}_2}{p_k}} $ (11)

式中pk为第k(k=1, 2, 3)类(分别对应一级品、二级品和废炮)样本在样本集G中的占比。

Gf1Gf2的信息熵与式(11)类似。由式(10)求取所有K个属性的信息增益后,取最大信息增益对应的属性作为分支节点,其分类能力最强,依此建立分支节点的决策树纯度最高。

3.4.3 RF单炮分类建模参数

3.4.1所提算法的复杂度主要与两个随机量密切相关:随机样本数M和最大随机属性数K。鉴于有放回采样,M取扩增后样本集中的样本数。算法的正确率很大程度上取决于单颗树的纯度与RF中树间的相关性,纯度越高且树间相关越弱,RF分类正确率越高;而K决定了其纯度和互相关性,K越小则决策树纯度越高且树间互相关越弱;K越大则会降低树的多样性且缺少泛化能力。因此,为增加决策树的纯度和RF的多样性,但又不增加其复杂度,一般地,最大随机地震属性K取为[log2N]。

决策树数目P决定了RF规模,也体现RF分类性能。理论上,P越大,分类效果越好[25],但计算量会随之提高。通常,参考样本扩增后的样本数及其属性数确定P值,如果这些数目较多,决策树的数目可相对少一些, 一般以一百到数百棵为宜。

仅从决策树角度看,为减少异常噪声影响,防止过拟合,需要对决策树剪枝处理[23, 25],利用以下参数进行预剪枝:最大深度、内部节点划分所需最小样本数和叶节点最小样本数,这些参数的选取和调整参数的顺序与具体数据分布有关,可根据局部寻优方法依次确定[26]。文献[16, 23, 25]说明:RF中两个随机性(随机样本和随机属性抽取)的引入使分类算法完全可避免过拟合现象,况且样本集扩增已采取了多样性增强措施。但考虑现场计算能力,也可对决策树通过预剪枝以减少计算量。目前,一些开源实用开发库[27]已提供成熟的算法较好地优化这些参数,本文不再探讨。

3.4.4 单炮记录RF分类结果评估

在上述算法中,构建所有决策树使用了P×M个样本,但其中包含大量相同的样本。因此,从概率上分析,样本集中仍有36.8%的样本未参与训练[28],可用作验证样本。

利用单炮分类正确率(C)和废炮识别率(R)作为验证分类标准,其中,后者必须达到对废炮的完全识别(100%),它们分别定义为

$ C = \frac{{\sum\limits_{i = 1}^3 {{U_k}} }}{{{M_5}}} $ (12)
$ R = \frac{{{U_3}}}{{{M_6}}} $ (13)

式中:M5为验证样本总数;Uk为验证样本经RF分类后k类样本的正确分类数;M6是验证样本中的实际废炮总数;U3是验证样本经RF分类后正确分类的废炮数。

3.5 模型在ZH6J工区应用及效果

人工智能技术如今发展迅速,已建立了多种开源的机器学习平台、系统、框架、工具包和类库等。利用Scikit-learn 0.21.2开源库[25],实现了单炮记录分类算法,并根据现场计算机配置自动调整线程并行数以提高性能,该算法已集成到M软件中。

利用中国西部沙漠ZH6J工区资料进行应用测试,共提取了18种地震属性,但没有使用图 4流程中所提的主成分分析法做参数优化。通过样本增强与吸收生产炮,建立了4500炮的样本集。在RF模型训练时,以分类正确率C作为分类泛化能力的检测依据。参数按如下顺序调优:首先确定决策树的数目P使算法稳定;再确定决策树的最大深度和内部节点划分所需最小样本数以控制算法复杂度;然后,联合调试内部节点划分所需最小样本数和叶节点最小样本数以增强决策树的泛化能力;最后,获得最大随机属性数K。在完成训练后对生产炮自动分类,并与人工分类结果对比,表 1是两次统计结果。对某天采集的600炮数据自动分类,与人工分类结果相比,正确率达到97.33%,且准确识别出当天全部废炮。在参数调优后,对工区所有56797炮自动分类(已无废炮),正确率达98.70%。需要指出的是,人工评价与实际分类存在一定误差。

表 1 ZH6J工区单炮记录分类结果统计表
4 模型关系及其适应性与时效性

多因素确定性评价模型是地震采集工程现场质控的重点内容之一,是其他评价模型不可替代的;多元属性判别分析评价模型设计思路简明,便于发现废炮,适于实时单炮监控。以上两种模型相结合一般能够及时发现异常道、异常排列和废炮。智能评价模型从众多已有标签的样本及其各类地震属性中学习,分类方式客观,可用于实时监控单炮质量,也可用于单炮的延时分析评估,在标准记录选择与阈值设置困难的勘探程度相对较低地区,该模型优势尤其明显。

以上三种评价模型适用于不同地震采集方式。海上或过渡带、多波多分量地震资料等有其独特性,主要体现在地震数据记录方式,可根据各自的特点首先进行资料预处理,然后采用上述模型分类处理。例如,双检单炮记录包含了陆检和水检分量,需把单炮记录解编为陆检和水检单炮数据结构后[28],再分别建模分类。

影响海量地震数据采集实时质控的因素主要包括网络传输速率、单炮数据解编与属性提取、分类评价等。实验表明,目前决定实时质控效率的关键是传输。例如,10万道接收的单炮若采用7s长度和1ms采样,以SEGD格式存储单炮数据量约为2.6GB,若采用野外较通用的千兆网传输,该单炮数据传输与存储约耗时31.32s;若采用先进的光缆传输与高效的固态硬盘存储大约需要5.9s。因此,应专门研究这种瞬时大数据流和持续大数据量的数据传输与存储模式,以适应实时质控需求。

不同于数据传输受限于网络和硬盘读写等物理因素,单炮数据解编与属性提取采用内存映射、多线程并行等综合优化技术后实际数据处理能力显著提升[29],耗时主要在时间域到频率域变换过程。就单纯的单炮记录分类模型而言,多因素确定性评价模型耗时主要在一些定量化分析上[30];多元属性判别分析模型主要耗时在区域划分和标准记录的选取,生产炮分类时仅仅是指定属性门槛值的比对。上述两类模型耗时几乎都在毫秒数量级。而智能评价模型耗时主要在分类建模阶段,由于需要反复建模与验证,一般可在采集试验后完成,但评价模型一旦建立,实际生产炮的分类可在秒内完成。

总之,在时效性方面,单炮传输时间在数秒到十数秒,甚至数十秒,解编和属性提取一般2s内可完成,而分类过程不到1s。

5 结论及认识

多因素确定性评价模型与各种变形的基于多元属性判别分析的单炮评价模型,已在地震采集工程现场质量监控中发挥了重要作用。不过,多元属性判别分析模型所基于的标准记录与阈值定义主观性太强,三级判别更加困难。人工智能单炮评价方法汇集以往的勘探成果,利用试验炮和废炮扩充样本,既保持了各炮的独立性,又增加了样本的多样性,提高了样本集的整体性能,弥补了不平衡样本集可能带来的较大分类误差;基于RF的单炮记录分类建模利用两个随机性引入,避免了人工智能最易出现的过拟合问题,增强了算法的稳定性,且该模型计算过程易于高度并行化处理,评价结果客观,适用于海量地震采集现场质量监控。

地震采集是复杂的系统工程,利用人工智能对地震资料品质评价需要综合考虑各方面的因素,原始样本库建设、模型分类效果评价[31]及其物理解释等是下一步研究方向。

特别感谢中石化石油工程地球物理有限公司胜利分公司石翠翠女士,为本文研究提供了RF单炮分类实验结果。

参考文献
[1]
崔兴宝. 复杂条件下的地震采集质量监控[J]. 石油地球物理勘探, 2003, 38(1): 11-16.
CUI Xingbao. Seismic acquisition QC under complicated geologic condition[J]. Oil Geophysical Prospecting, 2003, 38(1): 11-16. DOI:10.3321/j.issn:1000-7210.2003.01.003
[2]
冷广升. 地震数据采集质量控制方法研究与应用[J]. 中国煤炭地质, 2010, 22(增刊1): 67-72, 76.
LENG Guangsheng. Study on seismic data acquisition quality controlling method and its application[J]. Coal Geology of China, 2010, 22(S1): 67-72, 76.
[3]
张翊孟, 刘秋林, 张永科. 地震资料品质定量分析和采集参数优选[J]. 石油地球物理勘探, 2008, 43(增刊2): 1-5.
HANG Yimeng, LIU Qiulin, ZHANG Yongke. Quantitative analysis of seismic data quality and optimization of acquisition parameters[J]. Oil Geophysical Prospecting, 2008, 43(S2): 1-5.
[4]
段云卿. 地震资料自动评价系统[J]. 勘探地球物理进展, 2006, 29(3): 221-224.
DUAN Yunqing. Automatic seismic data evaluation system[J]. Progress in Exploration Geophysics, 2006, 29(3): 221-224.
[5]
潘树林, 周熙襄, 钟本善. 地震资料采集监控及评价系统的开发[J]. 物探化探计算技术, 2007, 29(1): 12-14, 91.
PAN Shulin, ZHOU Xixiang, ZHONG Benshan. De-velopment of seismic data acquisition monitoring and evaluation system[J]. Computing Techniques for Geophysical and Geomechnical Exploration, 2007, 29(1): 12-14, 91. DOI:10.3969/j.issn.1001-1749.2007.01.004
[6]
蓝宣. SACS地震采集质量控制评价系统介绍[J]. 物探装备, 2003, 13(3): 209-210.
LAN Xuan. Introduction of SACS seismic acquisition data quality control appreciation system[J]. Equipment for Geophysical Prospecting, 2003, 13(3): 209-210. DOI:10.3969/j.issn.1671-0657.2003.03.020
[7]
岩巍, 夏颖, 李铮铮, 等. G3i仪器野外数据采集质量监控软件简介[J]. 物探装备, 2015, 25(4): 274-279.
YAN Wei, XIA Ying, LI Zhengzheng, et al. Brief introduction of QC software in G3i instrument[J]. Equipment for Geophysical Prospecting, 2015, 25(4): 274-279. DOI:10.3969/j.issn.1671-0657.2015.04.016
[8]
冯玉苹, 徐维秀, 杨晶, 等. 海量地震数据现场监控软件研发及应用[C]. 中国石油学会2019年物探技术研讨会, 2019, 1381-1384.
[9]
Mjolsness E and DeCoste D. Machine learning for science: State of the art and future prospects[J]. Scie-nce, 2001, 293(5537): 2051-2055.
[10]
Howard W R. Pattern recognition and machine lear-ning[J]. Kybernetes, 2007, 36(2): 275. DOI:10.1108/03684920710743466
[11]
赵贤正, 邓志文, 白旭明. 基于视觉特征的地震资料品质分析方法[J]. 石油地球物理勘探, 2016, 51(增刊1): 42-46.
ZHAO Xianzheng, DENG Zhiwen, BAI Xuming. Seismic data quality analysis based on visual features[J]. Oil Geophysical Prospecting, 2016, 51(S1): 42-46.
[12]
王瑞贞, 张小燕, 张学银, 等. 地震成果数据智能评价方法与实现[C]. 中国石油学会2017年物探技术研讨会, 2017.1102-1105.
[13]
周志尧, 石慧敏, 吴勇. 基于地质导向的三维地震资料品质评价方法[C]. 吉林省科学技术协会学术部会议论文集, 吉林省科学技术协会学会学术部, 2014, 179-180.
ZHOU Zhirao, SHI Huimin, WU Yong. The quality evaluation method of 3D seismic data based on geological orientation[C]. Proceedings of academic Department Meeting of Jilin Association for Science and Technology, 2014, 179-180.
[14]
石翠翠, 杨晶, 徐维秀. 基于机器学习的地震资料品质自动评价方法研究[C]. 中国石油学会2019年物探技术研讨会, 四川成都, 2019, 1110-1113.
[15]
Breiman L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32. DOI:10.1023/A:1010933404324
[16]
Rokach L. Ensemble-based classifiers[J]. Artificial Intelligence Review, 2020, 33(1): 1-39.
[17]
詹仕凡, 赵恒, 邹雪锋, 等. GB/T 33583-2017, 陆上石油地震勘探资料采集技术规程[S]. 中华人民共和国国家质量监督检验检疫总局与中国国家标准化管理委员会, 2017.
[18]
张全胜, 罗春波, 杨宝珍, 等. Reland.SeisQC系统在地震采集质量监控中的应用[J]. 物探装备, 2013, 23(1): 67-69.
ZHANG Quansheng, LUO Chunbo, YANG Baozheng, et al. Application of Reland. SeisQC system for seismic acquisition quality control[J]. Equipment for Geo-physical Prospecting, 2013, 23(1): 67-69. DOI:10.3969/j.issn.1671-0657.2013.01.016
[19]
杨振邦, 屈邵忠, 周卉丽. 克浪软件在煤田地震勘探试验资料评价中的应用[J]. 煤炭技术, 2014, 33(3): 61-63.
YANG Zhenbang, QU Shaozhong, ZHOU Huili. Application of Kelang software in coalfield seismic exploration and evaluation of test data[J]. Coal Technology, 2014, 33(3): 61-63.
[20]
黄有晖, 朱运红, 蔡明, 等. 实时质量监控技术在复杂山地三维地震采集中的应用[J]. 天然气勘探与开发, 2015, 38(2): 31-34.
HUANG Youhui, ZHU Yunhong, CAI Ming, et al. Application of real-time quality control technology to 3D seismic acquisition in complex mountains[J]. Na-tural Gas Exploration and Development, 2015, 38(2): 31-34. DOI:10.3969/j.issn.1673-3177.2015.02.008
[21]
Stuarl J R, Peter N. 人工智能: 一种现代的方法[M]. (第二版). 北京: 清华大学出版社, 2006.
[22]
徐维秀. 地震属性优化分析和预测及有效性方法研究[D]. 上海: 同济大学, 2007: 38-39.
XU Weixiu. Study on Seismic Attribute Optimization Analysis and Prediction and Validity Method[D]. Tongji University, Shanghai, 2007: 38-39.
[23]
周志华. Machine Learning机器学习[M]. 北京: 清华大学出版社, 2019.
[24]
张玉玺, 刘洋, 张浩然, 等. 基于深度学习的多属性盐丘自动识别方法[J]. 石油地球物理勘探, 2020, 55(3): 475-483.
ZHANG Yuxi, LIU Yang, ZHANG Haoran, et al. Multi-attribute automatic interpretation of salt domes based on deep learning[J]. Oil Geophysical Prospecting, 2020, 55(3): 475-483.
[25]
Sebastian R, Vahid M. Python Machine Learning(2nd Edition影印版)[M]. 江苏南京: 东南大学, 2018.
[26]
Scikit learn. Scikit-learn machine learning in python[OL]. https://scikit-learn.org/stable,2021.
[27]
Wu Q, Burges C, Svore K, et al. Adapting boosting for information retrieval measures[J]. Information Retrieval Journal, 2010, 13(3): 254-270. DOI:10.1007/s10791-009-9112-1
[28]
魏新建, 李书平, 陈德武, 等. 复杂区域地震采集质量评价技术及其应用[J]. 石油物探, 2019, 58(1): 27-33.
WEI Xinjian, LI Shuping, CHEN Dewu, et al. Evaluation of seismic acquisition quality in complex area[J]. Geophysical Prospecting for Petroleum, 2019, 58(1): 27-33. DOI:10.3969/j.issn.1000-1441.2019.01.004
[29]
孙哲, 杜清波, 翟金浩, 等. 超高效混叠地震采集实时质控技术[J]. 石油物探, 2020, 59(2): 177-185.
SUN Zhe, DU Qingbo, ZHAI Jinhao, et al. Real-time quality control for ultra efficient blended seismic acquisition[J]. Geophysical Prospecting for Petroleum, 2020, 59(2): 177-185. DOI:10.3969/j.issn.1000-1441.2020.02.003
[30]
梁正洪, 张伟宏, 刘胜, 等. 自动检查地震辅助道的方法[P]. 中国, CN201210553625.1, 2014-01-01.
[31]
Fawcett, T. An introduction to ROC analysis[J]. Pattern Recgnition Letters, 2006, 27(8): 861-874. DOI:10.1016/j.patrec.2005.10.010