基于稀疏强特征提取的三维地震数据完备方法

引用本文

崔雪鹏, 黄捍东, 罗亚能, 成锁, 郝亚炬, 崔刚. 基于稀疏强特征提取的三维地震数据完备方法. 石油地球物理勘探, 2023, 58(2): 263-276. DOI: 10.13810/j.cnki.issn.1000-7210.2023.02.001.

CUI Xuepeng, HUANG Handong, LUO Yaneng, CHENG Suo, HAO Yaju, CUI Gang. 3D seismic data completion method based on sparse strong feature extraction. Oil Geophysical Prospecting, 2023, 58(2): 263-276. DOI: 10.13810/j.cnki.issn.1000-7210.2023.02.001.

本项研究受国家自然科学基金项目"裂缝性储层地震定量预测及流体识别方法研究"(41974124)、"组稀疏结构和等效衰减模型双重约束下的叠前Q值反演方法研究"(42004114)和江西省自然科学基金项目"基于压缩感知的地震数据自适应压缩及反射系数快速反演"(20202BAB-211010)联合资助

作者简介

崔雪鹏博士研究生, 1991年生; 2014、2019年分别获中国石油大学(北京)勘查技术与工程专业学士学位、地球物理学专业硕士学位, 现在该校地球物理学院攻读地球物理学专业博士学位; 现为EAGE和SEG会员, 主要研究领域为模式识别、机器学习和地震各向异性反演

黄捍东, 北京市昌平区府学路18号中国石油大学(北京)地球物理学院, 102249。Email: webhhd@163.com

文章历史

本文于2022年6月28日收到，最终修改稿于2023年1月10日收到

Contents Abstract Full text Figures/Tables PDF

基于稀疏强特征提取的三维地震数据完备方法

崔雪鹏^1,2 , 黄捍东^1,2 , 罗亚能³ , 成锁⁴ , 郝亚炬⁵ , 崔刚⁶

1. 中国石油大学(北京)油气资源与探测国家重点实验室, 北京 102249;
2. 中国石油大学(北京)地球物理学院, 北京 102249;
3. 东方地球物理公司物探技术研究中心, 河北涿州 072751;
4. 中国石油塔里木油田公司勘探开发研究院, 新疆库尔勒 841000;
5. 东华理工大学地球物理与测控技术学院, 江西南昌 330013;
6. 中国石油华北油田公司第一采油厂, 河北任丘 062552

本文于2022年6月28日收到，最终修改稿于2023年1月10日收到。

本项研究受国家自然科学基金项目"裂缝性储层地震定量预测及流体识别方法研究"(41974124)、"组稀疏结构和等效衰减模型双重约束下的叠前Q值反演方法研究"(42004114)和江西省自然科学基金项目"基于压缩感知的地震数据自适应压缩及反射系数快速反演"(20202BAB-211010)联合资助。

作者简介：崔雪鹏博士研究生, 1991年生; 2014、2019年分别获中国石油大学(北京)勘查技术与工程专业学士学位、地球物理学专业硕士学位, 现在该校地球物理学院攻读地球物理学专业博士学位; 现为EAGE和SEG会员, 主要研究领域为模式识别、机器学习和地震各向异性反演。

黄捍东, 北京市昌平区府学路18号中国石油大学(北京)地球物理学院, 102249。Email: webhhd@163.com。

摘要：随着复杂储层地震资料特征筛选的机器学习技术的进步, 如何有效地对参与地震属性优选和储层反演的地震样本进行采集和分析, 成为目前智能地震预测领域的一个研究热点。目前的方法多着重于模型分类算法的改进, 在标签的制作和采集方面不仅耗费大量时间进行人工标注, 还存在标签不平衡情况下类内可靠性、类间平衡性不强等问题。为此, 提出基于稀疏强特征提取的三维地震数据完备方法。首先, 基于多数决原则的样本分割(Sample Segmentation Based on Majority Rule, SSMR)寻迹多尺度、多标签三维地震样本, 进行采集、自动标注; 然后, 改进标签洗牌平衡方法(Improved Label Shuffling Balance Method, ILSB), 通过"2+1"的样本增广平衡策略进行数据完备处理, 改善样本采样不平衡性导致的模型训练偏向性; 最后, 利用基于最小L₁范数稀疏表示对奇异值分解结果进行强特征提取(Minimum L₁-norm Based Sparse Representation for Feature Extraction, L₁-SRFE)和可视化表示。实际资料应用表明, 实钻井与验证井预测结果吻合度高, 该方法具有较高的标签分类准确率。

关键词：多数决样本分割寻迹采集技术多尺度、多标签样本平衡策略 L₁范数稀疏强特征提取五维可视化表示

3D seismic data completion method based on sparse strong feature extraction

CUI Xuepeng^1,2 , HUANG Handong^1,2 , LUO Yaneng³ , CHENG Suo⁴ , HAO Yaju⁵ , CUI Gang⁶

1. State Key Laboratory of Petroleum Resources and Prospecting, China University of Petroleum(Beijing), Beijing 102249, China;
2. College of Geophysics, China University of Petroleum(Beijing), Beijing 102249, China;
3. Geophysical Research&Development Center, BGP Inc., CNPC, Zhuozhou, Hebei 072751, China;
4. Exploration and Production Research Institute, Tarim Oilfield Company, PetroChina, Korla, Xinjiang 841000, China;
5. School of Geophysics and Measurement-Control Technology, East China University of Technology, Nanchang, Jiangxi 330013, China;
6. The First Production Plant, Huabei Oilfield Company, PetroChina, Renqiu, Hebei 062552, China

Abstract: As machine learning technology for screening seismic data features of complex reservoirs develops, how to effectively collect and analyze seismic samples involved in seismic attribute optimization and reservoir inversion has currently become a hot research topic in the field of intelligent prediction based on seismic data. Existing methods mostly focus on improving model classification algorithms, which not only consume a lot of time for manual labeling in the production and collection of labels but also suffer from poor intra-class reliability and inter-class balance in the case of label imbalance. Therefore, a 3D seismic data completion method based on sparse strong feature extraction is proposed. First, sample segmentation based on majority rule (SSMR) is used to trace multi-scale and multi-label 3D seismic samples for collection and automatic labeling. Then, the improved label shuffling balance (ILSB) method is used to complete the data by a "2 + 1" sample broadening and balancing strategy, so as to improve the model training bias caused by unbalanced sample sampling. Finally, minimum L₁-norm based sparse representation for feature extraction (L₁-SRFE) and visual representation of the singular value decomposition results are performed. Application of the actual data shows that the predicted results of the actually drilled wells and the validation wells are in good agreement, and the method has a high accuracy of label classification.

Keywords: sample segmentation based on majority rule trace acquisition technology sample balancing strategy L₁-norm sparse strong feature extraction 5D visual representation

0 引言

随着人工智能技术的发展，机器学习(Machine Learning, ML)技术在计算机视觉、自然语言处理等领域广泛应用。样本标签分类是ML技术中图像识别和语义分割的基础。目前，样本标签分类方式主要有三种：①有监督单标签样本，当已标记的数据样本数量充足时，利用已标记的样本标签特征预测数据类型^[1]；②半监督弱标签样本^[2]，主要是通过研究数据与标签的相似性弥补标签的不平衡；③无监督无标签样本，目的是在隐藏数据集中自适应地寻找相似属性^[3]。其中，有监督单标签样本分类方式在地球物理机器学习领域应用最为广泛^[4-9]。

地震反射波形包含大量的岩性、储层、地质构造等信息，常作为样本训练集并被赋予大量的标签信息。依据不同的角度，标签样本类型具不同的划分方案。

基于空间维度，标签样本可划分为三种类型：①连续波形记录。赵明等^[4]使用人工样本分类方式，手动拾取事件与噪声两类标签，建立余震事件样本库；陈德武等^[5]使用滑动窗方式，沿直线、曲线固定步长，快速提取时空振幅，以制作地震初至标签。②二维标签。主要是利用合成样本数据、井旁道地震波形或使用录井数据增广的方式。Peters等^[6]利用二维标签样本训练卷积神经网络并取得了较好的效果；王光宇等^[7]以录井岩性数据作为样本标签，提取井旁道地震属性和岩石弹性参数组合岩性样本库。③三维地震标签。Wu等^[8]、王静等^[9]、陈桂等^[10]通过合成大量三维含断层样本，并利用旋转样本的方式增加断层不同方位的信息以扩增训练样本库；陈杰等^[11]提出了一种基于数据分块策略的三维地震信号去噪重构方法，对三维块状样本进行数据驱动紧框架(Data Driven Tight Frame, DDTF)字典学习以满足实际数据的结构特征。

基于样本数目，标签样本可划分为三种类型：①单标签样本。单标签可以是断层、盐丘、背斜等^[12-13]，也可以是河道、扇体等^[14]。②多标签样本。在图像注释中往往包含两种以上不相干的分类。代表性的成果有：宗志敏等^[15]针对地震道集中地层结构异常体，建立了水平距离、深度和半径多标签，丰富了地质背景信息，提升了预测维度。多标签样本在一定程度上弥补了单标签的信息缺失及不同语义下的样本冗余等不足，大大增加了样本真实度，但同时也因增加了样本之间的信息干扰而产生“长尾效应”^[16]；③无标签样本。优点是可以快速训练，聚类出一些强特征供专家二次判断；缺点是可靠性差且无法对效果进行量化评价。为解决这一问题，Liu等^[17]通过测井信息提取有效地震相样本作为监督学习标签，并通过对抗神经网络，将无标签样本划分到样本标签中，实现了无标签样本标签化。

基于样本尺度，标签样本可划分为两种类型：①单尺度方法，有多尺度优选^[14]、注意力机制^[18]以及单次多边框检测(Single Shot Multibox Detector, SSD)^[19-20]等；②多尺度标签，从测井数据出发^[21]，利用岩相、物相、弹性参数、FMI解释结果等信息作为钻井多尺度标签内容(也是本文标签信息的最佳来源)，结合多尺度的自相似关系^{[14, 22]}，更容易实现去噪^[23]、分类、建模等可视化操作。

综上所述，现今的样本标注、采集分类算法仅在目标训练方面着重于单一模型分类和去噪的算法改进，而忽略了样本可靠性、平衡性不强和二维标签无法提供更密集的地下地质方位采样点等问题。为此，本文提出了一套多尺度、多标签三维地震样本标注、采集、增广和强特征提取方法，通过基于多数决原则的样本分割(Sample Segmentation Based on Majority Rule，SSMR)和改进的标签洗牌平衡策略(Improved Label Shuffling Balance Method，ILSB)获取多尺度完备数据库，再结合基于最小L₁范数稀疏表示的特征提取(Minimum L₁-norm Based Sparse Representation for Feature Extraction, L₁-SRFE)算法得到奇异值分解(Singular Value Decomposition, SVD)/主成分分析(Principle Component Analysis, PCA)的强特征映射空间。该方法不仅充分利用了测井解释结果与样本标签之间的关联，以多数决原则自适应地寻迹标注、采集多尺度、多标签三维样本，提高了样本的可靠性和信息量；并且基于最小L₁范数稀疏表示提取奇异值分解得到的正交化强特征进行可视化交互，展示了强特征投射空间在多标签分类表示中的优势；最后通过样本消融实验进一步验证了该方法可以为主流机器学习提供有效的数据来源，并且具有较高的标签分类准确率。

1 样本多标签标注与多尺度采集

测井解释具有丰富的标注信息和解释结果，因此可以充分利用井震关系作为样本标签进行标注，并可采用寻迹自动标注、采集方法。该方法弥补了人工标签解释的低效和多解性^[7]等不足，对提高样本质量和信息维度具有重要的意义。

1.1 滑动窗口类间多标签标注

依据测井解释结果，先预设一个遍历时窗，仅针对储层和岩性两级类间标签进行滑动遍历标注。在遍历过程中，可以人工设计多标签内容(储层、岩性、含烃指数、裂缝密度等)和扫描顺序，但不合理的顺序会导致低效扫描和多尺度样本冗余^[5]。由储层/岩性解释厚度直方图(图 1)直观对比类间标签的尺度差异可知，储层标签1 m以上占大多数，可作为一级(T₁)标签首要标注；岩性标签大多数在1 m左右，可作为二级(T₂)标签次要标注。程序识别多标签时严格按照类间层级顺序进行标注，利于多尺度细化，从而有效减少了样本冗余。

图 1 储层/岩性解释厚度直方图

1.2 三维样本类内多尺度采集

三维数据比二维数据提供了更密集方位的地下地质空间采样点，本文构建的寻迹多尺度、多标签三维地震样本自动标注、采集的原理和流程如图 2所示。它依次分为三个部分：①测井标签自动扫描，将固定时窗沿井轨迹从上至下依次提取测井标签信息；②基于SSMR的多标签、多尺度分选，扫描过程中根据类内标签的占比自动分割时窗；③三维样本采集，每一时间采样点向外圈扩展一道，形成方形等时切片，组合分割后的时间长度数据得到三维采集样本。

图 2 基于SSMR的多尺度、多标签三维地震样本自动标注、采集原理左为井样本采样，右为三维地震样本标注、采集过程及结果。

在沿井轨迹的固定时窗内逐级标注样本时，往往会遇到类内多标签的情况。为了解决固定时间窗口扫描和多尺度提取的问题，本文提出了一种基于多数决规则的样本分割SSMR。

SSMR方法的基本思想是：寻找i类标签T_i中可能存在的N种类内标签的多数元素e，这一元素在输入的序列重复出现并占序列元素的一半以上即可认定为置信标签T_i(e)。如果占到多数的元素Θ小于阈值$\epsilon$，那么将序列二分后进行第二轮遍历，检验返回元素的出现次数，从而判断返回元素是否为多数元素。同理，再进行第三轮遍历，得到的多数元素可作为当前序列尺度的统一标签，从而达到多尺度、多标签采集的目的。SSMR多尺度、多标签分选方法流程如图 3所示。

图 3 SSMR多尺度、多标签分选方法流程图

2 训练样本平衡策略与强特征提取 2.1 基于ILSB的“2+1”样本增广与平衡策略

为了保证训练集维度的一致性，防止部分样本地震资料特征标签不平衡导致模型训练的偏向，提出了基于ILSB的“2+1”样本增广与平衡策略，其中“2”为空间域、频率域的样本增广，“1”为一个平衡策略。

2.1.1 空间域的样本增广

空间域的样本增广主要包括翻转、平移、缩放^[8-10]、随机裁剪或补零^[24]等。如图 4a所示，考虑样本时域连续性，本文仅采用样本旋转(图 4b、图 4d)和加噪(图 4e、图 4f)的增广方法，可增广样本个数为4。

图 4 针对标签不平衡问题的样本增广策略 (a)原始样本；90°(b)、180°(c)、270°(d)旋转增广样本；(e)含噪样本增广；(f)5%噪声矩阵；高频(g)、低频(h)频率域样本增广

2.1.2 频率域的样本增广

频率域的样本增广主要采用时频分解的方法，可增广个数为2(图 4g、图 4h)。本文结合经验模态分解(Empirical Mode Decomposition, EMD)^[25]技术，自适应地提取样本频率尺度特征作为新样本信息，这在非线性、非平稳时间序列处理方面具有明显的优势。经EMD的地震样本可以表示为

$ S(t)=\sum\limits_{i=1}^{\beta-1} S_{\mathrm{IMF}}^i(t)+\sum\limits_{j=\beta}^v S_{\mathrm{IMF}}^j(t)+r^{(v)}(t) $

(1)

式中：S(t)为信号振幅函数，t为时刻点；$\sum\limits_{i=1}^{\beta-1} \mathrm{~S}_{\mathrm{IMF}}^i(t)$为高频信息；$\sum\limits_{j=\beta}^v \mathrm{~S}_{\mathrm{IMF}}^j(t)$为低频信息，β为EMD高、低频分界；r^(v)表示第v次迭代的残差信号。

为了对图 4a进行EMD，需要将三维数组展开成一个一维数组，并进行数据一维扁平化(Data Flattening Transformation, DFT)处理，原始DFT样本经过EMD可分解得到4个本征模函数(Intrinsic Mode Function, IMF)分量、4个对应的快速傅里叶变换(Fast Fourier Transform, FFT)频谱图(图 5)及与其相对应的三维结果(图 6)。

图 5 原始DFT样本经EMD的分解结果(左)和对应的FFT频谱(右)

图 6 原始样本EMD后的三维结果本征模态IMF1(a)、IMF2(b)、IMF3(c)；(d)残余分量

虽然EMD可以增广分频样本，但低频模态保幅性较差。为了增加低频样本的波形特征，仅将样本平均分为高频成分和低频成分两个部分，分频界限依据平均熵差^[26](Average Entropy Difference, AED)的衡量作用，考虑S_IMF分频概率分布P(f)，度量该频段整体的信息量为

$ I(f)=-K \log _2 P(f) $

(2)

式中：f为频率；K为信号能量调节系数。令K=1，可进一步推出三维分频样本的整体信息熵

$ \begin{aligned} H= & \sum\limits_{i=1}^v P\left(f_i\right) I\left(f_i\right) \\ = & -\sum\limits_{i=1}^v P\left(f_i\right) \log _2 P\left(f_i\right) \\ = & -\left[\sum\limits_{i=1}^{\beta-1} P\left(f_i\right) \log _2 P\left(f_i\right)+\sum\limits_{i=\beta}^v P\left(f_i\right) \log _2 P\left(f_i\right)\right]- \\ & \quad P(\bar{f}) \log _2 P(\bar{f})-P\left[r^{(v)}\right] \log _2 P\left[r^{(v)}\right] \\ = & H_{\mathrm{h}}+H_1-P(\bar{f}) I(\bar{f})-P\left[r^{(v)}\right] I\left[r^{(v)}\right] \end{aligned} $

(3)

式中：(1, β－1)为高频范围；(β, v)为低频范围；H_h称为高频信息熵；H_l称为低频信息熵；f_i为IMF_i的主频；f表示平均频率；残差概率P[r^(v)]较小，可忽略不计。

然后，采用最大化样本分频(Maximization Frequency Division, MF)方法，联合MF-AED作为均匀分频程度的衡量标准。MF-AED可以表示为

$ \begin{aligned} & \hat{s}_\alpha=\arg \min \left(\left|\overline{H_{\mathrm{h}}}-\overline{H_1}\right|\right) \\ & \text { s.t. }\left\{\begin{array}{l} H_{\mathrm{h}}=\sum\limits_{i=1}^{\beta-1} P\left(f_i\right) \log _2 P\left(f_i\right) \\ H_1=\sum\limits_{i=\beta}^v P\left(f_i\right) \log _2 P\left(f_i\right) \\ \bar{f}=\sum\limits_{f=\min (f)}^{\max (f)} f P(f) \\ \overline{H_h}=\frac{H_{\mathrm{h}}}{\max (f)-\bar{f}} \\ \overline{H_1}=\frac{H_1}{\bar{f}-\min (f)} \end{array}\right. \end{aligned} $

(4)

式中：$\overline{H_{\mathrm{h}}}、\overline{H_1}$分别表示高频、低频平均信息熵；α为MF-AED最小的IMF间隔位置。

$\hat{s}_\alpha$数值越小，说明不同IMF分量间差异越小，分频样本增广质量越可靠。通过MF-AED计算IMF1+IMF2、IMF2+IMF3、IMF3+残余分量的$\hat{s}_\alpha$分别为0.8973、0.6380、1.0215。因此，α=2为高、低频分界，高频增广样本为IMF1+IMF2，低频增广样本为IMF3+残余分量。

“2”种增广策略仅面向目标样本，在不平衡性随机增广过程中还需要提供“1”个平衡策略。如图 7所示，本文改进了海康威视(HIKVISION)研究院在ImageNet 2016会议中提出的标签洗牌^[27]方法，随机生成增广目标索引，并对目标样本随机、不重复地进行其中一种增广策略处理，防止重复增广产生的偏向。基于ILSB的“2+1”样本增广与平衡策略具体步骤如下。

图 7 ILSB样本不平衡性随机增广与平衡策略原理

(1) 步骤1，标签排序。按照采集顺序对多级标签样本排序。

(2) 步骤2，计算序号极值。计算每个类别的样本量，并得到样本最多的那个类别的样本数，以此作为ILSB基准线。

(3) 步骤3，随机列表。根据序号极值对每类随机产生一个列表。

(4) 步骤4，取余数。用每类随机生成的列表数对各自类别的样本量求余，得到一个索引列表，提取索引对应的样本，完成样本平衡策略。

(5) 步骤5~步骤7，随机不重复增广处理。

2.2 基于稀疏表示的样本强特征提取

当高维信号存在低维度结构时，可以在适当的基函数或字典中对它进行稀疏表示。除了在傅里叶或过完备字典基础上的信号稀疏之外，训练数据U在奇异值分解X=UΣV^*中也可能是稀疏的^[28]，其中泛函数库U、V的列是正交的，分别称为左、右奇异向量；*表示复共轭转置；Σ是对角矩阵，对角线元素为从大到小排列的奇异值。因此，本文主要探讨如何对SVD中泛函数库U的强特征进行稀疏表示。

2.2.1 构建约化SVD/PCA特征标准化样本库

PCA是SVD的核心用途之一，可以将高维数据分解为最具统计描述性的主成分(Principal Component, PC)，是一种基于数据驱动的层次协调系统表示高维相关数据的降维方法(图 8)。

图 8 利用SVD/PCA方法提取PCs原理 X是均值矩阵；Σ是特征值；U_i、U_j为特征投影坐标系向量。

在数据预处理过程中，SVD/PCA方法通过均值减法得到差分数据，这个过程可以表示为

$ \left\{\begin{array}{l} {\left[\boldsymbol{D}_{(L, C, \tau), 1}, \cdots, \boldsymbol{D}_{(L, C, \tau), j}, \cdots\right]\stackrel{\mathrm{DFT}}{\Rightarrow} \boldsymbol{X}_{i j}} \\ \overline{x_l}=\frac{1}{n} \sum\limits_{j=1}^n X_{i j} \\ \overline{\boldsymbol{X}}=\left[\begin{array}{c} 1 \\ \vdots \\ 1 \end{array}\right]_{n \times 1} \otimes \overline{x_l} \\ \boldsymbol{\varPsi}=\boldsymbol{X}-\overline{\boldsymbol{X}} \end{array}\right. $

(5)

式中：D代表三维样本；X_ij为一维扁平化数据矩阵，L、C、τ分别表示样本Line、CDP和时间的长度，三者的乘积为一个样本的长度，用i表示；j为样本个数，包含1, 2, …, n个样本；$\overline{x_l}$表示逐行均值计算；⊗表示张量积；Ψ为均值减去得到的差分数据。

将Ψ作为新样本数据执行SVD，得到独立同分布的特征标准化样本库U，生成的新坐标系几何形状是由彼此正交的主成分确定，其中第一主成分u₁定义为

$ \boldsymbol{u}_1=\underset{\left\|\boldsymbol{u}_1\right\|=1}{\operatorname{argmax}} \boldsymbol{u}_1^* \boldsymbol{\varPsi}^* \boldsymbol{\varPsi} \boldsymbol{u}_1 $

(6)

一般情况下，u₁代表Ψ左奇异向量U的第一列，对应最大奇异值Σ(1, 1)的位置。SVD/PCA的优点是抑制相同特征部分，提取最大化差异特征，使新坐标系的测量值具有最大相关性，有利于稀疏表示强特征的提取。

使用经过平衡处理的ILSB三维地震样本数据库演示该算法。在三维地震样本数据库DFT处理后，首先对类内T₂ (1, 2, …, b)增广的三维样本D进行数据组合，再将类间T₁ (1, 2, …, a)样本组合成原始ILSB样本库矩阵

$ \underset{\raise0.3em\hbox{$\smash{\scriptscriptstyle-}$}}{\bar{\boldsymbol{X}}}=\left( {\frac{\boldsymbol{D}_{\left[L C \tau, 1\right]}^{T_1(1), T_2(1)}, \cdots, \boldsymbol{D}_{\left[L C \tau, \sigma\right]}^{T_1(1), T_2(b)}}{T_1(1)}, \cdots, \frac{\boldsymbol{D}_{[L C \tau, 1]}^{T_1(a), T_2(1)}, \cdots, \boldsymbol{D}_{[L C \tau, \sigma]}^{T_1(a), T_2(b)}}{T_1(a)}} \right)=\left(\begin{array}{ccc} x_{11} & \cdots & x_{1 k} \\ & \vdots & \\ x_{m 1} & \cdots & x_{m k} \end{array}\right)_{m \times k} $

(7)

式中：$\underset{\raise0.3em\hbox{$\smash{\scriptscriptstyle-}$}}{\bar{\boldsymbol{X}}}$代表ILSB样本库矩阵且$\underset{\raise0.3em\hbox{$\smash{\scriptscriptstyle-}$}}{\bar{\boldsymbol{X}}}\in \mathbb{C}^{m \times k}$，$\mathbb{C}$为复数集合；m≤k，m是三维样本扁平化的长度，即m=LCτ，k等于多标签分级个数的乘积，即k=ab，a、b均为多标签分级个数；σ是ILSB基准线。根据样本数据库($\underset{\raise0.3em\hbox{$\smash{\scriptscriptstyle-}$}}{\bar{\boldsymbol{X}}}$)_m×k计算均值矩阵

$ \underline {\overline{\overline {\boldsymbol{X}}} }=\frac{1}{k}\left(\begin{array}{c} x_{11}+x_{12}+\cdots+x_{1 k} \\ \vdots \\ x_{m 1}+x_{m 2}+\cdots+x_{m k} \end{array}\right) \\ =\frac{1}{k}\left(\sum\limits_{j=1}^k x_{i j}\right)_{m \times 1} \quad i \in(1, m) $

(8)

最后，对ILSB样本数据库进行约化SVD/PCA中心化处理得到特征标准化数据库

$ \hat{\boldsymbol{U}}_{m \times k}=\boldsymbol{\varPsi} \boldsymbol{V} \hat{\boldsymbol{\varSigma}}_{k \times k}^{-1} \\ \text { s. t. }\left\{\begin{array}{l} \boldsymbol{\varPsi}_i=\underset{\raise0.3em\hbox{$\smash{\scriptscriptstyle-}$}}{\bar{\boldsymbol{X}}}_i-\overline{\overline{\boldsymbol{X}}} \quad i \in(1, k) \\ \boldsymbol{X} \underset{\mathrm{SVD}}{\stackrel{\text { 完全 }}{=}} \boldsymbol{U} \boldsymbol{\varSigma} \boldsymbol{V}^*=\left[\begin{array}{ll} \hat{\boldsymbol{U}} & \hat{\boldsymbol{U}}^{\perp} \end{array}\right]\left[\begin{array}{c} \hat{\boldsymbol{\varSigma}} \\ 0 \end{array}\right] \boldsymbol{V}^* \underset{\text { SVD }}{\stackrel{\text { 约化 }}{=}} \hat{\boldsymbol{U}} \hat{\boldsymbol{\varSigma}} \boldsymbol{V}^* \end{array}\right. $

(9)

式中：$\hat{\boldsymbol{U}}^{\perp}$的列横跨一个矢量空间，与U所横跨的空间互补和正交；$\hat{\boldsymbol{\varSigma}}$是对角线非零奇异值。完全/约化SVD的原理如图 9所示，当m≥k时，矩阵Σ在对角线上最多有k个非零元素，可以写成$\boldsymbol{\varSigma}=\left[\begin{array}{l} \hat{\boldsymbol{\varSigma}} \\ 0 \end{array}\right]$，即约化SVD/PCA可精确表示$\hat{\boldsymbol{U}}$。

图 9 约化SVD/PCA原理

2.2.2 基于最小L₁范数稀疏表示的强特征提取

从本质上讲，一个测试集在样本数据库X中是稀疏的。Wright等^[29]证明了在样本字典中使用稀疏表示分类(Sparse Representation Classification, SRC)时，SRC对信号识别具有强鲁棒性。但为了提高样本识别准确率，需要提取训练集中的稀疏强特征映射空间。为此，本文提出基于最小L₁范数稀疏表示的强特征提取方法，即L₁-SRFE方法，利用特征标准化数据库$\hat{\boldsymbol{U}} \in \boldsymbol{R}^{m \times k}$构建稀疏编码方程

$ \boldsymbol{x}=\hat{\boldsymbol{U}} \boldsymbol{a} \quad \text { s. t. } \quad \min _\boldsymbol{a}\|\boldsymbol{a}\|_0 $

(10)

式中：向量a=[a₁, …, a_k]^T∈R^k代表稀疏系数模型，L₀范数可以有效计算a中非零值的数量；$\hat{\boldsymbol{U}}\boldsymbol{a}$表示从特征标准化数据库$\hat{\boldsymbol{U}}$中提取强特征原子与a重构的建模样本向量，迭代求解建模与测试样本之间L₀范数最小二乘优化解，得到稀疏向量a

$ \min\limits_\boldsymbol{a}\|\hat{\boldsymbol{U}} \boldsymbol{a}-\boldsymbol{x}\|_2^2 \quad \text { s. t. }\|\boldsymbol{a}\|_0^0 \leqslant \varepsilon \quad \varepsilon \ll k $

(11)

式中ε表示非零值个数，远远小于样本数k。然而，L₀范数求解属于非凸优化问题，过程复杂且具有多解性。Candes等^[30]证明了在零空间性质和受限正交条件下，L₀范数与L₁范数优化问题等价。因此，L₁-SRFE优化问题可表示为

$ \begin{array}{r} \min\limits_{\boldsymbol{a}}\left\{\sum\limits_{i=1}^k\|\hat{\boldsymbol{U}} \boldsymbol{a}-\overline{\boldsymbol{x}}\|_2^2+\lambda \sum\limits_{i=1}^k\|\boldsymbol{a}\|_1\right\} \\ \text { s. t. } \quad \hat{\boldsymbol{U}}=\boldsymbol{\varPsi} \boldsymbol{V} \boldsymbol{\varSigma}^{-1} \end{array} $

(12)

式中：x为均值样本；λ为正则化常数。通过上式计算得到稀疏系数向量a，观察a中的非零值ε位置，即对应特征标准化数据库$\hat{\boldsymbol{U}}$中强特征的位置。

2.2.3 强特征可视化表示

依据L₁-SRFE强特征提取方法，本文定义了一个可视化强特征坐标系统，即将训练和测试样本x投影到特征值(Eigenvalue)前ε个PC模式上，从而得到这个特征空间的一组坐标系

$ \tilde{\boldsymbol{x}}_i=\hat{\boldsymbol{U}}_i^* \cdot x_i \quad i \leqslant \varepsilon $

(13)

其中一些PC可能会捕获样本共同的特征，或者有利于区别不同标签的样本；另一些PC则可以捕捉三维样本不同方位角度特征差异。本文使用L₁-SRFE提取前五个强特征向量(ε=5)，并将三维PC坐标投影提高到五维坐标($\tilde{\boldsymbol{x}}$=[x坐标, y坐标, z坐标, 颜色, 尺寸])，优化可视化表示的同时还可以作为样本识别和分类的基础数据来源。

3 应用实例 3.1 训练数据库标注、采集与特征分析

选取中国华北地区M工区三维实际资料(图 10)测试本文方法对多尺度、多标签三维地震样本分类提取和强特征提取的有效性。

图 10 M工区三维地震资料

M工区勘探面积约为45 km²，共有开发井10口。可以利用井资料对三维地震信号进行数据挖掘。首先，滑动时窗(ω=6 ms)在SSMR多尺度、多标签测井信息标注的控制下，沿给定井轨迹三维空间自动提取地震波信号，并赋予两级多标签信息；然后，经DFT处理后，分别存入独立尺度样本库列空间。设定阈值Θ=ω/3，应用SSMR算法采集的两种尺度数据如图 11所示。

图 11 多尺度、多标签未完备样本库ILSB增广处理结果 (a)上为原始三维样本，下为ILSB处理结果，尺度为3×3×6；(b)上为原始三维样本，下为ILSB处理结果，尺度为3×3×3。左上、左下分别为单尺度T₁多标签存储的未完备、完备数据库；右上、右下分别为左上、左下虚线方框内放大显示，蓝色条带内为单尺度T₁，局部放大为单标签T₂。

根据程序底层架构的通用性，还可以针对不同标签内容和研究需要，自由选择任意尺度的时窗遍历全区以组成训练集。本文任选工区内的9口井资料寻迹标注、采集，参考储层解释厚度(图 1)，对多标签信息进行二级划分。提取一级储层标签集合T₁={储层，非储层}，其中T₁{储层}={油层，油水同层，水层，含油水层，干层，气层，…}。提取常见的二级岩性标签集合，如T₂={砂岩，泥岩，砾岩，灰岩，泥质砂岩，含砾泥岩，煤层，…}。

在完成三维原始样本(Original Sample Libra-ry, OSL)采集后，应用本文方法进行数据完备处理，ILSB增广处理后的多尺度、多标签数据库结果如图 11所示。所有样本都得到了很好补充，且在不重复增广的作用下，样本库数据量得到提升。

利用式(5)~式(9)对两种尺度的ILSB样本库矩阵进行约化SVD/PCA计算，分别得到如图 12所示的三维均值矩阵$\tilde{\boldsymbol{x}}_i$和前4个PC的三维变形体。由图可见，约化SVD/PCA提取的u_i1与$\tilde{\boldsymbol{x}}_i$具有相似振幅趋势和边界特征，而u_i2、u_i3等可有效提取ILSB样本库中不同类之间的特征。这些PC分解出高维信号存在的低维度结构，为区分不同类别之间的样本数据提供了强特征稀疏表示分类坐标向量。

图 12 多尺度、多标签ILSB样本库SVD/PCA处理得到的三维振幅特征 (a)样本均值，尺度为3×3×6；(b)~(e)分别为主成分PCs1~PCs4，尺度均为3×3×6；(f)样本均值，尺度为3×3×3；(g)~(j)分别为主成分PCs1~PCs4，尺度均为3×3×3

基于多尺度、多标签样本特性的差异，利用L₁-SRFE方法计算强特征稀疏建模信号与测试信号L₁范数最小正则化求解稀疏向量a，提取前五个最大非零值作为五维强特征PC向量(图 13)。将训练集和测试集投影到这5个PC模式上，得到两级标签的五维特征可视化交会图(图 14)。图 14中前三个PC用于分别表示x、y、z轴的坐标；第四、五个PC分别表示颜色深浅和散点大小，程度均与数值正相关。由于标签种类较多，为了进一步增强可视化效果，本文对类内多标签数据投影坐标系进行PCA分析，得到主趋势方向，并在二维交会图中使用多个标准差绘制类内置信区间(图 15)，灰色区域代表各标签PC中心混淆区。由图可见，该区各角点是不同标签PCA的中心点，在中心点位置临近程度最高，会对距离度量的分类算法产生一定误差。

图 13 L₁-SRFE地震样本特征优选纵坐标为振幅，横坐标为主成分PCs中的位置点。

图 14 不同标签ILSB样本五维特征交会及三视图 (a)单标签(储层)；(b)多标签(储层+岩性)

图 15 ILSB样本主趋势方向与中心混淆区上为三视图PCA，下为中心混淆区放大图。灰色区域代表各标签PCs中心混淆区；标签颜色线条表示第一主成分方向。

3.2 KNN预测结果分析

由于分类算法优化不是本文的研究重点，为了验证基于L₁-SRFE方法ILSB完备数据库的强特征坐标系统是否具有较高的识别准确率，本文利用较为成熟的K近邻(K-Nearest Neighbors, KNN)分类算法进行样本多标签预测，量化分析预测结果。

以W1井为测试井，采集其余9口井共5082个(尺度3×3×6的储层标签中的岩性标签有8~12种，共55种，每组51个；尺度3×3×3储层标签中的岩性标签有11~14种，共69种，每种33个。共计55×51+69×33=5082)三维多尺度、多标签训练样本(Training Number, TN)作为KNN学习来源，并对研究区外的1口验证井做盲井试验。为了量化预测结果的可靠性，在三维完备数据库(3D-ILSB)、三维未完备库(3D-OSL)、二维完备库(2D-ILSB)和二维未完备库(2D-OSL)中对比本文的强特征提取方法L₁-SRFE与随机特征法(Random)的训练准确率(Acc)，并使用标签样本消融实验进行两者的趋势对比。最后，通过强特征映射组成以上8组数据库的训练数据，并使用KNN分类算法进行预测。

由图 16可见，基于四种样本库和两种特征提取方法的多标签预测Acc整体趋势随同类型多标签训练样本量的增加而增大，同为ILSB库的2D、3D数据预测Acc要高于OSL库，而3D数据训练Acc明显高于2D数据，甚至在小样本(< 20)消融训练时，出现2D-ILSB库预测Acc略高于3D-OSL库的情况。后四组Random训练集的预测结果的Acc明显低于L₁-SRFE方法，而且Acc置信区间变大，即随机特征预测结果稳定性较低，因此强特征提取方法在预测分类上更具优势。

图 16 样本消融实验预测准确率分析 (a)储层；(b)岩性

轮换训练井与测试井分析全区10口井的预测准确率(表 1)，可见利用L₁-SRFE提取的强特征训练集具有较高的识别准确率。

表 1 ILSB多标签样本KNN综合预测准确率

4 结束语

本文提出了一种寻迹多尺度、多标签三维地震自动标注、采集和稀疏表示储层强特征提取的方法，即沿井轨迹自动标注和采集SSMR判断下的多尺度、多标签三维井旁地震反射波形；采用基于ILSB的“2+1”增广与平衡策略对未完备标签样本进行补齐；然后对ILSB样本数据库进行约化SVD/PCA特征标准化样本降维处理；最后采用L₁-SRFE方法进行强特征提取与样本坐标系投影，建立五维特征向量可视化交会图。对比KNN算法预测多标签样本的准确率，初步验证了本文方法的可行性。本文方法弥补了二维样本在方位角度信号的缺失，丰富了样本的立体度，为机器学习智能化技术提供了有效数据支撑和模型参考。

参考文献

[1]	杨旭, 李永华, 盖增喜. 机器学习在地震学中的应用进展[J]. 地球与行星物理论评, 2021, 52(1): 76-88. YANG Xu, LI Yonghua, GAI Zengxi. Machine lear-ning and its application in seismology[J]. Reviews of Geophysics and Planetary Physics, 2021, 52(1): 76-88.
[2]	DONG H, LI Y, ZHOU Z. Learning from semi-supervised weak-label data[C]. Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence and Thirtieth Innovative Applications of Artificial Intelligence Conference and Eighth AAAI Symposium on Educational Advances in Artificial Intelligence, 2018, 2926-2933.
[3]	张䶮, 郑晓东, 李劲松, 等. 基于SOM和PSO的非监督地震相分析技术[J]. 地球物理学报, 2015, 58(9): 3412-3423. ZHANG Yan, ZHENG Xiaodong, LI Jinsong, et al. Unsupervised seismic facies analysis technology based on SOM and PSO[J]. Chinese Journal of Geophysics, 2015, 58(9): 3412-3423.
[4]	赵明, 陈石, YUEN D. 基于深度学习卷积神经网络的地震波形自动分类与识别[J]. 地球物理学报, 2019, 62(1): 374-382. ZHAO Ming, CHEN Shi, YUEN D. Waveform classification and seismic recognition by convolution neural network[J]. Chinese Journal of Geophysics, 2019, 62(1): 374-382.
[5]	陈德武, 杨午阳, 魏新建, 等. 基于混合网络U-SegNet的地震初至自动拾取[J]. 石油地球物理勘探, 2020, 55(6): 1188-1201. CHEN Dewu, YANG Wuyang, WEI Xinjian, et al. Automatic picking of seismic first arrivals based on hybrid network U-SegNet[J]. Oil Geophysical Prospecting, 2020, 55(6): 1188-1201.
[6]	PETERS B, HABER E, GRANEK J. Neural networks for geophysicists and their application to seismic data interpretation[J]. The Leading Edge, 2019, 38(7): 534-540. DOI:10.1190/tle38070534.1
[7]	王光宇, 宋建国, 徐飞, 等. 不平衡样本集随机森林岩性预测方法[J]. 石油地球物理勘探, 2021, 56(4): 679-687. WANG Guangyu, SONG Jianguo, XU Fei, et al. Random forests lithology prediction method for imba-lanced data sets[J]. Oil Geophysical Prospecting, 2021, 56(4): 679-687.
[8]	WU X, LIANG L, SHI Y, et al. FaultSeg3D: using synthetic data sets to train an end-to-end convolu-tional neural network for 3D seismic fault segmentation[J]. Geophysics, 2019, 84(3): IM35-IM45. DOI:10.1190/geo2018-0646.1
[9]	王静, 张军华, 芦凤明, 等. 构建三维深度监督网络的断层检测方法[J]. 石油地球物理勘探, 2021, 56(5): 947-957. WANG Jing, ZHANG Junhua, LU Fengming, et al. Research on fault detection method based on 3D deeply supervised network[J]. Oil Geophysical Prospecting, 2021, 56(5): 947-957. DOI:10.13810/j.cnki.issn.1000-7210.2021.05.002
[10]	陈桂, 刘洋. 基于人工智能的断层自动识别研究进展[J]. 地球物理学进展, 2021, 36(1): 119-131. CHEN Gui, LIU Yang. Research progress of automa-tic fault recognition based on artificial intelligence[J]. Progress in Geophysics, 2021, 36(1): 119-131.
[11]	陈杰, 牛聪, 李勇, 等. 基于数据驱动紧框架理论的三维地震数据去噪与重建[J]. 石油地球物理勘探, 2020, 55(4): 725-732. CHEN Jie, NIU Cong, LI Yong, et al. Denoising and reconstruction of 3D seismic data on a data-driven tight frame[J]. Oil Geophysical Prospecting, 2020, 55(4): 725-732. DOI:10.13810/j.cnki.issn.1000-7210.2020.04.003
[12]	ZHENG Y, ZHANG Q, YUSIFOV A. Applications of supervised deep learning for seismic interpretation and inversion[J]. The Leading Edge, 2019, 38(7): 526-533. DOI:10.1190/tle38070526.1
[13]	HUANG L, DONG X, CLEE T E. A scalable deep learning platform for identifying geologic features from seismic attributes[J]. The Leading Edge, 2017, 36(3): 249-256. DOI:10.1190/tle36030249.1
[14]	闫星宇, 顾汉明, 罗红梅, 等. 基于改进深度学习方法的地震相智能识别[J]. 石油地球物理勘探, 2020, 55(6): 1169-1177. YAN Xingyu, GU Hanming, LUO Hongmei, et al. Intelligent seismic facies classification based on an improved deep learning method[J]. Oil Geophysical Prospecting, 2020, 55(6): 1169-1177.
[15]	宗志敏, 何登科, 孙超. 基于深度学习采用多标签的方式解释叠前地震数据[J]. 地球物理学进展, 2022, 37(3): 1258-1265. ZONG Zhimin, HE Dengke, SUN Chao. Interpret pre-stack seismic data with multi-label based on deep learning[J]. Progress in Geophysics, 2022, 37(3): 1258-1265.
[16]	BHATIA K, JAIN H, KAR P, et al. Sparse local embeddings for extreme multi-label classification[C]. Proceedings of the 28th International Conference on Neural Information Processing Systems, 2015, 730-738.
[17]	LIU M, JERVIS M, LI W, et al. Seismic facies classification using supervised convolutional neural networks and semi-supervised generative adversarial networks[J]. Geophysics, 2020, 85(4): O47-O58. DOI:10.1190/geo2019-0627.1
[18]	KU B, KIM G, AHN J K, et al. Attention-based con-volutional neural network for earthquake event classification[J]. IEEE Geoscience and Remote Sensing Letters, 2021, 18(12): 2057-2061. DOI:10.1109/LGRS.2020.3014418
[19]	LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[C]. Computer Vision - ECCV 2016, 2016, 21-37.
[20]	XU Z, CHEN Y, YANG F, et al. A post-earthquake multiple scene recognition model based on classical SSD method and transfer learning[J]. ISPRS International Journal of Geo-information, 2020, 9(4): 238. DOI:10.3390/ijgi9040238
[21]	DUBOIS M K, BOHLING G C, CHAKRABARTI S. Comparison of four approaches to a rock facies classification problem[J]. Computers & Geosciences, 2007, 33(5): 599-617.
[22]	韩明亮, 邹志辉, 马锐. 利用反射地震资料和多尺度训练集的深度学习速度建模[J]. 石油地球物理勘探, 2021, 56(5): 935-946. HAN Mingliang, ZOU Zhihui, MA Rui. Deep lear-ning-driven velocity modeling based on seismic reflection data and multi-scale training sets[J]. Oil Geophysical Prospecting, 2021, 56(5): 935-946.
[23]	董林鹭, 蒋若辰, 徐奴文, 等. 基于LMD-SVD的微震信号降噪方法研究[J]. 工程科学与技术, 2019, 51(5): 126-136. DONG Linlu, JIANG Ruochen, XU Nuwen, et al. Research on microseismic signal denoising method based on LMD-SVD[J]. Advanced Engineering Sciences, 2019, 51(5): 126-136.
[24]	ZHANG K, ZUO W, CHEN Y, et al. Beyond a Gaus-sian denoiser: residual learning of deep CNN for image denoising[J]. IEEE Transactions on Image Proces-sing, 2017, 26(7): 3142-3155.
[25]	HUANG N, SHEN Z, LONG S, et al. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis[J]. Proceedings of the Royal Society of London, Series A: Mathematical, Physical and Engineering Sciences, 1998, 454(1971): 903-995.
[26]	韩泉叶, 王晓明, 党建武. 基于平均明暗熵差的人脸增强算法[J]. 兰州交通大学学报, 2009, 28(6): 11-14. HAN Quanye, WANG Xiaoming, DANG Jianwu. Face enhancement alogrithm based on average bright and dark entropy difference[J]. Journal of Lanzhou Jiaotong University, 2009, 28(6): 11-14.
[27]	ZHONG Q, LI C, ZHANG Y, et al. Towards good practices for recognition & detection[C]. In CVPR Workshops, 2016.
[28]	陆文凯, 李衍达. 利用SVD分解法对任意道距道内插[J]. 石油地球物理勘探, 1997, 32(4): 582-588. LU Wenkai, LI Yanda. Any-interval trace interpolation using SVD method[J]. Oil Geophysical Prospecting, 1997, 32(4): 582-588.
[29]	WRIGHT J, YANG A, GANESH A, et al. Robust face recognition via sparse representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(2): 210-227.
[30]	CANDES E J, TAO T. Decoding by linear programming[J]. IEEE Transactions on Information Theory, 2005, 51(12): 4203-4215.