石油地球物理勘探  2022, Vol. 57 Issue (1): 12-25  DOI: 10.13810/j.cnki.issn.1000-7210.2022.01.002
0
文章快速检索     高级检索

引用本文 

张岩, 李新月, 王斌, 李杰, 王洪涛, 董宏丽. 基于深度学习的鲁棒地震数据去噪. 石油地球物理勘探, 2022, 57(1): 12-25. DOI: 10.13810/j.cnki.issn.1000-7210.2022.01.002.
ZHANG Yan, LI Xinyue, WANG Bin, LI Jie, WANG Hongtao, DONG Hongli. Robust seismic data denoising based on deep learning. Oil Geophysical Prospecting, 2022, 57(1): 12-25. DOI: 10.13810/j.cnki.issn.1000-7210.2022.01.002.

本项研究受国家自然科学基金项目“基于通信协议的非线性时变系统有限域分布式滤波”(61873058)和黑龙江省自然科学基金重点项目“复杂网络化系统的安全控制与滤波”(ZD2019F001)联合资助

作者简介

张岩  副教授, 硕士生导师, 1980年生; 2003年获大庆石油学院计算机科学与技术专业学士学位, 2010年、2018年分别获东北石油大学计算机应用技术专业硕士学位和石油与天然气工程专业博士学位; 现就职于东北石油大学, 从事地震数据处理、深度学习、压缩感知及稀疏表示方面的理论和方法研究

董宏丽, 黑龙江省大庆市高新技术开发区发展路199号东北石油大学人工智能能源研究院, 163318。Email: shiningdhl@vip.126.com

文章历史

本文于2021年3月23日收到,最终修改稿于同年7月7日收到
基于深度学习的鲁棒地震数据去噪
张岩 , 李新月 , 王斌 , 李杰 , 王洪涛 , 董宏丽     
① 东北石油大学计算机与信息技术学院, 黑龙江大庆 163318;
② 黑龙江省大庆市信息技术研究中心, 黑龙江大庆 163318;
③ 东北石油大学人工智能能源研究院, 黑龙江大庆 163318
摘要:地震勘探数据中包含的噪声比较复杂,基于先验的传统建模方式无法准确地刻画噪声分布。深度学习通过多层卷积神经网络自动提取数据的深层次特征,利用非线性逼近能力自适应地学习而得到一个复杂的去噪模型,为地震数据去噪带来了新思路。但是,目前基于深度学习的去噪方法在样本覆盖不充分的情况下,学习得到的模型泛化能力不强,极大地降低了去噪效果。为此,提出一种鲁棒的深度学习去噪算法。该方法的网络模型由两部分子网构成,分别实现含噪地震数据的噪声分布估计与噪声压制。噪声分布估计子网采用多层卷积神经网络估计噪声分布;去噪子网引入特征融合策略,综合考虑地震数据的全局和局部信息,利用残差学习策略提取噪声特征;两部分子网采用L1范数作为损失函数,增强网络模型的泛化能力。实验表明,与同类算法相比,该算法具有更高的泛化能力;数据处理结果中同相轴纹理保持更好,信噪比更高。
关键词地震数据去噪    深度学习    鲁棒性    L1损失函数    特征融合    残差网络    
Robust seismic data denoising based on deep learning
ZHANG Yan , LI Xinyue , WANG Bin , LI Jie , WANG Hongtao , DONG Hongli     
① School of Computer&Information Technology, Northeast Petroleum University, Daqing, Heilongjiang 163318, China;
② Daqing Information Technology Research Center, Daqing, Heilongjiang 163318, China;
③ Artificial Intelligence Energy Research Institute, Northeast Petroleum University, Daqing, Heilongjiang 163318, China
Abstract: Noise in seismic data is complicated, and the traditional modeling methods based on prior knowledge cannot describe the noise distribution accurately. In the denoising methods based on deep learning, a multi-layer convolutional neural network is employed to automatically extract the deep features of seismic data, and its nonlinear approximation ability is used for adaptive learning, which yields a complex denoising model and thus brings a new idea for the denoising of seismic data. However, poor generalization ability is found in the current denoising methods based on deep learning in the case of insufficient sample coverage, greatly reducing the denoising effect. Therefore, this paper proposes a robust deep learning algorithm for denoising. The model is composed of two sub-networks, which realize the estimation of noise distribution and noise suppression of noisy seismic data respectively. The sub-network for estimating noise distribution is a multi-layer convolutional neural network. The sub-network for denoising introduces a strategy of feature fusion, which comprehensively considers the global and local information of seismic data, and a residual learning strategy is utilized to extract noise features. L1 norm loss is taken as the loss function for the two sub-networks to enhance the generalization ability of the model. Experiments show that the method proposed in this paper has a higher generalization ability than similar algorithms. Data processing results indicate that it better preserves event features and has a higher signal-to-noise ratio.
Keywords: seismic data denoising    deep learning    robustness    L1 loss function    feature fusion    residual network    
0 引言

随机噪声严重影响地震资料的处理工作[1-2],如何高效地从含噪数据中提取有效信息,是地震资料处理领域的一个重要研究方向。为了解决这一问题,学者们提出了多种随机噪声压制方法。按照是否假设具体的先验模型,这些方法可划分为两类:基于先验模型的传统去噪方法和基于深度学习的去噪方法。

基于先验模型的传统去噪方法是从数据的分布先验出发,建立并求解数学模型。该方法又可以进一步划分为传统时域去噪、传统频域去噪、多尺度几何分析和稀疏表示去噪等。其中,传统时域去噪方法是利用地震数据时域分布的特点构建滤波函数去除噪声,主要包括中值滤波[3-5]、非局部均值滤波[6-7]等。传统频域去噪方法是将地震数据变换到频域,在频域内分析有效信号与噪声分布的特点,预测并去除噪声,然后返回时域以实现噪声压制,主要包括Fourier变换[8]、Radon变换[9]等。多尺度几何分析的原理与传统频域去噪的原理类似,区别在于多尺度几何变换较传统的频域变换具有多尺度和多方向特性,更适用于地震数据的同向轴纹理特征表示,主要包括Wavelet变换[10-11]、Curvelet变换[12]等。稀疏表示去噪方法是通过字典学习等方式得到基函数以表示地震数据的主要特征,去除噪声特征以达到去噪的目的,主要包括K-奇异值分解(K-Singular Value Decomposition,K-SVD)[13-16]、三维块匹配(Block-Matching and 3D Filtering,BM3D)[17]等。

以上地震数据去噪方法对于不同噪声条件下的去噪具有一定的效果,但地震数据的噪声产生因素多,噪声分布复杂。根据数据先验知识,人工建立的模型只能提取浅层特征,表达能力较弱,无法描述复杂的噪声分布,影响了模型假设和参数设置的准确性[18]。更重要的是,野外数据的噪声分布是未知的,缺乏足够的先验信息,因此去噪效果不太理想[19-20]

近年来,深度学习技术以强大的深层特征提取与非线性逼近能力而倍受关注,基于深度学习的地震数据处理方法[21-23]的研究也逐渐展开。它与传统去噪方法的主要差异在于不再假设具体的先验模型,而是从数据本身出发,通过多层卷积的方式提取数据主要特征,利用大量的训练样本学习得到一个复杂的去噪模型。该技术主要包括基于降噪自编码的噪声压制[24-26]、基于残差学习的卷积去噪网络[27-28]和基于生成对抗网络的噪声压制[29]等。其中,基于降噪自编码的网络由编码和解码两部分组成,编码过程中通过多层卷积和池化等操作提取数据中主要的纹理特征,解码过程中使用反卷积和上采样等操作输出去噪后数据。

Zhang等[24]和Chen等[25]利用U-Net的网络结构对地震数据进行随机噪声压制,自适应地从噪声中学习地震信号,实现了无监督的地震数据随机噪声压制。罗仁泽等[26]改进了U-Net网络,在训练过程中进行深度加权,进一步提取深层信息;Zhang等[27]结合卷积神经网络、残差网络和批量归一化,提出基于残差学习的卷积去噪网络(Residual Learning of Deep CNN for Image Denoising,Dn-CNN),在图像处理领域得到广泛应用。同时,Zhang等[27]还提出了DnCNN的变体DnCNN-B以处理不同分布的未知噪声,该方法通过对训练集添加不同分布的随机噪声,使训练集的噪声分布覆盖测试集,以此达到盲去噪的目的。但模型的泛化能力较低,在高噪声分布下会导致图像过平滑的现象和细节信息的丢失。韩卫雪等[30]借鉴DnCNN网络结构提出的地震数据去噪方法,效果优于传统地震数据去噪方法。由于DnCNN出色的去噪性能,很多学者将其应用于地震数据的随机噪声压制任务。Wang等[31]将DnCNN模型应用于地震数据噪声压制,取得了较好的效果。Yu等[32]和Zhao等[33]系统介绍了DnCNN算法用于地震数据噪声压制的过程并讨论了CNN的超参数设置问题。Dong等[34]采用自适应的DnCNN算法对沙漠地震资料进行去噪处理,有效提高了信噪比。Yang等[35]扩展了原有的DnCNN模型,将激活函数替换为指数线性单元(Exponential Linear Units,ELU),增强了网络的鲁棒性。

基于生成对抗网络的噪声压制方法包含一个生成网络和一个判别网络,采用博弈论的思想,用判别网络指导生成网络学习样本的分布,在图像处理领域得到了成功应用[36]。Radford等[37]在Yang等[35]基础上加入卷积神经网络,提出了深度卷积生成对抗网络(Deep Convolutional Generative Adversarial Networks,DCGAN)。俞若水等[38]将DCGAN应用于工程勘探领域的瑞雷波勘探,实现了基于深度卷积生成对抗网络的瑞雷波信号随机噪声去除,取得了较好的效果。

当前基于深度学习的噪声压制方法是通过多层卷积提取地震数据的主要特征,自适应地构建去噪模型,解决了传统去噪方法中受有限的先验知识影响而导致模型不准确、参数设置不确定性的问题。基于深度学习的网络模型在测试集噪声分布接近其训练噪声分布的情况下,能达到较好的去噪效果。但在样本覆盖不充分的情况下,往往缺少鲁棒能力。受采集环境、地质条件等影响,地震数据之间存在的差异很大,样本充分覆盖在实际应用中存在很大的困难,导致去噪效率大幅降低。

在地震数据处理领域,鲁棒的深度学习去噪研究比较鲜见。在图像处理领域,盲噪声压制的方法有两种思路:一种是不需要对噪声进行估计,例如Mohan等[39]提出的无偏置卷积神经网络(Bias-Free Convolutional Neural Networks,BF-CNN),通过删除所有的加性常数(Additive Constants)提高网络的泛化能力;另一种是采用噪声估计与噪声去除相结合的思想,以提高模型的鲁棒性。例如Zhang等[40]提出了一种快速灵活的去噪卷积神经网络(Fast and Flexible Denoising Convolutional Neural Network,FFDNet)处理不同分布的噪声,网络的输入包括两部分:含噪图像和一个可调的噪声分布估计图,提供了一种灵活的方式处理不同的噪声分布,在噪声分布估计图近似真实噪声时可以得到很好的去噪效果。然而,噪声分布的估计值同样受到先验知识的限制,致使FFDNet在各种噪声条件下也存在与DnCNN相似的问题。Guo等[41]借鉴了FFDNet网络的优点,提出了卷积盲去噪网络(Convolutional Blind Denoising Network,CBDNet),该方法设置了两部分网络:在第一部分对图像噪声分布进行估计,自适应地学习噪声分布估计图,避免了先验知识对去噪效果的影响;在第二部分采用U-Net网络对含噪图像进行去噪。该网络有更好的鲁棒性,但网络模型较复杂,训练效率较低。

本文借鉴CBDNet的思想,提出一种鲁棒的深度学习地震数据去噪网络,包含噪声分布估计子网(Estimate Subnet,ES)和去噪子网(Denoising Subnet,DS)两部分,分别实现地震数据中随机噪声分布的估计与去噪;噪声分布估计子网利用多层卷积神经网络估计噪声分布;去噪子网中引入特征融合方法,将浅层与深层的地震数据特征信息融合,进一步增加地震数据特征提取的准确性,并且引入残差学习策略,避免网络结构较深导致梯度消失的现象;整体网络模型采用L1范数作为损失函数以提高鲁棒性。

1 方法原理 1.1 噪声压制模型

深度学习训练数据中的噪声分布与测试地震数据中的噪声分布越接近,训练得到的模型在测试地震数据上的表现就越好。假设地震数据中噪声为高斯随机噪声,含噪声地震数据y可表示为

$ \mathit{\boldsymbol{y}} = \mathit{\boldsymbol{x}} + \mathit{\boldsymbol{v}} $ (1)

式中:x为原始不含噪地震数据;v为高斯随机噪声。地震数据去噪的最终任务是通过训练数据得到原始地震数据x的估计$\mathit{\boldsymbol{\hat x}}\left( {\mathit{\boldsymbol{\hat x}} \approx \mathit{\boldsymbol{x}}} \right)$

1.2 网络结构设计

本文算法的网络模型结构如图 1所示,包含两部分子网,分别为噪声分布估计子网和去噪子网。其中,噪声分布估计子网分5层,每层由卷积(Convolution,Conv)和修正线性单元(Rectified Linear Unit,ReLU)组成,用来学习地震数据中随机噪声的分布。卷积操作用于提取噪声分布特征,前4层和第5层卷积处理后分别得到64和1个特征映射。采用ReLU激活函数可以更好地逼近真实噪声估计图的分布。

图 1 网络模型结构图

去噪子网由两个阶段组成。其中,第一阶段包括5层网络,前4层分别由Conv和ReLU组成,每层卷积处理后得到64个特征映射。第5层仅由Conv组成,卷积操作后得到1个特征映射,即为深层的地震数据特征。然后,将第一阶段输出的深层特征与含噪地震数据特征融合后再传入第二阶段。特征融合采用向量拼接的方式,即将浅层与深层的地震数据特征进行拼接融合,增加地震数据特征提取的准确性。第二阶段包括12层网络,对应去噪子网的第6层至第17层。其中,第6层至第16层由Conv和ReLU组成,卷积处理后得到64个特征映射;第17层由Conv组成,卷积操作后得到1个特征映射,即去噪后的地震数据。最后,将得到的去噪后地震数据与含噪地震数据相减,即可得到残差学习的噪声。

以上所有卷积操作前,均对待处理数据用0扩充边界以确保输入、输出尺寸一致,且卷积核尺寸均为3×3。整个网络模型中所有卷积操作步长均为1,并且未使用批量标准化(Batch Normalization,BN)层。

综上所述,本文算法的去噪原理可以描述如下。

首先,输入含噪地震数据y,经过噪声分布估计子网后,输出预测噪声估计

$ \left\{\begin{array}{l} \hat{\boldsymbol{\eta}}=F_{\mathrm{ES}}\left(\boldsymbol{y} ; \boldsymbol{\theta}_{\mathrm{ES}}\right)=R\left(\boldsymbol{w}_{5} \boldsymbol{y}_{\text {out}_{4}}+b_{5}\right) \\ \boldsymbol{y}_{\text {out}_{i+1}}=R\left(\boldsymbol{w}_{i} \boldsymbol{y}_{\text {out}_{i}}+b_{i}\right) \quad i=1,2,3 \end{array}\right. $ (2)

式中:FES为噪声估计子网的函数;θES为噪声分布估计子网中参数的集合;wi为噪声分布估计子网中第i层的权重参数;youtii层的输出;bii层的偏置参数;R为ReLU激活函数。

然后,将噪声估计$\mathit{\boldsymbol{\hat \eta }}$与含噪地震数据y同时输入去噪子网,输出后得到最终的去噪后地震数据

$ \left\{\begin{array}{l} \hat{\boldsymbol{x}}=F_{\mathrm{DS}}\left(\boldsymbol{y}, \hat{\boldsymbol{\eta}} ; \boldsymbol{\theta}_{\mathrm{DS}}\right)=R\left(\boldsymbol{w}_{17} \boldsymbol{y}_{\text {out}_{16}}+b_{17}\right) \\ \boldsymbol{y}_{\text {out}_{i+1}}=R\left(\boldsymbol{w}_{i} \boldsymbol{y}_{\text {out}_{i}}+b_{i}\right) \\ \boldsymbol{y}_{\text {out}_{5}}=\boldsymbol{w}_{5} C\left(\boldsymbol{y}, \boldsymbol{y}_{\text {out}_{4}}\right)+b_{5} \\ \boldsymbol{y}_{\text {out}_{1}}=\boldsymbol{w}_{1} C(\boldsymbol{y}, \hat{\boldsymbol{\eta}})+b_{1} \end{array}\right. $ (3)

式中:FDS为去噪子网的函数;θDS为去噪子网中参数的集合;C为向量拼接操作;i=1,2,…,15且i≠4。

本文网络模型的主要特点概括如下。

(1) 网络模型由两部分子网组成。通过噪声分布估计子网学习噪声估计,最大程度地避免了先验知识的影响,进而通过去噪子网实现地震数据的去噪任务。

(2) 联合L1损失函数。为尽可能地增加网络模型的鲁棒性,本文算法采用了L1范数作为两部分子网的损失函数,总的损失为两部分子网联合误差。这有助于网络模型整体的优化,减少网络训练时间,提高网络的泛化能力,防止网络模型过拟合。

(3) 特征融合。随着神经网络层数的加深,深层的全局信息被提取,但是浅层局部信息较弱。本文模型在去噪子网中引入特征融合的思想,将深层的特征信息与浅层的特征信息融合,综合考虑地震数据的高频与低频信息以提高地震数据去噪的鲁棒性。

(4) 残差学习策略。由于本文算法的网络结构较深,为了避免训练过程中出现梯度消失的现象,引入残差学习策略学习噪声的特征。

2 去噪影响因素分析

采用理论分析和实验验证相结合的方法解析本文网络模型去噪的原理。采用Marmousi模型数据进行去噪实验,分析两部分子网的网络结构、联合L1损失函数、特征融合以及残差学习的作用。选用的数据为经过裁剪得到的10000个尺寸为300个采样点、207道的原始不含噪数据x,将数据集按照80%、10%、10%的比例分别划分为训练集、验证集和测试集。添加0均值正分布的高斯随机噪声仿真,噪声标准差定义为

$ \sigma=l \sqrt{\frac{1}{M N} \sum\limits_{t=1}^{M} \sum\limits_{s=1}^{N}\left(x_{t, s}-u\right)^{2}} $ (4)

式中:M为切片时间采样总数;N为切片地震道采样总数;t为时间采样序号;s为地震道记录序号;u为地震数据的均值;l为噪声强度的比例因子,训练过程中l设置范围为0.01~0.03。

去噪效果的衡量指标采用峰值信噪比(Peak Signal to Noise Ratio,PSNR)和信噪比(Signal Noise Ratio,SNR),以单个样本为例,对应表达式为

$ \mathrm{PSNR}=20 \lg \frac{\max (|\boldsymbol{x}|)}{|\boldsymbol{x}-\hat{\boldsymbol{x}}|} $ (5)
$ \mathrm{SNR}=20 \lg \frac{|\boldsymbol{x}|}{|\boldsymbol{x}-\hat{\boldsymbol{x}}|} $ (6)
2.1 子网结构的分析与验证

Xu等[42]将噪声数据和噪声分布信息同时输入网络中,可以增加网络的鲁棒性。此外,Guo等[41]发现,在不增加过多计算量的情况下,两部分子网的网络设计可以将噪声分布有效引入到网络。因此,本文采用两部分子网的模型架构,即首先采用一个噪声估计子网对地震数据中随机噪声的分布进行估计,其次将估计的噪声分布与含噪地震数据一同传入去噪子网,实现噪声分布与含噪数据到原始地震数据的映射,即${F_{{\rm{DS}}}}\left( {\mathit{\boldsymbol{y}}, \mathit{\boldsymbol{\hat \eta }};{\mathit{\boldsymbol{\theta }}_{{\rm{DS}}}}} \right) \to \mathit{\boldsymbol{x}}$。该网络参数的调整不仅根据含噪数据,还依据含噪数据的噪声分布以及含噪数据与噪声分布之间的关系。对于新的含噪数据,模型可以自适应地得到该数据的噪声分布并指导生成去噪后数据。

另外,本文模型未采用BN层处理,原因是在标准化的过程中首先要计算一批(Batch)内所有数据的均值和方差,但地震数据包含不同分布的随机噪声,一个Batch内数据有明显差别,训练集中噪声强度较高的地震数据将影响整个Batch内的均值和方差,从而影响后续的归一化处理。不采用BN层的结构,可以在提高网络的鲁棒性的同时降低网络模型复杂度。

为了充分证明两部分子网的网络结果对盲去噪任务的有效性,将本文模型中的噪声分布估计子网除去,修改后的模型记为G1,并与本文模型对比实验。

训练过程分别迭代100次,PSNR的变化曲线如图 2所示。由图可见,不含噪声估计子网的PSNR曲线有多处波动,本文模型的PSNR曲线收敛相对更稳定。

图 2 模型有无噪声分布估计子网的PSNR对比

在测试集中,任意选取一个原始地震数据样本(图 3a),加入l=0.08的高斯随机噪声后的地震数据如图 3b所示,由于噪声较强,部分同相轴信息被覆盖。图 3c是噪声剖面,作为标准用来对比、评价不同模型的去噪效果。

图 3 模型有无噪声分布估计子网的去噪结果对比 (a)原始地震数据;(b)加入l=0.08的高斯随机噪声的地震数据;(c)含噪地震数据的残差剖面;(d)模型无噪声估计子网的去噪结果;(e)模型无噪声估计子网去噪后的残差剖面;(f)本文模型的去噪结果;(g)本文模型去噪后的残差剖面

图 3dG1去噪结果,部分同相轴由于特征不明显而被当作噪声去除。图 3e有明显的同相轴信息。图 3f为本文模型去噪结果,同相轴信息损失较少,原因在于训练集的噪声范围没有覆盖到所有测试样本,导致G1去噪鲁棒性不理想。相比之下,本文算法首先利用噪声估计子网估计出噪声分布,然后再通过去噪子网进行噪声压制,将噪声信息引入到网络中,增强了网络的泛化能力。图 3g进一步证明了本文算法可以在提高噪声压制效果的同时很好地保留了同相轴信息。

2.2 联合L1损失函数的分析与验证

目前基于深度学习的去噪处理中,最常用的损失函数有最小均方误差(Mean Squared Error,MSE)、L1范数、L2范数等。其中MSE是回归损失函数中最常用的误差,即

$ E_{1}=\frac{1}{n} \sum\limits_{i=1}^{n}\left(\mathrm{obs}_{i}-\operatorname{pred}_{i}\right)^{2} $ (7)

式中:obsi和predi分别为目标值和估计值;n为数据点数。L2范数又称最小平方误差,即

$ E_{2}=\sum\limits_{i=1}^{n}\left(\operatorname{obs}_{i}-\operatorname{pred}_{i}\right)^{2} $ (8)

这两个损失函数的优势在于连续可微分且具有较为稳定的解。但当函数的输出值与最小值之间差距较大时,使用梯度下降法求解会导致梯度爆炸;另外,由于是平方运算,较大的误差就会被过度放大,即对于较大的误差给予过大的惩罚,使模型对离群点更加敏感,降低模型的鲁棒性。

L1范数又称平均绝对值误差,是对目标值与预测值之差的绝对值求和再取均值,表示预测值的平均误差幅度,其表达式为

$ E_{3}=\frac{1}{n} \sum\limits_{i=1}^{n}\left|\mathrm{obs}_{i}-\operatorname{pred}_{i}\right| $ (9)

L1有着稳定的梯度,不会导致梯度爆炸的问题;另外,因为L1计算的误差是目标值与预测值之差的绝对值,所以对于任意大小的差值,其惩罚相对稳定,对离群点不敏感,具有很好的鲁棒性。因此本文模型选择更具有鲁棒性的L1范数作为本文算法的损失函数。

另外,本文算法采用联合误差的思想,将损失函数分为两部分,噪声分布估计子网的损失函数为

$ E_{\mathrm{ES}}=\frac{1}{m} \sum\limits_{i=1}^{m}\left|\boldsymbol{\eta}_{i}-\hat{\boldsymbol{\eta}}_{i}\right| $ (10)

式中ηi${\mathit{\boldsymbol{\hat \eta }}_i}$分别为第i个含噪地震数据的真实噪声和预测噪声(i=1,2,…,m), m为数据块数。去噪子网的损失函数为

$ E_{\mathrm{DS}}=\frac{1}{m} \sum\limits_{i=1}^{m}\left|\boldsymbol{x}_{i}-\hat{\boldsymbol{x}}_{i}\right| $ (11)

式中xi${\mathit{\boldsymbol{\hat x}}_i}$分别为第i个原始不含噪地震数据和去噪后地震数据。因此,联合L1损失函数

$ E=\lambda_{1} E_{\mathrm{ES}}+\lambda_{2} E_{\mathrm{DS}} $ (12)

式中λ1λ2分别为噪声估计子网损失和去噪子网损失的权衡超参数。

为证明L1损失函数更适用于地震数据去噪,将网络模型中的损失函数替换为MSE,修改后的网络模型记为G2,并与本文模型相对比。训练过程中分别迭代100次,PSNR的变化曲线如图 4所示。由图可见,训练过程中G2模型的PSNR曲线出现剧烈波动且收敛时的值比本文算法小。测试样本(图 3a图 3b)G2去噪结果如图 5a所示,出现大面积的纹理模糊且部分同相轴消失。图 5b图 5a图 3a的残差剖面,可以看到图 5a中消失的同相轴信息。

图 4 使用不同损失函数的PSNR对比

图 5 使用MSE为损失函数的去噪结果(a)和残差剖面(b)
2.3 特征融合的作用

由于采用了相对较深的网络结构,本文模型对深层全局信息的提取比较充分,但是局部信息较弱,因此引入特征融合的思想,将深层的特征与浅层的特征信息拼接以增加网络输入的通道数。拼接操作可以理解为维数的特征融合,即直接将两个特征进行连接。例如两个特征ab的维数若分别为cd,则输出特征e的维数为c+d。本文在去噪子网的第一阶段网络输出后,融合含噪地震数据的浅层特征,可记为C(y, (w5…(R(w1(C(y, $\mathit{\boldsymbol{\hat \sigma }}$))+b1))+b5)),其中$\mathit{\boldsymbol{\hat \sigma }}$为去噪子网的第一阶段网络的输出。特征融合的引入不仅提高地震数据盲去噪的鲁棒性,还相当于对训练任务起到特征强化的作用,使网络明确学习目标,保证学习方向的正确性,从而更快、更好地收敛至稳定值。

为证明特征融合在去噪中的作用,将本文模型中的特征融合阶段除去,修改后的模型记为G3。迭代100次的PSNR变化曲线如图 6所示,G3的PSNR曲线出现两次骤降、回升,原因在于网络层数较深,在前向传递过程中极容易导致网络的输出与目标值之间的误差增大,因此PSNR下降;误差的增大会触发Adam算法自适应地调节学习率以更好地拟合目标值,随着误差的反向传递、学习率以及权重的更新,网络的下一次前向传递后得到的输出与目标值之间的误差减小,因此PSNR出现回升。显然无特征融合的的算法不容易收敛。G3去噪结果如图 7a所示,同相轴纹理也出现了消失或模糊的现象。图 7b图 7a图 3a的残差剖面,依然存在被错误去除的同相轴信息。与图 3g对比,可以证明模型中引入特征融合对于地震数据盲去噪具有更好的噪声压制效果。

图 6 模型有、无特征融合的PSNR对比

图 7 模型无特征融合的去噪结果(a)和残差剖面(b)
2.4 残差学习的作用

为避免训练过程中梯度消失,网络中引入残差学习策略,前向传递过程为

$ \boldsymbol{y}_{K}=\boldsymbol{y}_{k}+\sum\limits_{i=k}^{K-1} F\left(\boldsymbol{y}_{i}, \boldsymbol{w}_{i}\right) $ (13)

式中:yK为第K层的输入,yk为第K-1层的输出;F(yi, wi)表示残差块的输出。反向传播过程为

$ \frac{\partial E}{\partial \boldsymbol{y}_{k}}=\frac{\partial E}{\partial \boldsymbol{y}_{K}} \frac{\partial \boldsymbol{y}_{K}}{\partial \boldsymbol{y}_{k}}=\frac{\partial E}{\partial \boldsymbol{y}_{K}}\left[1+\frac{\partial}{\partial \boldsymbol{y}_{k}} \sum\limits_{i=k}^{K-1} F\left(\boldsymbol{y}_{i}, \boldsymbol{w}_{i}\right)\right] $ (14)

通过求偏导可以看出,即使网络层数较深,也不会出现梯度消失的现象。

为了证明残差学习对地震数据去噪的有效性,将本文模型中的残差学习除去,修改后的模型记为G4。迭代100次的PSNR变化曲线如图 8所示,G4的PSNR曲线呈锯齿形波动,不易收敛。G4去噪结果如图 9a所示,同相轴不连续且部分消失。图 9b图 9a图 3a的残差剖面,可以看到少量的同相轴信息。与图 3g对比,可以证明模型中引入残差学习对地震数据盲去噪的有效性。

图 8 模型有、无残差学习的PSNR对比

图 9 模型无残差学习的去噪结果(a)和残差剖面(b)
3 Marmousi模型数据实验

本文实验用的Marmousi模型数据为经过裁剪得到的10000个切片数据,每个切片数据包含207道,每道包含300个采样点。将数据集按照80%、10%、10%的比例分别划分为训练集、验证集和测试集。训练过程中l设置为0.02~0.05,即对于每个Epoch中的每一批数据,分别加入l为0.02~0.05的噪声来训练,学习率初始设定为0.001,使用Adam优化算法,Epoch设置为100次,批大小为20,网络的输入、输出尺寸均为300×207。实验硬件平台采用Intel I7 8核CPU,内存为32G,GPU为GeForce RTX2080 Super。操作系统为64位Ubuntu 18.04 LTS,软件平台采用Python 3.6环境,深度学习框架使用Pytorch1.2搭建,该环境下训练时长约42h。为验证本文模型的去噪效果,将本文算法与BM3D、DnCNN-B和BF-CNN等进行对比实验。

3.1 相同强度随机噪声下不同去噪算法对比

任选一个测试集地震数据样本如图 10a所示,图 10b为加入l=0.1的高斯随机噪声后的地震数据,其中红色矩形区域中的地震数据信息被噪声淹没。图 10c为含噪地震数据的残差剖面,将其作为各种算法去噪后残差剖面的评判依据。

图 10 测试数据样本 (a)原始地震数据;(b)加入l=0.1的高斯随机噪声后的地震数据;(c)含噪地震数据的残差剖面

图 11a为BM3D去噪的结果和残差剖面,该方法联合空域与变换域算法,可以看出,矩形区域中大部分噪声得到压制,但噪声被压制的同时,同相轴信息也被去除,存在同相轴信息丢失的现象。图 11b为DnCNN-B去噪的结果和残差剖面,该方法通过训练集噪声覆盖测试集噪声进行盲去噪,但由于本实验中训练集噪声的l设置为0.02~0.05,而测试集中噪声的l设置为0.06,导致去噪效果下降,矩形区域中的同相轴信息丢失。图 11c为BF-CNN去噪的结果和残差剖面,该方法不改变网络结构,在DnCNN的基础上通过删除卷积层和BN层的加性常数提高噪声压制的鲁棒性。可以看出,矩形区域去噪效果得到明显改善,但由于未引入噪声估计子网、损失函数,仍采用MSE以及没有特征融合策略等,导致部分同相轴信息被去除,残差剖面中仍然存在着被错误去除的同相轴信息。图 11d为本文算法去噪的结果和残差剖面,本文算法先估计出噪声的强度,进而自适应地对噪声进行压制。可以看出,与其他方法相比,矩形区域的地震数据细节保护得更好,同相轴纹理也更加清晰。残差剖面中含有很少的有效信号,更逼近随机噪声。上述方法去噪后的PSNR和SNR的对比结果(表 1)进一步证明了本文算法去噪效果的优势。

图 11 不同算法对图 10a的去噪结果(左)和残差剖面(右)对比 (a)BM3D;(b)DnCNN-B;(c)BF-CNN;(d)本文算法

表 1 不同算法去噪后PSNR、SNR对比 dB
3.2 不同强度随机噪声下不同去噪算法对比

对于不同强度的随机噪声(l为0.01~0.90),不同算法去噪后的SNR如表 2所示。可以看出,噪声强度较小时(l为0.01~0.07),各种去噪算法都表现出了良好的去噪性能。随着噪声强度的增加,本文算法表现出了更高的PSNR值。噪声强度较大时(l为0.10~0.90),本文算法仍然具有很好的去噪效果。当l大于0.05时,DnCNN-B方法效果最差,原因在于DnCNN-B的训练集噪声强度没有覆盖较强的噪声范围,并且模型的设计未考虑鲁棒性。相比之下,本文算法的去噪效果明显优于其他算法,原因在于通过噪声分布估计与噪声压制两部分子网,提高了模型的鲁棒性,对不同强度噪声具有较好的泛化能力,即使在有限的噪声分布样本内训练,也可以在未覆盖的测试样本范围获得较好的去噪效果。

表 2 不同算法对含有不同强度高斯随机噪声地震数据的去噪前、后SNR对比 dB
4 实际地震数据实验

实际地震数据的噪声较合成数据更复杂。为验证本文模型的去噪效果,利用两组数据进行实验。第一组为经过噪声压制预处理作为标签的实际数据,用来训练网络模型;第二组为无标签的含噪实际数据,用来测试本文算法对实际地震数据的鲁棒性和去噪效果。

第一组为经过噪声压制预处理的14000个实际数据样本,每个样本包含300道,每道包含200个采样点,其中训练集包括11200个样本,验证集包含2800个样本。因为实际数据中噪声复杂且分布未知,所以训练样本不再加入高斯噪声进行仿真,而是采用现有的去噪算法预处理后得到的噪声残差作为训练样本的噪声。具体的实现流程如图 12所示。训练过程中学习率初始设定为0.001,采用Adam算法优化学习目标,Epoch设置为100次,批量大小设置为20,训练时长约66h。

图 12 训练样本流程

任选第100次迭代中的一个训练样本,如图 13所示。由图可以看出,噪声基本得到压制。图 13e为第100次迭代训练去噪后的残差剖面,视觉上与经过噪声压制预处理后的残差剖面(图 13c)基本一致,因此本文模型对复杂的未知分布的实际噪声也有很好的压制效果。

图 13 任意样本第100次迭代训练的效果 (a)原始含噪地震数据;(b)经过噪声压制预处理后的地震数据;(c)噪声压制预处理后的残差剖面;(d)第100次迭代训练的去噪结果;(e)第100次迭代训练去噪后的残差剖面

第二组为1400个原始实际数据样本,每个样本包含300道,每道包含200个采样点。任取其中一个样本如图 14a所示,其中,红色矩形Ⅰ、Ⅱ区域中的同相轴不清晰且连续性较差,红色矩形Ⅲ区域中的地震信号受噪声干扰严重,特征不明显,很难辨识出有效信息。图 14b为经过BM3D去噪后的结果和残差剖面,可见Ⅰ区域中同相轴信息得到了较好地恢复且噪声基本被压制,但Ⅱ、Ⅲ区域中纹理过于平滑,残差剖面中有丢失的细节信息。图 14c为DnCNN-B模型去噪后的结果和残差剖面,由于实际含噪数据噪声复杂,DnCNN-B模型泛化能力较低,噪声不能被有效去除。其中,Ⅰ区域中噪声压制不充分、对应残差剖面中提取的噪声信息较弱,Ⅱ、Ⅲ区域中噪声基本被压制,但出现纹理特征过平滑的现象。图 14d为BF-CNN模型去噪后的结果和残差剖面,可见模型泛化能力较DnCNN-B有所提高,但Ⅰ、Ⅲ区域中同相轴过平滑,仍存在少量噪声未被压制。Ⅱ、Ⅲ区域中部分细节信息丢失,残差剖面中仍存在着部分横向的同相轴信息。14e为本文模型去噪后的结果和残差剖面,可见Ⅰ区域中噪声得到了很好地抑制,保留了清晰且连续的同相轴信息,Ⅱ、Ⅲ区域中将噪声压制的同时很好地保留了地震数据细节信息,残差剖面中的有效信息较弱。与以上同类算法相比,本文方法在视觉方面最好。

图 14 原始实际数据不同方法噪声压制(左)及残差(右)剖面对比 (a)原始叠后地震数据;(b)BM3D;(c)DnCNN-B;(d)BF-CNN;(e)本文算法

第二组数据的不同算法去噪的运行时间(每个样本的平均去噪时间)如表 3所示,可以说明不同算法的去噪效率。BM3D算法包括基础估计和最终估计,且每种估计又包括相似块分组、协同滤波和聚合,所以耗时相对较长。基于深度学习的去噪方法,在测试过程中不需要迭代学习,因此耗时更短。本文模型采用噪声估计与去噪相结合的思想,引入特征融合策略等方法,使模型的设计更为复杂,去噪时间较DnCNN-和BF-CNN多约0.03s。因此,本文算法可以在不增加过多计算量的同时,改进了噪声压制的效果,具有较高的去噪效率。

表 3 不同算法去噪的运行时间对比
5 结束语

本文提出了一种鲁棒的基于深度学习的地震数据去噪模型,为避免先验知识的影响,采用噪声分布估计与噪声压制相结合的思想将模型分成两部分,噪声分布估计子网利用多层卷积神经网络估计噪声分布;去噪子网将噪声分布与含噪地震数据一同作为输入进行去噪处理,提高了地震数据噪声特征的提取能力;引入特征融合策略,将浅层与深层的地震数据特征信息融合,改善噪声去除的效果;为避免梯度消失,模型引入残差学习策略提取噪声特征;网络模型整体利用更具有鲁棒性的L1范数作为两部分子网的损失函数,增加了网络模型的泛化能力。与同类算法相比,本文去噪模型可获得更高的信噪比,且网络模型的鲁棒性更强。因此,该模型可有效地对地震数据进行去噪处理,同时也为其他方面的地震数据处理提供了参考。

参考文献
[1]
张军华, 吕宁, 田连玉, 等. 地震资料去噪方法综合评述[J]. 石油地球物理勘探, 2005, 40(增刊1): 121-127.
ZHANG Junhua, LYU Ning, TIAN Lianyu, et al. A comprehensive review of seismic data denoising me-thods[J]. Oil Geophysical Prospecting, 2005, 40(S1): 121-127.
[2]
胡天跃. 地震资料叠前去噪技术的现状与未来[J]. 地球物理学进展, 2002, 17(2): 218-223.
HU Tianyue. The current situation and future of seismic data prestack noise attenuation techniques[J]. Progress in Geophysics, 2002, 17(2): 218-223. DOI:10.3969/j.issn.1004-2903.2002.02.005
[3]
唐金良, 曹辉, 王立华, 等. 中值滤波在井间地震资料处理中的应用[J]. 石油物探, 2005, 44(1): 47-50.
TANG Jinliang, CAO Hui, WANG Lihua, et al. Median filter in seismic crosshole data processing[J]. Geophysical Prospecting for Petroleum, 2005, 44(1): 47-50.
[4]
刘财, 王典, 刘洋, 等. 二维多级中值滤波技术在随机噪声消除中的应用初探[J]. 石油地球物理勘探, 2005, 40(2): 163-167.
LIU Cai, WANG Dian, LIU Yang, et al. Preliminary study of using 2D multi-level median filtering technique to eliminate random noises[J]. Oil Geophysical Prospecting, 2005, 40(2): 163-167.
[5]
王伟, 高静怀, 陈文超, 等. 基于结构自适应中值滤波器的随机噪声衰减方法[J]. 地球物理学报, 2012, 55(5): 1732-1741.
WANG Wei, GAO Jinghuai, CHEN Wenchao, et al. Random seismic noise suppression via structure-adaptive median filter[J]. Chinese Journal of Geophysics, 2012, 55(5): 1732-1741.
[6]
BUADES A, COLL B, MOREL J M. A non-local algorithm for image denoising[C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2005, 60-65.
[7]
BONAR D, SACCHI M. Denoising seismic data using the nonlocal means algorithm[J]. Geophysics, 2012, 77(1): A5-A8. DOI:10.1190/geo2011-0235.1
[8]
ALSDORF D. Noise reduction in seismic data using Fourier correction coefficient filtering[J]. Geophy-sics, 1997, 62(5): 1617-1627.
[9]
TRAD D, ULRYCH T, SACCHI M. Latest view of sparse Radon transforms[J]. Geophysics, 2003, 68(10): 386-399.
[10]
CAO S, CHEN X. The second-generation wavelet transform and its application in denoising of seismic data[J]. Applied Geophysics, 2005, 2(2): 70-74. DOI:10.1007/s11770-005-0034-4
[11]
高静怀, 毛剑, 满蔚仕, 等. 叠前地震资料噪声衰减的小波域方法研究[J]. 地球物理学报, 2006, 49(4): 1155-1163.
GAO Jinghuai, MAO Jian, MAN Weishi, et al. On the denoising method of prestack seismic data in wavelet domain[J]. Chinese Journal of Geophysics, 2006, 49(4): 1155-1163. DOI:10.3321/j.issn:0001-5733.2006.04.030
[12]
NEELAMANI R, BAUMSTEIN A I, GILARD D, et al. Coherent and random noise attenuation using the curvelet transform[J]. The Leading Edge, 2008, 27(2): 240-248. DOI:10.1190/1.2840373
[13]
ELAD M, AHARON M. Image denoising via sparse and redundant representations over learned dictionaries[J]. IEEE Transactions on Image Processing, 2006, 15(12): 3736-3745. DOI:10.1109/TIP.2006.881969
[14]
张岩, 任伟建, 唐国维. 应用结构聚类字典学习压制地震数据随机噪声[J]. 石油地球物理勘探, 2018, 53(6): 1119-1127.
ZHANG Yan, REN Weijian, TANG Guowei. Random noise suppression on seismic data based on structured-clustering dictionary learning[J]. Oil Geophysical Prospecting, 2018, 53(6): 1119-1127.
[15]
ZHOU Y T, SHI C J, CHEN H M, et al. Spike-like blending noise attenuation using structural low-rank decomposition[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14(9): 1633-1637. DOI:10.1109/LGRS.2017.2687418
[16]
ZU S H, ZHOU H, WU R S, et al. Hybrid-sparsity constrained dictionary learning for iterative deblen-ding of extremely noisy simultaneous-source data[J]. IEEE Transactions on Geoscience and Remote Sen-sing, 2019, 57(4): 2249-2262. DOI:10.1109/TGRS.2018.2872416
[17]
DABOV K, FOI A, KATKOVNIK V, et al. Image denoising by sparse 3-D transform-domain collaborative filtering[J]. IEEE Transactions on Image Processing, 2007, 16(8): 2080-2095. DOI:10.1109/TIP.2007.901238
[18]
ANVARI R, KAHOO A R, MOHAMMADI M, et al. Seismic random noise attenuation using sparse low-rank estimation of the signal in the time-frequency domain[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2019, 12(5): 1612-1618. DOI:10.1109/JSTARS.2019.2906360
[19]
ZHOU Q B, GAO J H, WANG Z G, et al. Adaptive variable time fractional anisotropic diffusion filtering for seismic data noise attenuation[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(4): 1905-1917. DOI:10.1109/TGRS.2015.2490158
[20]
ZHANG H, YANG H, LI H X, et al. Random noise attenuation of non-uniformly sampled 3D seismic data along two spatial coordinates using non-equispaced curvelet transform[J]. Journal of Applied Geophy-sics, 2018, 151: 221-233. DOI:10.1016/j.jappgeo.2018.02.018
[21]
张玉玺, 刘洋, 张浩然, 等. 基于深度学习的多属性盐丘自动识别方法[J]. 石油地球物理勘探, 2020, 55(3): 475-483.
ZHANG Yuxi, LIU Yang, ZHANG Haoran, et al. Multi-attribute automatic interpretation of salt domes based on deep learning[J]. Oil Geophysical Prospecting, 2020, 55(3): 475-483.
[22]
王钰清, 陆文凯, 刘金林, 等. 基于数据增广和CNN的地震随机噪声压制[J]. 地球物理学报, 2019, 62(1): 421-433.
WANG Yuqing, LU Wenkai, LIU Jinlin, et al. Random seismic noise attenuation based on data augmentation and CNN[J]. Chinese Journal of Geophysics, 2019, 62(1): 421-433.
[23]
李海山, 陈德武, 吴杰, 等. 叠前随机噪声深度残差网络压制方法[J]. 石油地球物理勘探, 2020, 55(3): 493-503.
LI Haishan, CHEN Dewu, WU Jie, et al. Pre-stack random noise suppression with deep residual network[J]. Oil Geophysical Prospecting, 2020, 55(3): 493-503.
[24]
ZHANG M, LIU Y, CHEN Y K. Unsupervised seismic random noise attenuation based on deep convolutional neural network[J]. IEEE Access, 2019, 7: 179810-179822.
[25]
CHEN Y K, ZHANG M, BAI M, et al. Improving the signal-to-noise ratio of seismological datasets by unsupervised machine learning[J]. Seismological Research Letters, 2019, 90(4): 1552-1564.
[26]
罗仁泽, 李阳阳. 一种基于RUnet卷积神经网络的地震资料随机噪声压制方法[J]. 石油物探, 2020, 59(1): 51-59.
LUO Renze, LI Yangyang. Random seismic noise attenuation based on RUnet convolutional neural network[J]. Geophysical Prospecting for Petroleum, 2020, 59(1): 51-59.
[27]
ZHANG K, ZUO W M, CHEN Y J, et al. Beyond a Gaussian denoiser: Residual learning of deep CNN for image denoising[J]. IEEE Transactions on Image Processing, 2017, 26(7): 3142-3155.
[28]
SHAN C H, GUO X R, QU J. Residual learning of deep convolutional neural networks for image denoi-sing[J]. Intelligent & Fuzzy Systems, 2019, 37(2): 2809-2818.
[29]
WU K L, ZHANG C H. Deep generative adversarial networks for the sparse signal denoising[C]. International Conference on Pattern Recognition, 2018, 1127-1132.
[30]
韩卫雪, 周亚同, 池越. 基于深度学习卷积神经网络的地震数据随机噪声去除[J]. 石油物探, 2018, 57(6): 862-869.
HAN Weixue, ZHOU Yatong, CHI Yue. Deep lear-ning convolutional neural networks for random noise attenuation in seismic data[J]. Geophysical Prospecting for Petroleum, 2018, 57(6): 862-869.
[31]
WANG F, CHEN S C. Residual learning of deep convolutional neural network for seismic random noise attenuation[J]. IEEE Geoscience and Remote Sen-sing, 2019, 16(8): 1314-1318.
[32]
YU S W, MA J W, WANG W L. Deep learning for denoising[J]. Geophysics, 2019, 84(6): V333-V350.
[33]
ZHAO Y X, LI Y, DONG X T, et al. Low-frequency noise suppression method based on improved DnCNN in desert seismic data[J]. IEEE Geoscience and Remote Sensing, 2019, 16(5): 811-815.
[34]
DONG X T, LI Y, YANG B J. Desert low-frequency noise suppression by using adaptive DnCNNs based on the determination of high-order statistic[J]. Geophysical Journal International, 2019, 219(2): 1281-1299.
[35]
YANG L Q, CHEN W, LIU W, et al. Random noise attenuation based on residual convolutional neural network in seismic datasets[J]. IEEE Access, 2020, 8: 30271-30286.
[36]
GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]. Advances in Neural Information Processing Systems, 2014, 2672-2680.
[37]
RADFORD A, METZ L, CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks[C]. International Conference on Learning Representations, 2016, 1-16.
[38]
俞若水, 张勇, 周创. 基于深度卷积生成对抗网络的瑞雷波信号随机噪声去除[J]. 地球物理学进展, 2020, 35(6): 2276-2283.
YU Ruoshui, ZHANG Yong, ZHOU Chuang. Deep convolutional generative adversarial network for random noise attenuation in Rayleigh wave signal[J]. Progress in Geophysics, 2020, 35(6): 2276-2283.
[39]
MOHAN S, KADKHODAIE Z, SIMONCELLI E P, et al. Robust and interpretable blind image denoising via bias-free convolutional neural networks[C]. International Conference on Learning Representations, 2020, 1-22.
[40]
ZHANG K, ZUO W M, ZHANG L. FFDNet: Toward a fast and flexible solution for CNN-based image denoising[J]. IEEE Transactions on Image Processing, 2018, 27(9): 4608-4622.
[41]
GUO S, YAN Z F, ZHANG K, et al. Toward convolutional blind denoising of real photographs[C]. Confe-rence on Computer Vision and Pattern Recognition, 2019, 1712-1722.
[42]
XU J, ZHANG L, ZHANG D, et al. Multi-channel weighted nuclear norm minimization for real color image denoising[C]. IEEE Internationa Conference on Computer Vision(ICCV), 2017, 1105-1113.