基于生成对抗网络的SAR解压缩图像重建算法

引用本文

张冰玉, 潘志刚, 姚锴, 等. 基于生成对抗网络的SAR解压缩图像重建算法[J]. 中国科学院大学学报, 2025, 42(5): 666-676.

Zhang B Y, Pan Z G, Yao K, et al. SAR decompressed image reconstruction algorithm based on generative adversarial network[J]. Journal of University of Chinese Academy of Sciences, 2025, 42(5): 666-676.

基于生成对抗网络的SAR解压缩图像重建算法

张冰玉^1,2, 潘志刚¹, 姚锴^1,2, 董旭彬¹

1. 中国科学院空天信息创新研究院, 北京 100190;
2. 中国科学院大学, 北京 100049

2023年1月30日收稿; 2023年4月6日收修改稿

基金项目: 国家重点研发计划(2017YFB0503001)资助

通信作者: 潘志刚, E-mail: zgpan@mail.ie.ac.cn

摘要: 合成孔径雷达(SAR)图像的高倍数压缩处理会导致图像中目标和纹理信息受损，解压缩后的SAR图像会出现细节模糊、目标不易分辨等问题，难以有效反映真实的地物特征。为解决上述问题，基于生成对抗网络(GAN)架构，提出一种新的SAR图像重建算法，该算法基于编解码结构，将卷积神经网络与自注意力机制并行融合作为生成器，设计了简洁高效的ConTransformer，从而得到更丰富的全局特征，有效提升小目标重建效果。针对判别网络，在U-Net特征提取器中引入谱归一化，降低模型对输入扰动的敏感程度，从而达到抑制伪影的效果；同时引入预训练掩码机制，加强高层次语义特征提取，提升重建图像的真实性。实验证明该方法所得到的重建图像比Real-ESRGAN等基于GAN的经典方法所得重建结果具有更为清晰的视觉效果，且关键性能指标值更为出色，其中峰值信噪比提升0.57~1.54 dB。

关键词: SAR解压缩图像生成对抗网络 ConTransformer编码器掩码机制

SAR decompressed image reconstruction algorithm based on generative adversarial network

ZHANG Bingyu^1,2, PAN Zhigang¹, YAO Kai^1,2, DONG Xubin¹

1. Aerospace Information Research Institute, Chinese Academy of Sciences, Beijing 100190, China;
2. University of Chinese Academy of Sciences, Beijing 100049, China

Abstract: The high multiple compression processing of SAR images will cause damage to the target and texture information in the image, which makes the problems of blur and indistinguishable targets often appear in the decompressed SAR image, and is difficult to effectively reflect the real features of ground objects. To solve the above problems, a new SAR image reconstruction algorithm is proposed based on the generative adversarial network. Based on the codec structure, the algorithm takes the parallel fusion of convolutional neural network and self-attention mechanism as the generator, and designs a simple and efficient architecture called ConTransformer, which can get richer global features and effectively improve the effect of small-target reconstruction. For the Discriminator, spectral normalization is introduced into the U-Net feature extractor to reduce the sensitivity of the model to input disturbance, so as to suppress artifacts. Synchronously, the pre-training mask mechanism is used to enhance the extraction of high-level semantic features and improve the authenticity of reconstructed images. Experimental results show that the reconstructed images obtained by this method have clearer visual effects and better key performance indicators than those obtained by Real-ESRGAN and other typical methods based on generative adversarial networks, among which the peak signal-to-noise ratio is improved by 0.57-1.54 dB.

Keywords: SAR decompressed image generative adversarial networks(GAN) ConTransformer encoder masking mechanism

作为一种主动式的微波成像系统，合成孔径雷达(synthetic aperture radar，SAR)^[1]具有全天时、全天候、高分辨率成像等特点，可以借助多个波段、多种极化方式获取丰富的地物信息，形成高分辨率的遥感图像。

无人机航空遥感平台具有续航时间长、影像实时传输、成本低、机动性强等特点，可对高危地区进行高效灵活的针对性探测，是卫星遥感与有人机遥感的有力补充。无人机载SAR对于人造目标和地物目标具有良好的探测与分辨能力，目前装载SAR系统的无人机遥感平台已广泛应用于灾害监测、地形测绘、边境巡逻等国防民用领域，发挥了巨大作用。

无人机载SAR系统在实际应用时，为实现对突发事件的应急监测，需要在机上实时成像并将图像数据通过通信链路下传至地面站。随着SAR系统测绘带宽和分辨率指标的不断提高，单通道SAR系统输出的数据率可达200 Mbit/s以上，多通道SAR系统产生的数据量成倍增加。但目前无人机系统分配给SAR载荷的通信带宽通常在2~8 Mbit/s，远远不能满足图像实时传输的要求。因此在数据传输之前需要对SAR图像进行压缩处理^[2-3]。对于高分辨率SAR图像，压缩比可达50倍以上。高倍数(≥32倍)图像压缩会导致图像降质，对后续的图像解译工作造成困难。传统的SAR图像重建算法仅聚焦于对SAR图像编解码算法的改进，当压缩比较高时，重建图像往往会出现细节模糊、目标不易分辨等问题。

基于卷积神经网络(convolutional neural network, CNN)的深度学习方法在非线性模型拟合方面有着巨大优势，目前已有学者将此类方法应用于SAR降质图像重建的研究中^[4-6]。但目前已提出的方法普遍采用单一的退化模式制作低质量图像数据集，其退化方式与高倍数图像压缩所导致的图像退化并不一致，网络缺少鲁棒性。并且往往通过加深和加宽网络结构来提升性能，使得网络难以收敛，训练难度增大。

此外，根据我们的验证结果，直接将CNN架构应用于SAR图像，重建结果往往存在模糊和伪影等问题。并且对于压缩-解压缩这类真实退化的SAR图像，CNN特征利用率低，只强调局部锐化，整体视觉效果不尽如人意。

本文方法针对以上问题进行算法改进与优化。将在高级视觉任务中表现优秀的Transformer^[7]架构与CNN并行结合，提出一种新的ConTransformer架构应用于算法的生成网络部分。Transformer使用自注意力机制，而不是卷积来聚集跨位置的信息，所以它在上层和下层之间具有更统一的特征表示，并且在较低层次上比CNN包含更多的全局信息，有助于充分利用图像中的像素信息，进一步丰富重建图像中的细节特征。而CNN能够在底层提取高频特征，可以更好地重建小目标的轮廓和边缘信息，提升SAR图像重建效果。

针对重建图像中的伪影问题，本文采用改进的U-Net^[8]谱归一化判别器替代较为常用的VGG(visual geometry group)^[9]特征提取网络。此外，还加入了预训练机制以加强高层次语义特征提取，提升重建图像的真实性。算法所采用的低质量图像均为高倍数的SAR解压缩图像，反映了图像的真实退化，提高了算法的实用性与普适性。

1 算法设计

本文方法的整体网络结构如图 1所示。区别于传统的生成对抗网络(generative adversarial network，GAN)架构，该方法加入预训练机制以激发网络性能，并加强对SAR图像中高层次特征的提取。

	Download: JPG larger image
图 1 本文方法网络结构示意图 Fig. 1 Network structure diagram

在生成网络部分，设计了以ConTransformer架构为主的特征提取网络，采用编码器和解码器结构。ConTransformer基于自注意力机制和卷积操作并行结合的方式，可以更全局、更深入地提取特征，避免重建图像过于平滑，并加强小目标轮廓和边缘重建。为适应解压缩SAR图像更为复杂的退化方式，判别网络采用U-Net架构，从全局和像素角度进行真假判断，并加入谱归一化抑制GAN网络的不稳定性，缓解重建图像的伪影问题。

1.1 预训练机制

本文算法加入预训练机制，采用高比例的随机掩码策略。这一举措已在文献[10]中被证实，在高级视觉任务(目标检测和图像分类等)中有助于激发网络性能，可以使得特征提取器更深入、更有效地学习语义特征。SAR图像相邻像素之间具有一定的冗余，重建时，丢失的像素往往可以从相邻的像素中恢复，而无需对场景进行高级理解。这就使得重建图像无法摆脱SAR图像因压缩过程导致的图像平滑、纹理细节缺失等不足。为克服这种问题并鼓励网络学习有用的特征，本文算法采用自动编码方法，将整幅图像以一定比例随机掩码，在很大程度上减少了冗余，形成了一个具有挑战性的自我监督任务。

预训练机制示意图如图 2所示，该方法的核心思想是采用自动编码方法将输入图像随机掩码，并在像素空间中重建缺失的像素块。编码器仅将部分观测到的信号映射为潜在的特征，解码器根据潜在特征和掩码标记重构原始完整信号。基于Transformer强大的特征提取能力，通过给它更少的信息，迫使其能够更有效、更深入地从语义层面理解图像。较高的掩码比例(例如75 %)可以激发网络性能，提升重建图像的真实性，而且编码器只处理小部分(例如25 %)的像素，减少了计算量。

	Download: JPG larger image
图 2 预训练机制示意图 Fig. 2 Schematic diagram of pre-training mechanism

如图 2所示，首先将图像划分为规则的、不重叠的像素块，并对其进行高比例、遵循均匀分布的随机抽样，形成掩码。编码器采用ConTransformer架构(后文将详细介绍)，只输入可见的、未被掩码的像素块。解码器的输入是由可见像素块的潜在特征和掩码标记组成的完整数据。每个掩码标记都是一个共享的、可学习的向量，表示存在一个要预测的缺失像素块。

预训练的重建目标是通过预测每个被掩码像素块的像素值来重建输入图像。解码器输出的每个序列表示一个像素块的像素值向量。解码器的最后一层是线性投影层，其输出通道的数量等于一个像素块中像素的数量。损失函数只计算被掩码像素块的重建图像和原始图像在像素空间中的均方误差。

1.2 生成网络

预训练机制的加入，实现了基于大像素块的粗糙预测，在此基础上再采用生成网络进行精细化重建。生成网络的具体结构如图 3所示。

	Download: JPG larger image
图 3 生成网络结构 Fig. 3 Structure of generating network

将原始图像按一定大小(16×16)分成一组像素块，全部像素块不加掩码，输入到编码器中。编码器采用本文提出的ConTransformer架构。如图 3所示，生成网络的具体结构主要包含：1)图像嵌入层(patch embedding)，通过线性映射，将该层中的每个像素块都映射为一维向量(tokens)。2)位置嵌入层(position embedding)，用来保存输入图像块之间的空间位置信息。3)编码器，对每个向量进行归一化处理后输入编码器。编码器分为2个阶段：第1个阶段为ConTransformer Blocks，其结构如图 3右图所示，信息提取由高频混合器和低频混合器融合实现；第2个阶段为Transformer Blocks，基于全局自注意力机制，通过矩阵运算和线性变换对输入序列进行映射，由交替的多层多头自注意力(multi-head self-attention，MSA) 层和多层感知机块(multi-layer perceptron，MLP)构成。4)解码器，先将编码器输出的特征降维后再输入到Transformer结构中，并降低MSA的注意力头数和深度，在保证解码器较为轻量的同时能够进一步提取特征。5)使用线性投影层(linear layer)将解码器的输出映射到像素空间后重建图像，避免了传统重建方法上采样层的反卷积操作导致重建图像的棋盘状伪影问题。

Transformer已成为自然语言处理领域中最为常用的网络架构。目前已有多项工作^[11-12]试图将Transformer与CNN融合后应用于计算机视觉领域。Transformer模型主要基于MSA对全图像的像素块进行自注意力运算，因此具有较强的全局信息提取能力，但MSA同时具有低通滤波器的特征，倾向于更好地捕获低频信号，而较少捕获高频信号^[13]。

对于SAR图像而言，需要在全局信息提取的基础上，加强边缘和轮廓等高频信息的重建；而CNN通过感受野内的局部卷积操作可以得到更多的局部信息，从而有效地提取高频表征。但若将卷积和自注意力机制串行组合，则意味着每一层只能处理高频或低频一部分的信息，而忽略另一部分。所以为了更好地使每一层都能有效处理两方面的信息，需采用并行的方式将卷积和自注意力结合。目前结合方法主要有元素相加法^[14-15]和特征拼接法^[16]，但上述方法均缺少对不同频率特征的融合。

Inception Transformer^[13]将图像多尺度划分后，基于窗口自注意力机制(window-based multi-head self-attention，W-MSA)将2个分支进行融合。但经实验验证发现，W-MSA提取的特征是分散的，其响应倾向于局部，而不是面向全局^[17]。本文采用局部归因图^[18](local attribution maps，LAM)，对使用W-MSA和MSA 2种自注意力机制的重建网络进行归因分析，结果如图 4所示。图 4(b)和4(c)中所展示的红色像素是有助于图 4(a)中红色框选区域重建的信息像素。为了更好地显示，以输入网络的低质量图像为背景画布，充分体现红色像素范围，并在LAM结果下提供了扩散指数DI^[18]值。DI反映所涉及像素的范围，DI越高表示所利用像素越多。结果表明，与MSA相比，W-MSA利用的信息较少，而我们希望自注意力机制能从全局范围获得信息，不仅仅通过局部。

	Download: JPG larger image
图 4 LAM结果 Fig. 4 LAM results

所以本文算法不对图像进行尺度划分，直接将输入特征沿通道维度分成高频和低频两部分，并加入融合模块合并2个分支的输出。我们发现通常较低的层需要更多的局部信息，而较高的层需要更多的全局信息^[19]。所以本文的编码器分为2个阶段，如图 3所示，在底层加入并行的卷积提取高频分量中的细节信息，高层只使用MSA对全局建模。

本文设计的ConTransformer高低频混合器的具体结构如图 5所示，先将输入特征沿通道维度进行分割，将分割后的特征矩阵分别送入高频混合器和低频混合器。其中高频混合器由并行卷积操作组成，而低频混合器由自注意力机制实现。ConTransformer模块简洁高效，且是独立模块，可以轻松移植。

	Download: JPG larger image
图 5 高低频混合器 Fig. 5 High-low frequency mixer

高低频混合器工作原理：假定输入特征$\boldsymbol{X} \in \mathbb{R}^{N \times C_{\mathrm{f}}}$，将X沿通道维度分解为$\boldsymbol{X}_{\mathrm{h}} \in \mathbb{R}^{N \times C_{\mathrm{h}}}$和$\boldsymbol{X}_1 \in \mathbb{R}^{N \times C_1}$，其中C_h + C_l=C_f，X_h和X_l分别分配给高频混合器和低频混合器。

高频混合器将X_h经全连接层(fully connected layer，FC)和深度卷积层(depth-wise convolution layer，DwConv)实现通道之间的相互融合后再在空间尺度上融合

$ \boldsymbol{Y}_{\mathrm{h}}=\operatorname{DwConv}\left(\operatorname{FC}\left(\boldsymbol{X}_{\mathrm{h}}\right)\right), $

(1)

其中，Y_h表示高频混合器的输出。

低频混合器的实现公式如下

$ \boldsymbol{Y}_1=\operatorname{MSA}\left(\boldsymbol{X}_1\right) . $

(2)

使用MSA在低频混合器的所有像素块之间进行信息通信。Y_l是低频混合器的输出。将低频和高频混合器的输出沿通道维度进行拼接

$ \boldsymbol{Y}_{\mathrm{c}}=\operatorname{Concat}\left(\boldsymbol{Y}_1, \boldsymbol{Y}_{\mathrm{h}}\right) . $

(3)

为充分融合高频和低频输出，加入Fusion模块，使用深度卷积层在空间尺度上交换像素块之间的信息，并使用全连接层实现跨通道信息交互，最终输出可以表示为

$ \boldsymbol{Y}=\operatorname{FC}\left(\boldsymbol{Y}_{\mathrm{c}}+\operatorname{Dw} \operatorname{Conv}\left(\boldsymbol{Y}_{\mathrm{c}}\right)\right) . $

(4)

1.3 判别网络

在GAN中，需要通过判别网络对生成网络生成的重建图像进行真假判断，以此促进生成网络生成更真实的图像。在已有基于GAN网络的架构中，常用的判别器特征提取的骨架网络有VGG^[8]、U-Net^[20]、Patch^[21]等网络。

在本文方法中，判别网络采用U-Net谱归一化判别器，如图 6所示。由于高倍数SAR解压图像的重建需要解决比一般重建算法更大的图像退化空间，因此判别器需要对复杂的训练输出有更强大的判别能力。之前方法的判别器更多基于图像的整体角度判别真伪，而U-Net网络具有跳跃连接的设计，可以为局部纹理产生准确的梯度反馈。使用U-Net判别器可以在保持全局一致性的基础上，从像素角度，对单个生成的像素进行真假判断，因此可在保证生成图像整体真实的同时注重生成图像的细节。

	Download: JPG larger image
图 6 U-Net谱归一化判别网络 Fig. 6 U-Net spectral normalization discriminant network

U-Net较VGG结构更为复杂，并且GAN基于动态训练，加入谱范数归一化^[22]可以稳定调整训练动力学，使网络更易收敛。此外，谱归一化可以使CNN的权重矩阵保留尽可能多的特征，有助于缓解GAN训练引入的过度尖锐和伪影问题。

谱归一化通过谱范数对网络层进行约束，以此满足判别器函数中的Lipschitz条件，降低模型对输入扰动的敏感程度。根据定义，对于线性卷积层g(h) = Wh，Lipschitz范数可表示为

$ \|g\|_{\text {Lip }}=\sup _h \sigma(\nabla g(\boldsymbol{h}))=\sup _h \sigma(\boldsymbol{W})=\sigma(\boldsymbol{W}) . $

(5)

式中：W为网络参数的权重矩阵，σ(W)是矩阵W的谱范数，即W的最大奇异值。

假定激活函数(ReLU)的Lipschitz范数a_{l Lip}等于1，根据$\left\|g_1 \circ g_2\right\|_{\text {Lip }} \leqslant\left\|g_1\right\|_{\text {Lip }} \cdot\left\|g_2\right\|_{\text {Lip }}$，判别器函数Lipschitz的常量 ‖f‖_Lip 有以下约束

$ \begin{aligned} \|f\|_{\text {Lip }} \leqslant & \left\|\left(\boldsymbol{h}_L \mapsto \boldsymbol{W}^{L+1} \boldsymbol{h}_L\right)\right\|_{\text {Lip }} \cdot\left\|a_L\right\|_{\text {Lip }} \cdot \\ & \left\|\left(\boldsymbol{h}_{L-1} \mapsto \boldsymbol{W}^L \boldsymbol{h}_{L-1}\right)\right\|_{\text {Lip }} \\ & \cdots\left\|a_1\right\|_{\text {Lip }} \cdot\left\|\left(\boldsymbol{h}_0 \mapsto \boldsymbol{W}^1 \boldsymbol{h}_0\right)\right\|_{\text {Lip }} \\ = & \prod\limits_{l=1}^{L+1}\left\|\left(\boldsymbol{h}_{l-1} \mapsto \boldsymbol{W}^l \boldsymbol{h}_{l-1}\right)\right\|_{\text {Lip }} \\ = & \prod\limits_{l=1}^{L+1} \sigma\left(\boldsymbol{W}^l\right) . \end{aligned} $

(6)

由此，将权重矩阵 W 的谱范数归一化，使其满足Lipschitz约束σ(W) =1。

$ \overline{\boldsymbol{W}}_{\mathrm{SN}}(\boldsymbol{W})=\frac{\boldsymbol{W}}{\sigma(\boldsymbol{W})} . $

(7)

2 实验结果与分析 2.1 实验准备

本文实验数据为中国科学院空天信息创新研究院提供的某地区无人机载SAR图像。图像数据分为2组，第1组空间分辨率为1 m，图像大小为20 480×4 096，图像中含有丰富的自然景观和地物目标，数据集共计47张。其中的低质量图像数据集由原始图像数据分别经32倍、48倍压缩后解压缩而得。

第2组图像分辨率为0.5 m，图像大小20 480× 8 192，数据集共60张，低质量图像由原始图像数据分别经48倍、64倍压缩后解压缩而得。

每张大图都被切割成224×224大小的图像，共计44万余张。设置测试集高质量与低质量图像8 524对，其余图像均为训练集。

实验采用4种基于GAN的图像重建算法对解压缩SAR图像进行重建。主要算法流程分为3步：1)预训练阶段，将数据集中的原始图像进行掩码处理后，输入到编码器和解码器中，对掩码的像素进行预测和重建，仅对掩码部分计算L₁损失。2)训练阶段，以预训练中的编码器和解码器作为本文的生成网络；将低质量图像经生成网络生成重建图像，再由判别网络对高质量图像和重建图像进行判断；以L₁损失、感知损失、生成对抗损失三者的加权和为目标优化函数。3)重建测试阶段，训练好网络模型后，将测试集中的解压缩图像输入网络，得到重建结果。

2.2 结果分析 2.2.1 网络性能评价 2.2.1.1 主观评价

实验结果选择具有代表性的2幅测试场景进行展示，如图 7、图 8所示。图 7是32倍解压缩图像(1 m分辨率)经3种基于GAN的经典重建算法SRGAN^[23]、ESRGAN^[24]、Real-ESRGAN^[25]得到的重建图像与本文算法重建图像的视觉效果对比。

	Download: JPG larger image
图 7 多个车辆目标 Fig. 7 Multiple vehicle targets

	Download: JPG larger image
图 8 建筑区域 Fig. 8 Dense interlocking buildings

图 7包含车辆目标，是SAR图像处理领域经常关注的小目标。由图 7(a)和7(b)可以看出，解压缩图像相比于原始未压缩图像存在细节模糊、纹理分辨不清的现象。针对红色框选区域内间隔相对紧密的车辆区域，ESRGAN和Real-ESRGAN方法对此类微小目标的重建图像出现了纹理结构畸变和粘连的现象。而本文方法在保留SAR图像特点的同时，对于车辆这类反射较强的高亮目标保持良好的成像效果，局部纹理更为清晰。

图 8为基于64倍(0.5 m分辨率)解压缩图像得到的重建图像，图像内容为建筑区域，含有丰富的纹理结构。64倍解压缩图像中的目标与场景的对比度大幅降低，图像模糊和失真明显，图像细节难以分辨。

SRGAN方法存在部分纹理细节缺失、边缘模糊等问题；ESRGAN的重建图像颗粒状明显，存在较为严重的伪影问题。本文方法的重建图像(图 8(f))较好地还原了建筑边界信息，层次感分明，比图 8(c)~8(e)所示重建图像的纹理细节更为清晰。

2.2.1.2 量化分析

采用以下量化指标对图像重建质量进行评价：1)国际通用的图像质量评价指标：峰值信噪比(peak signal to noise ratio，PSNR)和结构相似性(structural similarity，SSIM)；2)SAR图像评价指标：边缘保持指数(edge protect index，EPI)，该指标用来衡量算法保持边缘的能力，公式如下

$ \mathrm{EPI}=\frac{\sum\limits_{i=1}^M\left|y_{D_1}(i)-y_{D_2}(i)\right|}{\sum\limits_{i=1}^M\left|x_{D_1}(i)-x_{D_2}(i)\right|} $

(8)

其中：M为像素点数目；x_D₁(i)和x_D₂(i)表示低质量图像沿垂直或水平方向上的2个相邻像素；y_D₁(i)和y_D₂(i)代表重建图像与低质量图像对应位置的2个相邻像素。对于未被增强处理过的图像，EPI=1，如果EPI < 1，表示边界被模糊；反之则表明边界被增强。

为测试模型的稳定性和鲁棒性，基于相应数据集中所有的测试场景对PSNR、SSIM、EPI分别求取平均值，结果如表 1所示。相比于SRGAN、ESRGAN和Real-ESRGAN，本文方法的3种图像评价指标均为最优。

表 1 不同算法的性能指标对比 Table 1 Comparison of performance indicators of different algorithms

本文对4种重建算法随图像分辨率及压缩倍数的相关性能变化进行了对比分析，以PSNR作为衡量指标，结果如图 9所示。随着分辨率的提高，图像细节更加丰富，重建难度也会增大；而压缩比越大，解压缩图像的有效信息减少，使得重建图像难以达到原始水平，从而导致PSNR值的降低。

	Download: JPG larger image
图 9 不同分辨率和压缩倍数下图像重建算法性能对比 Fig. 9 Performance comparison of image reconstruction algorithms under different resolutions and compression ratios

本文方法和SRGAN方法在纹理细节丰富的0.5 m分辨率数据集上较ESRGAN和Real-ESRGAN表现更优。特别是在64倍解压缩图像数据集上的表现，本文方法的优势更为突出，PSNR较ESRGAN方法显著提升1.54 dB，与其他算法在48倍解压缩图像数据集下的表现几乎持平。

综合来看，本文算法在不同分辨率、不同压缩倍数的4种数据集上的视觉效果和性能指标都优于其他3种主流重建算法。

采用浮点运算次数(floating-point operations per second, FLOPS)、参数量以及每秒帧率(frames per second, FPS)3项指标对模型进行评价，结果如表 2所示。从运算速度来看，本文方法的图像推理速度最优，但参数量大于其他3种方法。

表 2 模型评价结果 Table 2 Model evaluation results

2.2.2 不同策略性能分析 2.2.2.1 预训练机制性能分析

预训练实验使用5 120张未经训练的高质量图像进行测试，选择具有代表性的3幅测试场景进行展示，如图 10所示。图 10(a)为建筑区域，图 10(b)为线目标，图 10(c)包含水陆边界。左侧图像是以比例为75 % 进行掩码后的图像，中间图像为经预训练网络重建后的图像，右侧图像为原始的高质量图像。

	Download: JPG larger image
图 10 预训练结果 Fig. 10 Pre-training results

从实验结果图 10(a)的重建图像可以看出，虽然高比例掩码遮盖了大部分像素区域，但重建图像的建筑边界依然可辨，能够基本还原建筑形态；虽然细节上还与原图有较大差距，但在语义上是合理的。图 10(b)中，由于掩码导致可见部分的线目标不连续，时有间断，而重建图像则能够正确预测大部分线条走势。图 10(c)中，左侧掩码图像中的地物边界亮线基本被完全覆盖，但在预测重建时，地物轮廓依然可被还原。由此可见，预训练机制可以迫使网络更有效、更深入地从语义层面感知理解图像，从可见像素块推断缺失像素，输出不同但语义合理的重建图像，这与网络从有限像素块中学习到的有效特征相关。

为验证预训练机制的有效性，以分辨率为1 m的48倍解压缩图像的测试数据集为实验样本，分别对使用预训练机制(使用经预训练后的模型权重作为生成网络参数)和不使用预训练机制(直接训练生成网络)的2种方法进行实验。以PSNR、SSIM和EPI为衡量指标，求取平均值，结果如表 3所示。可见，加入预训练机制后，重建图像的3项评价指标均有提升，可以证实本文提出的预训练机制能够有效提升算法性能。

表 3 预训练机制有效性验证结果 Table 3 Effectiveness verification results of pre-training mechanism

2.2.2.2 ConTransformer效果分析

使用LAM^[17]对3种类型的重建网络进行归因分析，结果如图 11所示。图 11(b)~11(d)中所展示的红色像素是有助于图 11(a)中红色框选区域重建的信息像素，在LAM结果下提供了扩散指数DI^[17]值，较大的DI表示涉及更多的像素。

	Download: JPG larger image
图 11 不同网络结构的LAM结果 Fig. 11 LAM results of different network structures

以Real-ESRGAN这类较为经典的密集连接残差网络为例，图 11(b)中红色像素集中在所选区域附近，图像重建主要依靠局部信息。ConTransformer 和 Vision Transformer相比于CNN虽然局部范围内的红色像素较少，但所利用像素的范围较广，遍布全图，能获得更多的全局视野。ConTransformer在底层加入高低频混合器，加强了局部边缘细节的信息提取能力，使高频和低频特征能够有效结合，如图 11(c)和11(d)所示，相较于直接使用Transformer，ConTransformer利用的局部信息范围更大。

2.2.2.3 谱归一化效果分析

在本文方法中，使用U-Net作为判别器的特征提取网络，并加入谱归一化抑制伪影和稳定GAN网络训练。由图 12(b)中强反射的山脉主体走向可以看到，不加入谱归一化会使得山体走势过度尖锐，在山地变化崎岖的重点地区难以反映真实地物特征，山峰被过于突出，山脉走向受到压缩和弯曲，并且这种局部失真会导致图像整体亮度分布不均衡。

	Download: JPG larger image
图 12 改进效果对比图 Fig. 12 Improved effect comparison chart

3 结论

本文针对SAR图像数据经高倍数压缩后出现的纹理细节模糊、目标不易分辨等问题，提出一种基于GAN架构的图像重建算法，对真实退化的SAR解压缩图像进行恢复重建。该算法提供了一种新思路，设计了卷积和自注意力机制并行结合的ConTransformer提取图像中的潜在特征；实现了Transformer和CNN的融合；并在算法流程中加入预训练掩码机制，有效提升了网络性能。基于1 m和0.5 m分辨率多种压缩比的SAR解压缩图像的实验结果表明，该方法所得到的SAR重建图像在兼具视觉效果的同时具有良好的性能指标。未来可针对Transformer如何更好地在SAR图像重建领域中发挥作用展开进一步研究。

参考文献

[1]	Wiley C A. Synthetic aperture radars[J]. IEEE Transactions on Aerospace and Electronic Systems, 1985, AES-21(3): 440-443. Doi:10.1109/TAES.1985.310578
[2]	潘志刚, 王小龙, 李志勇. SAR原始数据压缩的自适应比特分配BAQ算法[J]. 中国科学院大学学报, 2017, 34(1): 106-111. Doi:10.7523/j.issn.2095-6134.2017.01.014
[3]	潘志刚, 高鑫. 针对纹理图像压缩的改进SPIHT算法[J]. 中国科学院研究生院学报, 2010, 27(2): 222-227. Doi:10.7523/j.issn.2095-6134.2010.2.012
[4]	李萌, 刘畅. 基于特征复用的膨胀-残差网络的SAR图像超分辨重建[J]. 雷达学报, 2020, 9(2): 363-372. Doi:10.12000/JR19110
[5]	Gu F, Zhang H, Wang C, et al. SAR image super-resolution based on noise-free generative adversarial network[C]//IGARSS 2019-2019 IEEE International Geoscience and Remote Sensing Symposium. July 28-August 2, 2019, Yokohama, Japan. IEEE, 2019: 2575-2578. DOI: 10.1109/IGARSS.2019.8899202.
[6]	Cen X, Song X, Li Y C, et al. A deep learning-based super-resolution model for bistatic SAR image[C]//2021 International Conference on Electronics, Circuits and Information Engineering (ECIE). January 22-24, 2021, Zhengzhou, China. IEEE, 2021: 228-233. DOI: 10.1109/ECIE52353.2021.00056.
[7]	Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: transformers for image recognition at scale[EB/OL]. (2020-10-22)[2023-03-22]. https://arxiv.org/abs/2010.11929.
[8]	Sch nfeld E, Schiele B, Khoreva A. A U-net based discriminator for generative adversarial networks[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 13-19, 2020, Seattle, WA, USA. IEEE, 2020: 8204-8213. DOI: 10.1109/CVPR42600.2020.00823.
[9]	Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2014-09-04)[2023-03-22]. https://arxiv.org/abs/1409.1556.
[10]	He K M, Chen X L, Xie S N, et al. Masked autoencoders are scalable vision learners[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 18-24, 2022, New Orleans, LA, USA. IEEE, 2022: 15979-15988. DOI: 10.1109/CVPR52688.2022.01553.
[11]	Carion N, Massa F, Synnaeve G, et al. End-to-end object detection with transformers[C]//European Conference on Computer Vision. Cham: Springer, 2020: 213-229. DOI: 10.1007/978-3-030-58452-8_13.
[12]	Ramachandran P, Parmar N, Vaswani A, et al. Stand-alone self-attention in vision models[EB/OL]. (2019-06-13)[2023-03-22]. https://arxiv.org/abs/1906.05909.
[13]	Si C Y, Yu W H, Zhou P, et al. Inception transformer[EB/OL]. (2022-05-25)[2023-03-22]. https://arxiv.org/abs/2205.12956.
[14]	Xu W J, Xu Y F, Chang T, et al. Co-scale conv-attentional image transformers[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV). October 10-17, 2021, Montreal, QC, Canada. IEEE, 2022: 9961-9970. DOI: 10.1109/ICCV48922.2021.00983.
[15]	Xu Y F, Zhang Q M, Zhang J, et al. ViTAE: vision transformer advanced by exploring intrinsic inductive bias[EB/OL]. (2021-06-07)[2023-03-22]. https://arxiv.org/abs/2106.03348.
[16]	Chen B Y, Li P X, Li C M, et al. GLiT: neural architecture search for global and local image transformer[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV). October 10-17, 2021, Montreal, QC, Canada. IEEE, 2022: 12-21. DOI: 10.1109/ICCV48922.2021.00008.
[17]	Yang R, Ma H L, Wu J, et al. ScalableViT: rethinking the context-oriented generalization of vision transformer[C]//European Conference on Computer Vision. Cham: Springer, 2022: 480-496. DOI: 10.1007/978-3-031-20053-3_28.
[18]	Gu J J, Dong C. Interpreting super-resolution networks with local attribution maps[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 20-25, 2021, Nashville, TN, USA. IEEE, 2021: 9195-9204. DOI: 10.1109/CVPR46437.2021.00908.
[19]	Park N, Kim S. How do vision transformers work?[EB/OL]. (2022-02-14)[2023-03-22]. https://arxiv.org/abs/2202.06709.
[20]	Ronneberger O, Fischer P, Brox T. U-net: convolutional networks for biomedical image segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2015: 234-241. DOI: 10.1007/978-3-319-24574-4_28.
[21]	Lata K, Dave M, Nishanth K N. Image-to-image translation using generative adversarial network[C]//2019 3rd International conference on Electronics, Communication and Aerospace Technology (ICECA). June 12-14, 2019, Coimbatore, India. IEEE, 2019: 186-189. DOI: 10.1109/ICECA.2019.8822195.
[22]	Miyato T, Kataoka T, Koyama M, et al. Spectral normalization for generative adversarial networks[EB/OL]. (2018-02-16)[2023-03-22]. https://arxiv.org/abs/1802.05957.
[23]	Ledig C, Theis L, Huszár F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). July 21-26, 2017, Honolulu, HI, USA. IEEE, 2017: 105-114. DOI: 10.1109/CVPR.2017.19.
[24]	Wang X T, Yu K, Wu S X, et al. ESRGAN: enhanced super-resolution generative adversarial networks[C]//European Conference on Computer Vision. Cham: Springer, 2019: 63-79. DOI: 10.1007/978-3-030-11021-5_5.
[25]	Wang X T, Xie L B, Dong C, et al. Real-ESRGAN: training real-world blind super-resolution with pure synthetic data[C]//2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW). October 11-17, 2021, Montreal, BC, Canada. IEEE, 2021: 1905-1914. DOI: 10.1109/ICCVW54120.2021.00217.


中国科学院大学学报 2025, Vol. 42 Issue (5): 666-676	PDF