基于双时相特征的SAR生成光学影像方法

引用本文

翁永椿, 马勇, 陈甫, 等. 基于双时相特征的SAR生成光学影像方法[J]. 中国科学院大学学报, 2025, 42(6): 769-780.

Weng Y C，Ma Y，Chen F，et al. A method for SAR-to-optical image synthesis based on bi-temporal features[J]. Journal of University of Chinese Academy of Sciences, 2025, 42(6): 769-780.

基于双时相特征的SAR生成光学影像方法

翁永椿^1,2, 马勇¹, 陈甫¹, 尚二萍¹, 姚武韬¹, 仉淑艳¹, 杨进¹, 刘建波¹

1. 中国科学院空天信息创新研究院, 北京 100094;
2. 中国科学院大学, 北京 100049

2023年2月13日收稿; 2024年3月4日收修改稿

基金项目: 国家自然科学基金(42201063)、海南省重点研发计划(ZDYF2021SHFZ260)和海南自然科学青年基金(520QN295)资助

通信作者: 马勇, E-mail: mayong@aircas.ac.cn

摘要: 稳定连续的遥感光学影像时间序列应用价值巨大，但很多地区受云雨影响难以获取到这样的时序光学影像。利用合成孔径雷达(SAR)全天时、全天候成像能力，由SAR影像生成光学影像，能有效解决光学影像缺失问题，但目前复杂场景下的生成质量与简单场景相比差距显著。基于哨兵卫星影像构建不同场景的双时相数据集，改进条件对抗网络生成器，以提取和融合双时相SAR特征和辅助光学特征，同时采用一种策略来平衡SAR和光学特征权重。与其他方法相比，所提出的模型Fréchet inception距离(FID)和峰值信噪比(PSNR)指标最佳，复杂场景和简单场景下生成质量差距明显缩小。消融实验表明，所提出的模型与基准模型相比，FID下降46，PSNR提升6.6 dB，SSIM提升0.44。该方法有效提升了不同场景下光学影像的生成质量。

关键词: 可见光影像生成双时相数据集合成孔径雷达生成对抗网络

A method for SAR-to-optical image synthesis based on bi-temporal features

WENG Yongchun^1,2, MA Yong¹, CHEN Fu¹, SHANG Erping¹, YAO Wutao¹, ZHANG Shuyan¹, YANG Jin¹, LIU Jianbo¹

1. Aerospace Information Research Institute, Chinese Academy of Sciences, Beijing 100094, China;
2. University of Chinese Academy of Sciences, Beijing 100049, China

Abstract: The robust optical image time series are of great value in many applications of remote sensing. However, due to the effects of weather conditions like clouds and rain, it is very difficult to obtain such robust time series of optical images in many regions. Using the all-weather imaging capability of synthetic aperture radar (SAR) to generate optical images from SAR images is an effective solution to the missing data of optical images. But there is still a problem that the quality of generated images in complicated scenarios is much worse than that in simple scenarios. In this paper, we build bi-temporal datasets of different scenarios based on Sentinel imagery and propose an improved generator of conditional generation adversarial network. The encoder-decoder-based generator learns to extract and fuse the bi-temporal polarized SAR features and the additional optical features from the source time phase. In addition, a strategy to balance the weights of SAR and optical features is adopted. Comparison experiments show that our method is the best on FID and PSNR among all evaluated methods. The proposed method significantly reduces the gap in the quality of generated images between simple scenario and complicated scenario. The ablation study shows that our method outperforms the baseline model by 46 in FID, 6.6 dB in PSNR and 0.44 in SSIM. Our method efficiently improves the quality of generated images in different scenarios.

Keywords: optical image synthesis bi-temporal dataset SAR generative adversarial network

遥感技术的进步和发展，使遥感应用深入到众多领域，并且越来越迫切地需要连续的高分辨率光学遥感观测数据作为支撑。但受云雨影响，光学传感器常无法获取多云雾地区的地面信息，导致雨季数据缺失严重，难以实现农林物候的连续监测，增加卫星观测频率也难以解决该问题。一种解决思路是利用光学影像和其他遥感数据的互补性进行空谱融合，来修复和弥补缺失信息，但这种方法在连续多云雨地区也很难有效地恢复地表信息；随着合成孔径雷达(synthetic aperture radar, SAR)技术的发展，出现了融合SAR影像和光学影像来模拟光学影像的方法，该方法的优势在于，SAR影像有着不受云雨影响的优势，而光学影像具有丰富的光谱和纹理细节特征，但由于2种影像传感机制不同、特性差异巨大，传统融合方法一直很难较好地融合2种数据。因此，如何充分发挥SAR和光学影像的优势以修复和弥补光学影像缺失信息，是目前遥感图像融合应用的一个热点问题。

随着对抗学习的发展，生成对抗网络(generative adversarial network, GAN)被引入到遥感光学影像生成任务中，为结合光学影像和SAR影像的优势提供了新的思路^[1]。GAN能够将SAR影像转化为模拟的光学影像，从而有效解决光学遥感影像缺失的问题。

GAN最初由Isola等^[2]应用到从图像生成图像的任务中，该模型由一个生成器G和一个判别器D组成。G根据输入的条件生成目标域的图像，D试图将G生成的图像与真实的目标域图像进行区分，在G和D的对抗中，G的生成能力逐渐提高。之后人们提出了各种方法以提高模型的生成能力，其中一些方法被用于SAR生成模拟光学影像^[3-10]。为了稳定GAN的训练过程，Mao等^[11]提出最小二乘生成对抗网络(least squares GAN, LSGAN)；Arjovsky等^[12]提出了WGAN(Wasserstein GAN)。为解决高分辨率图像生成缺乏细节和逼真纹理的问题，Karras等^[13]提出了StyleGAN(style-based GAN)，使用扩展的隐变量来实现不同层次特征的解耦；Wang等^[14]提出使用一组生成器，每个生成器提取不同尺度的特征的多尺度生成方法。自Zhang等^[15]将自注意机制引入GAN之后，注意力机制和GAN的结合逐渐成为一个备受关注的研究分支。近年来，遥感学界一些学者开始将GAN及其改进模型应用到遥感影像数据修复和模拟中。Bermudez等^[3]和Grohnfeldt等^[4]使用对抗学习方法生成模拟可见光影像，恢复云覆盖造成的缺失信息；Ebel等^[5]将Cycle-GAN用于Sentinel-2可见光图像去云，降低对样本数据配准的要求，减少了因样本配准误差导致的图像虚构；Gao等^[6]在U-Net生成模拟光学影像的基础上，用GAN融合模拟光学图像、SAR和带云光学影像，并对输入GAN的模拟光学影像进行了对比度和亮度的修改，增强模型的鲁棒性；Zuo和Li^[7]提出在Pix2Pix模型的基础上，将相位一致性方向直方图的归一化相关系数加入到损失函数中，使局部细节的生成有所提高。

尽管近几年基于GAN的图像生成从理论到实践都有了长足的进步，但目前在可见光遥感影像生成方面，模型在复杂场景下的表现与简单场景下相比存在着非常明显的不足。比如在城郊、城市这些场景下，地物种类丰富，小尺度地物多，图像转换关系复杂，生成效果大不如农田、森林这类简单场景。图 1展示了使用Pix2Pix^[2]将SAR影像转换为可见光影像在不同场景下的结果，所用的可见光影像分辨率为10 m，在简单场景下，生成的图像和对应的真实图像全局上的吻合度不错，局部细节上也有令人满意的地方，但在复杂场景下，生成图像和真实图像的吻合度明显变差。为了降低复杂场景下的学习图像转换关系的难度，模型需要更加有效地提取和融合更多的特征，在这些特征的基础上进行学习。而已有的基于GAN的方法大都受限于单时相的模式，只是将单时相训练区域上得到的模型用于该时相的测试区域，未考虑到SAR影像数据具有时序稳定性，更没有双时相特征的提取和融合模块，这种模式对模型的特征提取和利用能力有较大的限制。所以本文提出一种提取双时相SAR和光学影像特征的生成器结构，基于所构建的双时相数据集，在不同场景下进行训练和测试，并通过对实验结果进行定性和定量的评价和对比，验证了所提出的模型在简单和复杂场景下都能提升图像生成的质量，而且还能够减小复杂场景和简单场景下生成质量的差距。

	Download: JPG larger image
图 1 Pix2Pix在简单场景和复杂场景下的表现 Fig. 1 Performance of Pix2Pix under simple and complicated scenarios

1 数据集

本研究基于Sentinel-1 SLC产品和Sentinel-2 L2A产品制作了2个双时相数据集，分别为一个简单的场景数据集和一个复杂的场景数据集。使用SNAP软件进行Sentinel-1 SAR和Sentinel-2可见光数据处理。为尽量降低侧视成像雷达具有的透视收缩、叠掩和阴影的影响，数据样本选择在平原地区进行收集，并使用精密星历轨道和数字高程模型进行轨道校正和地形校正；此外，SAR影像易受噪声的影响，所以需要对其用多视和Refined-Lee滤波来降噪；之后将后向散射系数σ₀分贝化；最后使用网格矢量对所有SAR影像进行裁剪，得到大小为256×256的样本。Sentinel-2 L2A大气底部反射率产品的处理比较简单，只需要分离RGB波段，然后将像元值代入下式即可得到范围为0~1的反射率

$ \rho_1=\frac{\mathrm{DN}_1-\mathrm{AO}_1}{\mathrm{QV}_1}, $

(1)

其中：ρ_l为一个波段的BOA反射率；DN_l为Sentinel-2 L2A产品该波段的像元值；AO_l和QV_l分别为L2A产品元数据中的2个参数：BOA_ADD_OFFSET_l和BOA_QUANTIFICATI ON_VALUE_l。最后，所有光学影像也用网格矢量裁剪成样本。

以Schmitt等^[16]提出的SEN1-2为代表的开源数据集没有对简单和复杂场景加以区别，而且没有成对的双时相影像，不适用于本研究的方法，而本研究构建的新数据集和其他数据集相比有2点不同：一是本研究所构建的数据集来自双时相SAR和光学影像对，所以训练样本包含来自2个时相的6个可见光波段和4个SAR波段；另一个不同在于本研究所用数据集区分简单场景和复杂场景，因为复杂场景包含大量小尺度地物，模型更加难以学习，所以区分简单和复杂场景能够对模型的生成能力进行更精细的评估。本研究使用基于分割的方法来评估场景的复杂程度，因为在相同的分割策略下，相同季节的影像如果分割出的小面积对象越多，则场景整体尺度就越小。本研究采用一种名为BASS^[17]的图像分割方法，在相同参数配置下对2个数据集和常用的SEN1-2数据集^[16]中同一季节的样本进行了分割。统计分割对象面积分布，如图 2所示。可见复杂场景数据集分割出的对象面积普遍较小，而简单场景产生的分割对象面积分布于较高的位置。相比之下，SEN1-2数据集中简单场景和复杂场景混杂，因此其分布出现了2个峰值。

	Download: JPG larger image
图 2 分割对象面积分布 Fig. 2 Area distribution of segmented objects

2 研究方法

常用的图像生成模型之所以在复杂场景下的表现较差，是因为复杂场景下各个类别的小尺度地物给模型学习带来了很大挑战。面对这一挑战，本研究从模型和数据2个方面考虑来改进条件生成对抗网络(conditional generative adversarial network, CGAN)。一方面，提出在生成器的编码器和解码器之间加入一个注意力模块，从双时相SAR特征中提取变化特征，并将其与光学特征和极化特征融合；另一方面，建立简单场景和复杂场景下的双时相数据集，在模型输入中加入双时相极化SAR影像和辅助的光学影像。这些技术在提高模型生成能力的同时也控制了模型的复杂度。模型的训练和推理过程如图 3所示。

	Download: JPG larger image
图 3 模型训练推理流程图 Fig. 3 Flow chart of training and inferring

2.1 双时相特征提取

从SAR影像生成光学影像面临着传感机制和数据分布上的巨大差异，因此一些工作尝试加入辅助的光谱波段来帮助模型学习^{[4-6, 9]}。本研究考虑引入另一个时相的可见光数据。由于在光谱特征上与生成目标更为相似，加入可见光波段的模型能够使模型更容易地生成可见光纹理。而输入的光学影像与目标时相的光学影像间存在一些不同，这些差异就是地物在2个时相间发生的变化，这种变化特征无法从输入的可见光数据中提取。所以本研究提出利用注意力机制从双时相SAR影像中提取时间相关性，并将其与可见光特征和极化特征融合。首先，使用常用的编码器-解码器构架作为生成器构架。编码器结构如图 4(b)所示，它以共享权重的方式分别提取极化SAR和辅助光学特征。然后在编码器-解码器架构中间加入一个注意力模块，如图 4(a)所示，该注意力模块将双时相SAR特征转换为注意力输入Q和K，并根据下式计算注意力图M

$ M=\operatorname{Softmax}\left(\frac{Q^{T} K}{\sqrt{C}}\right). $

(2)

	Download: JPG larger image
图 4 网络结构图 Fig. 4 Architecture of the networks

之后，参考SAGAN^[15]的做法，将光学特征乘以一个可训练的系数γ，再加到注意力输出中，如下式

$ O=\operatorname{Norm}(\gamma X+M V), $

(3)

其中，γ初始化为1，并通过卷积参数的初始化将辅助光学特征转换为一个接近于0的V。使网络先在近似于无注意力模块的情况下训练，再逐渐过渡到在有注意力模块的情况下训练。如果某个位置变化不大，意味着该位置的光学特征比较可靠，M上能推断出高度相关性，因此该位置的光学特征就会得到增强，反之光学特征就会被减弱。

最后，与空间注意力和通道注意力不同，目标时相的SAR特征需要与O相加得到融合特征，因为目标时相的SAR特征直接包含着目标时相的地物信息，需要被充分利用；之后融合特征进入解码器，恢复出目标时相的光学影像，解码器的结构如图 4(c)所示。

生成器和判别器的损失函数分别定义为下面2个公式，参考了LSGAN^[11]以使训练过程更加稳定

$ L_{\mathrm{GAN}}(G)=\min\limits_{G} \frac{1}{2} \mathbb{E}_{(s)}\left[(D(s, G(s)))^{2}\right], $

(4)

$ \begin{gather*} L_{\mathrm{GAN}}(D)=\min _{D} \frac{1}{2}\left(\mathbb{E}_{(s, x)}\left[(D(s, x)-1)^{2}\right]+\right. \\ \left.\mathbb{E}_{(s)}\left[(D(s, G(s))+1)^{2}\right]\right), \end{gather*} $

(5)

其中：x是真实的光学影像，s为生成条件，即x所对应的生成器输入。

再将感知损失^[18]添加到损失函数中，以训练符合人观感的结果。感知损失使用在ImageNet数据集上预训练的VGG19网络进行计算，最终生成器的损失函数为

$ \begin{align*} & L(G)=\min _{G}\left(\frac{1}{2} \mathbb{E}_{(s)}\left[(D(s, G(s)))^{2}\right]+\right. \\ & \left.\lambda \sum\limits_{i=1}^{N} \frac{1}{M_{i}}\left(\left\|F^{(i)}(x)-F^{(i)}(G(s))\right\|_{1}\right)\right), \end{align*} $

(6)

其中: F⁽ⁱ⁾代表预训练的VGG19网络的第i层，M_i为该层的节点数; λ控制感知损失的权重，其值可以参考Wang等^[14]的做法进行设置。

2.2 可见光特征与SAR特征的权重平衡

SAR和可见光数据的衡量方式不同导致了这2种数据动态范围的不同，即2种数据的最大值和最小值的差异。雷达的后向散射系数σ₀在-30~10 dB之间波动，Sentinel-2的L2A大气底部反射率数据，则由16位的非负整数值表示^[19]，在制作数据集时，被转换为范围0~1.0的浮点值。同为生成器的输入，这2种数据在动态范围上存在的差异对模型训练是比较大的误导。一方面，由于生成器最后的tanh层输出被限制在[-1.0, 1.0]内，因此需要进行规范化使可见光数据落在该区间，即对每个输入样本x，使用下式对可见光波段进行规范化

$ x_{\text {norm }}=\\ \min \left(\max \left(\frac{x-\mathbb{E}[x]}{\sqrt{\operatorname{Var}[x]+\epsilon}} \sigma_{t}, -2 \sigma_{t}\right), 2 \sigma_{t}\right)+m_{t}, $

(7)

其中：$\epsilon$是为防止出现0除而设置的一个接近于0的正数；m_t和σ_t分别表示x进行线性变换之后的目标均值和标准差，将m_t和σ_t分别设置为0和0.5便可使数据规范化到区间[-1.0, 1.0]。另一方面，SAR波段也需要规范化到一个合理的区间，由于光学输入与生成目标之间有着较高的相似性，如果将SAR波段规范化为与可见光波段相同的范围，则网络在训练前期将会容易陷入对辅助光学特征依赖较重的方向，对前后时相变化的敏感性就不够强。因此对SAR波段进行规范化时，本文采用了一种平衡策略，即设置m_t=0, σ_t=1，相当于赋予SAR波段较大的先验权重。

3 实验和结果分析

本研究分别在简单场景数据集和复杂场景数据集上进行了与其他方法的比较实验，之后又在复杂场景数据集上进行了消融实验，研究分析每个改进项的作用。在实验中，所有需要评估的模型都使用官方提供的开源代码，并经过相同轮次的训练。对于本文提出的模型，训练时判别器D和生成器G使用Adam优化器^[20]交替进行梯度下降，学习率设置为0.000 2，β₁和β₂分别设置为0.9和0.999，损失函数中感知损失的权重λ设置为10。

3.1 评价指标

以下3个指标被用于定量分析：

1) Fréchet inception距离(Fréchet inception distance, FID)：FID^[21]是对Iception Score^[22]的改进，其原理是用预训练的Inception-v3^[23]网络分别提取真实和生成图像的特征，计算均值和协方差的差异。生成的数据和真实数据分布上越相近，则提取的特征也越相近，其均值和协方差差异也越小，所以FID也就越小，FID最小值为0。

2) 峰值信噪比(peak signal-to-noise-ratio, PSNR)：PSNR^[24]是一种常用的逐像素距离度量，用于评价单幅生成图像与真实图像的相近程度。PSNR值越大表示生成的图像越接近真实图像。

3) 结构相似度指数(structural similarity index measure, SSIM)：SSIM也是单幅生成图像的质量评价指标，其值越大则生成的图像质量越好，最高为1.0。与PSNR相比，SSIM更接近人类感知，因为它考虑了特定大小窗口内像元的相关性^[25]，本研究的各项实验将窗口的大小设置为11×11。

3.2 模型结果分析

图 5展示了本文所提出的模型的一个生成结果。图中左上角展示了模型的输入波段，包括2个时相的双极化SAR波段和辅助的可见光波段(T₀光学)。源时相T₀为2021年4月，目标时相T₁为2022年5月。右上角为目标时相的真实可见光影像和本研究所提出模型的生成结果，数据大小为256×256，分辨率为10 m。影像为城市郊区场景，地物类型包括林地、耕地、草地、建筑、道路、裸土地等。其中值得关注的区域在图中用方框标出，并在其下方展示了放大的效果，方便查看细节。可以看出本文方法的结果与真实影像非常接近，但也难以还原出框标区域右侧的一个白色建筑，由于该新建的建筑较孤立且较小，容易被误判，3.4节中的比较实验也说明了该建筑是很难生成的，所有对比的方法都难以在这部分建筑上取得更好的效果。

	Download: JPG larger image
图 5 本文模型的生成效果 Fig. 5 Visual results of the proposed method

图 6展示了生成图像与真实图像像元值组成的坐标点的分布，从左至右分别是红、绿、蓝波段的结果，图中的红色直线为线性回归结果，生成图像与真实图像像元值相等的点构成斜率为1且过原点的橙色直线。可以看到，点的分布很靠近该直线，但也能发现在真实像元值大于0.10的时候，存在生成的像元值统计上偏低的情况，而当真实像元值比较小时，出现了生成的像元值统计上偏高的情况。这是数据分布所导致的，并非模型本身的问题。为了说明这一点，不妨假设真实的数据服从正态分布N(μ, σ²)，且有一个训练得很好的模型，它所生成的数据和真实的数据有着相同的正态分布N(μ, σ²)。生成的数据和真实的数据相关系数为ρ，ρ小于1，则由推理3.1可以得出，真实数据大于μ时生成的数据均值会偏低，而真实数据小于μ时生成的数据均值就会偏高。再通过对测试集进行统计发现RGB 3个波段数据的均值分别为0.084 3、0.094 1和0.066 8，这就是为什么3个波段在真实数据超过0.10时都出现偏低现象的原因。其实图 6中高值区域也有大量点落在了高估区，所以低估并不是一个普遍现象，只是总体上表现出的统计结果。总之，图 5和图 6分别从单个样本的角度和整体分布的角度反映出，使用本文方法生成的图像整体上很接近真实图像，并且在光谱保持和恢复方面也具备较高的精度。

	Download: JPG larger image
红线为线性回归结果，橙色线为理想情况下真实图像像元值与生成图像像元值相等的点所构成的直线。图 6 真实图像与生成图像像元值散点图 Fig. 6 Scatter plot of generated versus real image pixel values

推理3.1 证明当生成的数据X~N(μ, σ²)和真实的数据Y~N(μ, σ²)，且相关系数0<ρ < 1时，X的条件均值在Y=y>μ时小于y，在Y=y<μ时大于y。

根据条件可知，Y的概率密度分布函数为

$ f_{Y}(y)=\frac{1}{\sqrt{2 {\rm{\mathsf{π}}}} \sigma} \exp \left(-\frac{(y-\mu)^{2}}{2 \sigma^{2}}\right) \text {, } $

(8)

X和Y的联合概率密度分布为

$ \begin{gather*} f(x, y)=\frac{1}{2 {\rm{\mathsf{π}}} \sigma^{2} \sqrt{1-\rho^{2}}} \exp \left(-\frac{1}{2\left(1-\rho^{2}\right) \sigma^{2}}\left((x-\mu)^{2}-\right.\right. \\ \left.\left.2 \rho(x-\mu)(y-\mu)+(y-\mu)^{2}\right)\right) , \end{gather*} $

(9)

利用式(8)、式(9)可推导X的条件概率密度函数为

$ \begin{gather*} f_{X \mid Y}(x \mid Y=y)=\frac{f(x, y)}{f_{Y}(y)}= \\ \frac{1}{\sqrt{2 {\rm{\mathsf{π}}}} \sigma \sqrt{1-\rho^{2}}} \exp \left(-\frac{(x-(\mu+\rho y-\rho \mu))^{2}}{2\left(\sigma \sqrt{1-\rho^{2}}\right)^{2}}\right), \end{gather*} $

(10)

所以X的条件概率依然是正态分布，均值为

$ \mu_{X \mid Y}(y)=\rho(y-\mu)+\mu, $

(11)

因为考虑相关系数ρ的取值为(0, 1)，所以当y>μ时μ_X|Y(y)<y，当y<μ时，μ_X|Y(y)>y。

3.3 简单场景数据集的比较

在简单场景数据集上，本研究所提出的方法和Pix2Pix^[2]以及Pix2PixHD^[14]进行了定性和定量比较，3种模型的生成效果如图 7所示。其中每个样本的结果包括2行，第1行从左至右依次是辅助的可见光影像、目标时相的可见光影像、Pix2Pix模型结果、Pix2PixHD模型结果以及本研究模型的结果，第2行是针对第1行中框标区域放大的图像。从这3个样本的结果可以看出，总体来说3种方法都能够学习到由季节变化带来的大面积地块颜色变化，但在细节的生成上本文方法表现更好。由图 7(b)可以看出，本研究所提出的方法能够更好地恢复地块的颜色；另外，由图 7(d)和7(f)可以明显看出，本研究所提出的方法很好地还原了田间道路和地块边界等细节，而其他2种方法基本没有恢复这些细节信息。可以说，在简单场景下，本文方法生成了能与真实图像相媲美的结果。

	Download: JPG larger image
图 7 简单场景下各方法生成效果比较 Fig. 7 Visual comparison under simple scenarios

质量评估的定量指标也表明本文模型具有更好的表现，如表 1所示。从表中可以看出，Pix2PixHD在各项指标上明显优于Pix2Pix，而本文方法相比Pix2PixHD又具有明显优势，指标提升许多。

表 1 简单场景下各方法定量指标比较 Table 1 Comparison of quantitative metrics under simple scenarios

3.4 复杂场景数据集的比较

在复杂场景下，将所提出的模型与更多先进的监督式模型进行了比较，其中包括Pix2PixHD、PSP^[26]、Selection-GAN^[27]、CHAN^[28]和VQGAN Transformer^[29]。简单场景下的对比实验，总体上目视差别不算大，而在复杂场景下，不同方法的结果会产生很大差异。

图 8展示了不同方法所生成的可见光图像，2个时相之间发生变化的区域用矩形框出并在下方展示了放大的细节效果。可以看出，PSP生成的图像是几种方法中质量最差的，其次是VQGAN Transformer，生成的光学图像缺乏对局部变化的敏感性。另外3种方法在复杂场景下展现出不错的生成能力，但在光谱和细节学习能力上还有一些不足。例如，Pix2PixHD虽然全局上的表现仍然不错，但局部细节严重变形，地物边界误差较大；再如CHAN，生成的图像对比度过高，在变化区域普遍存在过亮的问题，导致一些细节缺失；Selection-GAN在所对比的几种方法中有着较强的竞争力，目视结果展示出一定的细节和变化区域还原能力，但它对变化区域的还原比较平滑，导致这些区域比较模糊，特别是对于新建建筑和新修道路这样的变化，其表现就比较差，纹理不够丰富、轮廓不够清晰。相比之下，本文提出的方法对细节和变化都有较好的还原，如图 8(d)所反映的植被退化、图 8(b)所反映的新建建筑和图 8(f)所反映的新建道路。

	Download: JPG larger image
图 8 复杂场景下各方法生成效果比较 Fig. 8 Visual comparison under complicated scenarios

本文也对各方法生成图像的质量做了定量评估，结果如表 2所示。值得注意的是，与Pix2PixHD相比，本文方法缩小了复杂场景和简单场景下生成质量的差距；此外，在FID和PSNR指标上都是最优的，在SSIM上，本文方法仅次于Selection-GAN，鉴于Selection-GAN在目视效果上的强势表现，该方法获得与本文方法相近指标也并不超出预期。Selection-GAN和本文方法都在GAN中使用了注意力机制，这反映出注意力机制在生成模型中可以发挥重要的作用。

表 2 复杂场景下各方法定量指标比较 Table 2 Comparison of quantitative metrics under complicated scenarios

3.5 消融实验

本实验将所有对生成器的改进去除得到一个基准模型(B)，将可见光波段也从基准模型的生成器输入中移除，只保留目标时相的VH极化作为生成器输入，该基准模型为本实验提供了模型改进前的生成能力参考。然后本实验依次向该基准模型中加入目标时相的双极化SAR输入(+dp)、双时相SAR输入(+bt)、辅助光学影像输入(+opt)、注意力模块(+at)和权重平衡策略(+wb)。在加入双时相SAR输入之后、注意力模块之前，编码器提取双时相SAR特征图会直接相加然后输入解码器中。通过在复杂场景数据集上测试每个模型，分析每个关键技术对提高模型在复杂场景下的生成能力所产生的作用，结果如表 3所示。总的来说，所有关键技术在一定程度上都对评价指标的改善有所帮助，而其中作用最显著的是在输入中增加辅助的可见光波段，使FID降低约25 %，PSNR提高约22 %，SSIM提高近2倍，其次是加入注意力模块，使FID降低7.93 %，PSNR提高16.40 %，SSIM提高14.00 %。

表 3 消融实验结果 Table 3 Results of ablation study

4 讨论和总结

本文提出一种改进的CGAN模型，以提高可见光图像的生成质量。在2个不同数据集上，本文将所提出的方法与其他方法进行了定性和定量比较。结果表明所提出的方法在简单场景和复杂场景下都具有较强的优势，生成的图像有着很好的目视效果，无论是细节还是变化都得到了较好的还原，在定量指标评价中优势更加明显。在简单场景下，各项指标都处于领先位置，在复杂场景下，FID和PSNR 2项指标排名第一，并且本文模型明显减小了复杂场景和简单场景下生成质量的差距：与Pix2PixHD相比，本文模型在复杂场景下的评价指标更接近简单场景下的评价指标。消融实验反映了该模型涉及的关键技术的作用，辅助的可见光波段输入和注意力模块大大提高了CGAN的性能，权重平衡策略也有助于性能提升。得益于注意力机制与GAN的结合，Selection-GAN和本文方法对变化的恢复能力都要强于其他没有使用注意力机制的模型；注意力机制在所对比的模型中的应用，也从另一侧面佐证了它的有效性。

受限于监督式方法对数据的要求，本文方法需要配对的样本数据，因此不适用于成对图像难以获取的情况。另外，获取数据的2个时相之间的间隔也一定程度上影响模型的学习。因为一般情况下，时间间隔越短，前后2个时相的相关性也越强。SAR和光学数据都是如此，模型学习难度也就相对较小，这个因素会如何影响模型的学习可以在未来的工作中继续探索。最后，将注意力机制与GAN的结合是一个仍需继续研究的方向，未来的工作可以考虑将多种注意力机制联合，深入发掘多种注意力模块在网络中的最佳搭配组合。

参考文献

[1]	Fuentes Reyes M, Auer S, Merkle N, et al. SAR-to-optical image translation based on conditional generative adversarial networks: optimization, opportunities and limits[J]. Remote Sensing, 2019, 11(17): 2067. Doi:10.3390/rs11172067
[2]	Isola P, Zhu J Y, Zhou T H, et al. Image-to-image translation with conditional adversarial networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). July 21-26, 2017, Honolulu, HI, USA. IEEE, 2017: 5967-5976. DOI: 10.1109/CVPR.2017.632.
[3]	Bermudez J D, Happ P N, Oliveira D A B, et al. SAR to optical image synthesis for cloud removal with generative adversarial networks[J]. ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2018. Doi:10.5194/isprs-annals-iv-1-5-2018
[4]	Grohnfeldt C, Schmitt M, Zhu X X. A conditional generative adversarial network to fuse SAR and multispectral optical data for cloud removal from Sentinel-2 images[C]//IGARSS 2018-2018 IEEE International Geoscience and Remote Sensing Symposium. July 22-27, 2018, Valencia, Spain. IEEE, 2018: 1726-1729. DOI: 10.1109/IGARSS.2018.8519215.
[5]	Ebel P, Schmitt M, Zhu X X. Cloud removal in unpaired Sentinel-2 imagery using cycle-consistent GAN and SAR-optical data fusion[C]//IGARSS 2020-2020 IEEE International Geoscience and Remote Sensing Symposium. September 26 - October 2, 2020, Waikoloa, HI, USA. IEEE, 2020: 2065-2068. DOI: 10.1109/IGARSS39084.2020.9324060.
[6]	Gao J H, Yuan Q Q, Li J E, et al. Cloud removal with fusion of high resolution optical and SAR images using generative adversarial networks[J]. Remote Sensing, 2020, 12(1): 191. Doi:10.3390/rs12010191
[7]	Zuo Z C, Li Y X. A SAR-to-optical image translation method based on PIX2PIX[C]//2021 IEEE International Geoscience and Remote Sensing Symposium IGARSS. July 11-16, 2021, Brussels, Belgium. IEEE, 2021: 3026-3029. DOI: 10.1109/IGARSS47720.2021.9555111.
[8]	王磊. 深度学习框架下的极化SAR影像信息表达与分类研究[D]. 武汉: 武汉大学, 2020. DOI: 10.27379/d.cnki.gwhdu.2020.000008.
[9]	Baier G, Deschemps A, Schmitt M, et al. Synthesizing optical and SAR imagery from land cover maps and auxiliary raster data[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1-12. Doi:10.1109/TGRS.2021.3068532
[10]	Yang X, Wang Z H, Zhao J Y, et al. FG-GAN: a fine-grained generative adversarial network for unsupervised SAR-to-optical image translation[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1-11. Doi:10.1109/TGRS.2022.3165371
[11]	Mao X D, Li Q, Xie H R, et al. Least squares generative adversarial networks[C]//2017 IEEE International Conference on Computer Vision (ICCV). October 22-29, 2017, Venice, Italy. IEEE, 2017: 2813-2821. DOI: 10.1109/ICCV.2017.304.
[12]	Arjovsky M, Chintala S, Bottou L. Wasserstein generative adversarial networks[C]// Proceedings of the 34th International Conference on Machine Learning (PMLR) - Volume 70. August 6 - 11, 2017, Sydney, NSW, Australia. New York: ACM, 2017: 214-223. DOI: 10.5555/3305381.3305404.
[13]	Karras T, Laine S, Aila T. A style-based generator architecture for generative adversarial networks[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA. IEEE, 2019: 4396-4405. DOI: 10.1109/CVPR.2019.00453.
[14]	Wang T C, Liu M Y, Zhu J Y, et al. High-resolution image synthesis and semantic manipulation with conditional GANs[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. June 18-23, 2018, Salt Lake City, UT, USA. IEEE, 2018: 8798-8807. DOI: 10.1109/CVPR.2018.00917.
[15]	Zhang H, Goodfellow I, Metaxas D, et al. Self-attention generative adversarial networks[C]// Proceedings of the 36th International Conference on Machine Learning (PMLR) - Volume 97. June 9 - 15, 2019, Long Beach, California, USA. 2019: 7354-7363. DOI: 10.48550/arXiv.1805.08318.
[16]	Schmitt M, Hughes L H, Zhu X X. The sen1-2 dataset for deep learning in sar-optical data fusion[J]. ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2018. Doi:10.5194/isprs-annals-iv-1-141-2018
[17]	Uziel R, Ronen M, Freifeld O. Bayesian adaptive superpixel segmentation[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). October 27 - November 2, 2019, Seoul, Korea (South). IEEE, 2020: 8469-8478. DOI: 10.1109/ICCV.2019.00856.
[18]	Johnson J, Alahi A, Li F F. Perceptual losses for real-time style transfer and super-resolution[C]//ECCV 2016: 14th European Conference on Computer Vision, October 11-14, 2016, Amsterdam, The Netherlands, Proceedings, Part Ⅱ 14. Springer International Publishing, 2016: 694-711. DOI: 10.1007/978-3-319-46475-6_43.
[19]	Louis, J. Sentinel 2 MSI—Level 2A Product Definition: Issue 4.4[EB/OL]. (2016-04-01)[2022-09-21]. https://sentinel.esa.int/documents/247904/1848117/Sentinel-2-Level-2A-Product-Definition-Document.pdf.
[20]	Kingma D P, Ba J. Adam: A method for stochastic optimization[EB/OL]. 2014. arXiv: 1412.6980. (2014-12-22)[2023-02-12] https://arxiv.org/abs/1412.6980.pdf.
[21]	Heusel M, Ramsauer H, Unterthiner T, et al. GANs trained by a two time-scale update rule converge to a local nash equilibrium[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. December 4-9, 2017, Long Beach, California, USA. New York: ACM, 2017: 6629-6640. DOI: 10.48550/arXiv.1706.08500.
[22]	Salimans T, Goodfellow I, Zaremba W, et al. Improved techniques for training GANs[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. December 5 - 10, 2016, Barcelona, Spain. New York: ACM, 2016: 2234-2242. DOI: 10.48550/arXiv.1606.03498.
[23]	Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception architecture for computer vision[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVRP). June 27-30, 2016, Las Vegas, NV, USA. IEEE, 2016: 2818-2826. DOI: 10.1109/CVPR.2016.308.
[24]	Wang Y J, Li J H, Lu Y, et al. Image quality evaluation based on image weighted separating block peak signal to noise ratio[C]//International Conference on Neural Networks and Signal Processing, 2003. Proceedings of the 2003. December 14-17, 2003, Nanjing, China. IEEE, 2004: 994-997. DOI: 10.1109/ICNNSP.2003.1281036.
[25]	Sara U, Akter M, Uddin M S. Image quality assessment through FSIM, SSIM, MSE and PSNR: a comparative study[J]. Journal of Computer and Communications, 2019, 7(3): 8-18. Doi:10.4236/jcc.2019.73002
[26]	Richardson E, Alaluf Y, Patashnik O, et al. Encoding in style: a StyleGAN encoder for image-to-image translation[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 20-25, 2021, Nashville, TN, USA. IEEE, 2021: 2287-2296. DOI: 10.1109/CVPR46437.2021.00232.
[27]	Tang H, Xu D, Sebe N, et al. Multi-channel attention selection gan with cascaded semantic guidance for cross-view image translation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 15-20, 2019, Long Beach, CA, USA. IEEE, 2019: 2417-2426. DOI: 10.1109/CVPR.2019.00252.
[28]	Gao F, Xu X X, Yu J, et al. Complementary, heterogeneous and adversarial networks for image-to-image translation[J]. IEEE Transactions on Image Processing, 2021, 30: 3487-3498. Doi:10.1109/TIP.2021.3061286
[29]	Esser P, Rombach R, Ommer B. Taming transformers for high-resolution image synthesis[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 20-25, 2021, Nashville, TN, USA. IEEE, 2021: 12868-12878. DOI: 10.1109/CVPR46437.2021.01268.


中国科学院大学学报 2025, Vol. 42 Issue (6): 769-780	PDF