基于混合双分支卷积神经网络和图卷积神经网络的全色锐化方法

王文卿; 张小乔; 何霁; 刘涵; 刘丁

doi:10.11992/tis.202401003

基于混合双分支卷积神经网络和图卷积神经网络的全色锐化方法

doi: 10.11992/tis.202401003

王文卿^{1, 2,},
张小乔^1,,
何霁¹,
刘涵^{1, 2, ,},
刘丁^{1, 2}

1.
西安理工大学自动化与信息工程学院, 陕西西安 710048;
2.
西安理工大学陕西省复杂系统控制与智能信息处理重点实验室, 陕西西安 710048

基金项目: 国家自然科学基金项目(62376214, 92270117)；陕西省自然科学基础研究计划项目(2023- JC-YB-533).

详细信息

作者简介:
王文卿，副教授，主要研究方向为遥感影像处理与解译、智能信息处理、机器学习。主持国家自然科学基金项目2项，发表学术论文30余篇。E-mail：wangwenqing@xaut.edu.cn;

张小乔，硕士研究生，主要研究方向为遥感图像融合、深度学习、图像处理。E-mail：2210320138@stu.xaut.edu.cn;

刘涵，教授，主要研究方向为复杂工业过程建模与控制、机器学习、人工智能、智能信息处理。主持国家自然科学基金项目3项，发表学术论文160余篇。E-mail: liuhan@xaut.edu.cn.

通讯作者:
刘涵. E-mail：liuhan@xaut.edu.cn.

中图分类号: TP751
出版历程
- 收稿日期: 2024-01-02
- 网络出版日期: 2025-04-11

Pansharpening based on hybrid dual-branch convolutional and graph convolutional neural networks

WANG Wenqing^{1, 2,},
ZHANG Xiaoqiao^1,,
HE Ji¹,
LIU Han^{1, 2, ,},
LIU Ding^{1, 2}

1.
School of Automation and Information Engineering, Xi’an University of Technology, Xi’an 710048, China;
2.
Shaanxi Key Laboratory of Complex System Control and Intelligent Information Processing, Xi’an University of Technology, Xi’an 710048, China

摘要

摘要: 多光谱图像全色锐化是遥感影像处理与解译领域的热点问题。相较于传统全色锐化方法，基于深度学习的全色锐化方法聚焦于图像深层次特征的提取，大幅提升了融合图像的质量。本文提出一种基于混合双分支卷积神经网络和图卷积神经网络的全色锐化方法，旨在同时挖掘图像的光谱、空间与非几何结构信息，以提升融合图像空间分辨率和光谱分辨率。本方法建立在多分辨率分析融合框架的基础上，利用深度神经网络构建了特征提取、特征融合和图像重构模块。混合双分支网络模块是由2D和3D卷积神经网络构建，其中，2D卷积神经网络负责挖掘多光谱图像与全色图像的空间特征，3D卷积神经网络负责挖掘图像的光谱特征。引入了图卷积神经网络以捕捉图像图结构中节点的空间关系，从而整合非局部信息。将多光谱图像与全色图像的空间、光谱和非几何特征通过特征融合模块进行融合。将融合特征输入图像重构网络重建高质量多光谱图像。本文算法在GeoEye-1和IKONOS遥感数据上进行了实验验证，实验结果表明：与其他方法相比，本文算法在主观视觉和客观评价指标上均表现出优秀性能。
- 图像融合 /
- 遥感 /
- 图像处理 /
- 深度学习 /
- 卷积神经网络 /
- 机器学习 /
- 特征提取 /
- 图像重构
Abstract: The pansharpening of multispectral images represents a trending research topic in remote sensing image processing and interpretation. Moreover, compared with traditional pansharpening methods, deep learning-based pansharpening methods mainly extract deep features, thereby greatly improving the quality of fused images. Here, a method based on hybrid dual-branch convolutional neural network (CNN) and graph convolutional neural network (GCNN) is proposed to simultaneously extract spectral information, spatial information, and non-geometric structural information and improve the spatial and spectral resolutions of fused images. This hybrid method comprises the construction of a multi-resolution analysis fusion framework, followed by the construction of a feature extraction module, a feature fusion module, and an image reconstruction module based on deep neural networks. First, the hybrid dual-branch network module was constructed using 2D and 3D CNNs that focus on extracting spatial and spectral features, respectively. Second, GCNN was introduced to capture the spatial relationships of the nodes in the graph structure of the image and integrate non-local information. Afterward, the spatial, spectral, and non-geometric features extracted from multispectral and panchromatic images were fused by the feature fusion module. Finally, the fused features were input into the image reconstruction network to reconstruct the high-quality multispectral images. The proposed method was experimentally validated using GeoEye-1 and IKONOS remote sensing data. Compared with other methods, the experimental results obtained by the proposed method reveal its excellent performance in subjective and objective vision evaluations.
- image fusion /
- remote sensing /
- image processing /
- deep learning /
- convolutional neural network /
- machine learning /
- feature extraction /
- image reconstruction

HTML全文

随着IKONOS、GeoEye-1、高分五号等各类遥感卫星的成功发射，遥感影像数据呈现爆发式增长，在国民经济和国防建设等领域的作用日益凸显。卫星传感器自身成像机制的局限，导致其无法使同一幅遥感图像兼具高空间分辨率和高光谱分辨率^[1]。然而，各类遥感影像处理与解译任务，如目标检测^[2]、变化监测^[3]、地物分类^[4]等，对高空间分辨率多光谱(high resolution multispectral, HRMS)图像具有迫切需求。因此，全色锐化技术应运而生。该技术是将具有高空间分辨率的全色(Panchromatic, PAN)图像和低空间分辨率的多光谱(low resolution multispectral，LRMS)图像融合，生成兼具高空间分辨率和高光谱分辨率的图像，即HRMS图像^[5]。

随着信息处理技术的不断发展，诸多全色锐化方法被提出。传统的全色锐化方法主要分为3类：分量替换、多分辨率分析和变分优化^[6-7]。分量替换方法的核心思想是将LRMS图像投影到其他特征空间，并利用直方图匹配后的PAN图像替换其第一主分量，然后通过逆变换得到融合图像。其主要代表方法是强度−色调−饱和度^[8]和主成分分析^[9]。虽然分量替换方法能保持融合图像的空间分辨率，但LRMS和PAN图像之间的局部差异会导致融合图像的光谱失真。多分辨率分析方法采用小波变换^[10]、轮廓波变换等多分辨率技术，将从PAN图像提取的空间信息注入LRMS图像。与分量替换方法相比，该类方法能更好地保留光谱信息，但会产生局部区域的空间失真。变分优化方法将融合过程视为图像恢复问题，利用先验正则化约束来构造变分融合能量函数，通过最小化能量函数来重建融合图像。常见的变分优化方法有低秩先验^[11]、稀疏先验^[12]和拉普拉斯先验^[13]。

近年来，深度学习方法因其突出的数据处理和计算能力在全色锐化领域广受青睐。基于深度学习的全色锐化方法分为两类：基于卷积神经网络(convolutional neural network，CNN)和基于生成对抗网络(generative adversarial networks, GAN)的方法。文献[14]创造性地将CNN应用于全色锐化领域。该方法首先对上采样LRMS图像和PAN图像进行拼接，再将拼接后的特征输入三层网络进行融合。文献[15]提出了一种基于双流分支网络(two-stream fusion network，TFNet)的方法，其使用两个子网络分别对LRMS和PAN图像进行特征提取，随后经过特征融合与图像重建网络得到融合图像。此外，文献[16]提出了一种用于全色锐化的深度网络PanNet。该网络在高通滤波域训练网络参数，将上采样多光谱图像添加到 CNN 的输出，从而将光谱信息直接传递至重建图像。基于GAN的全色锐化方法需要将PAN和LRMS作为生成器的输入，再将其映射到所需的HRMS图像，同时利用鉴别器实现对抗训练生成HRMS图像。文献[17]提出了一种PSGAN(GAN for pansharpening )方法，该方法在GAN中添加了双流输入，通过堆叠输入和注意力机制，有效生成高质量的HRMS图像。

3D CNN是在2D CNN基础上衍生而来，其考虑多张图像的关联信息或视频的时序信息，引入了新的维度信息，能够提取3个维度的联合特征。在遥感图像领域，3D CNN 被广泛应用到多光谱/高光谱图像分类^[18-19]。高光谱图像数据的光谱信息在分类中起到重要作用。3D CNN通过利用波段间的相关特性，能够挖掘光谱波段的联合空谱特征，从而提升分类性能。受此启发，本文利用3D CNN 来提取图像的光谱特征信息。

近年来，图卷积神经网络(graph convolutional neural network，GCNN)^[20]在诸多领域也颇受关注。GCNN的现有应用大多聚焦于图形数据，例如社交网络、物理系统和知识图^[21]。其主要优点是能够充分表达信息之间的传播和数据的交互。文献[22]提出了GCResNet，该网络将GCNN应用到图像去模糊领域，使性能得到显著提升。文献[23]提出了GCPNet，该网络将知识蒸馏与GCNN相结合，设计了用于LRMS和PAN融合的光谱图卷积神经网络模块和空谱图卷积神经网络模块，取得了较好的融合结果。这两个模块分别捕捉了全色图像和多光谱图像的光谱特征和空间信息，从而得到较好的融合结果，展现了GCNN在提取非局部结构信息方面的优势。

考虑到2D CNN、3D CNN和GCNN能够挖掘遥感图像不同层次的结构特征，本文提出了一种基于混合双分支卷积神经网络和图卷积神经网络的全色锐化方法，通过利用2D CNN、3D CNN和GCNN挖掘LRMS图像与PAN图像的空间、光谱与非局部结构特征。本文主要贡献如下：

1)以深度神经网络为基础，构建了特征提取、特征融合和图像重构3个网络模块，增强了融合框架的可解释性。

2)通过结合2D CNN和3D CNN，构建了混合双分支特征提取网络，分别从多光谱图像与全色图像中提取出空间信息和光谱特征。

3)引入了GCNN，有效地捕捉了图像非局部空间关系，为融合图像重建提供了更丰富的特征。

1. 本文算法

1.1 模型整体框架

本文方法的网络框架如图1所示。

图 1 本文算法框架

Fig. 1 Framework of the proposed method

下载: 全尺寸图片

图1该网络主要包括3个阶段：特征提取阶段、特征融合阶段与图像重构阶段。其中，特征提取和特征融合充当编码器，从输入PAN和LRMS图像中提取和编码特征；图像重构阶段要对融合后的特征进行解码，重建出所需的HRMS图像。具体实现细节描述如下：

首先，将LRMS图像上采样至与PAN图像相同尺寸，并将PAN与上采样的LRMS图像的每一个波段进行直方图匹配。然后，将直方图匹配后的PAN图像在通道方向进行拼接，并定义为$ {{\boldsymbol{P}}_{\mathrm{H}}} $。最后，以上采样的LRMS图像和直方图匹配后的PAN图像作为网络输入。

特征提取网络，采用两个网络模块分别对上采样的LRMS图像和直方图匹配后的PAN图像进行提取特征。第1个网络模块为混合双分支卷积神经网络。在该网络中，2D CNN由两个$ 3 \times 3 $的卷积核和一个$ 2 \times 2 $的卷积核构成，旨在从两幅图像中提取出空间特征。3D CNN由两个$ 3 \times 3 \times 3 $的卷积核和一个$ 1 \times 2 \times 2 $的卷积核构成，旨在提取两幅图像的光谱信息。第2个网络模块为GCNN模块。该模块利用了GCNN在捕捉节点中丰富的上下文空间关系和整合非局部信息方面的能力，以提取多光谱图像和全色图像中的非结构化特征。最后，将两个不同源图像的特征拼接，送入特征融合网络。

在特征融合网络中，将LRMS和PAN两幅图像由特征提取网络的混合双分支卷积神经网络模块提取出的特征进行拼接，输入特征融合网络的混合双分支卷积神经网络模块。同时，将两幅图像由特征提取网络的图卷积神经网络模块提取出的特征进行拼接，输入特征融合网络中的图卷积神经网络模块。然后，将特征融合网络输出的两个特征进行整合拼接，以获取最终融合特征图，作为图像重构网络的输入。图像重构网络如图2(c)所示。考虑到随着网络层数的增加，卷积后获取的高级特征会失去原始图像的纹理细节，因此在图像重构网络中使用跳跃连接，将包含图像原始细节纹理的低级特征与高级特征连接，以弥补特征融合过程中的原始细节丢失。

图 2 网络模块结构示意

Fig. 2 Schematic diagram of network module structure

下载: 全尺寸图片

1.2 混合双分支卷积神经网络

本文算法提出的混合双分支卷积神经网络模块具体结构如图2(a)所示，由2D CNN和3D CNN网络构成。其中，2D CNN专注于提取LRMS和PAN图像中的空间信息，而3D CNN主要用于提取图像中的光谱信息。3D CNN具有直接处理多通道数据的能力，表明其可以利用跨光谱通道的卷积操作来捕获不同波段之间的相关性和特征。3D CNN通过在不同光谱维度上进行卷积操作，同时考虑来自多个光谱波段的信息，从而更全面地捕获图像中的光谱特征。该模块应用于特征提取和特征融合两个阶段，在特征提取阶段，其主要作用是分别从LRMS和PAN图像中挖掘光谱特征与空间信息，并将提取的特征拼接后输入特征融合网络进行进一步融合。模块中的2D CNN和3D CNN均由3个卷积层构成，其中2D CNN第l层的输出特征图可以表示为

$$ \left\{ \begin{gathered} {\boldsymbol{F}}_{{{\mathrm{P}}_{2{\mathrm{D}}}}}^{(l)} = f_{2{\mathrm{D}}}^{(l)}({{\boldsymbol{P}}_{\mathrm{H}}}) \\ {\boldsymbol{F}}_{{{\mathrm{M}}_{2{\mathrm{D}}}}}^{(l)} = f_{2{\mathrm{D}}}^{(l)}(\tilde {\boldsymbol{M}}) \\ \end{gathered} \right. $$

(1)

式中：$ {{\boldsymbol{P}}_{\mathrm{H}}} $为PAN图像，$ \tilde {\boldsymbol{M}} $为上采样的LRMS图像。$ f_{2{\mathrm{D}}}^{(l)}( \cdot ) $为2D CNN第l层，$ {\boldsymbol{F}}_{{{\mathrm{P}}_{2{\mathrm{D}}}}}^{(l)} $为PAN图像经过l层2D CNN后的特征，$ {\boldsymbol{F}}_{{{\mathrm{M}}_{2{\mathrm{D}}}}}^{(l)} $为LRMS图像经过$ l $层2D CNN后的特征。3D CNN第$ l $层的输出特征图可以表示为

$$ \left\{ \begin{gathered} {\boldsymbol{F}}_{{{\mathrm{P}}_{3{\mathrm{D}}}}}^{(l)} = f_{3{\mathrm{D}}}^{(l)}({{\boldsymbol{P}}_{\mathrm{H}}}) \\ {\boldsymbol{F}}_{{{\mathrm{M}}_{3{\mathrm{D}}}}}^{(l)} = f_{3{\mathrm{D}}}^{(l)}(\tilde {\boldsymbol{M}}) \\ \end{gathered} \right. $$

(2)

式中：$ f_{3{\mathrm{D}}}^{(l)}( \cdot ) $为3D CNN的第$ l $层，$ {\boldsymbol{F}}_{{{\mathrm{P}}_{3{\mathrm{D}}}}}^{(l)} $为PAN图像经过$ l $层3D CNN后的特征，$ {\boldsymbol{F}}_{{{\mathrm{M}}_{3{\mathrm{D}}}}}^{(l)} $表示PAN图像经过$ l $层3D CNN后的特征。LRMS和PAN图像经过第1个混合双分支卷积神经网络模块后的特征图记为$ {{\boldsymbol{F}}_{\mathrm{P}}} $和$ {{\boldsymbol{F}}_{\mathrm{M}}} $，经过三层卷积后，则有

$$ \left\{ \begin{gathered} {{\boldsymbol{F}}_{\mathrm{P}}} = {\mathrm{ConCat}}(f_{2{\mathrm{D}}}^{(3)}({{\boldsymbol{P}}_{\mathrm{H}}}),f_{3{\mathrm{D}}}^{(3)}({{\boldsymbol{P}}_{\mathrm{H}}})) \\ {{\boldsymbol{F}}_{\mathrm{M}}} = {\mathrm{ConCat}}(f_{2{\mathrm{D}}}^{(3)}(\tilde {\boldsymbol{M}}),f_{3{\mathrm{D}}}^{(3)}(\tilde {\boldsymbol{M}})) \\ \end{gathered} \right. $$

(3)

式中$ {\mathrm{ConCat}} $为将特征在通道方向上拼接。

1.3 图卷积神经网络

图卷积神经网络作为一种独特的神经网络结构，与常见的卷积神经网络存在显著差异。它通过图卷积的方式，有效地从图数据中提取关键特征，进而实现节点分类、图分类以及边预测等任务。图卷积可以定义为简单形式^[20] ：

$$ {\boldsymbol{Z}} = \hat {\boldsymbol{A}}{\boldsymbol{F}}{\boldsymbol{\varTheta}} $$

(4)

式中：$ {\boldsymbol{Z}} $是卷积信号矩阵，$ \hat {\boldsymbol{A}} $是邻接矩阵，$ {\boldsymbol{\varTheta}} $是滤波器参数矩阵。受到文献[23-24]的启发，全局网络也可以近似地看作图卷积神经网络。全局网络的结构如图3所示：输入特征先分别经过$ \alpha ( \cdot ) $、$ \beta ( \cdot ) $和$ \gamma ( \cdot ) $3个$ 1 \times 1 $的卷积核，通过对图像中所有位置的像素进行加权平均，从而捕捉图像中远距离的关系；再通过重塑操作对输入张量的维度重新排列或重新组合，以计算全局范围内像素间的关联性。

图 3 图卷积神经网络结构

Fig. 3 Graph convolutional neural network structure

下载: 全尺寸图片

重塑后的特征由输入特征$ {{\boldsymbol{F}}_{\rm{in}}} \in {{\bf{R}}^{N \times W \times H}} $变成$ {{\boldsymbol{F}}_\alpha } \in {{\bf{R}}^{WH \times (N/2)}} $、$ {{\boldsymbol{F}}_\beta } \in {{\bf{R}}^{(N/2) \times WH}} $和$ {{\boldsymbol{F}}_\gamma } \in {{\bf{R}}^{WH \times (N/2)}} $，其中$ {{\boldsymbol{F}}_\alpha } $、$ {{\boldsymbol{F}}_\beta } $和$ {{\boldsymbol{F}}_\gamma } $是输入特征经过卷积层后再重塑的特征。$ {{\boldsymbol{F}}_\alpha } $与$ {{\boldsymbol{F}}_\beta } $做乘法运算，实现通道间的交互和融合。通过元素级的乘法，可以实现两个特征图之间的像素级别交互，从而加强特征的表示。随后，经过$ {\mathrm{Soft}}{\mathrm{max}} $激活后，再与$ {{\boldsymbol{F}}_\gamma } $相乘，进行进一步的通道交互。交互后的特征图像再经过两个$ 1 \times 1 $的卷积层和一个BN(batch normalization)层之后，通过重塑将特征输出，记为$ {{\boldsymbol{F}}_{\rm{out}}} $。此时$ {{\boldsymbol{F}}_{\rm{out}}} \in {{\bf{R}}^{N \times W \times H}} $与原输入$ {{\boldsymbol{F}}_{\rm{in}}} $大小一致。上述过程可表示为

$$ {{\boldsymbol{F}}_{\rm{out}}} = \alpha ({{\boldsymbol{F}}_{\rm{in}}}){{\boldsymbol{\beta}} ^{\mathrm{T}}}({{\boldsymbol{F}}_{\rm{in}}})\gamma ({{\boldsymbol{F}}_{\rm{in}}}){\boldsymbol{\varTheta}} $$

(5)

将$ \alpha ({{\boldsymbol{F}}_{\rm{in}}}){{\boldsymbol{\beta}} ^{\mathrm{T}}}({{\boldsymbol{F}}_{\rm{in}}}) $视作邻接矩阵$ \hat {\boldsymbol{A}} $，则上文描述的运算机理可近似地看作图卷积过程。

1.4 损失函数

根据文献[25-26]中提出的合成协议和一致性协议，本文认为融合后的HRMS图像的光谱应尽可能与LRMS图像保持一致。本文将HRMS和输入LRMS之差的$ {L_1} $范数作为光谱损失函数$ {L_{{\mathrm{Spectral}}}} $，其定义为

$$ {L_{{\mathrm{Spectral}}}} = {\left\| {\hat {\boldsymbol{M}} - \tilde {\boldsymbol{M}}} \right\|_1} $$

(6)

其中$ \hat {\boldsymbol{M}} $表示HRMS图像。

为保持空间细节尽可能与原始PAN图像$ \boldsymbol{P} $一致，本文用HRMS图像和PAN图像之差的$ {L_1} $范数作为空谱损失函数$ {L_{{\mathrm{Spatial}}}} $，其定义为

$$ {L_{{\mathrm{Spatial}}}} = \left\| {\hat {\boldsymbol{M}} - {\boldsymbol{P}}} \right\|_1^{} $$

(7)

除了光谱约束和空谱约束，本文还考虑到了图像的边缘细节纹理，用HRMS和PAN梯度之差的$ {L_1} $范数来约束，其定义为

$$ {L_{{\mathrm{grad}}}} = \left\| {\nabla \hat {{{\boldsymbol{M}}}} - \nabla {\boldsymbol{P}}} \right\|_1^{} $$

(8)

式中$ \nabla \hat {\boldsymbol{M}} $和$ \nabla {\boldsymbol{P}} $分别表示HRMS和PAN图像的梯度。本文设计的损失函数：

$$ L = \mu {L_{{\mathrm{Spectral}}}} + \nu {L_{{\mathrm{Spatial}}}} + {L_{{\mathrm{grad}}}} $$

(9)

式中$ \mu $和$ \nu $分别是光谱损失和空谱损失的权重。第2章的消融实验结果显示，当$ \mu =0.1,\nu =1 $时，模型效果达到最好。

2. 实验结果与分析

2.1 数据集

为评估所提模型的性能，本文选择来源于IKONOS和GeoEye-1两个卫星传感器的数据集对模型进行测试。其中LRMS图像包括红、绿、蓝和近红外4个波段，PAN图像仅具有单个波段。两类卫星图像的辐射分辨率均为11 bits。两类卫星的主要特性如表1所示。LRMS图像大小为$ 200 \times 200 $。PAN图像的大小为$ 800 \times 800 $。图像数据被随机分配为训练集和测试集，分配比例为9∶1。在训练过程中，训练集裁成尺寸为$ 8 \times 8 $和$ 32 \times 32 $大小的块，进而增加训练样本的数量。具体划分情况见表2。

表 1 两类遥感卫星特性

Table 1 Characteristics of two remote sensing satellites

卫星	光谱范围/nm					空间分辨率/m
卫星	蓝	绿	红	近红外	PAN	PAN	LRMS
IKONOS	450～530	520～610	640～720	760～860	450～900	1.0	4
GeoEye-1	450～510	510～580	655～690	780～920	450～900	0.5	2

表 2 数据集划分

Table 2 Division of the dataset

卫星	源图像数量/组	数据类型	组数	裁剪后的组数
IKONOS	240×(200×200,800×800)	训练集	216	13824×(8×8,32×32)
IKONOS	240×(200×200,800×800)	测试集	24	24×(50×50,200×200)
GeoEye1	250×(200×200,800×800)	训练集	225	14400×(8×8,32×32)
GeoEye1	250×(200×200,800×800)	测试集	25	25×(50×50,200×200)

2.2 实验环境

本文实验在Python 3.8环境下使用PyTorch框架进行训练和测试。硬件实验平台GPU为24 GB RTX 3090。最大迭代次数设置为6000次，批大小设置为256。初始学习率设置为0.001，并每隔2000次迭代衰减50％。空间损失项和光谱损失项的权重系数分别设置为0.1和1。在IKONOS和GeoEye-1数据集上训练时长约为2 h。

2.3 评价指标

为评估所提方法的优越性，本文选取了6种具有代表性的评价指标，分别为：光谱角映射(spectral angle mapper，SAM)、合成无量纲全局相对误差(erreur relative globale adimensionnelle synthèse，ERGAS)、相对平均光谱误差(relative average spectral error，RASE)、空间相关系数(spatial correlation coefficient，SCC)、通用图像质量指标Q(universal image quality)、结构相似性(structural similarity，SSIM)^[23]指标。

2.4 实验结果与分析

本文选取6种算法作为对比，分别是4种传统方法和2种深度学习方法。传统的对比算法包括MTF-GLP(generalized Laplacian pyramid with an MTF-matched filter)^[27]、GS2_GLP(Gram-Schmidt mode 2 algorithm with generalized Laplacian pyramid)^[28]、BDSD-PC(robust band dependent spatial detail with physical constraints)^[29]、AWLP_H(additive wavelet luminance proportional with haze correction)^[30]。基于CNN的方法包括TFNet^[15]和PanNet^[16]。

图4给出了GeoEye-1数据测试图像在不同算法下的融合结果。从图中可以看出，GS2_GLP产生了一定的光谱失真，主要体现在图像下方的植被区域。BDSD-PC方法的融合图像产生了严重的光谱失真，尤其在水域和植被区域，且植被区域出现了过度饱和。AWLP-H及MTF-GLP方法的融合图像相比于前两种方法有更好的光谱质量，但存在一定程度的伪影，如绿框所标区域。相比于传统算法，TFNet和PanNet方法的融合图像在光谱和空间上都更接近于参考图像，但依然存在一些光谱和空间失真。图4(h)和(i)正中间上方水域和陆地的交接处存在少许空间细节失真。表3给出了24幅测试图像在不同融合方法下的平均客观评价指标。从表中可以看出，传统方法的评价指标数值均低于深度学习方法。本文算法在SAM、RASE、SCC和SSIM 4个指标上具有最佳数值结果，而在其他2个指标具有次最佳数值结果。其中，RASE指标较其他方法降低了0.44。

图 4 GeoEye-1数据集上7种融合方法的融合结果

Fig. 4 Fusion results of seven fusion methods on the GeoEye-1 dataset

下载: 全尺寸图片

表 3 GeoEye-1数据集上7种融合方法的实验结果评价指标

Table 3 Evaluation indexes for experimental results of seven fusion methods on the GeoEye-1 dataset

方法	SAM↓	ERGAS↓	RASE↓	SCC↑	Q↑	SSIM↑
GS2_GLP	3.2744	2.8539	13.3318	0.8168	0.8206	0.8929
BDSD-PC	3.0881	2.5465	11.8565	0.8794	0.8601	0.9222
AWLP-H	2.4347	2.3470	10.8151	0.9124	0.8789	0.9427
MTF-GLP	2.9326	2.7003	12.2147	0.8766	0.8431	0.9186
TFNet	1.6539	1.6880	7.6106	0.9499	0.9137	0.9633
PanNet	1.6587	1.7261	7.7400	0.9468	0.9070	0.9621
本文方法	1.6339	1.6998	7.1722	0.9571	0.9083	0.9655
注：最佳数值用黑体标出。

IKONOS数据集的融合结果如图5所示，其中绿框所标区域能够更好地展示结果差异。GS2_GLP方法的融合图像产生了较为严重的光谱失真，红色建筑物区域尤为明显。同时部分边缘和纹理信息很模糊，表明融合图像存在空间失真。BDSD-PC方法的融合图像同样产生了较严重的光谱失真和空间失真。AWLP-H和MTF-GLP算法的融合图像存在轻微模糊且光谱失真较严重。相较于传统方法，基于CNN的算法在光谱特征和空间信息上更接近于参考图像，但本文算法具有最小的光谱失真和空间失真。表4给出了IKONOS数据集25幅测试图像在不同融合方法下的客观评价指标平均值。从表中可以看出，传统方法相比基于CNN的方法明显处于劣势。本文方法的评价指标在所有算法中具有最佳数值结果，其中RASE指标下降尤为明显。实验表明，本文方法有效地提升了融合图像的光谱质量和空谱质量。

图 5 IKONOS数据集上7种融合方法的融合结果

Fig. 5 Fusion results of seven fusion methods on the IKONOS dataset

下载: 全尺寸图片

表 4 IKONOS数据集上7种融合方法的实验结果评价指标

Table 4 Evaluation indexes for experimental results of seven fusion methods on the IKONOS dataset

方法	SAM↓	ERGAS↓	RASE↓	SCC↑	Q↑	SSIM↑
GS2_GLP	3.8824	2.6749	10.7669	0.8818	0.7867	0.9070
BDSD-PC	3.8636	2.6820	10.7902	0.8885	0.7965	0.9117
AWLP-H	3.5207	2.6405	10.6203	0.8931	0.8098	0.9201
MTF-GLP	4.0959	2.7863	11.7074	0.8716	0.7747	0.8959
TFNet	3.0225	2.2030	8.9109	0.9298	0.8392	0.9401
PanNet	3.0675	2.3449	9.5166	0.9130	0.8287	0.9330
本文方法	2.9291	2.1194	8.6041	0.9347	0.8414	0.9433
注：最佳数值用黑体标出。

2.5 消融实验

本文采用混合双分支网络和GCNN对图像特征进行提取。为了验证所提网络的有效性，本文做了相关消融实验。在超参数相同的条件下，分别去除本文网络中的3D CNN和GCNN两个模块进行对比。表5是GeoEye-1数据集24幅测试图像的平均评价指标。从表中数据可以看出，去除GCNN后，SAM、ERGAS和RASE 3项指标明显变差，说明GCNN在提升光谱质量上有显著效果。网络在去除3D CNN后，各项指标明显变差，表明3D CNN不仅改善了光谱特征，更是增强了融合图像的空间结构信息。

表 5 GeoEye-1数据集网络框架的消融实验结果评价指标

Table 5 Evaluation indexes for ablation experimental results of network framework on the GeoEye-1 dataset

2D CNN	3D CNN	GCNN	SAM↓	ERGAS↓	RASE↓	SCC↑	Q↑	SSIM↑
√	√	×	1.7514	1.7259	7.3086	0.9547	0.9019	0.9628
√	×	√	2.6823	2.6057	10.9639	0.8882	0.8457	0.9370
√	√	√	1.6339	1.6998	7.1722	0.9571	0.9083	0.9655

此外，本文还针对损失函数进行了消融实验。在设计损失函数时，在光谱和空间约束前加了权重。如表6所示，当光谱损失权重为0.1，空谱损失和梯度损失的权重分别为1时，融合效果达到最好。

表 6 GeoEye-1数据集损失函数权重的消融实验结果评价指标

Table 6 Evaluation indexes for ablation experimental results of loss function weights on the GeoEye-1 dataset

$ {L_{{\mathrm{grad}}}} $	$ {L_{{\mathrm{Spatial}}}} $	$ {L_{{\mathrm{Spectral}}}} $	SAM↓	ERGAS↓	RASE↓	SCC↑	Q↑	SSIM↑
1	1	1	3.1216	3.8354	18.1520	0.6975	0.6959	0.8382
1	0.1	1	3.5726	4.2870	18.3653	0.6977	0.6911	0.8349
1	1	0.1	1.6339	1.6998	7.1722	0.9571	0.9083	0.9655

3. 结束语

本文结合2D CNN、3D CNN和GCNN 3种网络结构，针对LRMS和PAN图像的特性，提出了一种基于混合双分支卷积神经网络和图卷积神经网络的全色锐化方法。混合双分支网络用于提取图像的光谱特征与空间特征：其中，2D CNN在提取空谱特征的同时降低了网络的参数量；3D CNN有效地提取图像的光谱特征，增强了融合图像的色彩信息。同时，本文利用跳跃连接，将低层特征与高层特征相连接，更好地补充了高层特征损失的细节信息。在非欧氏空间中，GCNN利用像素上下文语义关联，更好地联系了图像的全局信息，学习更丰富、更抽象的非结构化特征。损失函数的设计也充分考虑了光谱和空谱的一致性，有效地约束了模型的训练。在两个数据集上的实验表明，本文方法具有更好的融合性能。在未来工作中，将进一步探索图卷积神经网络在全色锐化领域中的应用。

图 1 本文算法框架

Fig. 1 Framework of the proposed method

下载: 全尺寸图片

图 2 网络模块结构示意

Fig. 2 Schematic diagram of network module structure

下载: 全尺寸图片

图 3 图卷积神经网络结构

Fig. 3 Graph convolutional neural network structure

下载: 全尺寸图片

图 4 GeoEye-1数据集上7种融合方法的融合结果

Fig. 4 Fusion results of seven fusion methods on the GeoEye-1 dataset

下载: 全尺寸图片

图 5 IKONOS数据集上7种融合方法的融合结果

Fig. 5 Fusion results of seven fusion methods on the IKONOS dataset

下载: 全尺寸图片

表 1 两类遥感卫星特性

Table 1 Characteristics of two remote sensing satellites

卫星	光谱范围/nm					空间分辨率/m
卫星	蓝	绿	红	近红外	PAN	PAN	LRMS
IKONOS	450～530	520～610	640～720	760～860	450～900	1.0	4
GeoEye-1	450～510	510～580	655～690	780～920	450～900	0.5	2

表 2 数据集划分

Table 2 Division of the dataset

卫星	源图像数量/组	数据类型	组数	裁剪后的组数
IKONOS	240×(200×200,800×800)	训练集	216	13824×(8×8,32×32)
IKONOS	240×(200×200,800×800)	测试集	24	24×(50×50,200×200)
GeoEye1	250×(200×200,800×800)	训练集	225	14400×(8×8,32×32)
GeoEye1	250×(200×200,800×800)	测试集	25	25×(50×50,200×200)

表 3 GeoEye-1数据集上7种融合方法的实验结果评价指标

Table 3 Evaluation indexes for experimental results of seven fusion methods on the GeoEye-1 dataset

方法	SAM↓	ERGAS↓	RASE↓	SCC↑	Q↑	SSIM↑
GS2_GLP	3.2744	2.8539	13.3318	0.8168	0.8206	0.8929
BDSD-PC	3.0881	2.5465	11.8565	0.8794	0.8601	0.9222
AWLP-H	2.4347	2.3470	10.8151	0.9124	0.8789	0.9427
MTF-GLP	2.9326	2.7003	12.2147	0.8766	0.8431	0.9186
TFNet	1.6539	1.6880	7.6106	0.9499	0.9137	0.9633
PanNet	1.6587	1.7261	7.7400	0.9468	0.9070	0.9621
本文方法	1.6339	1.6998	7.1722	0.9571	0.9083	0.9655
注：最佳数值用黑体标出。

表 4 IKONOS数据集上7种融合方法的实验结果评价指标

Table 4 Evaluation indexes for experimental results of seven fusion methods on the IKONOS dataset

方法	SAM↓	ERGAS↓	RASE↓	SCC↑	Q↑	SSIM↑
GS2_GLP	3.8824	2.6749	10.7669	0.8818	0.7867	0.9070
BDSD-PC	3.8636	2.6820	10.7902	0.8885	0.7965	0.9117
AWLP-H	3.5207	2.6405	10.6203	0.8931	0.8098	0.9201
MTF-GLP	4.0959	2.7863	11.7074	0.8716	0.7747	0.8959
TFNet	3.0225	2.2030	8.9109	0.9298	0.8392	0.9401
PanNet	3.0675	2.3449	9.5166	0.9130	0.8287	0.9330
本文方法	2.9291	2.1194	8.6041	0.9347	0.8414	0.9433
注：最佳数值用黑体标出。

表 5 GeoEye-1数据集网络框架的消融实验结果评价指标

Table 5 Evaluation indexes for ablation experimental results of network framework on the GeoEye-1 dataset

2D CNN	3D CNN	GCNN	SAM↓	ERGAS↓	RASE↓	SCC↑	Q↑	SSIM↑
√	√	×	1.7514	1.7259	7.3086	0.9547	0.9019	0.9628
√	×	√	2.6823	2.6057	10.9639	0.8882	0.8457	0.9370
√	√	√	1.6339	1.6998	7.1722	0.9571	0.9083	0.9655

表 6 GeoEye-1数据集损失函数权重的消融实验结果评价指标

Table 6 Evaluation indexes for ablation experimental results of loss function weights on the GeoEye-1 dataset

$ {L_{{\mathrm{grad}}}} $	$ {L_{{\mathrm{Spatial}}}} $	$ {L_{{\mathrm{Spectral}}}} $	SAM↓	ERGAS↓	RASE↓	SCC↑	Q↑	SSIM↑
1	1	1	3.1216	3.8354	18.1520	0.6975	0.6959	0.8382
1	0.1	1	3.5726	4.2870	18.3653	0.6977	0.6911	0.8349
1	1	0.1	1.6339	1.6998	7.1722	0.9571	0.9083	0.9655

参考文献(30)

[1]	杨勇,苏昭,黄淑英,等. 基于深度学习的像素级全色图像锐化研究综述[J]. 遥感学报, 2022, 26(12): 2411−2432. YANG Yong, SU Zhao, HUANG Shuying, et al. Survey of deep-learning approaches for pixel-level pansharpening[J]. National remote sensing bulletin, 2022, 26(12): 2411−2432.
[2]	赵其昌, 吴一全, 苑玉彬. 光学遥感图像舰船目标检测与识别方法研究进展[J]. 航空学报, 2024, 45(8): 029025. ZHAO Qichang, WU Yiquan, YUAN Yubin. Progress of ship detection and recognition methods in optical remote sensing images[J]. Acta aeronautica et astronautica sinica, 2024, 45(8): 029025.
[3]	LI Zhi, PENG Zhenming, CAO Siying, et al. High-resolution remote sensing change detection based on inverse correction and density peak clustering[C]// 2023 IEEE International Geoscience and Remote Sensing Symposium. Pasadena: IEEE, 2023: 3028−3031.
[4]	BAI Jing, LIU Ruotong, ZHAO Haisheng, et al. Hyperspectral image classification using geometric spatial-spectral feature integration: a class incremental learning approach[J]. IEEE transactions on geoscience and remote sensing, 2023, 61: 5531215.
[5]	胡建文, 汪泽平, 胡佩. 基于深度学习的空谱遥感图像融合综述[J]. 自然资源遥感, 2023, 35(1): 1−14. HU Jianwen, WANG Zeping, HU Pei. A review of spatial-spectral remote sensing image fusion based on deep learning[J]. Remote sensing for natural resources, 2023, 35(1): 1−14.
[6]	徐佳, 关泽群, 何秀凤, 胡俊伟,等. 基于传感器光谱特性的全色与多光谱图像融合[J]. 遥感学报, 2009, 13(1): 97−102. XU Jia, GUAN Zequn, HE Xiufeng, et al. Panchromatic and multispectral image fusion based on sensor spectral characteristics[J]. Journal of remote sensing, 2009, 13(1): 97−102.
[7]	肖亮, 刘鹏飞, 李恒. 多源空——谱遥感图像融合方法进展与挑战[J]. 中国图象图形学报, 2020, 25(5): 851−863. XIAO Liang, LIU Pengfei, LI Heng. Advances and challenges in multi-source spatial-spectral remote sensing image fusion methods[J]. Journal of image and graphics, 2020, 25(5): 851−863.
[8]	TU Teming, SU Shunchi, SHYU H C, et al. A new look at IHS-like image fusion methods[J]. Information fusion, 2001, 2(3): 177−186. doi: 10.1016/S1566-2535(01)00036-7
[9]	KWARTENG P, CHAVEZ A. Extracting spectral contrast in Landsat Thematic Mapper image data using selective principal component analysis[J]. Photogrammetric engineering & remote sensing, 1989, 55: 339−348.
[10]	MALLAT S G. A theory for multiresolution signal decomposition: the wavelet representation[J]. IEEE transactions on pattern analysis and machine intelligence, 1989, 11(7): 674−693. doi: 10.1109/34.192463
[11]	LIU Pengfei. Pansharpening with spatial hessian non-convex sparse and spectral gradient low rank priors[J]. IEEE transactions on image processing, 2023, 32: 2120−2131. doi: 10.1109/TIP.2023.3263103
[12]	ZHU Xiaoxiang, GROHNFELDT C, BAMLER R. Exploiting joint sparsity for pansharpening: the J-SparseFI algorithm[J]. IEEE transactions on geoscience and remote sensing, 2016, 54(5): 2664−2681. doi: 10.1109/TGRS.2015.2504261
[13]	LIU Pengfei, TANG Songze, HUANG Lili. Pansharpening with spatial hyper-Laplacian and spectral sparse constraints[C]// 2022 IEEE International Geoscience and Remote Sensing Symposium. Kuala Lumpur: IEEE, 2022: 3762−3765.
[14]	MASI G, COZZOLINO D, VERDOLIVA L, et al. Pansharpening by convolutional neural networks[J]. Remote sensing, 2016, 8(7): 594. doi: 10.3390/rs8070594
[15]	LIU Xiangyu, LIU Qingjie, WANG Yunhong. Remote sensing image fusion based on two-stream fusion network[J]. Information fusion, 2020, 55: 1−15. doi: 10.1016/j.inffus.2019.07.010
[16]	YANG Junfeng, FU Xueyang, HU Yuwen, et al. PanNet: a deep network architecture for pan-sharpening[C]//2017 IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 1753−1761.
[17]	LIU Xiangyu, WANG Yunhong, LIU Qingjie. Psgan: a generative adversarial network for remote sensing image pan-sharpening[C]//2018 25th IEEE International Conference on Image Processing. Athens: IEEE, 2018: 873−877.
[18]	SHI Cheng, PUN C M. Superpixel-based 3D deep neural networks for hyperspectral image classification[J]. Pattern recognition, 2018, 74: 600−616. doi: 10.1016/j.patcog.2017.09.007
[19]	AHMAD M, KHAN A M, MAZZARA M, et al. A fast and compact 3-D CNN for hyperspectral image classification[J]. IEEE geoscience and remote sensing letters, 2020, 19: 5502205.
[20]	KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks[EB/OL]. (2016−09−09)[2024−01−01]. https://arxiv.org/abs/1609.02907v4.
[21]	侯磊, 刘金环, 于旭, 等. 图神经网络研究综述[J]. 计算机科学, 2024, 51(6): 282−298. doi: 10.11896/jsjkx.230400005 HOU Lei, LIU Jinhuan, YU Xu, et al. Review of graph neural networks[J]. Computer science, 2024, 51(6): 282−298. doi: 10.11896/jsjkx.230400005
[22]	XU Boyan, YIN Hujun. Graph convolutional networks in feature space for image deblurring and super-resolution[C]//2021 International Joint Conference on Neural Networks. Shenzhen: IEEE, 2021: 1−8.
[23]	YAN Keyu, ZHOU Man, LIU Liu, et al. When pansharpening meets graph convolution network and knowledge distillation[J]. IEEE transactions on geoscience and remote sensing, 2022, 60: 5408915.
[24]	WANG Xiaolong, GIRSHICK R, GUPTA A, et al. Non-local neural networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7794−7803.
[25]	PALSSON F, SVEINSSON J R, ULFARSSON M O, et al. Quantitative quality evaluation of pansharpened imagery: consistency versus synthesis[J]. IEEE transactions on geoscience and remote sensing, 2016, 54(3): 1247−1259. doi: 10.1109/TGRS.2015.2476513
[26]	WANG Wenqing, ZHOU Zhiqiang, ZHANG Xiaoqiao, et al. DiTBN: detail injection-based two-branch network for pansharpening of remote sensing images[J]. Remote sensing, 2022, 14(23): 6120. doi: 10.3390/rs14236120
[27]	VIVONE G, ALPARONE L, CHANUSSOT J, et al. A critical comparison among pansharpening algorithms[J]. IEEE transactions on geoscience and remote sensing, 2015, 53(5): 2565−2586. doi: 10.1109/TGRS.2014.2361734
[28]	KALLEL A. MTF-adjusted pansharpening approach based on coupled multiresolution decompositions[J]. IEEE transactions on geoscience and remote sensing, 2015, 53(6): 3124−3145. doi: 10.1109/TGRS.2014.2369056
[29]	VIVONE G. Robust band-dependent spatial-detail approaches for panchromatic sharpening[J]. IEEE transactions on geoscience and remote sensing, 2019, 57(9): 6421−6433. doi: 10.1109/TGRS.2019.2906073
[30]	ZHOU J, CIVCO D L, SILANDER J A. A wavelet transform method to merge Landsat TM and SPOT panchromatic data[J]. International journal of remote sensing, 1998, 19(4): 743−757. doi: 10.1080/014311698215973

点击查看大图

图(5) / 表(6)

摘要

基于混合双分支卷积神经网络和图卷积神经网络的全色锐化方法

doi: 10.11992/tis.202401003

通讯作者: 刘涵. E-mail：liuhan@xaut.edu.cn.

出版历程

Pansharpening based on hybrid dual-branch convolutional and graph convolutional neural networks

1. 本文算法

1.1 模型整体框架

1.2 混合双分支卷积神经网络

1.3 图卷积神经网络

1.4 损失函数

2. 实验结果与分析

2.1 数据集

2.2 实验环境

2.3 评价指标

2.4 实验结果与分析

2.5 消融实验

3. 结束语

出版历程

目录

通讯作者:
刘涵. E-mail：liuhan@xaut.edu.cn.