Loading [MathJax]/jax/element/mml/optable/BasicLatin.js
  中国科学院大学学报  2025, Vol. 42 Issue (2): 236-247   PDF    
基于MFF-SFE的遥感图文跨模态检索方法
钟金彦1,2, 陈俊1,3,4, 李宇1, 吴业炜1, 葛小青1     
1. 中国科学院空天信息创新研究院,北京 100094;
2. 中国科学院大学电子电气与通信工程学院,北京 100049;
3. 中国科学院计算机网络信息中心,北京 100083;
4. 中国科学院大学计算机科学与技术学院,北京 100049
摘要: 遥感图文跨模态检索技术能够从海量的遥感数据中快速获取有价值的信息,但现有遥感图文检索方法对遥感图像中的多尺度信息利用不足、目标信息识别效果不佳,检索精度相对较低。为此,提出一种新的遥感图文跨模态检索方法。该方法主要包括一个多尺度特征融合模块和一个显著特征增强模块,分别用于融合遥感图像的多尺度信息、加强对遥感图像目标信息的表达能力,从而提高遥感图文跨模态检索精度。在2个公开的遥感图像文本数据集上进行实验验证,结果表明,在遥感图文跨模态检索任务中,该方法在大部分评价指标上都优于其他方法,具有最佳的总体检索性能。
关键词: 跨模态检索    遥感图像    深度学习    多尺度特征    
Cross-modal retrieval method based on MFF-SFE for remote sensing image-text
ZHONG Jinyan1,2, CHEN Jun1,3,4, LI Yu1, WU Yewei1, GE Xiaoqing1     
1. Aerospace Information Research Institute, Chinese Academy of Sciences, Beijing 100094, China;
2. School of Electronic, Electrical and Communication Engineering, University of Chinese Academy of Sciences, Beijing 100049, China;
3. Computer Network Information Center, Chinese Academy of Sciences, Beijing 100083, China;
4. School of Computer Science and Technology, University of Chinese Academy of Sciences, Beijing 100049, China
Abstract: Remote sensing image-text cross-modal retrieval technology can quickly obtain valuable information from massive remote sensing data. However, existing remote sensing image-text retrieval methods have limitations in utilizing multi-scale information within remote sensing images, and the weak recognition of target information leads to relatively low retrieval accuracy. To address these issues, this paper proposes a new method for remote sensing image-text cross-modal retrieval. This method mainly comprises a multi-scale feature fusion module and a salient feature enhancement module, which are designed to integrate multi-scale information of remote sensing images and enhance the expression of target information in remote sensing images, so as to improve the precision of remote sensing image-text cross-modal retrieval. Experimental validation was conducted on two publicly available remote sensing image-text datasets. The results demonstrate that the proposed method outperforms other methods across most evaluation metrics in the remote sensing image-text cross-modal retrieval task and exhibits the best overall retrieval performance.
Keywords: cross-modal retrieval    remote sensing images    deep learning    multi-scale feature    

随着对地观测能力的飞速发展,当前获取的遥感数据量呈指数增长,遥感数据呈现多元化、海量化趋势,遥感对地观测进入大数据时代(NASA的地球观测卫星每天向地球传输TB级的数据,Sentinel系列卫星在观察期间每天接收超过10 TB规模的数据)。遥感大数据的“数据海量、信息淹没”问题[1]日益突出,如何设计一种有效的遥感图像检索方法从海量的遥感数据中快速获得需要的数据、提高遥感数据的管理和使用效率,已经成为越来越多研究者关注的焦点。

根据查询数据模态的差异,遥感图像检索技术可分为单模态检索和跨模态检索[2]。这两者的主要区别在于进行查询的数据的模态和待检索的数据的模态是否相同。如果相同则为单模态检索,反之则为跨模态检索。对于遥感图像检索而言,单模态检索是指查询和检索的遥感数据都是同一种类型的遥感图像。例如,Liu等[3]使用深度对抗哈希在光学遥感图像中进行检索,Ye等[4]利用卷积神经网络(convolutional neural network,CNN)学习合成孔径雷达图像和光学遥感图像之间的域不变特征,从而对合成孔径雷达图像进行检索。在实际应用中,由于数据模态存在多样性,往往需要利用其他模态的数据(如文本、语音等)而不仅仅是同一种类型的遥感图像,来检索遥感图像。例如Guo等[5]提出一种深度视觉-音频网络,使用音频直接检索遥感图像,该网络基于预训练的CNN和深度音频网络,并使用神经网络对语音特征和遥感图像特征进行融合与分类。与遥感图像的单模态检索相比,由于查询与检索数据分布空间不同导致的“异构鸿沟”问题,遥感图像的跨模态检索,尤其是遥感图像与文本间的跨模态检索,仍面临不少挑战。

早期的遥感图像文本检索是以人工标注文本或关键词的方式进行的,即由人工预先对每幅遥感图像进行文本注释,然后通过比较预定义文本注释与输入文本之间的相似性进行检索。这种方式需要花费大量人力进行人工标注,检索效率有限,且对标注人员的专业性有一定要求,无法应对遥感图像数量的快速增长带来的挑战。因此越来越多的研究者开始研究遥感图像描述的生成,例如Shi和Zou[6]采用全卷积网络构建遥感图像描述框架,对遥感图像生成相应的文本描述。这种基于生成遥感图像描述的方法成功解决了人工标注的成本问题,然而,这种将遥感图像与文本分别进行处理的检索方式仍会受到“异构鸿沟”的影响,导致检索精度较低。如何构建不同模态信息间的相似性度量模型,以解决两种模态信息之间相似性难以直接度量的问题,是实现遥感图像文本跨模态检索的关键。

近些年来,随着多模态数据的快速增长以及深度学习技术的持续发展,自然图像领域对跨模态检索问题的研究已经取得了丰富的成果[7-9]。同时,在遥感领域,也有越来越多的研究者开始探索基于深度学习的遥感图文跨模态检索问题[10-13],主要可以分为基于语义对齐的方法和基于多尺度信息增强的方法两类。

基于语义对齐的方法着力于挖掘遥感图像与文本之间潜在的对应关系,通过语义对齐将图像信息与文本信息相对应,加强遥感图像和文本之间的语义关系,从而提升跨模态检索的精度。Cheng等[14]设计了一个深度语义对齐网络,采用注意力机制增强图像文本间的对应关系,并通过门函数过滤不必要的信息,获得具有辨别力的视觉特征。Zheng等[15]采用交叉注意力机制组合语句级文本信息和区域级图像信息,实现跨模态信息的交互。Tang等[16]提出一种交互增强特征Transformer,使用特征嵌入模块同时处理视觉特征和文本特征以减少两种模态的语义不一致性,并通过信息交互增强模块进行跨模态信息交互。尽管基于语义对齐的方法能充分挖掘图像与文本之间的深层关系,提高模态间的相似性,但由于遥感图像覆盖范围广、目标信息不突出,在进行语义对齐时往往会受到冗余信息的影响,从而影响检索的准确性。

基于多尺度信息增强的方法考虑到遥感图像的多尺度特性,主要关注如何更好地提取遥感图像的多尺度信息,通过更精准的遥感图像特征来提高检索效果。Yuan等[17]提出一种非对称多模态特征匹配网络,利用多尺度视觉自注意力模块提取遥感图像的显著特征。为减小模型的参数量,Wang等[18]设计了一个轻量化的多尺度探索模块,将深度卷积和扩展卷积相结合,以较小的成本挖掘多尺度信息。张若愚等[19]则针对遥感图像目标远距离建模困难的问题,基于Transformer编码器进行视觉的空间布局化建模,构建了主导语义监督下的布局化视觉特征提取模块来提取遥感图像中的显著目标。

尽管当前已存在不少基于多尺度信息增强的遥感图文跨模态检索方法的研究,但仍存在以下问题:

1) 现有的遥感图文跨模态检索方法对遥感图像中的多尺度信息利用不足,仍无法充分提取这些信息,在一定程度上影响了遥感图像-文本检索任务的精度。

2) 现有方法对遥感图像中的目标信息识别效果不佳。当前的方法大多聚焦于如何在遥感图像和文本间进行信息的交互,而忽略了对遥感图像中冗余特征的过滤,难以提取显著性特征,阻碍了其对遥感图像内容的理解。

针对现有方法多尺度信息利用不足的问题,本文设计了一个更有效的多尺度特征融合(multi-scale feature fusion,MFF)模块,融合遥感图像的低、中、高层特征,充分利用遥感图像的多尺度信息,提升检索精度;同时,为解决现有方法对遥感图像中的目标信息识别效果不佳问题,构建了一个显著特征增强(salient feature enhancement,SFE)模块,使用多尺度特征中的低层视觉特征对MFF模块提取的、具有多尺度信息的融合特征进行增强,加强对遥感图像目标信息的表达能力,同时通过多尺度信息尽可能地提高模型对较小目标的识别能力;最终提出一种基于MFF-SFE的遥感图文跨模态检索方法,通过MFF模块和SFE模块相结合得到更加精确和全面的遥感图像特征,从而提高模型的检索准确性。

1 基于MFF-SFE的遥感图文跨模态检索网络

本文提出的基于MFF-SFE的遥感图文跨模态检索网络采用Inception Resnet V2[20]和双向编码表示变换器(bidirectional encoder representations from transformers,BERT)[21]分别提取遥感图像特征和文本特征,并通过MFF模块和SFE模块增强遥感图像特征,最后使用余弦相似度函数计算遥感图像特征与文本特征之间的相似度。网络主要包括4个部分:遥感图像/文本特征提取、MFF模块、SFE模块和相似性度量,整体结构如图 1所示。

Download:
图 1 基于MFF-SFE的遥感图文跨模态检索网络结构 Fig. 1 Network structure for remote sensing image-text cross-modal retrieval based on MFF-SFE

首先,在遥感图像特征提取部分,采用Inception Resnet V2作为遥感图像特征提取网络,获得遥感图像特征向量FI,同时提取遥感图像的多尺度特征vlowvmidvhigh,并将多尺度特征与低层视觉特征vlow分别输入MFF模块和SFE模块;再将增强后的融合特征FefFI相加并降维,得到最终的图像特征FV。其次,在文本特征提取部分,使用BERT作为文本特征提取网络获得指定维度的文本特征FT,此处每条文本语句都对应一个文本特征。

同时,为充分利用遥感图像中的多尺度信息、解决遥感图像的目标信息不突出问题,分别设计了MFF模块与SFE模块。MFF模块使用遥感图像特征提取网络提取的多尺度特征,并分别进行卷积操作再相连,然后采用通道注意力机制自适应地优化各个通道的权重,得到具有多尺度信息的融合特征Ff。SFE模块将MFF模块获得的融合特征Ff作为基准特征,并将低层视觉特征vlow作为强化特征,通过卷积等处理得到显著信息特征门向量Feg,从而进一步优化融合特征Ff,获得能够突出遥感图像目标信息的显著信息特征Fef

最后,将显著信息特征Fef与遥感图像特征提取网络的输出FI相加,得到最终的图像特征FV,并对图像特征FV和文本特征FT进行相似性度量,最终实现更为精准的遥感图文跨模态检索。

1.1 图像与文本特征提取

特征提取环节包含2个部分,分别是图像特征提取和文本特征提取。下面分别对这两种特征提取进行详细介绍。

1) 图像特征提取

定义输入遥感图像为IRH×W×C,通过遥感图像特征提取网络提取遥感图像的多尺度特征与图像特征FIRHh×Wh×Ch,其中,多尺度特征包括低层视觉特征vlowRHl×Wl×Cl、中层视觉特征vmidRHm×Wm×Cm和高层视觉特征vhighRHh×Wh×Ch。然后将其输出特征FI与增强后的显著信息特征Fef分别乘以可变系数sIsef,通过平均池化层、失活率为0.8的Dropout层和Softmax层后,得到最终的图像特征FV,如图 1的图像特征提取部分所示。

使用Inception Resnet V2作为模型的遥感图像特征提取网络,并分别选取其中Stem块、Reduction-A块和Reduction-B块的输出作为多尺度特征中的低层、中层和高层视觉特征vlowvmidvhigh,其结构如图 2所示。

Download:
图 2 遥感图像特征提取网络结构 Fig. 2 Structure of the remote sensing image feature extraction network

2) 文本特征提取

对于输入的描述语句S,使用BERT预训练的文本编码器进行分词和词向量编码,得到对应词块的词编码向量Temd,再与编码器提取的掩码向量一并输入BERT预训练模型,获得文本特征。考虑到BERT模型生成的文本特征都是768维的向量,通过全连接层将这些文本特征转换为与图像特征FV相同维度的向量,从而得到最终的文本特征向量FT,整个文本特征提取网络的结构如图 3所示。

Download:
图 3 文本特征提取网络结构 Fig. 3 Structure of the text feature extraction network
1.2 MFF模块

与自然图像相比,遥感图像往往包含丰富的目标信息。对于较大的目标,可以使用全局特征来表达。然而,对于较小的目标,随着卷积网络层数的增加,其在遥感图像特征中的信息可能会逐渐减少甚至消失。为更好地提取遥感图像中的多尺度信息,并保留其中较小目标的特征信息,构建如图 4所示的MFF模块。该模块对多尺度特征进行融合,并采用通道注意力机制增强多尺度信息处理能力。

Download:
图 4 MFF模块结构 Fig. 4 Structure of the MFF module

由于遥感图像特征提取网络所获得的多尺度特征vlowvmidvhigh维度不统一,模块先对vlowvmid分别进行一次7×7和3×3的卷积(步长分别为4、2)。为了降低计算量与参数量,此处将7×7和3×3卷积分别拆分为1×7、7×1卷积的串联和1×3、3×1卷积的串联,其步长也分别变为(1,4)、(4,1)和(1,2)、(2,1)。然后,为增强网络的非线性表达能力,模块对vhigh及降维后的vlowvmid都进行1×1卷积和参数化修正线性单元(图 4中的PReLU)处理。最后将三者拼接在一起,得到初步的融合特征vf

由于vf中不同通道对于多尺度信息的表达能力不同,对初步融合特征vf使用了通道注意力,自适应地为每个通道分配权重,从而提高MFF模块对多尺度信息的利用能力。同时,为降低特征维度,也便于后续处理,使用1×1卷积把通道数降低到与vhigh相同,最终得到融合特征Ff

1.3 SFE模块

由于遥感图像中目标的复杂性,融合特征Ff中仍然存在冗余。这导致目标信息无法突出,因此需要进一步优化融合特征,过滤其中的无关和冗余信息,从而更好地突出遥感图像中的目标信息。

为此,设计了如图 5所示的SFE模块。考虑到高层视觉特征往往难以保留遥感图像中较小目标的信息,将低层视觉特征vlow作为强化特征,并将MFF模块提取的融合特征Ff作为基准特征,使用处理过的强化特征对基准特征进行元素相乘,生成含有目标信息的显著信息特征门向量。然后,通过卷积和最大池化来增强显著性特征并降低空间维度,得到最终的显著信息特征门向量Feg

Download:
图 5 SFE模块结构 Fig. 5 Structure of the SFE module

具体来讲,为提升强化特征对基准特征的增强效果,SFE模块首先通过4个不同的卷积分支处理强化特征,然后将这4个分支的输出进行拼接,并使用1×1卷积降维,从而得到具有更多信息的强化特征,再使用Sigmoid激活函数抑制强化特征中的无用信息。另一方面,为统一特征维度,模块对基准特征Ff进行上采样和1×1卷积,再将其与处理过的强化特征相乘,从而得到具有目标信息的显著信息特征门向量。最后,模块使用3×3卷积和自适应最大池化来保证显著信息特征门向量与基准特征Ff的维度一致,并进一步增强特征中的显著信息并过滤冗余信息,从而得到最终的显著信息特征门向量Feg

1.4 相似性度量与损失函数

为了在统一的特征空间里度量不同模态的信息,使用余弦相似度计算遥感图像特征与文本特征的相似性,并采用交叉熵损失函数优化训练检索模型。

将每张遥感图像设为一个独立类别,并将与之对应的文本归为同一类别,即认为图像及其对应的文本在共同的特征空间中应具有相同的特征表示。余弦相似度和交叉熵损失函数的计算公式如下所示

cos(FV,FT)=FVFTFV2FT2, (1)
L=1NNi=1lnexi,yinj=1exi,j, (2)

式中:‖ · ‖2表示计算向量的2-范数,i表示特征索引,N表示批次大小,j表示类别索引,n表示类别总数,xi, j表示第i个样本的与第j个类别的相似度,yi表示样本i的真实类别。

当图像特征FV和文本特征FT完全相同,即FV=FT时,由式(1)可得,此时FVFT余弦相似度等于1;相反,若FVFT相差越大,则两者的余弦相似度将越趋近于-1。

将同一批次内所有图像特征与文本特征间的余弦相似度作为xi, j输入交叉熵损失函数中,结合每个样本的实际类别y计算第i个样本与其真实类别yi之间的相似度xi, yi。由式(2)可见,在第i个样本时,若样本越能正确地与类别相匹配,也就是与真实类别的相似度xi, yi越高、与其他错误类别的相似度xi, j(jyi)越低,则这个样本的负对数似然越小;若在批次内正确匹配的样本数越多,则所有样本的负对数似然的平均数越小,也就是交叉熵损失L越小(趋近于0),反之L越大。

本文将图像和文本间的相似度矩阵作为图像-文本相似度,计算图像检索文本任务的交叉熵损失;同时,将以上相似度矩阵的转置作为文本-图像的相似度,计算文本检索图像任务的交叉熵损失;最后取2个损失的均值作为本文模型的损失函数。

2 实验结果及分析 2.1 数据集

为验证本文方法的有效性并评估本文模型的性能,在2个公开的遥感图像文本数据集UCM-Captions[22]和Sydney-Captions[22]上分别进行对比实验与消融实验。2个数据集中每张图像都对应5句相关的文本描述。其中,UCM-Captions数据集由21类场景的2 100幅遥感图像和10 500句文本描述组成,每幅图像的大小为256×256,图像分辨率为1英寸;Sydney-Captions数据集中包含613幅500×500的遥感图像和3 065句文本描述,图像分辨率为0.5 m。2个数据集的部分样例如图 6所示。

Download:
图 6 数据集中遥感图像与描述 Fig. 6 Remote sensing images and descriptions in dataset
2.2 实验环境及评价指标

本文所有实验都是基于Python3.7及深度学习框架PyTorch1.8.0和CUDA11.2实现,并在配备Inter(R) Core(TM) i9-10920X、GeForce RTX 3090和128 G RAM的工作站上运行,操作系统为CentOS 7.9。

在训练过程中,将遥感图像先缩放成278像素×278像素,旋转90°后再进行中心裁剪成256像素×256像素,从而增强训练样本;测试时则将遥感图像统一缩放成256像素×256像素。

以8∶1∶1的比例将数据集划分为训练集、测试集和验证集,批次大小设置为64,使用Adam优化器进行网络训练,迭代次数为100,初始学习率设为0.000 1,beta1和beta2分别设为0.9和0.98,权重衰减设为0.2。在训练过程中,每20次迭代进行一次学习率衰减,衰减因子为0.7。同时,将图像特征维度和文本特征维度都设置成512。

为充分验证本文方法的有效性并评估模型的性能,采用召回率R@K(K=1,5,10)和平均召回率mR作为评价指标。R@K表示在返回的检索结果中,按相似度从大到小排序,前K个排序结果中出现正确样本的概率;mR则代表图像检索文本和文本检索图像2个任务中所有R@K的平均值。R@K和mR的值越高表明模型的检索效果越好,反之越差,其计算公式如下

RPK=Ki=1Ri, (3)
\mathrm{R} @ K=\frac{1}{M} \sum\limits^M \mathrm{RP}_K, (4)
\mathrm{mR}=\frac{1}{N} \sum\limits_{K=1}^N \mathrm{R} @ K, (5)

式中:Ri表示相似度最高的前K项检索结果中,第i个检索是否正确,正确则为1,反之为0;\bigvee\limits^K表示对K个0/1的项进行逻辑或。RPK则代表前K项检索中是否存在正确的检索结果,当RPK=1时,前K个返回结果中存在与查询样本相关的结果,反之,当RPK=0时则不存在。M表示总共进行了M次检索;N表示2个跨模态检索任务的R@K指标总数。

2.3 实验结果分析 2.3.1 对比实验

为评估本文提出的基于MFF-SFE的遥感图文跨模态检索模型的检索性能,选取以下6种跨模态图文检索方法进行对比:

1) VSE++[23]:VSE++模型是自然图像领域图像文本检索的先驱。该方法使用卷积网络和循环网络将图像信息和文本信息嵌入同一空间中,并提出三元组损失来训练图像-文本匹配模型。

2) SCAN[24]:SCAN模型在VSE++的基础上,利用Faster RCNN[25]提取图像特征,并尝试将图像中的目标与文本中的目标对齐。

3) CAMP[26]:CAMP模型提出一种自适应信息传递方法,该方法能自适应地控制跨模态信息传递的信息流,并使用融合特征计算图像和文本的相似度。

4) MTFN[27]:MTFN模型采用秩分解的方式设计多模态融合网络,以此计算嵌入特征的距离。

5) CLIP[9]:CLIP模型通过对大量图文数据进行对比学习,使用余弦相似度将图像与文本映射至同一特征空间内,其在众多领域中的零样本跨模态任务上表现出显著优势。

6) AMFMN[17]:AMFMN模型设计了一个多尺度视觉自注意力模块提取遥感图像的显著特征,并定义了一个动态可变边界的损失函数解决样本对匹配边界问题。

采用本文所提方法与上述方法在2个数据集的2个检索任务上分别计算了R@1、R@5、R@10,以及R@K的平均值mR共7个评价指标。其中,由于遥感图像中存在着较小的目标,为降低计算复杂度,选择CLIP预训练模型中的ViT-B/32进行对比实验。实验结果如表 1表 2所示,其中加粗部分表示该列下最好的结果。

表 1 UCM-Captions数据集对比实验效果 Table 1 Results of comparative experiment on UCM-Captions  

表 2 Sydney-Captions数据集对比试验效果 Table 2 Results of comparative experiment on Sydney-Captions  

表 1可以看出,本文方法在UCM-Captions数据集上所有评价指标都取得了最好的检索结果。与对比方法中总体性能最好的CLIP相比,本文方法在图像检索文本任务中R@1、R@5和R@10分别提升4.29、5.43和11.62个百分点,在文本检索图像任务中召回率分别提升2.04、2.23和3.53个百分点;2个任务所有指标的平均值mR总体提升4.86个百分点。CLIP的ViT-B/32预训练模型先将图像分割成32×32的小块,再通过ViT(vision transformer)进行处理,能够有效捕获图像中的上下文信息与细节信息,但仍然无法有效地过滤遥感图像中的冗余特征,因此难以提取其中的显著性特征。而本文采用Inception Resnet V2进行特征提取,并通过SFE模块,使用低层视觉特征对融合特征进行增强,尽可能地保留遥感图的显著特征,同时过滤冗余特征,因而取得了较好的效果。

表 2可见,在Sydney-Captions数据集上,本文方法的大部分评价指标都优于其他方法,在文本检索图像任务中,相比对比方法中最好的AMFMN方法3个召回率分别提升5.17、8.93和6.3个百分点。不过,在图像检索文本任务中,本文提出的模型在R@1上几乎与AMFMN相同,在R@5和R@10略低于AMFMN和SCAN i2t。这可能与Sydney-Captions数据集自身数据类别分布不均衡存在一定的关系。但在总体性能上,本文方法仍有比较明显的优势,图像检索文本和文本检索图像2个任务的平均召回率mR对比现有方法中表现最好的AMFMN提升2.84个百分点。总体而言,与现有方法相比,本文方法在遥感图文跨模态检索任务上达到了最佳的检索性能。

2.3.2 消融实验

为评估和分析本文所提出的MFF模块和SFE模块对检索性能的作用和贡献,在2个数据集上分别进行了消融实验,主要包括以下几个部分:

1) CNN+BERT表示最基本的跨模态检索架构。在实验时,使用Inception Resnet V2作为模型的遥感图像特征提取网络,并将其输出的遥感图像特征不经过MFF模块和SFE模块的处理,直接通过平均池化、Dropout和Softmax层进行降维,得到最终的图像特征。

2) 在CNN+BERT基础检索架构上添加MFF模块:使用MFF模块对多尺度特征进行融合,并将融合特征与原单一尺度的图像特征分别乘以可变系数后相加,再进行降维得到具有多尺度信息的图像特征。该模型用MFF+BERT表示。

3) 在CNN+BERT的技术上增加SFE模块:将原Inception-Resnet-C块输出的图像特征FI作为SFE模块的基准特征,并使用低层视觉特征作为强化特征对其进行显著性特征增强,最后将增强后的特征进行降维得到最终的图像特征。该模型用SFE+BERT表示。

4) 最后将MFF模块与SFE模块相结合,在融合多尺度信息的同时增强显著性特征,即本文提出的基于MFF-SFE的遥感图文跨模态检索模型,用MFF+SFE+BERT表示。

在2个数据集上的消融实验结果如表 3表 4所示,其中最佳的结果用粗体表示。

表 3 UCM-Captions数据集消融实验效果 Table 3 Results of ablation experiment on UCM-Captions  

表 4 Sydney-Captions数据集消融实验效果 Table 4 Results of ablation experiment on Sydney-Captions 

表 3表 4可见,MFF+BERT模型在UCM-Captions数据集和Sydney-Captions数据集上的平均召回率mR均优于基础的CNN+BERT架构,分别提升2.2和4.09个百分点。这证明了MFF模块的有效性,表明MFF模块能够更好地利用遥感图像中的多尺度信息。

其次,SFE+BERT模型在2个数据集上的大部分指标都高于基础的CNN+BERT架构,例如,在Sydney-Captions数据集的文本检索图像任务中,与CNN+BERT模型相比,R@1、R@5和R@10分别提升2.9、2.91和4.84个百分点。这说明SFE模块能够有效提取遥感图像中的目标信息,证明了SFE模块的有效性。同时,SFE+BERT模型的整体效果略逊于MFF+BERT模型。这可能是因为SFE+BERT模型使用FI作为SFE模块的基准特征,缺少了多尺度信息,导致模块对图像特征中较小目标的特征信息增强不足,降低了检索模型对目标信息的识别能力。

最后,完整的MFF+SFE+BERT模型在2个数据集上,召回率平均值mR具有明显提升。这表明,通过结合运用MFF模块和SFE模块,能够获得更全面、更精确的遥感图像特征,从而提升检索模型的精度,同时也证实了MFF和SFE两个模块在本文模型中的有效性和重要性。

2.3.3 可视化展示

通过上述实验,得到如图 7图 8所示的结果,其中,正确的检索结果使用绿色字体或绿色边框标记,错误结果则用红色字体或边框标记。图 7为本文模型进行图像检索文本任务的3个示例,该任务使用在训练集上训练好的模型,对待检索文本与所查询的遥感图像进行相似性度量,并按相似度由高到低选取其中最高的4个文本作为图像检索文本任务的最终检索结果。

Download:
图 7 图像检索文本结果的部分示例 Fig. 7 Selected examples of text results for image retrieval

Download:
图 8 文本检索图像结果的部分示例 Fig. 8 Selected examples of image results for text retrieval

图 7(a)7(b)可见,本文模型检索得到的文本均与原遥感图像的文本描述一致,充分证明本文模型的有效性。由图 7(c)可见,相似度排名第4位的文本与该遥感图像的内容并不完全相同。经分析,应该是由于这句文本与正确文本(图 7(c)中第2句文本)的文本特征过于相似所导致的,后续将会针对文本语句中的语义信息展开进一步研究。

图 8为本文模型进行文本检索图像任务的3个示例。该任务通过训练好的模型计算文本与待检索遥感图像间的相似度,并按相似度大小选取4张遥感图像作为文本检索图像任务的最终结果。

图 8(a)8(b)可见,模型检索出的遥感图像均与查询文本相匹配,充分展示了本文模型的有效性。由图 8(c)可见,相似度排名前2的遥感图像并非查询文本所对应的遥感图像。经分析,可能是由于数据集中某些遥感图像过于相似,从而导致检索结果产生较大误差,后续将对此问题展开进一步研究。

3 结论

本文提出一种基于MFF-SFE的遥感图文跨模态检索方法,使用Inception Resnet V2和BERT分别提取遥感图像和文本的特征,并采用MFF模块和SFE模块融合并增强遥感图像的图像特征。其中,MFF模块对提取的遥感图像多尺度特征进行融合,并采用通道注意力机制增强多尺度信息处理能力;而SFE模块则使用低层视觉特征对MFF模块输出的融合特征进行显著性特征增强,并通过自适应最大池化过滤冗余特征,从而突出遥感图像的目标信息。

在2个公开数据集上进行了对比实验和消融实验,结果表明本文方法在遥感图文跨模态检索任务上达到了最佳的检索性能,并证明了本文所提出的MFF模块和SFE模块的有效性。

然而,本文方法尚未考虑图像与文本之间的语义关系,所用的相似性度量比较简单,且模型规模相对较大,后续将考虑在图像特征与文本特征之间加入双向注意力机制、并在相似性度量处引入度量学习,进一步提升模型的准确性,同时采用轻量化进一步优化网络模型。

参考文献
[1]
Chi M M, Plaza A, Benediktsson J A, et al. Big data for remote sensing: challenges and opportunities[J]. Proceedings of the IEEE, 2016, 104(11): 2207-2219. Doi:10.1109/JPROC.2016.2598228
[2]
Kaur P, Pannu H S, Malhi A K. Comparative analysis on cross-modal information retrieval: a review[J]. Computer Science Review, 2021, 39: 100336. Doi:10.1016/j.cosrev.2020.100336
[3]
Chen C, Zou H X, Shao N Y, et al. Deep semantic hashing retrieval of remotec sensing images[C]//IGARSS 2018-2018 IEEE International Geoscience and Remote Sensing Symposium. Valencia, Spain. IEEE, 2018: 1124-1127. DOI: 10.1109/IGARSS.2018.8519276.
[4]
Ye F M, Luo W, Dong M, et al. SAR image retrieval based on unsupervised domain adaptation and clustering[J]. IEEE Geoscience and Remote Sensing Letters, 2019, 16(9): 1482-1486. Doi:10.1109/LGRS.2019.2896948
[5]
Guo M, Zhou C H, Liu J H. Jointly learning of visual and auditory: a new approach for RS image and audio cross-modal retrieval[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2019, 12(11): 4644-4654. Doi:10.1109/JSTARS.2019.2949220
[6]
Shi Z W, Zou Z X. Can a machine generate humanlike language descriptions for a remote sensing image?[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(6): 3623-3634. Doi:10.1109/TGRS.2017.2677464
[7]
Wang G A, Hu Q H, Cheng J, et al. Semi-supervised generative adversarial hashing for image retrieval[C]//European Conference on Computer Vision. Cham: Springer, 2018: 491-507.10.1007/978-3-030-01267-0_29.
[8]
Lu J S, Batra D, Parikh D, et al. ViLBERT: pretraining task-agnostic visiolinguistic representations for vision-and-language tasks[EB/OL]. 2019. arXiv: 1908.02265. http://arxiv.org/abs/1908.02265.
[9]
Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision[EB/OL]. 2021. arXiv: 2103.00020. (2021-02-26)[2024-04-01]. http://arxiv.org/abs/2103.00020.
[10]
Abdullah T, Bazi Y, Al Rahhal M M, et al. TextRS: deep bidirectional triplet network for matching text to remote sensing images[J]. Remote Sensing, 2020, 12(3): 405. Doi:10.3390/rs12030405
[11]
Lv Y F, Xiong W, Zhang X H, et al. Fusion-based correlation learning model for cross-modal remote sensing image retrieval[J]. IEEE Geoscience and Remote Sensing Letters, 2021, 19: 6503205. Doi:10.1109/LGRS.2021.3131592
[12]
Mikriukov G, Ravanbakhsh M, Demir B. Deep unsupervised contrastive hashing for large-scale cross-modal text-image retrieval in remote sensing[EB/OL]. 2022. arXiv: 2201.08125. http://arxiv.org/abs/2201.08125.
[13]
Yuan Z Q, Zhang W K, Tian C Y, et al. Remote sensing cross-modal text-image retrieval based on global and local information[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5620616. Doi:10.1109/TGRS.2022.3163706
[14]
Cheng Q M, Zhou Y Z, Fu P, et al. A deep semantic alignment network for the cross-modal image-text retrieval in remote sensing[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021, 14: 4284-4297. Doi:10.1109/JSTARS.2021.3070872
[15]
Zheng F Z, Li W P, Wang X, et al. A cross-attention mechanism based on regional-level semantic features of images for cross-modal text-image retrieval in remote sensing[J]. Applied Sciences, 2022, 12(23): 12221. Doi:10.3390/app122312221
[16]
Tang X, Wang Y J, Ma J J, et al. Interacting-enhancing feature transformer for cross-modal remote-sensing image and text retrieval[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 5611715. Doi:10.1109/TGRS.2023.3280546
[17]
Yuan Z Q, Zhang W K, Fu K, et al. Exploring a fine-grained multiscale method for cross-modal remote sensing image retrieval[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 4404119. Doi:10.1109/TGRS.2021.3078451
[18]
Wang Y J, Ma J J, Li M T, et al. Multi-scale interactive transformer for remote sensing cross-modal image-text retrieval[C]//IGARSS 2022-2022 IEEE International Geoscience and Remote Sensing Symposium. Kuala Lumpur, Malaysia. IEEE, 2022: 839-842. DOI: 10.1109/IGARSS46834.2022.9883252.
[19]
张若愚, 聂婕, 宋宁, 等. 基于布局化-语义联合表征遥感图文检索方法[J]. 北京航空航天大学学报, 2024, 50(2): 671-683. Doi:10.13700/j.bh.1001-5965.2022.0527
[20]
Szegedy C, Ioffe S, Vanhoucke V, et al. Inception-v4, inception-ResNet and the impact of residual connections on learning[C]//Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence. February 4-9, 2017, San Francisco, California, USA. ACM, 2017: 4278-4284. DOI: 10.5555/3298023.3298188.
[21]
Devlin J, Chang M W, Lee K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[EB/OL]. 2018. arXiv: 1810.04805. (2018-10-11)[2024-04-01]. http://arxiv.org/abs/1810.04805.pdf.
[22]
Qu B, Li X L, Tao D C, et al. Deep semantic understanding of high resolution remote sensing image[C]//2016 International Conference on Computer, Information and Telecommunication Systems (CITS). Kunming, China. IEEE, 2016: 1-5. DOI: 10.1109/CITS.2016.7546397.
[23]
Faghri F, Fleet D J, Kiros J R, et al. VSE++: improving visual-semantic embeddings with hard negatives[EB/OL]. 2017. arXiv: 1707.05612. (2017-07-18)[2024-04-01]. http://arxiv.org/abs/1707.05612.
[24]
Lee K H, Chen X, Hua G, et al. Stacked cross attention for image-text matching[C]//European Conference on Computer Vision. Cham: Springer, 2018: 212-228.10.1007/978-3-030-01225-0_13.
[25]
Ren S Q, He K M, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. Doi:10.1109/TPAMI.2016.2577031
[26]
Wang Z H, Liu X H, Li H S, et al. CAMP: cross-modal adaptive message passing for text-image retrieval[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South). IEEE, 2019: 5763-5772. DOI: 10.1109/ICCV.2019.00586.
[27]
Wang T, Xu X, Yang Y, et al. Matching images and text with multi-modal tensor fusion and re-ranking[C]//Proceedings of the 27th ACM International Conference on Multimedia. October 21-25, 2019, Nice, France. ACM, 2019: 12-20. DOI: 10.1145/3343031.3350875.
基于MFF-SFE的遥感图文跨模态检索方法
钟金彦, 陈俊, 李宇, 吴业炜, 葛小青