舰船科学技术  2025, Vol. 47 Issue (4): 137-142    DOI: 10.3404/j.issn.1672-7649.2025.04.022   PDF    
微调Stable Diffusion的侧扫声呐图像数据集扩充方法
高鑫1, 张龙刚1, 彭望3, 郝瑞亭2, 马双双3, 郑杰4     
1. 云南师范大学 物理与电子信息学院,云南 昆明 650500;
2. 云南师范大学 能源与环境科学学院,云南 昆明 650500;
3. 中国电建集团昆明勘测设计研究院有限公司,云南 昆明 650051;
4. 中国船舶集团有限公司第七〇五研究所昆明分部,云南 昆明 650102
摘要: 针对水下声学图像获取难度大、优质数据少的问题,提出一种参数高效微调Stable Diffusion的侧扫声呐图像数据集扩充方法。旨在提升数据集质量与多样性,进而改善基于深度学习的舰船侧扫声呐目标检测系统的性能。首先冻结预训练模型全连接层的权重,随后注入可训练的秩分解矩阵(Rank Decomposition Matrices),最后嵌入提示词生成图像样本。实验结果表明,相比于目前主流基于CycleGAN的方法,提出的方法生成了更高质量、多样化、稳定的侧扫声呐图像。此外,数据集扩充后,多种主流的目标检测算法性能均有所增强,YOLOv8n的mAP@0.5提升了22.9%,证明了该方法的有效性。
关键词: 侧扫声呐     深度学习     参数高效微调     稳态扩散    
Fine-tuning stable diffusion side scan sonar image dataset expansion method
GAO Xin1, ZHANG Longgang1, PENG Wang3, HAO Ruiting2, MA Shuangshuang3, ZHENG Jie4     
1. School of Physics and Electronic Information, Yunnan Normal University, Kunming 650500, China;
2. School of Energy and Environment Science, Yunnan Normal University, Kunming 650500, China;
3. China Power Construction Group Kunming Survey Design and Research Institute Co., Ltd., Kunming 650051, China;
4. Kunming Branch of the 705 Research Institute of CSSC, Kunming 650102, China
Abstract: A parameter-efficient fine-tuning steady-state diffusion model for side scan sonar image dataset expansion is proposed to address the difficulty of obtaining underwater acoustic images and the lack of high-quality data. The aim is to enhance both the quality and diversity of the dataset, thereby improving the performance of the deep learning-based ship side-scan sonar target detection system. Firstly, freeze the weights of the fully connected layers of the pre-trained model. Then, trainable rank decomposition matrices are injected. Finally, embed prompt words to generate image samples. The experimental results show that compared to the current mainstream CycleGAN based methods, the proposed method achieves higher quality, diversity, and stability in generating side scan sonar images. In addition, after the expansion of the dataset, the performance of various mainstream target detection algorithms is improved, and the mAP@0.5 of YOLOv8n is improved by 22.9%, which proves the effectiveness of the proposed method.
Key words: side scan sonar     deep learning     parameter-efficient fine-tuning (PEFT)     stable diffusion    
0 引 言

侧扫声呐因其探测范围广、成像分辨率高和水下适应性强等特点,是目前舰船执行水下探测、水下设施检查和打捞搜救等活动的首选设备[13]。在实际操作中,声呐图像往往由工作人员目视判别,检测效果容易受到主观经验、状态等因素影响。在紧急搜救过程中,这无疑会降低营救速度,增加搜救难度[2]。近年来,随着人工智能技术的不断发展,深度学习方法在水下目标检测中的应用越来越广泛[45]。但深度学习方法需要大量的高质量样本数据进行训练,而侧扫声呐图像因数据采集成本高、难度大、有效目标较少等问题,往往导致数据集匮乏,样本表示过于稀疏[6]。这使得训练得到的模型易出现过度拟合、泛化能力弱、鲁棒性差等缺点[7],严重制约了模型的检测能力。因此,亟需研究一种有效的侧扫声呐图像数据集扩充方法,以提升深度学习的检测性能。

在侧扫声呐图像数据集扩充研究方面,模拟声呐图像由于操作简便,逐步成为研究热点[810]。模拟声呐图像能够丰富和扩充数据集,以改进模型训练效果。Steiniger等[11]采用迁移学习的方式训练GAN,减少了因数据集过小而导致的模式崩溃问题,是一种相对稳健的图像生成方式。但这种方法生成的图像可变性很低,生成的10000张图像区别很小,生成图像的尺寸、质量也不够理想。Liu等[12]将CycleGAN用于前视声呐图像生成,在生成较为真实声呐图像的同时,保留了图像的高光和阴影等信息。李宝奇等[13]针对CycleGAN将光学图像迁移到声呐图像过程中存在的质量差、速度慢等问题,设计了一个新的生成器网络SDKNet和一种新的循环一致损失函数(Multiscale Cyclic Consistent Loss Function,MS-CCLF)。相比于CycleGAN,这种生成器网络的参数量减少了4.13 MB,且使用该方法扩充的数据集对ResNet18网络进行训练后,目标分类准确率提高了4.64%。汤寓麟等[14]提出了一种名为CSLS-CycleGAN的侧扫声呐图像数据集扩充方法。在该方法中,生成器融合了通道空间注意力模块(Channel and Spatial Attention Module,CSA Module),并将损失函数替换为最小二乘。通过使用遥感数据集HRSC2016中典型的船舶图像作为输入,实现了由遥感图像到侧扫声呐图像的转换。采用YOLOv5网络对模型性能进行评估,得出目标检测的mAP@0.5值达到了84.71%。

以GAN为基础的方法存在模型泛化能力不足、收敛困难、易出现模式崩溃、生成图像质量较差等问题[15]。而基于CycleGAN的声呐图像扩充方法,其生成图像特征容易受到输入光学图像特征分布的影响,难以模拟真实的水下环境。因此亟需一种新的更加接近真实侧扫声呐图像的生成模型。近年来,扩散模型(Diffusion Model)因其解决了GAN难以收敛的问题,开始在图像、视频和语音生成领域大放异彩[16]。相比于GAN,扩散模型具有生成模式稳定、生成数据多样化、生成结果质量高的优点。

综上所述,本文提出一种参数高效微调Stable Diffusion模型的侧扫声呐图像数据集扩充方法,用于更加稳定、高效地生成逼真的侧扫声呐图像数据。通过一系列定性和定量的方法对生成图像的质量进行评估,以及在主流的目标检测网络上进行训练和测试,验证了本文方法的有效性,为侧扫声呐图像数据集的扩充提供了一种新的解决思路。

1 侧扫声呐图像生成方法介绍 1.1 Diffusion Model网络结构

Diffusion Model是一种基于物理热力学扩散思想的深度学习生成式模型,它定义了一个包含扩散步骤的马尔可夫链,该链的当前状态只与上一时刻的状态有关。该模型通过逐步向真实数据中添加随机噪声(正向扩散过程),然后学习图像去噪过程(逆向扩散过程),最后从噪声中构建所需的数据样本。扩散模型的训练过程如图1所示。

图 1 扩散模型原理示意图 Fig. 1 Schematic diagram of diffusion model

其中前向扩散过程如图1(a)所示,向输入图像${x_0}$中逐步加入高斯噪声,分$T$步进行,该过程将产生一系列噪声图像${x_1},...,{x_T}$。当$T \to \infty $时,将变成一张完全噪声图像,类似于从各向同性高斯分布中采样得到的图像。具体实现时,可使用一个闭合公式在特定的时间步长$t$直接对图像进行噪声的添加,取代逐步向图像添加噪声的方式。正向扩散过程可描述为:

$ q({x_t}|{x_{t - 1}}) = \mathcal{N}\left({x_t};\sqrt {1 - {\beta _t}} {x_{t - 1}},{\beta _t}I\right) 。$ (1)

式中:$t$为时间帧(0~$T$);${x_t}$为从真实数据分布$q(x)$中采样得到的(${x_0}{\text ~}q(x)$),${\beta _t}$代表不同步长的${\beta _{}}$$0 \leqslant {\beta _t} \leqslant 1$,且${\beta _0}$较小,${\beta _T}$较大;$I$为单位矩阵。

逆向扩散过程如图1(b)所示,采用U-Net网络进行去噪。U-Net网络由一个编码路径和一个解码路径组成,形似字母“U”,具体结构如图1(c)所示。码路径遵循卷积网络的典型架构,由2个3×3卷积和一个步长为2的2×2最大池化操作组成,其中卷积层上的数字表示通道数,且每个卷积操作的后面都包含一个ReLU激活层。解码路径中的每个步骤都包括特征图的上采样和2个3×3卷积,同样,每个卷积操作的后面也都包含一个ReLU激活层。逆向扩散过程为:

$ q\left(x_{t-1}|x_t\right)=\mathcal{N}\left(x_{t-1};\tilde{\mu}_t\left(x_t,x_0\right),\tilde{\beta}_tI\right)。$ (2)

与正向扩散过程不同,逆向扩散过程不能直接使用$q({x_{t - 1}}|{x_t})$来逆转噪声。因此,需要训练神经网络${P_\theta }(x|{x_t})$来近似逼近$q({x_{t - 1}}|{x_t})$,如下式:

$ P_{\theta}\left(x_{t-1}|x_t\right)=\mathcal{N}\left(x_{t-1};u_{\theta}(x_t,t),\sum\limits_{\theta}^{ }(x_t,t)\right)。$ (3)

近似值${P_\theta }(x|{x_t})$服从正态分布,其均值和方差需要满足:

$ \left\{ {\begin{array}{*{20}{l}} {{\mu _\theta }({x_t},t)}{: = \widetilde {{\mu _t}}({x_t},{x_0})} ,\\ {\displaystyle\sum\limits_\theta {({x_t},t)} }{: = \widetilde {{\beta _t}}I}。\end{array}} \right. $ (4)
1.2 Stable Diffusion网络结构

Stable Diffusion在原始扩散模型的基础上引入了潜空间的概念,扩散过程在潜空间中进行,同时增加了文本控制生成结构,使生成过程更加可控[17]。Stable Diffusion原理如图2所示。首先,使用编码器E将全尺寸图像编码为低维潜在数据,随后在潜在空间中对低维潜在数据进行正向和逆向扩散操作,最后由解码器D将潜在数据解码回图像。同时,Stable Diffusion改进了条件生成方式,通过使用交叉注意机制来增强U-Net网络,将内部扩散模型转变为条件图像生成器。图2中的开关用于在不同类型输入之间进行调节控制。对于文本输入,首先使用语言模型${\tau _\theta }$(如BERT、CLIP)将文本转换为嵌入(向量),然后通过多头注意力(Multi-head Attention)的(Q,K,V)映射到U-Net层。

图 2 Stable Diffusion结构原理图 Fig. 2 Schematic diagram of the stable diffusion structure
1.3 参数高效微调训练Stable Diffusion

由于Stable Diffusion预训练模型无法直接生成声呐图像,因此需要训练一个“侧扫声呐图像风格”的模型用于样本合成。侧扫声呐图像数据样本稀少,直接进行Stable Diffusion训练十分困难,且成本高昂。而光学图像和侧扫声呐图像具有很多相似之处,例如物体的形状、轮廓,因此可以采用参数高效微调的方式进行二次训练。全量微调如图3(a)所示,这种方式需要微调整个模型的参数,而Stable Diffusion参数量高达9.83亿,这会大幅增加时间和计算资源的消耗。因此本文采用LORA方法进行模型微调训练,相比于全量微调,该方法具有计算资源要求低、参数量小、训练时主模型参数不变等优点,并且能够在小样本数据集上训练。

图 3 全参数微调与LORA Fig. 3 Full parameter fine-tuning with LORA

在LORA的核心思想中,预训练模型是“过参数化”(Overparameterized)的,它拥有一个极小的“内在维度”,微调这个维度的参数和进行全参数微调能起到相同的效果[18]。LORA为全连接层增设了一个旁支结构,如图3(b)所示。这个旁支结构利用2个秩分解矩阵的乘积来近似微调训练中的更新值。在训练中,只更新旁支结构中的参数。

对于一个预训练权重$ {W_0} \in {\mathbb{R}^{d \times k}} $,采用如下规则表示参数的更新:

$ {W}_{0}+\Delta W={W}_{0}+BA。$ (5)

式中:$B \in {\mathbb{R}^{d \times r}},A \in {\mathbb{R}^{r \times k}}$,秩满足$ r \ll \min (d,k) $。训练过程中冻结参数${W_0}$不更新梯度,仅更新$A$$B$的参数,前向传播$h = {W_0}x$更改为:

$ h={W}_{0}x+DWx={W}_{0}x+BAx。$ (6)

式中:$A$初始化为随机高斯参数$N(0,{\sigma ^2})$$B$的初始化值为0。

2 实验设计与评价

为验证所提出方法的有效性,本文从定性评价和定量评价2个方面出发,并与CycleGAN生成图像的质量和多样性进行对比。同时,使用Faster R-CNN、YOLO、DETR等主流深度学习目标检测算法进行训练、测试,验证检测性能是否提升。

2.1 数据集构建

通过查阅相关文献、公开网站等,搜集和整理包含有效目标的侧扫声呐图像。构建了侧扫声呐图像数据集—SeabedObjects-SSS,共有沉船图像728张,数据集中的部分典型图像如图4所示。不难看出,相比常用的光学图像数据集,包含有效目标的侧扫声呐图像数据量较少,这将严重制约深度学习目标检测算法的性能。例如经典目标检测算法YOLOv5,建议数据集中每个类别的图像数量应该在1500张以上,才能获得较好的检测效果。所以进行数据集的扩充十分有必要。

图 4 SeabedObjects-SSS数据集中的部分典型图像 Fig. 4 Part of the representative image of the SeabedObjects-SSS dataset

参照文献[14]中的方法,从DOTA遥感数据集中裁剪挑选出2000张船舶图像用于CycleGAN的训练和测试。

2.2 实验环境与评价指标

模型的训练和推理过程在PyTorch1.13.1框架下运行,软件环境为CUDA 11.7,cudnn8.8.5,Python3.10。用于训练数据集的CPU是Intel (R) Core (TM) i5-13400F 2.50GHz,GPU是NVIDIA GeForce RTX4070。

本文采用评价指标Inception Score(IS)和Fréchet Inception Distance(FID)来定量分析生成数据集的质量。IS用于评估生成图像的多样性和质量,值越大代表生成图像具有更好的多样性和更高的质量。FID用于度量生成图像与真实图像之间的相似性,FID越小表示生成样本越接近真实数据分布。目标检测性能采用精度(Precision)、召回率(Recall)、mAP@0.5和mAP@0.5:0.95进行评价。

2.3 实验结果与分析 2.3.1 定性分析

使用Stable Diffusion模型进行推理时,加载训练好的声呐风格LORA模型,使用提示词Shipwreck进行控制生成。其中提示词相关性为7,采样步长分别设为20、25、30、35、40。最终一共生成了2052张沉船图像,生成的侧扫声呐图像中的部分典型样本如图5所示。CycleGAN用于将遥感图像转为伪声呐图像,原始遥感图像和对应生成的伪声呐图像的部分典型样本如图6所示。

图 5 Stable Diffusion生成的侧扫声呐图像中的部分典型样本 Fig. 5 Part of the representative sample in the side-scan sonar image generated by Stable Diffusion

图 6 CycleGAN转换遥感图像到伪声呐图像 Fig. 6 CycleGAN converts remote sensing images to pseudo-sonar images

可知,CycleGAN生成的伪声呐图像特征和原始遥感图像更加接近,不够逼真,这是由于CycleGAN依赖于输入遥感图像的特征信息。在现实中,遥感图像中的船舶目标与侧扫声呐图像中的沉船目标虽有一定的相似性,但具体的形态轮廓、位置、目标物完整度等都存在较大的差异。尤其是在水下搜救、打捞和考古场景中,目标物往往是残骸,会存在主体破损和不完整的情况。此外,CycleGAN需要2个图像一一对应,生成模式过于机械,不够灵活。相比而言,Stable Diffusion则更多地学习到了侧扫声呐图像的多种特征,如形态轮廓、目标物可能存在的残缺、截断和破损等,生成图像中目标的大小、位置、形态并不完全依赖于原始的声呐图像,具有较高的自由度。另一方面,Stable Diffusion只需要输入提示词即可推理生成侧扫声呐图像,而CycleGAN还需要额外的遥感图像作为输入,因此本文所提方法能够实现更低成本、更灵活的侧扫声呐图像生成。

2.3.2 定量分析

分别采用评价指标IS和FID来评估Stable Diffusion和CycleGAN生成的图像,具体结果如表1所示。

表 1 图像生成模型的性能对比 Tab.1 Performance comparison of image generation models

可以看出,Stable Diffusion模型在侧扫声呐图像生成方面的性能整体优于CycleGAN。IS指标提高了67.4%,表明Stable Diffusion模型生成的图像具有更好的质量和多样性。从FID指标降低了17.1%,说明Stable Diffusion模型生成图像的特征分布更接近侧扫声呐图像。

2.3.3 目标检测网络性能评价

为了更直观地评价本文方法对舰船声呐图像目标检测算法的影响,将生成图像加入原始数据集后形成扩充数据集SeabedObjects-SSS-V2。2个数据集均按照6∶2∶2的比例划分训练集、验证集和测试集。分别在Faster R-CNN、YOLOv3、YOLOv5s、YOLOv7、YOLOV8n和DETR等主流目标检测网络上进行训练和测试,测试结果如表2所示。

表 2 目标检测网络的性能对比 Tab.2 Performance comparison of target detection networks

可以看出,对于多种主流的目标检测网络,使用SeabedObjects-SSS-V2数据集后,检测性能都有不小的提升,Precision、Recall、mAP@0.5和mAP@0.5∶0.95均有所提高。YOLOv8n模型在测试集上的mAP@0.5和mAP@0.5:0.95分别有22.9%和30.6%的提升,提升幅度较大。提升幅度最小的DTER模型的mAP@0.5和mAP@0.5∶0.95,也分别有14.1%和6.1%。实验表明,把Stable Diffusion生成的样本数据加入到真实侧扫声呐数据集后,可以有效改善目标检测网络的训练,提升检测性能。

综上所述,采用参数高效微调Stable Diffusion的侧扫声呐图像数据集扩充方法,能够丰富数据集的样本特征,解决了数据集样本表示稀疏的问题,进而提高了模型的泛化能力,最终使模型在测试集上的性能得到了提升,证明了本文提出的侧扫声呐数据集扩充方法的有效性。

3 结 语

本文提出一种基于参数高效微调Stable Diffusion的侧扫声呐图像数据集扩充方法。该方法旨在为深度学习算法的训练提供一种低成本且高质量的手段,进而提高舰船声呐系统的探测性能。通过与基于CycleGAN的扩充方法相比较,本方法展现出了更高的灵活性,并且能够生成更为逼真的图像数据,同时摆脱了输入图像的限制。

经过实验验证,采用Stable Diffusion模型生成的图像数据在质量、多样性方面均优于CycleGAN的结果,并且更加接近真实侧扫声呐图像数据的特征分布。将扩充后的声呐图像数据用在主流的侧扫声呐目标检测算法中进行训练和测试后,算法性能得到了提升。本文方法能够实现稳定、高质量、低成本的侧扫声呐图像样本扩充,解决了深度学习算法在水下目标检测领域应用困难的问题,为舰船侧扫声呐的自动化目标检测研究提供了一种新的思路。

参考文献
[1]
YU Y, ZHAO J, GONG Q, et al. Real-time underwater maritime object detection in side-scan sonar images based on transformer-YOLOv5[J]. Remote Sensing, 2021, 13(18): 3555. DOI:10.3390/rs13183555
[2]
ZHU B, WANG X, CHU Z, et al. Active learning for recognition of shipwreck target in side-scan sonar image[J]. Remote Sensing, 2019, 11(3): 243. DOI:10.3390/rs11030243
[3]
BURGUERA A, BONIN-FONT F. On-line multi-class segmentation of side-scan sonar imagery using an autonomous underwater vehicle[J]. Journal of Marine Science and Engineering, 2020, 8(8): 557. DOI:10.3390/jmse8080557
[4]
葛慧林, 戴跃伟, 朱志宇, 等. 基于改进YOLOv7声光融合水下目标检测方法[J]. 舰船科学技术, 2023, 45(12): 122-127.
GE H L, DAI Y W, ZHU Z Y, et al. Research on acoustic-optical image fusion underwater target detection method based on improved YOLOv7[J]. Ship Science and Technology, 2023, 45(12): 122-127.
[5]
张家铭, 丁迎迎. 基于深度学习的声呐图像目标识别[J]. 舰船科学技术, 2020, 42(23): 133-136.
ZHANG J M, DING Y Y. Sonar image target recognition based on deep learning[J]. Ship Science and Technology, 2020, 42(23): 133-136. DOI:10.3404/j.issn.1672-7649.2020.12.026
[6]
FUCHS L R, NORÉN A, JOHANSSON P. GAN-enhanced simulated sonar images for deep learning based detection and classification[C]//OCEANS 2022-Chennai. IEEE, 2022.
[7]
LI C, YE X, CAO D, et al. Zero shot objects classification method of side scan sonar image based on synthesis of pseudo samples[J]. Applied Acoustics, 2021, 173: 107691. DOI:10.1016/j.apacoust.2020.107691
[8]
CHENG N, ZHAO T, CHEN Z, et al. Enhancement of underwater images by super-resolution generative adversarial networks[C]//Proceedings of the 10th International Conference on Internet Multimedia Computing and Service, 2018.
[9]
SONG Y, HE B, LIU P, et al. Side scan sonar image segmentation and synthesis based on extreme learning machine[J]. Applied Acoustics, 2019, 146: 56-65. DOI:10.1016/j.apacoust.2018.10.031
[10]
YANG D, WANG C, CHENG C, et al. Data generation with gan networks for sidescan sonar in semantic segmentation applications[J]. Journal of Marine Science and Engineering, 2023, 11(9): 1792. DOI:10.3390/jmse11091792
[11]
STEINIGER Y, KRAUS D, MEISEN T. Generating synthetic sidescan sonar snippets using transfer-learning in generative adversarial networks[J]. Journal of Marine Science and Engineering, 2021, 9(3): 239. DOI:10.3390/jmse9030239
[12]
LIU D, WANG Y, JI Y, et al. Cyclegan-based realistic image dataset generation for forward-looking sonar[J]. Advanced Robotics, 2021, 35(3−4): 242-254. DOI:10.1080/01691864.2021.1873845
[13]
李宝奇, 黄海宁, 刘纪元, 等. 基于改进CycleGAN的光学图像迁移生成水下小目标合成孔径声纳图像算法研究[J]. 电子学报, 2021, 49(9): 1746−1753.
LI B Q , HUANG H N , LIU J Y , et al. Optical image-to-underwater small target synthetic aperture sonar image translation algorithm based on improved cyclegan[J]. Acta Electonica Sinica, 2021, 49(9): 1746−1753.
[14]
汤寓麟, 王黎明, 余德荧, 等. 基于CSLS-CycleGAN的侧扫声纳水下目标图像样本扩增法[J/OL]. 系统工程与电子技术, 1−16[2024-03-09].
TANG Y L, WANG L M, YU D Y, et al. A CSLS-CycleGAN based side-scan sonar sample augmentation method for underwater target images[J]. Systems Engineering and Electronics, 1−16[2024-03-09].
[15]
ARORA S, RISTESKI A, ZHANG Y. Do GANs learn the distribution some theory and empirics[C]//International Conference on Learning Representations, 2018.
[16]
YANG L, ZHANG Z, SONG Y, et al. Diffusion models: A comprehensive survey of methods and applications[J]. ACM Computing Surveys, 2023, 56(4): 1-39.
[17]
ROMBACH R, BLATTMANN A, LORENZ D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2022.
[18]
HU E J, SHEN Y, WALLIS P, et al. Lora: Low-rank adaptation of large language models[J]. arXiv preprint arXiv: 2106.09685, 2021.