面向气象无人艇的实时海面场景分类方法

引用本文

苏睿涵, 胡剑秋, 蔡庆, 邓强, 刘盼盼. 面向气象无人艇的实时海面场景分类方法. 舰船科学技术, 2025, 47(6): 88-93 复制到剪切板

SU Ruihan, HU Jianqiu, CAI Qing, DENG Qiang, LIU Panpan. Real-time sea scene classification method for meteorological unmanned surface vehicles. Ship Science and Technology, 2025, 47(6): 88-93 复制到剪切板

面向气象无人艇的实时海面场景分类方法

苏睿涵^1,2, 胡剑秋¹, 蔡庆^1,2, 邓强^1,2, 刘盼盼^1,2

1. 江苏自动化研究所高新技术部，江苏连云港 222061;
2. 中船（北京）智能装备科技有限公司，北京 102600

收稿日期: 2024-05-11.

基金项目: 国家重点研发计划重点专项（2021YFC3090200）

作者简介: 苏睿涵（1999 – ），男，硕士研究生，研究方向为图像处理和行为意图分析

摘要: 在海面气象观测任务中，面对复杂多样的海面场景，无人艇执行任务过程中需要准确识别、分类海面场景，基于识别分类结果实时改变感知决策策略，以保证航行安全和高效作业。本文提出MSSNet场景分类模型，创新性地将MobileNeXt模块与MobileVit模块融合，并引入CA注意力模块高效提取全局语义信息，提高模型识别性能。本文基于艇载多种图像传感器构建无人艇海面场景分类图像数据集，包括雾天、强光、弱光、水渍、盐渍、夜间和正常等7类场景。经试验测试，本文提出的MSSNet模型在海面场景分类图像数据集上的准确率为96.60%，比 MobileNetv3、ViT等主流模型提高了3.53%，满足气象观测任务中无人艇自主航行的需求。

关键词: 海面气象观测无人艇海面场景分类神经网络注意力机制

Real-time sea scene classification method for meteorological unmanned surface vehicles

SU Ruihan^1,2, HU Jianqiu¹, CAI Qing^1,2, DENG Qiang^1,2, LIU Panpan^1,2

1. Jiangsu Automation Research Institute, High Technology Department, Lianyungang 222061, China;
2. CSSC Beijing Intelligent Equipment Technology Co., Ltd., Beijing 102600, China

Abstract: In sea surface meteorological observation tasks, faced with complex and diverse sea surface scenarios, unmanned aerial vehicles (UAVs) need to accurately identify and classify sea surface scenes during the execution process. Based on the recognition and classification results, the perception decision strategy needs to be changed in real time to ensure navigation safety and efficient operation. In response to the problem of sea surface scene recognition, this paper proposes the MSSNet scene classification model, which innovatively integrates the MobileNeXt module with the MobileVit module, and introduces the CA attention module to efficiently extract global semantic information, improving the recognition performance of the model. This article constructs a dataset of unmanned boat sea surface scene classification images based on various onboard image sensors, including seven categories of scenes: foggy, strong light, weak light, waterlogged, saline, nighttime, and normal. After experimental testing, the accuracy of the MSSNet model proposed in this article on the sea scene classification image dataset is 96.60%, which is 3.53% higher than mainstream models such as MobileNetv3 and ViT, and meets the needs of autonomous navigation of unmanned boats in meteorological observation tasks.

Key words: sea surface meteorological observation unmanned surface vehicles classification of sea scene neural network attention mechanism

0 引　言

海洋气象观测是研究海洋、开发海洋、利用海洋的基础，在维护海洋权益、开发海洋资源、预警海洋灾害、保护海洋环境等方面起到重要作用^[1]。现代海洋气象立体观测联合气象卫星、岸基气象站、气象浮标、气象无人艇等设备开展协同观测，扩大观测区域范围并提高气象预测精度，其中搭载专用观测设备的气象无人艇可在海上长时机动观测气象资料，能够航行到最优观测位置连续跟踪观测，对于浓雾、台风等极端气象情况能实施抵近观测，具有其他手段不具备的独特优势。因此气象无人艇对海况的适应性要求较高，在任务执行过程中，将遭遇风浪、雨雾、复杂光照等恶劣场景，需要自适应调整船舶感知、规划和控制等策略，因此本文针对海面多种复杂场景识别进行研究。

视觉信息是无人艇全面、直观获取外界信息的重要感知源^[4]，基于视觉信息的复杂场景识别是智能船舶自适应调整策略的重要基础。相较于车载或者机载相机的应用场景，搭载在气象无人艇的视觉传感器面临的环境更加复杂，如复杂光照、水面漫反射、海浪涌动冲击造成无人艇颠簸画面不稳定、高速行驶时的镜头上浪等，这些现象都严重影响了相机的成像质量和感知效果，进而影响规划和控制效果。因此，基于视觉的无人艇场景类型快速识别的研究对于气象无人艇意义重大。

针对基于图像的海面场景分类问题，传统机器学习方法^{[1 - 3]}普遍提取纹理、颜色等特征，结合分类器进行分类，如可识别标记晴天、多云和阴天等天气，这种方法泛化能力弱，对人工经验依赖高，特征设计周期长。近年来，随着计算机硬件的发展，在自然语言处理、计算机视觉等领域，深度神经网络技术被广泛应用，在图像分类领域现阶段效果较好的模型架构主要是卷积神经网络（Convolution Neural Network，CNN）^[4]和视觉Transformer网络（Vision Transformer，ViT）^[5]两类，如Le等^[4]采用AlexNet、GoogLeNet等成熟的卷积网络模型对天气场景进行分类，准确率高达92%，相较传统方法提升了性能；Li等^[6]提出多特征加权融合方法，对天气特征和卷积神经网络提取的深层特征通过不同权值的融合，自适应学习5类天气条件分类器，性能优于单独使用卷积神经网络，但天气特定特征设计困难；随着Transformer方法^[7]的提出，在图像分类领域开辟了另一条道路，该模型基于自注意力机制，通过对全局特征进行归纳建模实现图像分类，相关试验结果表明在大规模数据集上，比卷积神经网络有着更强的特征提取能力，但模型参数大，训练与推理耗时更长。

气象无人艇面临的海面场景复杂多变，现有的实时分类方法落地应用时主要存在如下问题：一是艇载视觉传感器探测范围有限，受平台姿态变化影响大；二是气象无人艇需工作在不同气象水文条件、不同海域场景，数据集需充分考虑场景多样性，现阶段缺乏满足条件的公开数据集；三是不同气象水文环境下无人艇自主航行的威胁程度不同，如雾天严重影响航行速度，而弱光环境影响则较小，但2种样本图像相似度高，现有检测方法误检率高；四是气象无人艇算力有限，场景分类方法需兼顾准确性和实时性，不过度占用艇载算力资源。

本文针对气象无人艇观测任务海面场景分类问题，创新性地将MobileNeXt模块与MobileViT模块融合，设计一种新型的高效混合网络架构，实现画面场景全局特征和语义特征的深层融合；并引入CA注意力模块，构建了轻量化海面场景分类模型（Mobile Sea Scenes Net，MSSNet），能够自适应地关注场景类别关键性特征，提高复杂海况场景分类任务的准确性和实时性。在自构建的无人艇海面场景分类数据集上进行了测试验证，达到96.60%的分类准确率。

1 海面场景

针对气象无人艇的海面场景构建，需要充分考虑场景构建在自主航行过程中的使用需求，根据天气特点进行针对性的数据增强，保障后续态势分析数据来源的可靠性；此外，正确的场景识别可检出镜头状态，自适应地控制雨刷、暖风机等设备的启动，保障数据源质量，避免因海浪、雨水等造成的镜头水渍、镜头盐渍等现象，干扰摄像头采集源使图像质量下降，造成后续目标误判和漏判；最后，识别环境信息可为后续的态势感知融合策略的自适应调整提供更全面的输入，提高海情综合判断的准确度。

气象场景数据集的数据来源情况如下：在海域分布方面，利用气象观测无人艇等多艘智能船舶，收集了东海、南海、北海的多个国内具有代表性海域情况；在航行区域方面，收集了港区、出港、进港和外海的航行情况，覆盖气象无人艇自主航行过程；在图像采集方面，考虑了载体不同机动条件、不同季节、不同采集时刻、不同气象水文条件等常见场景。海面场景分类数据集如表1所示^[8]。

表 1 海面场景情况说明表 Tab.1 Explanation of sea scene situation table

2 海面场景分类模型 2.1 总体结构

在气象无人艇执行观测任务时，面临海面场景的多样性和艇端部署轻量化的需求，基于此，本文提出海面场景分类模型MSSNet，总体结构如图1所示。

图 1 MSSNet模型结构示意图 Fig. 1 Schematic diagram of MSSNet model structure

可知，MSSNet模型首先使用一个3×3的卷积模块对图像进行局部特征提取，并对输入图像进行下采样，后依次进入3个浅层特征提取模组、注意力CA模块、2个深层特征提取模组，其中层1模组和层2模组仅包含移动网络模块MobileNeXt（简称MNX）模块，标↓2的模块代表步长为2的情况，层3、层4、层5模组融合MNX模块和移动视觉变压器模块MobileViT（MVT）模块，最后使用1×1卷积模块调整通道数，经过全局池化层和全连接层获取分类预测的逻辑值。

2.2 MNX模块

MobileNeXt模块^[9]结构如图2 所示，输入输出维度如表2 所示，由2个1×1逐点卷积和2个3×3深度卷积构成，与主流轻量级框架中的倒残差模块^[10]相比使用更多的网络有利于缓解梯度混淆，编码更多空间信息。

图 2 MNX模块与逆残差模块结构对比示意图 Fig. 2 Comparison diagram of MNX module and inverse residual module structure

由图2可知，MNX模块有效解决了卷积层降维处理导致的信息保留不够的问题，还改变了shortcut的布置，减少了梯度回传产生的阻碍，并且MNX模块有更宽更多的卷积网络结构，可以有效解决梯度抵消问题，提取更多更有效的空间特征。3×3的深度卷积层，可用来提取特征，但相比于常规卷积层相比，舍弃不同通道在相同空间位置上的feature信息关联，采用一个卷积核负责一个通道的方式，其参数量和运算成本较低。

表 2 MNX模块情况说明表 Tab. 2 MNX module situation explanation table

输入维度	算子	输出维度
$H\times W\times C$	$3\times 3$ 深度卷积核，ReLU6激活函数	$H\times W\times C$
$H\times W\times C$	$1\times 1$ 逐点卷积核，线性激活函数	$H\times W\times \dfrac{C}{t}$
$H\times W\times \dfrac{C}{t}$	$1\times 1$ 逐点卷积核，ReLU激活函数	$H\times W\times N$
$H\times W\times N$	$3\times 3$ 深度卷积核，线性激活函数，步距 $s$	$\dfrac{H}{s}\times \dfrac{W}{s}\times N$

表 2 MNX模块情况说明表 Tab.2 MNX module situation explanation table

2.3 MVT模块

针对卷积神经网络在全局语义依赖性建模方面的局限性，本文融合Transformer模块与MNX模块，形成MVT模块，提升模型的空间归纳偏置和全局感知能力。

MVT模块由多头注意力机制和多层感知机组成，如图3所示，通过1个n×n大小卷积核提取输入特征图的局部特征，后由1×1卷积改变通道层数后输入展开层，将数据格式转化以满足Transformer层的需要，然后将改变格式后的数据输入Transformer对全局位置特征进行捕捉学习，进行全局特征建模，如图3所示，相较于原本所有部分参与注意力计算，仅将相同颜色部分进行计算节省了算力。之后输出的数据经由折叠层拼接后由1×1卷积核将通道数调整为与原始输入相匹配的大小，与原始输入特征沿通道方向拼接，最后再通过一个卷积核大小为n×n的卷积层做特征融合得到输出。

图 3 MVT模块结构示意图 Fig. 3 Schematic diagram of MVT module structure

MVT模块通过多头注意力机制提取特征矩阵更深层信息，计算过程如下：

$Attention(Q,K,V)=soft\mathrm{max}\left(\frac{QK\mathrm{^T}}{\sqrt{d_k}}\right)V，$

(1)

$h_i=Attention(QW_i^Q,KW_i^K,VW_i^V)，$

(2)

$MHQ(Q,K,V)=concat(h_1,\dots,h_i)。$

(3)

式中： $Q,K,V\in {R}^{{N}^{2}d}$ 分别为查询、键和值； ${W}_{i}$ 为一组权重矩阵； ${N}^{2}$ 为自注意力的token数量；d为Q、K、V的维度。

原始的VIT（Vision Transforme）模型在准确性方面已经达到甚至超过主流CNN模型的识别效果，但由于多头注意力的计算方式使得参数量大，无法满足实时性的要求，同时由于位置编码的引入使得输入图像分辨率发生改变时的迁移任务比较繁琐，所以本文采用MVT模块优化位置编码，改进注意力计算方式，减少注意力计算的参数量，满足无人艇上模型推理实时性的要求。

2.4 注意力模块

海面气象观测场景图像中存在大量重复无用的背景噪声，不同海面场景存在大量的相似特征，为减少这些噪声和相似特征对识别结果的影响，通过对通道和空间注意力的提取，本文引入CA注意力模块^[11]，其结构如图4所示。

图 4 CA注意力模块结构示意图 Fig. 4 Schematic diagram of CA module structure

可知，其中H×W×C分别对应输入数据的高度×宽度×通道数。首先，为了获得高宽上的注意力并对位置信息进行编码，对输入特征图从高宽2个方向进行全局平均池化分别获得2个方向的特征图，如式(4)和式(5)所示；接着拼接2个特征图，如式(6)所示；通过卷积操作降维为C/r后，进行归一化处理送入Sigmoid函数获得1×(W+H)×C/r 的输出f；接着将特征图f按最初的高宽通过卷积获得与原先通道数相同的特征图 ${f}^{h}$ 和 ${f}^{w}$ ，对这2个输出分别经过Sigmoid函数获得高宽方向的注意力权重g，如式(7)和式(8)所示。最后在原始特征图上通过乘法加权高宽方向的g获得最终的输出特征图，如式(9)所示。

$z_c^h\left(h\right)=\frac{1}{W}\sum_{0\leqslant i < W}^{ }x_c(h,i)，$

(4)

$z_c^w\left(w\right)=\frac{1}{H}\sum_{0\leqslant j < H}^{ }x_c(j,w)，$

(5)

$f=\delta \left({F}_{1}\right([{z}^{h},{z}^{w}]\left)\right)，$

(6)

${g}^{h}=\sigma \left({F}_{h}\right({f}^{h}\left)\right)，$

(7)

${g}^{w}=\sigma \left({F}_{w}\right({f}^{w}\left)\right)，$

(8)

$y_c(i,j)=x_c(i,j)\times g_c^h\left(i\right)\times g_c^w\left(j\right)。$

(9)

式中： $C$ 为通道数； $H$ 为通道的高； $W$ 为通道的宽； ${x}_{c}(h,i)$ 为水平方向第 $c$ 通道上高度为 $h$ 、宽度为 $i$ 的特征； ${x}_{c}(j,w)$ 为垂直方向第 $c$ 通道上高度为 $j$ 、宽度为 $w$ 的特征； ${F}_{1}$ 为共享的1×1卷积变换函数； $\delta$ 为非线性激活函数； ${x}_{c}(i,j)$ 为第 $c$ 通道上高为 $i$ 、宽为 $j$ 的输入特征； ${g}_{c}^{h}\left(i\right)$ 为第 $c$ 通道上水平方向高为 $i$ 的注意力权重； ${g}_{c}^{w}\left(j\right)$ 为第 $c$ 通道上垂直方向宽为 $j$ 的注意力权重。

3 试验与结果 3.1 数据集

为了更好地满足无人艇自主航行任务需求，利用安装在无人艇上的可见光定焦相机与光电跟踪仪进行图像采集收集数据集。

自构建数据集如表1所示，共包含7类，图像分辨率为1920×1080像素，按3∶7的比例划分用于训练和测试，训练数据按8∶2比例划分为训练集和验证集，训练集用于学习训练权重参数，验证集用于调整模型参数进行评估，测试集用于评估模型最终性能。

3.2 试验环境

模型试验验证的硬件环境：CPU为Intel i9-13900K，内存64 G，GPU为NVIDIA GeForce RTX 3090，操作系统为Windows10，深度学习软件框架为Pytorch^[12]。

所用模型使用相同参数设置，模型优化器选择为Adam优化器，学习率为0.0001，采用反向传播和梯度下降算法对模型进行优化，batch size为8，使用测试集验证模型性能，以便更好地验证模型的泛化性。

3.3 评价标准

为了准确全面地判断模型的泛化性能和实用性，用准确率Accuracy、召回率Recall、精确率Precision、F₁分数和帧率FPS 5种性能度量指标评价模型的分类能力^[13]，公式表达如下：

$Accuracy=\frac{TP+TN}{TP+TN+FP+FN}，$

(10)

$Recall=\frac{TP}{TP+FN}，$

(11)

$Precision=\frac{TP}{TP+FP}，$

(12)

$F_1=\frac{2\times Precision\times Recall}{Precision+Recall}，$

(13)

$FPS=\frac{N}{T}。$

(14)

式中： $TP$ 为将正样本预测为正样本的数量； $TN$ 为将负样本预测为负样本的数量； $FP$ 为将负样本预测为正样本的数量； $FN$ 为将正样本预测为负样本的数量； $N$ 为测试集图片数量； $T$ 为处理测试集图片所用的时间。

3.4 试验结果与分析

为验证MSSNet模型的分类性能的优越性，分别与ResNet50、MobileNetv3、ViT和MobileViT模型进行对比分析。试验数据通过多次试验取最优值并进行混淆矩阵的绘制，如图5 所示。

图 5 海面场景分类数据集上各模型混淆矩阵示意图 Fig. 5 Schematic diagram of confusion matrices for various models on the sea surface scene classification dataset

在无人艇海面场景分类数据集的测试集上计算出各模型的准确率、召回率、精确率和F₁分数，如表3所示。

表 3 各类深度网络模型验证集准确率对照表 Tab.3 Accuracy comparison of various deep network model validation sets

由图5可知，对无人艇航行威胁程度大的强干扰类环境，即雾天、水渍和强光，MSSNet模型的漏检率处于最低，可以最大程度地保障无人艇对恶劣环境的识别情况。如表3所示，MSSNet模型的准确率为96.60%，召回率为96.58%，精确率为96.65%，F1分数为96.61%。其中准确率指标比ResNet50、ViT和MobileNetv3这些主流模型至少提高了3.53%，在处理海上场景分类任务中具有一定的优势；其余反应模型泛化性能的3项指标均处于最高，表明MSSNet模型在识别海面场景时具有较高的准确性和稳定性。在实时性方面，帧率作为评估模型实时性的重要指标，MSSNet模型平均处理图片每秒7.42张，仅次于MobileNetv3模型，优于ResNet50等主流模型，满足气象观测任务中无人艇实时进行场景分类的需求。

3.5 消融试验

为验证MSSNet模型中MNX模块和CA模块的有效性，进行消融试验，其中MSSNet-C模型去除MSSNet模型中CA模块，MobileViT模型将MSSNet-C模型中的MNX模块替换为mobilenet模块。消融试验通过多次试验取最优值并进行混淆矩阵的绘制，如图6所示。

图 6 消融试验混淆矩阵 Fig. 6 Confusion matrix for ablation experiments

在无人艇海面场景分类数据集的测试集上计算出各模型的准确率、召回率、精确率和F1分数，如表4所示。

表 4 消融试验模型对照表 Tab.4 Comparison table of ablation experimental model

可知，通过对比MSSNet-C模型和MSSNet模型测试效果，CA模块的引入在准确率方面带来了2.45%的提高；比较MobileViT模型和MSSNet-C模型，MNX模块的引入在准确率方面带来了0.53%的提高，以上2组消融试验验证了MNX模块和CA模型的引入在MSSNet模型中的有效性。

4 结　语

本文针对海面场景分类任务设计了包括7种不同海面环境的图像数据集，有效覆盖了气象无人艇作业时遇到的大部分环境，并基于此提出一种融合MNX模块、CA注意力模块和MVT模块的MSSNet分类模型。消融试验验证了本文提出的MNX模块和CA模块的有效性。对比试验表明，与主流的分类模型相比，本模型在保持较好实时性的同时，场景分类效果更高、更稳定，对强干扰类环境识别的漏检率低，满足气象观测任务中无人艇自主航行的需求，后续将融合多种传感器信息，形成更完备和更准确的海面环境态势。

参考文献

[1]	胥凤驰, 王伟, 李哲, 等. 水面无人艇系统的设计实现与未来展望[J]. 舰船科学技术, 2019, 41(23): 39−43. XU F C, WANG W, LI Z, et al. Design and realization of unmanned surface vessel system and its future prospects[J]. Ship Science and Technology, 2019, 41(23): 39−43.
[2]	王博. 无人艇光视觉感知研究发展综述[J]. 舰船科学技术, 2019, 41(23): 44−49. WANNG B. Review of development in perception of unmanned surface vehicle based on optical vision[J]. Ship Science and Technology, 2019, 41(23): 44−49.
[3]	CHEN Z, YANG F, LINDNER A, et al. Howis the weather: Automatic inference from images[C]// 2012 19th IEEE International conference on image processing. 2012.
[4]	LECUN Y, BOTTOU L. "Gradient−based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278−2324.
[5]	DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[C]// International Conference on Learning Representation, 2021.
[6]	LI Z, LI Y, ZHONG J, et al. Multi-class weather classification based on multi-feature weighted fusion method[J]. IOP Conference Series: Earth and Environmental Science, 2020, 58(5):38−42.
[7]	VASWANI, ASHISH, NOAM S, et al. Attention is all you need[J]. Computer Science, 2023, 7(V1):5−15.
[8]	戴军, 金代中, 高志峰. 基于纹理特征驱动AdaBoost算法的海面场景分类[J]. 激光与红外, 2015, 45(4): 462−466. DAI J, JIN D Z, GAO Z F. Sea scene classification based on AdaBoost algorithm with texture characteristics[J]. LASER & INFRARED, 2015, 45(4): 462−466.
[9]	ZHOU D Q. Rethinking bottleneck structure for efficient mobile network design[J]. Computer Vision-ECCV 2020: 16th European Conference, 2020, 16(3): 23–28.
[10]	SANDLER M, HOWARD A, ZHU M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]// Proceedings of the IEEE conference on computer vision and pattern recognition. Interted Residuals, 2018.
[11]	HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design[C]// Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. Computer Vision and Pattern Recognition, 2021.
[12]	PASZKE, ADAM, SAM G, et al. Pytorch: An imperative style, high-performance deep learning library[J]. Computer science, 2019, 12(2): 3−15.
[13]	周志华. 机器学习[M]. 北京: 清华大学出版社, 2016.


舰船科学技术 2025, Vol. 47 Issue (6): 88-93 DOI: 10.3404/j.issn.1672-7649.2025.06.014	PDF