2. 中船(北京)智能装备科技有限公司,北京 102600
2. CSSC Beijing Intelligent Equipment Technology Co., Ltd., Beijing 102600, China
海洋气象观测是研究海洋、开发海洋、利用海洋的基础,在维护海洋权益、开发海洋资源、预警海洋灾害、保护海洋环境等方面起到重要作用[1]。现代海洋气象立体观测联合气象卫星、岸基气象站、气象浮标、气象无人艇等设备开展协同观测,扩大观测区域范围并提高气象预测精度,其中搭载专用观测设备的气象无人艇可在海上长时机动观测气象资料,能够航行到最优观测位置连续跟踪观测,对于浓雾、台风等极端气象情况能实施抵近观测,具有其他手段不具备的独特优势。因此气象无人艇对海况的适应性要求较高,在任务执行过程中,将遭遇风浪、雨雾、复杂光照等恶劣场景,需要自适应调整船舶感知、规划和控制等策略,因此本文针对海面多种复杂场景识别进行研究。
视觉信息是无人艇全面、直观获取外界信息的重要感知源[4],基于视觉信息的复杂场景识别是智能船舶自适应调整策略的重要基础。相较于车载或者机载相机的应用场景,搭载在气象无人艇的视觉传感器面临的环境更加复杂,如复杂光照、水面漫反射、海浪涌动冲击造成无人艇颠簸画面不稳定、高速行驶时的镜头上浪等,这些现象都严重影响了相机的成像质量和感知效果,进而影响规划和控制效果。因此,基于视觉的无人艇场景类型快速识别的研究对于气象无人艇意义重大。
针对基于图像的海面场景分类问题,传统机器学习方法[1 - 3]普遍提取纹理、颜色等特征,结合分类器进行分类,如可识别标记晴天、多云和阴天等天气,这种方法泛化能力弱,对人工经验依赖高,特征设计周期长。近年来,随着计算机硬件的发展,在自然语言处理、计算机视觉等领域,深度神经网络技术被广泛应用,在图像分类领域现阶段效果较好的模型架构主要是卷积神经网络(Convolution Neural Network,CNN)[4]和视觉Transformer网络(Vision Transformer,ViT)[5]两类,如Le等[4]采用AlexNet、GoogLeNet等成熟的卷积网络模型对天气场景进行分类,准确率高达92%,相较传统方法提升了性能;Li等[6]提出多特征加权融合方法,对天气特征和卷积神经网络提取的深层特征通过不同权值的融合,自适应学习5类天气条件分类器,性能优于单独使用卷积神经网络,但天气特定特征设计困难;随着Transformer方法[7]的提出,在图像分类领域开辟了另一条道路,该模型基于自注意力机制,通过对全局特征进行归纳建模实现图像分类,相关试验结果表明在大规模数据集上,比卷积神经网络有着更强的特征提取能力,但模型参数大,训练与推理耗时更长。
气象无人艇面临的海面场景复杂多变,现有的实时分类方法落地应用时主要存在如下问题:一是艇载视觉传感器探测范围有限,受平台姿态变化影响大;二是气象无人艇需工作在不同气象水文条件、不同海域场景,数据集需充分考虑场景多样性,现阶段缺乏满足条件的公开数据集;三是不同气象水文环境下无人艇自主航行的威胁程度不同,如雾天严重影响航行速度,而弱光环境影响则较小,但2种样本图像相似度高,现有检测方法误检率高;四是气象无人艇算力有限,场景分类方法需兼顾准确性和实时性,不过度占用艇载算力资源。
本文针对气象无人艇观测任务海面场景分类问题,创新性地将MobileNeXt模块与MobileViT模块融合,设计一种新型的高效混合网络架构,实现画面场景全局特征和语义特征的深层融合;并引入CA注意力模块,构建了轻量化海面场景分类模型(Mobile Sea Scenes Net,MSSNet),能够自适应地关注场景类别关键性特征,提高复杂海况场景分类任务的准确性和实时性。在自构建的无人艇海面场景分类数据集上进行了测试验证,达到96.60%的分类准确率。
1 海面场景针对气象无人艇的海面场景构建,需要充分考虑场景构建在自主航行过程中的使用需求,根据天气特点进行针对性的数据增强,保障后续态势分析数据来源的可靠性;此外,正确的场景识别可检出镜头状态,自适应地控制雨刷、暖风机等设备的启动,保障数据源质量,避免因海浪、雨水等造成的镜头水渍、镜头盐渍等现象,干扰摄像头采集源使图像质量下降,造成后续目标误判和漏判;最后,识别环境信息可为后续的态势感知融合策略的自适应调整提供更全面的输入,提高海情综合判断的准确度。
气象场景数据集的数据来源情况如下:在海域分布方面,利用气象观测无人艇等多艘智能船舶,收集了东海、南海、北海的多个国内具有代表性海域情况;在航行区域方面,收集了港区、出港、进港和外海的航行情况,覆盖气象无人艇自主航行过程;在图像采集方面,考虑了载体不同机动条件、不同季节、不同采集时刻、不同气象水文条件等常见场景。海面场景分类数据集如表1所示[8]。
![]() |
表 1 海面场景情况说明表 Tab.1 Explanation of sea scene situation table |
在气象无人艇执行观测任务时,面临海面场景的多样性和艇端部署轻量化的需求,基于此,本文提出海面场景分类模型MSSNet,总体结构如图1所示。
![]() |
图 1 MSSNet模型结构示意图 Fig. 1 Schematic diagram of MSSNet model structure |
可知,MSSNet模型首先使用一个3×3的卷积模块对图像进行局部特征提取,并对输入图像进行下采样,后依次进入3个浅层特征提取模组、注意力CA模块、2个深层特征提取模组,其中层1模组和层2模组仅包含移动网络模块MobileNeXt(简称MNX)模块,标↓2的模块代表步长为2的情况,层3、层4、层5模组融合MNX模块和移动视觉变压器模块MobileViT(MVT)模块,最后使用1×1卷积模块调整通道数,经过全局池化层和全连接层获取分类预测的逻辑值。
2.2 MNX模块MobileNeXt模块[9]结构如图2 所示,输入输出维度如表2 所示,由2个1×1逐点卷积和2个3×3深度卷积构成,与主流轻量级框架中的倒残差模块[10]相比使用更多的网络有利于缓解梯度混淆,编码更多空间信息。
![]() |
图 2 MNX模块与逆残差模块结构对比示意图 Fig. 2 Comparison diagram of MNX module and inverse residual module structure |
由图2可知,MNX模块有效解决了卷积层降维处理导致的信息保留不够的问题,还改变了shortcut的布置,减少了梯度回传产生的阻碍,并且MNX模块有更宽更多的卷积网络结构,可以有效解决梯度抵消问题,提取更多更有效的空间特征。3×3的深度卷积层,可用来提取特征,但相比于常规卷积层相比,舍弃不同通道在相同空间位置上的feature信息关联,采用一个卷积核负责一个通道的方式,其参数量和运算成本较低。
![]() |
表 2 MNX模块情况说明表 Tab.2 MNX module situation explanation table |
针对卷积神经网络在全局语义依赖性建模方面的局限性,本文融合Transformer模块与MNX模块,形成MVT模块,提升模型的空间归纳偏置和全局感知能力。
MVT模块由多头注意力机制和多层感知机组成,如图3所示,通过1个n×n大小卷积核提取输入特征图的局部特征,后由1×1卷积改变通道层数后输入展开层,将数据格式转化以满足Transformer层的需要,然后将改变格式后的数据输入Transformer对全局位置特征进行捕捉学习,进行全局特征建模,如图3所示,相较于原本所有部分参与注意力计算,仅将相同颜色部分进行计算节省了算力。之后输出的数据经由折叠层拼接后由1×1卷积核将通道数调整为与原始输入相匹配的大小,与原始输入特征沿通道方向拼接,最后再通过一个卷积核大小为n×n的卷积层做特征融合得到输出。
![]() |
图 3 MVT模块结构示意图 Fig. 3 Schematic diagram of MVT module structure |
MVT模块通过多头注意力机制提取特征矩阵更深层信息,计算过程如下:
Attention(Q,K,V)=softmax(QKT√dk)V, | (1) |
hi=Attention(QWQi,KWKi,VWVi), | (2) |
MHQ(Q,K,V)=concat(h1,…,hi)。 | (3) |
式中:
原始的VIT(Vision Transforme)模型在准确性方面已经达到甚至超过主流CNN模型的识别效果,但由于多头注意力的计算方式使得参数量大,无法满足实时性的要求,同时由于位置编码的引入使得输入图像分辨率发生改变时的迁移任务比较繁琐,所以本文采用MVT模块优化位置编码,改进注意力计算方式,减少注意力计算的参数量,满足无人艇上模型推理实时性的要求 。
2.4 注意力模块海面气象观测场景图像中存在大量重复无用的背景噪声,不同海面场景存在大量的相似特征,为减少这些噪声和相似特征对识别结果的影响,通过对通道和空间注意力的提取,本文引入CA注意力模块[11],其结构如图4所示。
![]() |
图 4 CA注意力模块结构示意图 Fig. 4 Schematic diagram of CA module structure |
可知,其中H×W×C分别对应输入数据的高度×宽度×通道数。首先,为了获得高宽上的注意力并对位置信息进行编码,对输入特征图从高宽2个方向进行全局平均池化分别获得2个方向的特征图,如式(4)和式(5)所示 ;接着拼接2个特征图,如式(6)所示;通过卷积操作降维为C/r后,进行归一化处理送入Sigmoid函数获得1×(W+H)×C/r 的输出f;接着将特征图f按最初的高宽通过卷积获得与原先通道数相同的特征图
zhc(h)=1W∑0⩽i<Wxc(h,i), | (4) |
zwc(w)=1H∑0⩽j<Hxc(j,w), | (5) |
f=δ(F1([zh,zw])), | (6) |
gh=σ(Fh(fh)), | (7) |
gw=σ(Fw(fw)), | (8) |
yc(i,j)=xc(i,j)×ghc(i)×gwc(j)。 | (9) |
式中:
为了更好地满足无人艇自主航行任务需求,利用安装在无人艇上的可见光定焦相机与光电跟踪仪进行图像采集收集数据集。
自构建数据集如表1所示,共包含7类,图像分辨率为
模型试验验证的硬件环境:CPU为Intel i9-13900K,内存64 G,GPU为NVIDIA GeForce RTX 3090,操作系统为Windows10,深度学习软件框架为Pytorch[12]。
所用模型使用相同参数设置,模型优化器选择为Adam优化器,学习率为
为了准确全面地判断模型的泛化性能和实用性,用准确率Accuracy、召回率Recall、精确率Precision、F1分数和帧率FPS 5种性能度量指标评价模型的分类能力[13],公式表达如下:
Accuracy=TP+TNTP+TN+FP+FN, | (10) |
Recall=TPTP+FN, | (11) |
Precision=TPTP+FP, | (12) |
F1=2×Precision×RecallPrecision+Recall, | (13) |
FPS=NT。 | (14) |
式中:
为验证MSSNet模型的分类性能的优越性,分别与ResNet50、MobileNetv3、ViT和MobileViT模型进行对比分析。试验数据通过多次试验取最优值并进行混淆矩阵的绘制,如图5 所示。
![]() |
图 5 海面场景分类数据集上各模型混淆矩阵示意图 Fig. 5 Schematic diagram of confusion matrices for various models on the sea surface scene classification dataset |
在无人艇海面场景分类数据集的测试集上计算出各模型的准确率、召回率、精确率和F1分数,如表3所示。
![]() |
表 3 各类深度网络模型验证集准确率对照表 Tab.3 Accuracy comparison of various deep network model validation sets |
由图5可知,对无人艇航行威胁程度大的强干扰类环境,即雾天、水渍和强光,MSSNet模型的漏检率处于最低,可以最大程度地保障无人艇对恶劣环境的识别情况。如表3所示,MSSNet模型的准确率为96.60%,召回率为96.58%,精确率为96.65%,F1分数为96.61%。其中准确率指标比ResNet50、ViT和MobileNetv3这些主流模型至少提高了3.53%,在处理海上场景分类任务中具有一定的优势;其余反应模型泛化性能的3项指标均处于最高,表明MSSNet模型在识别海面场景时具有较高的准确性和稳定性。在实时性方面,帧率作为评估模型实时性的重要指标,MSSNet模型平均处理图片每秒7.42张,仅次于MobileNetv3模型,优于ResNet50等主流模型,满足气象观测任务中无人艇实时进行场景分类的需求。
3.5 消融试验为验证MSSNet模型中MNX模块和CA模块的有效性,进行消融试验,其中MSSNet-C模型去除MSSNet模型中CA模块,MobileViT模型将MSSNet-C模型中的MNX模块替换为mobilenet模块。消融试验通过多次试验取最优值并进行混淆矩阵的绘制,如图6所示。
![]() |
图 6 消融试验混淆矩阵 Fig. 6 Confusion matrix for ablation experiments |
在无人艇海面场景分类数据集的测试集上计算出各模型的准确率、召回率、精确率和F1分数,如表4所示。
![]() |
表 4 消融试验模型对照表 Tab.4 Comparison table of ablation experimental model |
可知,通过对比MSSNet-C模型和MSSNet模型测试效果,CA模块的引入在准确率方面带来了2.45%的提高;比较MobileViT模型和MSSNet-C模型,MNX模块的引入在准确率方面带来了0.53%的提高,以上2组消融试验验证了MNX模块和CA模型的引入在MSSNet模型中的有效性。
4 结 语本文针对海面场景分类任务设计了包括7种不同海面环境的图像数据集,有效覆盖了气象无人艇作业时遇到的大部分环境,并基于此提出一种融合MNX模块、CA注意力模块和MVT模块的MSSNet分类模型。消融试验验证了本文提出的MNX模块和CA模块的有效性。对比试验表明,与主流的分类模型相比,本模型在保持较好实时性的同时,场景分类效果更高、更稳定,对强干扰类环境识别的漏检率低,满足气象观测任务中无人艇自主航行的需求,后续将融合多种传感器信息,形成更完备和更准确的海面环境态势。
[1] |
胥凤驰, 王伟, 李哲, 等. 水面无人艇系统的设计实现与未来展望[J]. 舰船科学技术, 2019, 41(23): 39−43. XU F C, WANG W, LI Z, et al. Design and realization of unmanned surface vessel system and its future prospects[J]. Ship Science and Technology, 2019, 41(23): 39−43. |
[2] |
王博. 无人艇光视觉感知研究发展综述[J]. 舰船科学技术, 2019, 41(23): 44−49. WANNG B. Review of development in perception of unmanned surface vehicle based on optical vision[J]. Ship Science and Technology, 2019, 41(23): 44−49. |
[3] |
CHEN Z, YANG F, LINDNER A, et al. Howis the weather: Automatic inference from images[C]// 2012 19th IEEE International conference on image processing. 2012.
|
[4] |
LECUN Y, BOTTOU L. "Gradient−based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278−2324.
|
[5] |
DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[C]// International Conference on Learning Representation, 2021.
|
[6] |
LI Z, LI Y, ZHONG J, et al. Multi-class weather classification based on multi-feature weighted fusion method[J]. IOP Conference Series: Earth and Environmental Science, 2020, 58(5):38−42.
|
[7] |
VASWANI, ASHISH, NOAM S, et al. Attention is all you need[J]. Computer Science, 2023, 7(V1):5−15.
|
[8] |
戴军, 金代中, 高志峰. 基于纹理特征驱动AdaBoost算法的海面场景分类[J]. 激光与红外, 2015, 45(4): 462−466. DAI J, JIN D Z, GAO Z F. Sea scene classification based on AdaBoost algorithm with texture characteristics[J]. LASER & INFRARED, 2015, 45(4): 462−466. |
[9] |
ZHOU D Q. Rethinking bottleneck structure for efficient mobile network design[J]. Computer Vision-ECCV 2020: 16th European Conference, 2020, 16(3): 23–28.
|
[10] |
SANDLER M, HOWARD A, ZHU M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]// Proceedings of the IEEE conference on computer vision and pattern recognition. Interted Residuals, 2018.
|
[11] |
HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design[C]// Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. Computer Vision and Pattern Recognition, 2021.
|
[12] |
PASZKE, ADAM, SAM G, et al. Pytorch: An imperative style, high-performance deep learning library[J]. Computer science, 2019, 12(2): 3−15.
|
[13] |
周志华. 机器学习[M]. 北京: 清华大学出版社, 2016.
|