舰船科学技术  2024, Vol. 46 Issue (19): 85-91    DOI: 10.3404/j.issn.1672-7649.2024.19.015   PDF    
面向无人水面艇的水下伪装目标检测方法
韩天保, 王岳, 任世昌, 吕薛清     
江苏科技大学 船舶与海洋工程学院,江苏 镇江 212100
摘要: 无人水面艇环境感知能力受限于待测目标背景复杂、形状多样和伪装等因素,常规方法难以在上述情况下准确对水下伪装目标准确检测与评价。针对探测场景的多样化和复杂化,基于多任务学习策略提出一种面向无人水面艇的轻量型伪装目标检测方法MFLNet(Multi-Feature Learning Network),通过借助图像梯度感知任务来提升无人水面艇对水下伪装目标的检测能力。首先,将图像特征提取任务解耦为语义特征提取和梯度特征提取;然后,向高层语义特征引入图像梯度特征并通过多尺度通道注意力模块生成初始预测图;最后,经过逐层的特征修正生成对伪装目标的最终预测。实验结果表明:MFLNet在CAMO-Test和NC4K-Test数据集上,结构相似性度量$ {S}_{\alpha } $指标可达0.824和0.851,检测性能达到先进模型水平,相比同策略轻量化模型参数量减少65%,检测速度可达73.7帧/s,满足水下检测数据实时传送需求,具有一定的实际应用价值。
关键词: 无人水面艇     水下目标检测     伪装目标检测     深度学习    
Underwater camouflage objects detection method for unmanned surface vessels
HAN Tianbao, WANG Yue, REN Shichang, LV Xueqing     
School of Naval Architecture and Ocean Engineering, Jiangsu University of Science and Technology, Zhenjiang 212100, China
Abstract: The environmental perception capability of unmanned surface vessels (USVs) is limited by factors such as the complexity of the background, diverse shapes, and camouflage of the targets to be detected. Conventional methods struggle to accurately detect and evaluate underwater camouflage objects in such scenarios. To address the diversification and complexity of detection scenarios, this paper proposes a lightweight camouflage objects detection method for unmanned surface vessels, called MFLNet (Multi-Feature Learning Network), based on a multi-task learning strategy. It enhances the USV's ability to detect underwater camouflage objects by leveraging the image gradient perception task. Initially, the feature extraction task is decoupled into semantic feature extraction and gradient feature extraction. Then, image gradient features are introduced into high-level semantic features, and initial prediction maps are generated through the proposed Multi-Scale Context Attention module. Finally, accurate final predictions are generated through feature corrections at each layer. Experimental results show that MFLNet achieves $ {S}_{\alpha } $ values of 0.824 and 0.851 on the CAMO-Test and NC4K-Test datasets, respectively. Compared to models with the same strategy but reduced parameter counts by 65%, MFLNet achieves a detection speed of 73.7 frames per second, meeting the real-time data transmission requirements for underwater detection and demonstrating practical application value.
Key words: unmanned surface vessel     underwater object detection     camouflaged object detection     deep learning    
0 引 言

随着人工智能、无人控制等技术的迅速发展,无人系统将作为有人系统的重要补充力量,以更加隐蔽、高效、低廉的方式完成多种复杂任务[1]。无人水面艇(Unmanned Surface Vessel, USV)作为无人系统的重要组成部分,以其独特的优势在渔业监测、海上安全、海洋科考等领域发挥着重要作用,通过各类传感器作为信息感知系统实现环境感知或目标探测识别等功能。然而随着水下航行器推进装置和水下仿生技术的不断进步,目前已经可以实现通过正弦波推进法模拟鱼类水下游动方式并以接近静默状态行驶数百英里,水面作业时自噪声与海洋背景噪声越来越接近[2],极大地增加了雷达类和声呐类传感器的探测难度。因此通过光电设备进行水下图像目标检测获取伪装目标特征成为环境感知的重要组成部分。

目前,关于水下图像目标检测的研究主要围绕图像增强和通用目标检测(Generic Object Detection,GOD)。其中水下通用目标检测研究主要以算法改进为主。杨婷等[3]针对水下环境存在光线差、噪声大而导致检测精度低漏检率高的问题,通过借鉴PANet的思想提出一种双向特征提取网络PAFPN,并采用自动色阶和Soft-NMS算法进行图像增强和修正候选目标区域提高水下目标检测的准确率;陈小毛和曹建荣等[45]对YOLOv5进行改进,分别提出水下暗通道优先的图像增强方法和引入自适应空间特征融合方法,之后通过引入注意力机制提升检测精度。针对水下目标小而密集的特点,袁明阳等[6]提出GA-RetinaNet,通过引入分组卷积、上下文特征金字塔模块和注意力机制以捕获更多特征信息提升检测精度;周华平等[7]在此基础上考虑到水下设备性能有限的问题,对ShuffleNetV2网络结构进行轻量化改进,提出一种利用多尺度图像信息和双分支注意力机制的水下目标检测算法SG-NET。上述方法都对水下显著目标的检测精度有明显提升,而关于轻量化水下伪装目标检测的研究依然较少,在算法精度和复杂度平衡上仍有改进空间。

为了提高无人水面艇在复杂背景中对水下伪装目标的检测能力,提出一种基于多任务学习策略的轻量型伪装目标检测方法。首先针对海洋环境中的伪装目标,提出一种分割识别方法,通过梯度感知任务补充无人水面艇对水下伪装目标的视觉感知能力,同时为避免在光照和天气引起的低照度环境条件下引入的梯度噪声,采用自上而下的特征修正机制进一步保证检测的精确度。紧接着针对水下检测数据实时传送的需求,在保证检测精度的情况下,对检测模型框架和特征融合策略进行轻量化设计,提出多尺度通道注意力(Multi-Scale Channel Attention,MSCA)模块,以更小的代价生成准确的初始预测。最后通过对比实验和消融实验对算法性能进行验证。

1 基于多任务学习策略的伪装目标检测

伪装目标检测(Camouflaged Object Detection,COD)[8]面向在复杂背景中检测出嵌入其中的伪装目标,与其他视觉任务(如通用目标检测、显著目标检测等)相比,伪装目标通常表现为通过伪装策略试图隐藏自身存在或欺骗物种感知和认知机制,使待测目标在形状、颜色、纹理等与背景高度相似,导致检测伪装目标更具有挑战性。

多任务学习策略是伪装目标检测领域中的一种特征增强策略,通过引入常见的分类、定位或其他检测任务来辅助二值分割主任务以提升伪装目标的检测性能,通过多种任务的协同工作挖掘更加丰富的伪装目标信息[9]。水下目标检测面临蓝绿色调、海洋雪和低分辨率等降质因素[10],仅仅依靠像素间的上下文关系很难在水下环境的多种噪声下准确将伪装目标与背景分离。为了解决上述问题,本文提出MFLNet,通过利用图像梯度特征具有旋转不变性以及抗噪能力强的特点,使用梯度感知任务来补充上下文信息,网络整体流程图如图1所示。

图 1 MFLNet整体流程图 Fig. 1 Overall pipeline of MFLNet
1.1 网络总体架构

MFLNet采用MobileViT[11]作为主干网络(Backbone)对输入图像提取5层不同尺度特征,特征图分别为$ {X}_{i}^{R}\in {R}^{{K}_{i}\times {H}_{i}\times {W}_{i}} $,其中K为通道数,W为高度,H为宽度,选取其中的后4层(即i=2,3,4,5时)作为后续解码阶段的输入。此外,为了加强后4层特征对纹理信息的表达,还引入一个轻量级卷积网络提取输入图像中的纹理特征$ {X}_{}^{G}\in {R}^{{K}_{g}\times {H}_{g}\times {W}_{g}} $。由于纹理特征与上下文特征的潜在相关性不适用于简单的融合策略(例如拼接或加法操作),于是将2种特征送入特征融合模块生成纹理增强特征,再经过进行定位模块生成初始预测来定位前景可以有效降低后续预测难度[12],最终通过特征筛选模块迭代修正后,输出预测图。

1.2 特征融合阶段

MobileViT提供了一个高效的综合全局和局部特征提取能力的主干网络,然而在进行全局特征提取时,如图2所示,其独特的像素划分策略会降低对临近像素相关性的关注,特别是在进行分割任务时容易为目标边缘区域引入噪声,在面对采取伪装策略的目标时将更进一步降低检测精度,对于无人艇在执行军事、科考或监测任务时对目标的错误预测将严重影响无人作业的效率和范围。因此,通过引入梯度注入模块(Gradient-Infused Module,GIM),以分组引导[1314](Group Guidance Operation)的方式融合纹理特征和上下文特征(Contextual Feature),减少目标边缘特征信息的损失,增强模型对目标纹理的感知。

图 2 MobileViT中的像素划分策略 Fig. 2 Pixel partitioning strategy in MobileViT

首先,将4个上下文特征{$ {X}_{i}^{R} $$ {R}^{{K}_{i}\times {H}_{i}\times {W}_{i}} $|i=2,3,4,5}和纹理特征$ {X}_{}^{G} $沿通道维度分成多个特征组:

$ {\left\{{X}_{i,m}^{R}\right\}}_{m=1}^{M}\in {R}^{{K}_{i}\times {H}_{i}\times {W}_{i}}\leftarrow {X}_{i}^{R}\in {R}^{{K}_{i}\times {H}_{i}\times {W}_{i}},$ (1)
$ {\left\{{X}_{m}^{G}\right\}}_{m=1}^{M}\in {R}^{{K}_{g}\times {H}_{g}\times {W}_{g}}\leftarrow {{X}_{}^{G}\in {R}^{{K}_{g}\times {H}_{g}\times {W}_{g}}}_{}^{} 。$ (2)

式中:$ \leftarrow $为特征分组操作;M为组数;$ {K}_{i} $=$ {C}_{i}/M $$ {K}_{g} $=$ {C}_{g}/M $为每个特征组的通道数。

上下文特征组和梯度特征组沿通道维度串联得到重组后的特征$ {Q}_{i}^{} $

$ {Q}_{i}^{}\in {R}^{\left({K}_{g}+{K}_{I}\right)\times {H}_{g}\times {W}_{g}}=({X}_{i,m}^{R};{X}_{m}^{G}) 。$ (3)

然后,再将重组后的特征$ {Q}_{i}^{} $ 分成多个子组,分别通过卷积运算并将结果与残差连接合并形成最终输出,这一步的目的是避免使用简单的融合策略而忽略上下文特征和纹理特征之间的相关性和独特性导致特征混淆。

$ {Z}_{i}^{}={X}_{i}^{R}\oplus \sum {F}_{g}\left({Q}_{i}\right) 。$ (4)

式中:$ \oplus $为特征合并;∑为多个项的和,最终输出为{$ {Z}_{i}^{} $$ {R}^{{K}_{i}\times {H}_{i}\times {W}_{i}} $|i=2,3,4,5}。

1.3 特征修正阶段

为了降低无人水面艇在光照和天气引起的低照度环境条件下引入的梯度噪声,将纹理增强后的最深层特征通过MSCA模块生成初始分割结果。然后利用多个特征修正模块逐步发现和去除假阳性和假阴性干扰,实现对目标的准确分割。

受到ViTblock[15]和分心挖掘[1617]的启发,本文提出的MSCA模块如图3所示,由多尺度特征融合和可分离通道注意力2个部分组成,对输入特征进行局部特征建模和空间位置方面的长范围依赖关系,增强最深层特征的语义表达。具体实现步骤如下:首先将输入特征$ {Z}_{5}^{} $按通道数平均分成4路,得到4个特征映射子集,每个子集以$ {z}_{i}^{} $表示。每一路在进行相邻层特征融合后输入深度可分离卷积,最终将每一路的输出$ {z}_{i}^{L} $沿通道维度进行拼接得到$ {Z}_{5}^{L} $

图 3 MSCA模块结构图 Fig. 3 MSCA module structure diagram
$ {z}_{i+1}^{}={z}_{i}^{}+{Linear}_{G}\left(Linear\right(LN\left({D}_{w}\right({z}_{i}\left)\right)\left)\right) ,$ (5)
$ {z}_{i}^{L}=\left\{\begin{array}{l}{z}_{i}^{},\\ {D}_{w}\left({z}_{i}\right),\\ {D}_{w}({z}_{i}+{z}_{i-1}^{L})。\end{array}\right. $ (6)

式中:$ {z}_{i}^{} $为形状为$ H\times W\times C $的输入特征;$ {Linear}_{G} $为逐点卷积和GELU激活函数;$ {D}_{w} $$ k\times k $卷积核的深度可分离卷积(Depth-Wise Convolution);LN为归一化层(Normalization Layer);$ {z}_{i+1}^{} $为卷积计算的输出特征;$ {z}_{i}^{L} $为多尺度特征融合各分路的输出特征。

最后将得到的$ {Z}_{5}^{L} $在空间维度上做可分离自注意力计算(Separable Self-Attention)[18],避开传统自注意力层计算开销的同时,捕捉空间位置方面的长范围依赖关系,得到初始预测$ {Z}_{5}^{P} $,具体步骤如下:

$ {Z}_{5}^{P}=\gamma \times SSA\left(I,K,V\right)+{Z}_{5}^{L} 。$ (7)

式中:IKV分别为输入特征的3个分支处理;SSA为可分离自注意力计算;$ \gamma $为一个可学习的参数。

特征修正模块(Segmentation Refinement Module, SRM)的结构如图4所示,对上一层预测图进行上采样和归一化,然后归一化图及其取反版本与当前层纹理增强特征$ {Z}_{i}^{} $相乘,分别生成前景关注特征$ {Z}_{i}^{f} $和背景关注特征$ {Z}_{i}^{b} $并送入上下文探索模块(Context Exploration Block, CE Block)进行上下文推理,分别发现假阳性和假阴性预测。CE Block由4个上下文探索分支组成,每个分支包含一个$ 3\times 3 $卷积,一个$ {k}_{i}\times {k}_{i} $卷积和一个扩张率为$ {r}_{i} $的扩张卷积,分别用于通道缩减、局部特征提取和上下文感知,其中$ {k}_{i}=1,3,5,7 $$ {r}_{i}=1,2,4,8 $$ i=1,2,3,4 $。最后将4个分支的输出在通道维度上叠加,并通过一个$ 3\times 3 $卷积进行融合。

图 4 SRM模块结构图 Fig. 4 SRM module structure diagram

图 5 全局探索模块 Fig. 5 Context exploration block

在发现假阳性和假阴性预测后,通过逐元素减法来去除假阳性预测(错误的前景预测)和逐元素加法来补足假阴性预测(错误的背景预测),$ \alpha \mathrm{和}\beta $是初始值为1的可学习参数,将修正后的特征与上一层预测特征通过一个$ 3\times 3 $卷积进行融合:

$ {Z}_{up}^{}=U\left(CBR\right)\left({Z}_{i+1}^{F}\right) ,$ (8)
$ {Z}_{r}^{}=BR({Z}_{up}^{}-\alpha {Z}_{i}^{f}),$ (9)
$ {Z}_{i}^{P}=CBR({Z}_{r}^{}+\beta {Z}_{i}^{b})。$ (10)

式中:$ Z^F_{I+1}$$Z^P_i$分别为输入的上级特征和输出的修正特征;CBR 为卷积、批归一化(Batch Normalization)[19]和 ReLU的组合;U为双线性上采样。

1.4 损失函数

本网络中有5个输出结果,1个来自梯度特征提取模块,1个来自MSCA模块,3个来自特征修正模块。总体损失函数定义为:

$\begin{split} {\mathcal{L}}_{overall}^{}=&{\mathcal{L}}_{MSSA}^{}\left({Z}_{5}^{P},{G}_{C}^{}\right)+{\sum }_{i=2}^{4}{2}^{\left(4-i\right)}{\mathcal{L}}_{fm}^{i}\left({Z}_{I}^{P},{G}_{C}^{}\right)+\\ &{\mathcal{L}}_{G}^{}\left({X}_{}^{G},{G}_{G}^{}\right) 。\\[-1pt] \end{split}$ (11)

式中:$ {\mathcal{L}}_{MSSA}^{} $$ {\mathcal{L}}_{fm}^{i} $$ {\mathcal{L}}_{G}^{} $分别为初始预测、修正预测和梯度图像的损失函数。$ {\mathcal{L}}_{MSSA}^{} $表示为二值交叉熵(Binary Cross Entropy,BCE)损失 $ {\mathcal{L}}_{BCE}^{} $ 和交并比损失$ {\mathcal{L}}_{IoU}^{} $之和,即 $ {\mathcal{L}}_{MSSA}^{}={\mathcal{L}}_{IoU}^{}+{\mathcal{L}}_{BCE}^{} $,对于$ {\mathcal{L}}_{fm}^{i} $更希望每个SRM模块更关注目标的边界、细长区域或孔等位置,依照关注像素的难度来匹配相应的权值即$ {\mathcal{L}}_{fm}^{i}={\mathcal{L}}_{IoU}^{\omega }+{\mathcal{L}}_{BCE}^{\omega } $,最后梯度图像损失$ {\mathcal{L}}_{G}^{} $采用标准均方误差损失函数。

2 实验及结果分析 2.1 训练环境配置

实验平台操作系统为Ubuntu 22.04.2 LTS,配置Python3.10环境。基于PyTorch框架实现网络模型,计算机显卡型号为Radeon RX 6900 XT。采用MobileViT-S在ImageNet上的预训练模型作为骨干网络,初始学习率为1E-4,通过SGDR[21]策略的余弦退火部分用于调整学习速率,在最多迭代20次后衰减为初始学习率的0.1倍。使用随机梯度下降(Stochastic Gradient Descent,SGD)作为优化器对模型进行端对端训练[22], 迭代次数设置为80,训练批次大小设置为16。在包含大量水下伪装目标并且在COD领域流行的3种公共数据集CAMO[23]、COD10K[13]和NC4K[24]对检测模型进行训练和评估。

2.2 评估指标

通过4个使用最广泛的评估指标对模型性能进行定量比较:S度量($ {S}_{\alpha } $[25]E度量的平均值($ {E}_{\varphi } $[26]F度量的平均值($ {F}_{\beta } $[27]以及平均绝对误差MAE(M[28]

S度量($ {S}_{\alpha } $):用来评估模型预测图与真值图之间的结构相似性,提供一个用于衡量模型对目标的空间结构捕捉程度的总体评估,包括结构相似性$ {S}_{s} $和像素级相似性$ {S}_{p}$$ {S}_{\alpha }^{} $可以被描述为:

$ {S}_{\alpha }={\alpha S}_{s}+(1-\alpha ){S}_{p} 。$ (12)

E度量($ {E}_{\varphi } $):增强的对齐度量,同时进行像素级匹配和图像级统计,将局部像素值与全局平均值结合,具体表示为:

$ E_\varphi =\frac{1}{W\times H}\sum _{I=1j=1}^{W}\sum _{S}^{H}{\varphi }_{S}(i,j) 。$ (13)

式中:$ {\phi }_{S}^{} $为增强匹配项,为预测图$ i $和真值图$ j $减去其全局平均值后的相关性,并凸显对齐矩阵的正值区域增大幅度;WH分别为图像宽度和高度。

F度量($ {F}_{\beta } $):同时考虑召回率R和精确率P的一个常用评价标准,能够计算出PR之间的平均谐波测量值,并将其数值显示出来。$ {F}_{\beta } $定义为:

$ {F}_{\beta }=\frac{{PR}({\beta }^{2}+1)}{{\beta }^{2}P+R}。$ (14)

平均绝对误差MAE(M):用来计算预测值C和实际值G之间的绝对差值的平均,即每个像素的平均绝对误差,其定义式为:

$ M=\frac{1}{W\times H}\sum _{I=1}^{W}\sum _{I=1}^{H}\left|{C}(x,y)-G(x,y)\right|。$ (15)
2.3 实验结果对比

表1为本网络与其他7种方法在3个基准数据集上进行性能对比。可知,本网络的各项评估指标优于所有表中其他网络,在CAMO和NC4K数据集上$ {S}_{\alpha } $值分别达到0.824和0.851,并且在3个数据集上都能取得较优的效果。且面向无人水面艇的有限算力环境进行轻量型设计,参数量仅为7.53 MB,运行速度达到73.7帧/s,满足水下检测数据实时传送的需求。

表 1 各模型在3个数据集上的指标值对比 Tab.1 Index value comparison of different networks on 3 datasets

图6 为本方法与其他方法在不同水下图像典型降质现象的定性对比结果,展示结果包括色彩降维所引起的蓝绿色调、水下低亮度拍摄和平台抖动造成离焦模糊等条件下进行水下伪装目标检测。通过将本方法预测图像进行可视化可以看出,MFLNet网络的检测结果和真实标注之间具有更高的视觉一致性,在融合纹理特征后,对图像边缘细节有更强的分割预测能力。

图 6 不同方法预测图的视觉对比 Fig. 6 Visual comparison of detection maps produced by different methods
2.4 消融实验结果

为验证MSCA模块与纹理特征融合模块的有效性进行消融实验,在上述同样实验环境的3个数据集下进行消融实验并将结果报告在表2中。

表 2 MSCA模块的消融实验结果 Tab.2 Ablation experiment results of MSCA module

可知,在基础网络(baseline)上,通过单独增加SRM模块对网络性能有略微提升;利用GIM模块对后3层特征融合梯度信息后可以有效增加网络对目标纹理的感知能力,主要体现在被测目标边缘信息提取更加精确,$ {F}_{\beta } $$ {E}_{\phi } $两项指标得到明显提高,清晰地证明了融合梯度特征对网络纹理感知能力提升的有效性;增加MSCA模块后,特征修正模块会获取更为准确的初始预测,经过特征修正阶段后得到准确的最终预测,如图7所示,证实了MSCA模块有利于伪装目标的准确分割。

图 7 MSCA模块消融实验结果的视觉对比 Fig. 7 Visual comparison of ablation experiment results produced by MSCA module
3 结 语

这项研究致力于实现无人水面艇对水下伪装目标的准确分割,通过在MFLNet的框架中借助图像纹理信息来增强检测网络对水下伪装目标边缘的分割预测能力,在3个数据集上实现了先进性能(State-of-the-art,SOTA),图8为MFLNet在军事迷彩目标检测和船舶钢板缺陷检测的潜在应用。

图 8 MFLNet的潜在应用 Fig. 8 Potential applications of MFLNet

在未来,将继续探索该方法在非声探测领域的应用,与成熟的声学探测技术形成水下目标多模态探测模型,提高无人水面艇对水下伪装目标的感知和探测能力,以及该算法在海洋生物监测、船舶缺陷和迷彩伪装检测等其他船舶与海洋工程领域的潜在应用,并继续提高模型性能。

参考文献
[1]
孙远, 姚元, 伍光新, 等. 无人艇信息感知系统发展分析与探讨[J]. 现代雷达, 2022, 44(9): 13-20.
[2]
韩小溪, 盛立, 苏强, 等. 英国“鹦鹉螺”-100新概念潜艇研究[J]. 舰船科学技术, 2020, 42(13): 178-182.
HAN Xiaoxi, SHENG Li, SU qiang, et al. Research on new concept submarine of British Nautilus-100[J]. Ship Science and Technology, 2020, 42(13): 178-182.
[3]
杨婷, 高武奇, 王鹏, 等. 自动色阶与双向特征融合的水下目标检测算法[J]. 激光与光电子学进展, 2023, 60(6): 132-143.
[4]
陈小毛, 王立成, 张健, 等. 融合YOLOv5与ASFF算法的海产品目标检测算法研究[J]. 无线电工程, 2023, 53(4): 824-830.
[5]
曹建荣, 庄园, 汪明, 等. 基于ECA的YOLOv5水下鱼类目标检测[J]. 计算机系统应用, 2023, 32(6): 204-211.
[6]
袁明阳, 宋亚林, 张潮, 等. 基于GA-RetinaNet的水下目标检测[J]. 计算机系统应用, 2023, 32(6): 80-90.
[7]
周华平, 宋明龙, 孙克雷. 一种轻量化的水下目标检测算法SG-Det[J]. 光电子·激光, 2023, 34(2): 156-165.
[8]
FAN D P, JI G P, SUN G, et al. Camouflaged object detection[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2020: 2777-2787.
[9]
史彩娟, 任弼娟, 王子雯, 等. 基于深度学习的伪装目标检测综述[J]. 计算机科学与探索, 2022, 16(12): 2734-2751.
[10]
陈炜玲, 邱艳玲, 赵铁松, 等. 面向海洋的水下图像处理与视觉技术进展[J/OL]. 信号处理: 1−17[2023-09-30].
[11]
MEHTA S, RASTEGARI M. Mobilevit: light-weight, general-purpose, and mobile-friendly vision transformer[J]. arXiv Preprint arXiv: 2110.02178, 2021.
[12]
KE Z, SUN J, LI K, et al. Modnet: real-time trimap-free portrait matting via objective decomposition[C]//Proceedings of the AAAI Conference on Artificial Intelligence, 2022, 36(1): 1140−1147.
[13]
FAN D P, JI G P, CHENG M M, et al. Concealed object detection[J]. IEEE transactions on Pattern Analysis and Machine Intelligence, 2021, 44(10): 6024-6042.
[14]
JI G P, FAN D P, CHOU Y C, et al. Deep gradient learning for efficient camouflaged object detection[J]. Machine Intelligence Research, 2023, 20(1): 92-108. DOI:10.1007/s11633-022-1365-9
[15]
SANDLER M, HOWARD A, ZHU M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2018: 4510−4520.
[16]
HUANG Q, XIA C, WU C, et al. Semantic segmentation with reverse attention[J]. arXiv Preprint arXiv: 1707.06426, 2017.
[17]
MEI H, JI G P, WEI Z, et al. Camouflaged object segmentation with distraction mining[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 8772−8781.
[18]
MEHTA S, RASTEGARI M. Separable self-attention for mobile vision transformers[J]. arXiv preprint arXiv: 2206.02680, 2022.
[19]
SERGEY I, CHRISTIAN S. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In ICML, 2015.
[20]
WEI J, WANG S, HUANG Q. F³Net: fusion, feedback and focus for salient object detection[C]//Proceedings of the AAAI conference on artificial intelligence, 2020, 34(7): 12321-12328.
[21]
LOSHCHILOV I, HUTTER F. Stochastic gradient descent with warm restarts[C]//Proceedings of the 5th Int. Conf. Learning Representations, 1−16.
[22]
KINGMA D P, BA J. Adam: A method for stochastic optimization[J]. arXiv preprint arXiv: 1412.6980, 2014.
[23]
LE T N, NGUYEN T V, NIE Z, et al. Anabranch network for camouflaged object segmentation[J]. Computer Vision and Image Understanding, 2019, 184: 45-56. DOI:10.1016/j.cviu.2019.04.006
[24]
LV Y, ZHANG J, DAI Y, et al. Simultaneously localize, segment and rank the camouflaged objects[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 11591−11601.
[25]
FAN D P, CHENG M M, LIU Y, et al. Structure-measure: A new way to evaluate foreground maps[C]//Proceedings of the IEEE international conference on computer vision, 2017: 4548−4557.
[26]
FAN D P, GONG C, CAO Y, et al. Enhanced-alignment measure for binary foreground map evaluation[J]. arXiv Preprint arXiv: 1805.10421, 2018.
[27]
MARGOLIN R, ZELNIK-MANOR L, TAL A. How to evaluate foreground maps?[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2014: 248−255.
[28]
PERAZZI F, KRÄHENBÜHL P, PRITCH Y, et al. Saliency filters: Contrast based filtering for salient region detection[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2012: 733−740.
[29]
FAN Dengping, JI Gepeng, ZHOU Tao, et al. "PraNet: Parallel Reverse Attention Network for Polyp Segmentation.[J]" ArXiv abs/2006.11392, 2020(3): 1−11.
[30]
QIN Xuebin, DENG Pingfan, HUANG Chenyang, et al. "Boundary-Aware Segmentation Network for Mobile and Web Applications." ArXiv abs/2101.04704, 2021(5): 1−19.
[31]
YUAN Li, TAYFEN, LI G, et al. Revisiting Knowledge Distillation via Label Smoothing Regularization, [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2020): 3902−3910.
[32]
ZHAO Jiaxing, LIU J J, FAN D P, et al. EGNet: Edge Guidance Network for Salient Object Detection, [C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV) (2019): 8778−8787.
[33]
JI Gepeng, ZHU L, ZHU G M, et al. Fast Camouflaged Object Detection via Edge-based Reversible Re-calibration Network[J]. Pattern Recognit. 2022, 123: 108414.