2. 广东工业大学 集成电路学院, 广东 广州 510006
2. School of Integrated Circuits, Guangdong University of Technology, Guangzhou 510006, China
近年来,基于深度学习的目标检测技术在图像识别、定位和追踪方面取得了非常大的进步,涌现出许多优秀的算法,这使得无人机可以与目标检测技术结合在一起,在军事、民用领域发挥出重要作用[1-2]。然而,与自然场景图像不同的是,无人机视角下的图像数据是非常复杂的,由于无人机飞行的高度较高、拍摄采集图像时为俯视角度且飞行的过程中会造成高度和拍摄角度的变化,导致其提取的图像数据中的目标物体尺寸过小,同一物体的尺寸变化剧烈,不容易被正确检测,因此设计一种适用于无人机视角的小目标检测模型以满足实际应用的需求,是一项具有重要意义和挑战性的研究课题。
当前,基于深度学习的无人机航拍图像目标检测已成为研究热点,主流的目标检测算法根据是否生成候选区域可分为“一阶段”和“两阶段”两类,其中“一阶段”代表算法主要有SSD系列[2-4]、YOLO系列[5-8]、Retina-Net[9]等,这类算法不需要事先生成候选区域,而是直接采用原始特征来对目标进行类别和位置检测,因此检测速度非常快,但难以保证较高的检测精度;“二阶段”代表算法主要有Fast-RCNN[10]、Faster-RCNN[11]、SPP-Net[12]等,这类算法的基本原理是先进行候选区域生成,再通过卷积网络进行分类和定位回归预测,这种处理方式检测精度较高,但是速度稍慢。为了将目标检测技术以性能最大化的方式应用在无人机航拍图像处理任务中,国内外众多学者提出了多种优秀的算法。例如,LI P等[13]提出了一种基于MobileNet轻量化网络和YOLOv3目标检测算法的组合网络,该方法通过引入一种通道注意力机制,实现了对多尺度遥感目标检测精度的提升,但在检测速度上并不占优势。T LI等[14]在YOLOv4的基础之上引入一种超轻量子空间注意力机制,用于为特征图的每个子空间导出不同的注意力特征图,从而增强了网络的多尺度特征表示能力,改善了由于遮挡而导致的漏检目标的情况,但该方法计算量过大且训练成本较高。WANG M等[15]提出了一种基于上下文场景的注意力融合网络,通过对原始目标特征和场景上下文信息的交互,实现了精度和速度上的双重提升,但是该方法并没有优化遮挡性目标的检测准确性问题。
综上,对于无人机航拍目标检测的高复杂性以及目前已有研究还存在的一些急需解决的问题,本文从多个处理角度入手,设计了一种基于YOLOv5的轻量化无人机航拍小目标检测算法,主要贡献为
(1) 针对无人机采集的图像数据中目标尺寸较小且排列密集的特点,本文对Mosaic数据增强方法进行改进,改善了其对于小目标的数据增强恶化情况,使输入网络中的目标有效特征变多。
(2) 为使网络在降低模型复杂度同时保持较高的检测精度,本文使用轻量化网络ShffleNet中部分模块重构YOLOv5的骨干网络和特征融合网络,并在原有的检测尺度基础上增加一个微小物体检测头。
(3) 为提升不同特征通道之间的竞争合作关系和对局部特征的关注程度,通过对CBAM注意力机制进行改进,设计了一种并行结构的注意力模块。
(4) 为提高网络的全局信息提取能力,借鉴ViT网络中的Transformer结构和ShuffleNet中的“混洗”机制的特点,设计了一种轻量化的全局注意力模块(ShuffleViT),通过将该模块嵌入到骨干网络中,有效提高了网络的全局信息提取能力。
1 本文方法GA-YOLO(Global attention YOLO)算法的主要思想有两个方面,一是通过改进Mosaic数据增强算法提高网络的输入有效特征,二是通过轻量化处理和加入改进注意力模块使网络在保持较高推理速度的同时提高对小目标的检测能力。其网络结构框架如图1所示。其中,输入端使用本文改进的Mosaic数据增强算法进行数据预处理;主干网络部分使用嵌入全局注意力模块(ShuffleViT) 的Shu-ffleNet网络组成;检测头部分扩展了尺度,增加一个微小物体检测头,并嵌入本文提出的并行注意力模块。
![]() |
图 1 GA-YOLO整体结构 Figure 1 GA-YOLO overall structure |
Mosaic数据增强方法的原理是将4张缩放到固定尺寸的图像进行翻转、色域调整等变换后,以掩码图层上的随机点为中心将4张图像进行拼接,再将其缩放为指定的输入特征尺寸大小,最终输入到神经网络中进行学习。这种方法能够增加数据的多样性、丰富图像的背景,并增加小目标的数量、提高神经网络检测小目标的能力。但在处理航拍图像这种原始图像尺寸较大且目标特征尺寸较小的数据时,Mosaic可能会恶化小目标的数据增强效果。如图2所示,假设网络输入特征尺寸为640×640,对于尺寸为1280×1280的原始图像数据进行等比例缩放并使用Mosaic处理后,图像尺寸将缩小为原尺寸的
![]() |
图 2 Mosaic图像缩放比例 Figure 2 Mosaic image scaling |
针对以上Mosaic存在的问题,本文提出一种简单有效的优化解决方法:在Mosaic数据增强处理过程中引入一个图像尺寸放大系数
![]() |
图 3 |
$ \gamma = \frac{{{\omega _{{\text{img\_size}}}} \times \alpha }}{{\max (h,w) }} $ | (1) |
$ h',{\text{ }}w' = h \times \gamma ,{\text{ }}w \times \gamma $ | (2) |
$ {{\boldsymbol{T}}^{h \times w}} = {\text{Resiz}}{{\text{e}}_{h \times w}}( {{\text{Mosaic}}_{{h^m} \times {w^m}}^4({\boldsymbol{T}}_{{\text{img}}}^{h' \times w'}) } ) $ | (3) |
式中:
为证明
![]() |
表 1 不同 |
![]() |
图 4 不同 |
实验结果表明当
为验证
![]() |
图 5 |
由于无人机这类移动端设备的算力普遍不高,将复杂的目标检测模型部署到这类设备上时,常常难以获得理想的实时性推理运算效果。因此有必要针对无人机设备的硬件特性和应用场景,对目标检测算法进行优化,以提高无人机目标检测的效率和实时性。基于此,本文提出利用ShuffleNet[16]轻量化骨干网络中的部分模块替换原YOLOv5中的Backbone主干网络和特征度融合网络中的部分结构,以降低网络计算成本、提高模型的推理速。
为了减小网络轻量化导致的检测精度下降、适应性变差的问题,本文在原有的检测尺度上增加了一个微小物体检测头,以提高网络对小物体的检测精度和鲁棒性,使算法能够更好地适应不同尺度的目标检测需求。改进后的网络称之为LM-YOLO(Lightweight Multiscale),结构如图6所示。
![]() |
图 6 LM-YOLO网络结构 Figure 6 LM-YOLO network structure |
使用无人机进行航拍目标检测时,由于航拍图像数据中目标的尺寸较小且背景复杂,导致对小目标物体难以准确检测,因此提升神经网络的检测性能是至关重要的。本文从优化卷积特征提取能力的角度出发,通过改进CBAM[17](Convolutional Block Attention Module)设计了一种并行结构的空间通道注意力机制R-CBAM(Repeat Convolutional Block Attention Module),以提升卷积对小目标的特征提取能力,其结构如图7所示。
![]() |
图 7 R-CBAM结构 Figure 7 R-CBAM structure |
在CBAM模型中,通道注意力和空间注意力以串行方式连接,即通道域的输出作为空间域的输入特征。这种结构对于空间注意力模块来说存在一定的问题,因为在通道域注意力中每个卷积通道都会被叠加一个权重,从而改变了原始输入特征的空间细化信息,而卷积网络对于空间特征的变化非常敏感,叠加的权重可能会引起网络的过拟合,最终导致网络的性能下降。基于此,本文对CBAM的结构做了改进,将通道注意力中的全连接层替换为1×1卷积,并将通道域和空间域注意力模块调整到并行状态。改进之后,原始输入特征
定义以
$ {\boldsymbol{F}}_{\mathrm{s}\mathrm{a}}\left(\boldsymbol{X}\right) =\sigma \left(\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}\left(\mathrm{C}\mathrm{a}\mathrm{t}\left(\mathrm{M}\mathrm{e}\mathrm{a}\mathrm{n}\left(\boldsymbol{X}\right) ,\mathrm{M}\mathrm{a}\mathrm{x}\left(\boldsymbol{X}\right) \right) \right) \right) $ | (4) |
$ {\boldsymbol{F}}_{\mathrm{M}\mathrm{L}\mathrm{P}}^{1}\left(\boldsymbol{X}\right) =\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}(\mathrm{R}\mathrm{e}\mathrm{L}\mathrm{u}(\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}(\mathrm{A}\mathrm{v}\mathrm{g}\mathrm{P}\mathrm{o}\mathrm{o}\mathrm{l}\left(\boldsymbol{X}\right) ) ) ) $ | (5) |
$ {\boldsymbol{F}}_{\mathrm{M}\mathrm{L}\mathrm{P}}^{2}\left(\boldsymbol{X}\right) =\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}(\mathrm{R}\mathrm{e}\mathrm{L}\mathrm{u}(\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}(\mathrm{M}\mathrm{a}\mathrm{x}\mathrm{P}\mathrm{o}\mathrm{o}\mathrm{l}\left(\boldsymbol{X}\right) ) ) ) $ | (6) |
$ {\boldsymbol{F}}_{\mathrm{c}\mathrm{a}}\left(\boldsymbol{X}\right) =\sigma ({\boldsymbol{F}}_{\mathrm{M}\mathrm{L}\mathrm{P}}^{1}\left(\boldsymbol{X}\right) +{\boldsymbol{F}}_{\mathrm{M}\mathrm{L}\mathrm{P}}^{2}\left(\boldsymbol{X}\right) ) $ | (7) |
$ {\boldsymbol{F}}_{\mathrm{R}-\mathrm{C}\mathrm{B}\mathrm{A}\mathrm{M}}\left(\boldsymbol{X}\right) =\left({\boldsymbol{F}}_{\mathrm{c}\mathrm{a}}\left(\boldsymbol{X}\right) \times \boldsymbol{X}\right) \times {\boldsymbol{F}}_{\mathrm{s}\mathrm{a}}\left(\boldsymbol{X}\right) $ | (8) |
式中:
为证明R-CBAM的有效性,在VisDrone2019 -DET数据集上以相同的训练参数,设置了5组实验。由于本研究扩充了YOLOv5的检测尺度,为保证实验统一性,以下均是在LM-YOLO的基础上,通过在Head网络结构部分添加不同的注意力模块来获取的实验结果,使用mAP@0.5和mAP@0.5:0.95作为各个模型的性能评价标准,具体实验数据如表2所示。
![]() |
表 2 不同注意力模块性能对比 Table 2 Performance comparison of different attention modules |
由表2中的数据可以看出,相比较于LM-YOLO基线算法,在分别加入SENet、ECA、CBAM、R-CBAM这4种注意力结构时,本文所提注意力模块性能指标表现出了最优的结果,其中mAP@0.5、mAP@0.5:0.95指标相较于基线分别提高了0.9个百分点和0.4个百分点,证明本文所提R-CBAM模型是一种有效的改进方法。
1.4 ShuffleViT全局注意力模块Transformer[18]源于2017年谷歌在NLP方向提出的一种适用于文本分析的算法,该模型不同于传统大量使用卷积模块的神经网络,而是采用一种独特的基于自注意力的编解码机制,该编码机制可以高效地获取全局信息。2020年,DOSOVITSKIY A等[19]借鉴Tansformer设计思想,提出了一种适用于视觉领域的神经网络模型ViT(Vision Transformer),该模型将Transformer中的注意力机制与卷积模块结合,在多个视觉任务上取得了最优的效果。但是ViT也存在着一些问题,比如不具备空间归纳偏差的能力、难以训练以及参数庞大的问题。针对这些问题苹果公司[20]在2021年提出了一种适用于移动设备的改进模型MobileViT(Light-Weight, General-Purpose, and Mobile-Friendly Vision Transformer) ,该模型使用了一种新的切片方式,将卷积获取局部特征的优点和ViT可以高效获取全局信息的特点相结合,不但优化了网络结构,而且使网络具备了不丢失切片位置信息的能力,但MobileViT仍然存在着较高的训练成本和推理速度不理想的问题。
从进一步提升无人机航拍小目标检测网络的全局信息提取能力的角度出发,本文利用ShuffleNet中的“混洗”机制和MobileViT中的切片机制对ViT中的Transformer结构进行了改进,设计了一种新的全局信息提取模块ShuffleViT。该模块通过将输入特征进行切片拆分,再进行块内信息打乱,在保留块序列信息不变的情况下,实现块内的局部特征信息交互的同时降低了计算量,从而提升网络的全局信息提取能力并且降低了网络的训练成本,其结构如图8所示。
![]() |
图 8 ShuffleViT结构 Figure 8 ShuffleViT structure |
与ViT模型不同的是,ShuffleViT在数据处理上直接将输入特征
定义
$ {\boldsymbol{X}}_{\mathrm{p}\mathrm{s}1},{\boldsymbol{X}}_{\mathrm{p}\mathrm{s}2}=\mathrm{S}\mathrm{p}\mathrm{l}\mathrm{i}\mathrm{t}\left(\boldsymbol{X}\right) $ | (9) |
$ {\boldsymbol{F}}_{\mathrm{a}\mathrm{t}\mathrm{t}\mathrm{n}}\left({\boldsymbol{X}}_{\mathrm{p}\mathrm{s}1},{\boldsymbol{X}}_{\mathrm{p}\mathrm{s}2}\right) =\mathrm{C}\mathrm{a}\mathrm{t}(\mathrm{A}\mathrm{t}\mathrm{t}\mathrm{n}(\mathrm{L}\mathrm{N}({\boldsymbol{X}}_{\mathrm{p}\mathrm{s}2}) ) {\boldsymbol{X}}_{\mathrm{p}\mathrm{s}2},{\boldsymbol{X}}_{\mathrm{p}\mathrm{s}1}) $ | (10) |
$ {\boldsymbol{X}}_{\mathrm{s}\mathrm{h}\mathrm{u}\mathrm{f}\mathrm{f}\mathrm{l}\mathrm{e}}=\mathrm{S}\mathrm{h}\mathrm{u}\mathrm{f}\mathrm{f}\mathrm{l}\mathrm{e}\left({\boldsymbol{F}}_{\mathrm{a}\mathrm{t}\mathrm{t}\mathrm{n}}\right) $ | (11) |
$ {\boldsymbol{X}}_{\mathrm{p}\mathrm{s}1}',{\boldsymbol{X}}_{\mathrm{p}\mathrm{s}2}'=\mathrm{S}\mathrm{p}\mathrm{l}\mathrm{i}\mathrm{t}\left({\boldsymbol{X}}_{\mathrm{s}\mathrm{h}\mathrm{u}\mathrm{f}\mathrm{f}\mathrm{l}\mathrm{e}}\right) $ | (12) |
$ {\boldsymbol{F}}_{\mathrm{f}\mathrm{f}\mathrm{n}}({\boldsymbol{X}}_{\mathrm{p}\mathrm{s}1}',{\boldsymbol{X}}_{\mathrm{p}\mathrm{s}2}') = $ |
$ \mathrm{C}\mathrm{a}\mathrm{t}(\mathrm{F}\mathrm{F}\mathrm{N}(\mathrm{L}\mathrm{N}({\boldsymbol{X}}_{\mathrm{p}\mathrm{s}2}') ) +{\boldsymbol{X}}_{\mathrm{p}\mathrm{s}2}',{\boldsymbol{X}}_{\mathrm{p}\mathrm{s}1}') $ | (13) |
$ {\boldsymbol{X}}_{\mathrm{s}\mathrm{t}\mathrm{r}\mathrm{a}\mathrm{n}\mathrm{s}\mathrm{f}\mathrm{o}\mathrm{r}\mathrm{m}\mathrm{e}\mathrm{r}}=\mathrm{S}\mathrm{h}\mathrm{u}\mathrm{f}\mathrm{f}\mathrm{l}\mathrm{e}\left({\boldsymbol{F}}_{\mathrm{f}\mathrm{f}\mathrm{n}}\right) $ | (14) |
式中
改进过程中每个实验的初始学习率均设置为0.01,BatchSize为64,动量大小设置为0.937,权重延迟大小为0.0005,预热训练迭代3次,预热期间动量大小为0.8,输入特征大小均为640×640。采用
实验过程所使用的环境及软硬件配置参数如表3所示。
![]() |
表 3 实验环境 Table 3 Experimental environment |
为了在相同的条件下衡量不同算法的性能,本节所有实验均采用VisDrone2019-DET数据集。该数据集是ICCV2019 VisDrone挑战赛发布的数据集,包含pedestrain、people、bicycle、car、van、truck、tr -icycle、awning-tricycle、bus、motor共10个类别,总共8629张图像,其中训练集6471张,验证集548张,测试集1610张,所有图像均采自中国14个不同的城市。
2.3 评价指标为评估不同模型算法的综合性能,以下实验采用模型体积(单位:MB)、参数量、浮点运算量(Giga Floating-point Operations Per Second,GFLO -PS)、不同阈值范围的平均值均值精度(mean Average Precision, mAP@0.5和mAP@0.5:0.95)以及每秒处理帧数(Frames Per Second,FPS)衡量每个模型的性能效果。
2.4 实验结果对比与分析 2.4.1 消融实验及分析为验证本文提出的
![]() |
表 4 消融实验 Table 4 Ablation experiment |
其中“√”表示添加该模块,S-M表示本文针对于
从表4可以看出,相较于基线算法YOLOv5s,改进1在替换使用本文提出的
为进一步验证所提算法相比同类型算法的优越性,将本文算法与当前一些主流的目标检测算法在VisDrone2019-DET数据集上进行实验对比,实验结果如表5所示。
![]() |
表 5 对比实验 Table 5 Comparison experiment |
从表5中的数据可以看出,相比较于其他典型算法,本文算法在保证较快的推理速度的前提下,其精度和模型复杂度表现出明显的优越性,这说明本文算法在实际应用中能够更快速地进行推理运算,并且具有更高的预测准确性。与轻量化网络YOLOv3-Tiny、YOLOv4-Tiny相比,本文所提算法虽然在检测速度上稍慢于两者,但在其他几项指标上均大幅度领先。在mAP@0.5和mAP@0.5:0.95两项指标上,本文算法分别比YOLOv3-Tiny、YOLOv4-Tiny高19.4、20和10.4、12.51个百分点。相比较于基线算法,本文算法参数量下降了48.0%,计算量下降了26.5%,模型体积下降43.8%,而mAP@0.5提高了4.9个百分点,mAP@ 0.5:0.95提高了3.3个百分点。综合来看,本文提出的算法在
为了更加直观地对本文算法的检测效果进行评估,在VisDrone2019-DET测试集中选取几组复杂真实场景图像进行测试,部分测试图像检测结果如图9所示。从4个检测样本图像可以看出,即使图像背景复杂、目标分布不均匀且高度密集、光线不充足,本文方法在各种不同的复杂场景中依然展现出了较高的检测性能。
![]() |
图 9 本文算法在测试集上的检测效果 Figure 9 The detection performance of the algorithm in this article on the test set |
为验证本文算改进算法相较于基线算法(YOLOv5s)在无人机航拍视角下的检测优化提升效果,选取VisDrone2019-DET测试集中两组不同背景条件的小目标图像进行检测并进行可视化对比分析。如图10所示,其中左侧图像为基线YOLOv5s算法的检测推理结果,右侧为本文改进算法的推理检测结果。由检测结果可知,相较于基线算法,本文改进算法能够更加精准地识别出遮挡性目标和密集型小目标,并且能够避免漏检。这表明,本文的改进方法是有效的,并且在处理相关无人机航拍目标图像时表现出比基线算法更好的检测性能。
![]() |
图 10 YOLOv5s与本文算法对比 Figure 10 Comparison between YOLOv5s and this algorithm |
本文提出一种基于改进YOLOv5的多尺度轻量化无人机航拍目标检测网络。为了提高络的输入有效特征,提出了一种改进Mosaic的数据增强方法,通过放大经Mosaic处理的输入图像数据,使得小目标、极小目标的有效输入特征信息增多。为了进一步提高网络的检测能力,提出了基于“混洗”机制和ViT结合的改进注意力模块和基于CBAM的改进注意力模块,前者在保留分块序列位置信息不丢失的情况下,实现了块内信息交互,同时降低了计算量,提高了网络对于全局信息的提取能力;后者提升了网络不同通道之间的竞争合作关系和对于局部重要特征的关注程度。消融实验和对比实验证明了本文方法在检测精度、计算复杂度和体积大小上的优越性,但因本文采用的是四尺度检测,这在一定程度上减缓了网络的推理速度,因此,在未来的工作中,如何既保持网络的精度又保持更快的推理速度是一个重要的研究方向。
[1] |
曹家乐, 李亚利, 孙汉卿, 等. 基于深度学习的视觉目标检测技术综述[J].
中国图象图形学报, 2022, 27(6): 1697-1722.
CAO J L, LI Y L, SUN H Q, et al. A survey on deep learning based visual object detection[J]. China Journal of Image and Graphics, 2022, 27(6): 1697-1722. DOI: 10.11834/jig.220069. |
[2] |
戴文君, 常天庆, 张雷, 等. 图像目标检测技术在坦克火控系统中的应用[J].
火力与指挥控制, 2020, 45(7): 147-152.
DAI W J, CHANG T Q, ZHANG L, et al. Application of image target detection technology in tank fire control system[J]. Fire and Command Control, 2020, 45(7): 147-152. DOI: 10.3969/j.issn.1002-0640.2020.07.027. |
[3] |
LIO W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C] //Computer Vision–ECCV 2016: 14th European Conference. Amsterdam, Netherlands: Springer International Publishing, 2016: 21-37.
|
[4] |
ZHAI S, SHANG D, WANG S, et al. DF-SSD: an improved SSD object detection algorithm based on DenseNet and feature fusion[J].
IEEE Access, 2020, 8: 24344-24357.
DOI: 10.1109/ACCESS.2020.2971026. |
[5] |
REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C] //Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779-788.
|
[6] |
REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C] //Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR) . Hawaii: IEEE, 2017: 7263-7271.
|
[7] |
REDMON J, FARHADI A. Yolov3: An incremental improvement[EB/OL]. arXiv: 1804.02767 (2018-04-08) [2023-02-07]. https://arxiv.53yu.com/abs/1804.02767.
|
[8] |
BOCHKOVSKIY A, WANG C Y, LIAO H Y M. Yolov4: optimal speed and accuracy of object detection[EB/OL]. arXiv: 2004.10934 (2020-04-22) [2023-02-07]. https://arxiv.org/abs/2004.10934.
|
[9] |
LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C] //Proceedings of the IEEE International Conference on Computer Vision. Hong Kong: IEEE, 2017: 2980-2988.
|
[10] |
GIRSHICK R. Fast R-CNN[C] //Proceedings of the IEEE International Conference on Computer Vision. Santiago Chile: IEEE, 2015: 1440-1448.
|
[11] |
REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J].
IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39(6): 1137-1149.
|
[12] |
PURKAIT P, ZHAO C, ZACH C. SPP-Net: deep absolute pose regression with synthetic views[EB/OL]. arXiv: 1712.03452 (2017-12-09) [2023-02-09]. https://arxiv.53yu.com/abs/1712.03452.
|
[13] |
LI P, CHE C. SeMo-YOLO: a multiscale object detection network in satellite remote sensing images[C] //2021 International Joint Conference on Neural Networks (IJCNN) . Shenzhen: IEEE, 2021: 1-8.
|
[14] |
TAN L, LV X, LIAN X, et al. YOLOv4_Drone: UAV image target detection based on an improved YOLOv4 algorithm[J].
Computers & Electrical Engineering, 2021, 93: 107261.
|
[15] |
WANG M, LI Q, GU Y, et al. SCAF-net: Scene context attention-based fusion network for vehicle detection in aerial imagery[J].
IEEE Geoscience and Remote Sensing Letters, 2021, 19: 1-5.
|
[16] |
ZHANG X, ZHOU X, LIN M, et al. Shufflenet: an extremely efficient convolutional neural network for mobile devices[C] //Proceedings of the IEEE Eonference on Computer Vision and Pattern Recognition. Wellington New Zealand: IEEE, 2018: 6848-6856.
|
[17] |
WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C] //Proceedings of the European Conference on Computer Vision (ECCV) . Munich: EACV, 2018: 3-19.
|
[18] |
GUO M H, LU C Z, LIU Z N, et al. Visual attention network[J].
Computational Visual Media, 2023, 9(4): 733-752.
DOI: 10.1007/s41095-023-0364-2. |
[19] |
DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: transformers for image recognition at scale[EB/OL]. arXiv: 2010.11929 (2021-06-03) [2023-02-11]. https://arxiv.53yu.com/abs/2010.11929.
|
[20] |
MEHTA S, RASTEGARI M. Mobilevit: light-weight, general-purpose, and mobile-friendly vision transformer[EB/OL]. arXiv: 2110.02178 (2022-03-04) [2023-02-11]. https://arxiv.53yu.com/abs/2110.02178.
|