基于改进YOLOv5的密集行人检测方法

张忠民; 吴泽

doi:10.11991/yykj.202204024

基于改进YOLOv5的密集行人检测方法

doi: 10.11991/yykj.202204024

张忠民^,,
吴泽

哈尔滨工程大学信息与通信工程学院，黑龙江哈尔滨 150001

详细信息

作者简介:
张忠民，男，副教授，博士;

吴泽，男，硕士研究生.

通讯作者:
张忠民，E-mail： zhangzhongmin@hrbeu.edu.cn.

中图分类号: TP183
出版历程
- 收稿日期: 2022-04-19
- 网络出版日期: 2022-11-02

Dense pedestrian detection method based on improved YOLOv5

ZHANG Zhongmin^,,
WU Ze

College of Information and Communication Engineering, Harbin Engineering University, Harbin 150001, China

摘要

摘要: 针对密集行人检测中行人之间高度遮挡重叠所带来的精度低和漏检高的问题，提出一种单阶段密集行人检测方法Dense-YOLOv5。实验基于YOLOv5-L，首先使用改进的RepVGG模块来替代原有3×3卷积加强密集场景下特征信息的提取；然后在原有3个检测头的基础上添加1个检测头降低对小尺度行人的漏检；最后在网络特征融合阶段引入注意力机制，添加1个高效通道注意力(efficient channel attention, ECA)模块提高对有用信息定位的精度。实验结果表明：Dense-YOLOv5相比原YOLOv5在CrowdHuman数据集上，在保证实时性的前提下，平均精度(AP)提高了3.6%，对数漏检率平均值(MR⁻²)降低了4.0%，证明了Dense-YOLOv方法在密集行人检测中的有效性。
- YOLOv5 /
- 密集行人检测 /
- RepVGG /
- ECA /
- 深度学习 /
- 特征融合 /
- 单阶段检测 /
- 注意力机制
Abstract: Aiming at the problems of low accuracy and high missed detection rate caused by high occlusion overlap between pedestrians in dense pedestrian detection, a single-stage dense pedestrian detection method—Dense-YOLOv5, is proposed in this paper. The experiment is based on YOLOv5-L. First, the improved RepVGG module is used to replace the original 3×3 convolution to enhance the extraction of feature information in dense scenes. Then, a detection head is added on the basis of the original three detection heads to reduce the missed detection of small-scale pedestrians. Finally, an attention mechanism is introduced in the network feature fusion stage, and an ECA (efficient channel attention) module is added to improve the accuracy of useful information location. The experimental results show that compared with the original YOLOv5 on the CrowdHuman dataset, the Dense-YOLOv5 has an increase of 3.6% in AP; MR⁻² is reduced by 4.0%, proving that the Dense-YOLOv5 method is effective in dense pedestrians.
- YOLOv5 /
- dense pedestrian detection /
- RepVGG /
- ECA /
- deep learning /
- feature fusion /
- single stage detection /
- attention mechanism

HTML全文

行人检测是一项具有明确目的的目标检测任务，其主要对象为道路上的行人^[1]。近年来，随着人工智能技术的飞速发展，行人检测技术被广泛应用于视频监控、自动驾驶、人群计数以及智能交通等诸多领域。虽然行人检测技术在过去的几年里一直不断进步和发展，在一些简单常见的场景下已经取得了不错的检测效果，但是在现实生活中，诸如地铁、商场和街道等人群密集场景下，行人之间相互重叠和行人尺度偏小难检测等问题依旧没得到很好地解决^[2]。因此，研究一种能够在密集行人场景下同样高效的检测算法具有重要的现实意义^[3]。

传统的行人检测技术主要步骤是先人工设计特征提取方法，再通过单独训练分类器进行分类^[4]。Dalal等^[5]提出采用梯度方向直方图（histogram of oriented oradient, HOG）提取特征，再通过支持向量机（support vector machine, SVM）对特征进行分类的检测；Felzenszwalb等^[6]提出可形变部件模型（deformable part model, DPM），通过设计可变卷积核的方式对不同尺度的行人进行特征提取。但传统行人检测技术存在特征提取能力弱和泛化性差等不足。

目前，使用深度学习的行人检测技术成为主流。基于深度学习的行人检测技术可以分为两类，一类是基于感兴趣区域(region of interest, ROI)的双阶段（two stage）检测算法，首选应用算法获得可能包含待检目标的检测框，然后将这些检测框送入神经网络中进行分类和回归得到更加精细的检测框。常见的双阶段检测算法有Fast R-CNN^[7]、 Faster R-CNN^[8]和Cascade R-CNN^[9]等。虽然双阶段检测算法精度更高，但其训练过程繁琐复杂，检测需要花费大量时间，往往难以满足实际生活中实时行人检测的需要。另一类是不需要获得ROI的单阶段（one stage）检测算法，该类算法采取端对端的训练方式，输入图像后直接生成最终检测框的位置和分类概率。常见的单阶段检测算法有YOLO^[10-13]系列、SSD^[14]和FCOS^[15]等。因其训练简单、模型轻量化和检测速度快等优点，拥有更好的发展前景。Wang等^[16]提出了互斥损失函数（repulsion loss），降低了周围预测框待检目标的干扰，提高了Faster R-CNN在密集行人场景下的检测精度，但其增加了预测框后处理时间，降低了检测速度；Pang等^[17]提出（mask-guided attention network, MGAN）算法，从注意力掩码引导角度下，增强了对于遮挡部分的检测效果，但其对于多尺度场景下行人检测效果一般；邓杰等^[18]提出Crowd-YOLO算法，通过加入可见框标注信息与全身框信息相结合以及改变上采样的机制提高了YOLOv3在拥挤行人场景的检测精度，但其带来检测框几何级数量的增加，增加了训练复杂度；冯婷婷等^[19]通过加入滤波器响应归一化 (filter response normalization, FRN)和加强候选框聚类的方法对SSD算法进行了改进，改善了密集场景下小尺度行人漏检和误检问题，但是受限于SSD骨干网络特征提取能力较弱。

针对上述问题，本文以单阶段检测算法YOLO系列中YOLOv5-L 作为基础模型进行改进。首先，在骨干网络特征提取阶段用改进RepVGG^[20]模块替换3×3卷积（Conv）加强特征提取；然后，添加1个额外的检测层提高对小尺寸行人检测精度；最后，在特征融合阶段引入注意力机制ECA（efficient channel attention）^[21]模块，提高了特征融合阶段特征信息的利用率。改进后的Dense-YOLOv5网络在保证实时性的同时，提高了密集行人场景下网络的平均精确度并降低了漏检率。

1. YOLOV5检测算法

YOLOv5是Ultralytics团队在2020年提出来的One Stage目标检测算法，相比于YOLOv4算法，保留检测精度的同时，又根据网络深度和宽度不同，分为V5-S、V5-M、V5-L和V5-X共4个模型，用户可以根据不同的需求选择所需要的网络结构，也因其高度的灵活性被广泛部署在工业领域中。YOLOv5的网络结构主要由特征提取层Backbone、特征融合层Neck和检测层Head共3部分构成，其中YOLOv5网络结构如图1。

图 1 YOLOv5网络结构

下载: 全尺寸图片

1.1 特征提取层Backbone

YOLOV5 6.0的Backbone部分主要由C3模块、Conv和SPPF共3个部分构成，其作用是对输入的图像进行特征提取。输入图片经过预处理后，多次通过Conv模块和C3进行下采样和特征提取，最后经过SPPF结构进行池化，实现骨干网络特征提取。

1.2 特融合层Neck

Neck络设计目的是充分利用Backbone部分所提取的特征信息。YOLOv5采用的是和FPN+PANeT结构，特征金字塔网络（feature pyramid network, FPN）可以将高层的语义信息传到底层，而PANeT结构可以将底层的定位信息传到高层，从而更好地将语义信息和定位信息进行融合，实现对 Backbone所提取的特征的充分利用。

1.3 检测层Head

YOLOv5的Head层输出20×20、40×40、80×80共3个不同尺寸的特征图，其中80×80特征图负责检测图片中的小目标，40×40特征图负责检测图片中的中等目标，20×20特征图负责检测图片中的大目标。每一层特征图上，预设3个不同长宽比的预测框，每一个预测框上包含目标的位置信息和置信度，最后经过非极大值抑制（non-maximum suppression, NMS）算法将交并比（intersection over union, IoU）超过设定阈值的重叠预测框丢弃。

2. 改进YOLOv5检测算法

2.1 特征提取骨干网络修改

原始YOLOv5骨干网络3×3的Conv模块采取的是卷积核加激活函数直接连接的设计，对于非密集场景下行人检测的特征提取往往有不错的效果，但是对于密集遮挡现象，往往很难有效地进行特征提取。为此引入RepVGG模块并对其进行修改，用SiLU激活函数替换原有激活函数ReLU。

RepVGG 模块均采用4层多分之结构，由3×3卷积、1×1卷积分支和identity的残差分支相结合而成，其中第1层为步长为2的降采样层。RepVGG模块在模型训练时多分支的结构采用不同的卷积核以获得不同的感受野，将不同感受野获取到的信息进行相加，进而强化特征信息的提取，提高模型性能的同时，具有多个分支的残差结构相当于网络具有多条梯度流通路径，等同于同时训练多个网络并进行融合，提高了特征信息提取的效率。此外，RepVGG模块在推理阶段更关注速度，改变多路残差分支网络转而采用单路结构，通过结构重参数化将训练阶段的模型等价转换成直连VGG的推理模型，可以大大加快其在推理上面效率，RepVGG模块训练和推理结构如图2所示。

图 2 RepVGG模块训练和推理结构

下载: 全尺寸图片

本文中将YOLOv5骨干网络原3×3卷积变成RepVGG模块, 在保证整个网络在实时的前提下，仅仅增加一部分参数降低一部分推理速度得到检测精度的提高，其中改进骨干网络结构如图3所示。

图 3 改进骨干网络结构

下载: 全尺寸图片

2.2 检测层改进

YOLOv5的Head层输出20×20、40×40、80×80共3个不同尺寸的特征图，分别对应的感受野为32×32、16×16和8×8，即所能检测到的目标为8×8以上的目标。当检测目标小于8×8时，由于感受野的范围限制将检测不到。密集行人场景往往会有很多小于8×8像素的目标，由于检测层感受野的局限性往往会出现小尺度行人检测不到和检测效果差导致召回率低的问题。为了缓解密集场景下小尺度行人检测难的问题，本文在原有3个检测层的基础上，添加1个输出为160×160的检测层负责小尺度行人的预测，改进后的检测层如图4所示。

图 4 改进后的检测层

下载: 全尺寸图片

2.3 特征融合网络改进

为了加强特征信息的利用率，本文引入ECA注意力机制模块，ECA是Wang等在2020年对经典的SE (squeeze and excitation)^[22]模块进行改进、提出来的一种轻量通道注意力机制模块。SE模块和ECA模块如图5（a）和图5（b）所示。

图 5 SE和ECA模块

下载: 全尺寸图片

图5中，H、W、C分别为特征图的高、宽和通道维度大小，GAP为全局平均池化层，σ为Sigmoid激活函数，k为自适应卷积核大小，由 $ \psi (C) $ 来决定，其公式如式（1）所示。由图5可知，SE注意力机制模块通过先降维后升维的复杂方式实现特征提取，而ECA模块仅仅通过一维形式的卷积就实现了通道之间的特征信息交互，不仅可以提升特征信息在通道中的传递效率，还大大减少了模型的复杂度和运算量。

$$ k = \psi (C) = \left|\frac{{\log _2^{(C)}}}{\gamma } + \frac{b}{\gamma }\right|_{{\text{odd}}} $$

(1)

式中： $ \gamma $ 和b为线性拟合非线性参数， $ |t{|_{{\text{odd}}}} $ 表示距离t最近的奇数。由式（1）可知，卷积核大小k受到卷积的通道数影响，特征通道C越大，则自适应卷积核的k值越大，卷积作用的范围越大，低维度通道相对高维度通道作用的范围变小。文中将 $ \gamma $ 和b分别设置为2和1，则k值为5。本文对YOLOv5原始特征融合阶段做出改进，将ECA模块放在Neck中负责预测中小物体的C3模块后面，加强网络对骨干网络特征信息的利用率和对密集行人场景下小尺度行人的检测能力，其加入ECA模块的结构如图6所示。

图 6 加入ECA模块的结构

下载: 全尺寸图片

3. 实验结果与分析

3.1 实验环境

本文实验环境为: Intel(R) Core(TM) i5-11600 kf CPU，16 GB内存；显卡 RTX 3060；Windows 10，64 位操作系统；学习框架为pytorch 1.10.1, Cuda 11.3。

3.2 实验数据集

CrowdHuman^[23]数据集相比于传统的行人检测数据集Caltech和Citypersons，行人更加密集和拥挤，并且所涉及场景更加广泛。其中CrowdHuman数据集包含15000张训练图像、4370张用于验证的图像和5000张用于测试的图像，其中训练集约有340 K人类实例，平均每张图片包含23个人类实例。考虑到CrowdHuman数据集没有开放测试集的标注，本文挑选CrowdHuman数据集中训练集和验证集，按照0.75、0.1、0.15的比例划分训练集、验证集和测试集，分别为14527、1937和2906张图片。其中CrowdHuman数据集中部分图片如图7所示。

图 7 数据集部分图片

下载: 全尺寸图片

3.3 评价指标

为了更好地衡量密集场景下行人检测器的精度和实时性，本文设置的评价指标有漏检率的对数平均值（log-average missing rate, MR⁻²）、平均精度(average precision, AP)、每秒传输帧数 (frames per second, FPS)和浮点计算量（giga floating-point operation per second, GFLOPs）。其中FPS指的是检测器每秒钟检测图片的个数，MR、MR⁻²和AP计算公式如式(2)~式(4)所示：

$$ {\text{MR}} = \frac{{{\text{FN}}}}{{{\text{TP}} + {\text{FN}}}} $$

(2)

$$ {\text{M}}{{\text{R}}^{ - 2}} = \frac{1}{9}{\text{log}}\sum\limits_{{\text{FPPI}} = {{10}^{ - 2}}}^{{{10}^0}} {{\text{MR}}} $$

(3)

$$ {\text{AP}} = \int_0^1 {{{{\rm{P}}(R){\rm{d}}R}}} $$

(4)

式中：TP(true positive)代表的是预测框中预测为真实际也是真的例子；FN(false positive) 代表的是预测框预测为假实际为真的例子；FPPI（false positive per image）指的是平均每张图中的误检框的数目；MR⁻²指的是采用FPPI为横坐标，MR为纵坐标的曲线中，均匀选取 [10⁻²,10⁰]范围内的9个FPPI, 得到它们对应的9个 $ {\log ^{{\text{MR}}}} $ 值，并对这几个纵坐标值进行平均计算，最后将其化成百分数的形式就得到MR⁻²；AP指的是P(R)（precision-recall）曲线所围成的面积大小。FPS指的是检测器每秒钟检测图片的个数，即检测图片数量与检测时间的比值；GFLOPs指的是模型复杂度，且 $ {\text{1GFLOPs = 1}}{{\text{0}}^{\text{9}}}{\text{FLOPs}} $ ，其中FLOPs计算公式如式(5)所示：

$$ {\text{FLOPs = 2}}HW{\text{(}}{{\text{C}}_{{\text{in}}}}{K^{\text{2}}}{\text{ + 1)}}{C_{{\text{out}}}} $$

(5)

式中：H为输入图片高度，W为输入图片宽度， $ {{{C}}_{{\text{in}}}} $ 为输入图片通道数，K为卷积核大小， $ {C_{{\text{out}}}} $ 输出通道数。其中MR⁻²、GFLOPs越小越好，AP和FPS越大越好。

3.4 实验设置

本文选择ImageNet数据集进行预训练获得预权重，采用SGD作为模型的优化器训练100个epoch； batch size设置为8；初始学习率设置为0.01，经过100个epoch后达到0.002；动量( momentum) 为0.937；权重衰减（decay）设置为 $5 \times {10^{ - 4}}$ ，NMS阈值设置为0.5，输入图片分辨率均为640×640。

3.5 消融实验与改进实验

为了验证改进算法对YOLOv5各个模块改进优化效果，在CrowdHuman数据集上设置了1组消融实验。消融实验包括3个改进模块的对比，在原有的YOLOv5基础上，第1个模块是替换骨干网络3×3的Conv模块；第2个模块是加入1个新的检测头变成4个检测头；第3个模块是加入ECA模块。消融结果如表1所示，其中RepVGG表示替换原YOLOv5的3×3的Conv模块，Head表示添加1个检测头， ECA表示在颈部加入ECA注意力模块，其中√表示加入此模块。

表 1 消融实验结果

RepVGG	Head	ECA	AP/%	MR⁻²/%	FPS	GFLOPs
			81.5	64.2	50.1	107.9
√			83.1	62.5	47.5	109.6
√	√		84.5	60.8	42.6	129.8
√	√	√	84.8	60.2	42.6	129.9

由表1可知，在CrowdHuman数据集下，在加入第1个模块RepVGG后，AP分别上升1.6 %， MR⁻²下降了1.7 %；加入第2个模块变成4个检测头以后， AP上升1.4%，MR⁻²下降了1.7%；加入第3个模块ECA注意力机制以后，AP上升0.3%，MR⁻²下降了0.6%。经过3个模块改进后，相比于原始YOLOv5-L，改进后的YOLOv5在速度FPS仅仅下降了7.5，参数量GFLOPs增加了22，这符合密集场景下行人检测实时性的要求。

此外，通过研究发现对RepVGG模块原有激活函数进行改进，仅仅将ReLU替换成SiLU也可以取得部分提高，其结果如表2所示。

表 2 改进实验结果

RepVGG	RepVGG(SiLU)	AP/%	MR⁻²/%	FPS	GFLOPs
√		84.8	60.2	42.6	129.9
	√	85.1	60.2	42.5	129.9

改进RepVGG模块后仅仅降低了0.1的FPS，却提高了0.3%的AP，其余均没有发生改变，故此处将原RepVGG模块中的ReLU激活函数替换成为SiLU激活函数。YOLOv5-L与改进后的Dense-YOLOv5算法检测效果部分对比图如图8（a）和图8（b）所示。

图 8 YOLOv5-L与改进算法检测效果对比

下载: 全尺寸图片

3.6 实验对比

为了验证本文所提出的Dense-YOLOv5效果和性能，将算法与其他主流的目标检测算法进行比较，其结果如表3所示。

表 3 对比实验结果

算法	输入尺寸	AP/%	MR⁻²/%	FPS	GFLOPs
SSD	512×512	68.4	69.4	78.2	87.7
FCOS	640×640	69.5	70.1	22.1	195.9
Faster R-CNN	640×640	80.2	65.1	14.4	223.8
Cascade R-CNN	640×640	85.3	60.0	10.2	270.1
YOLOv5-L	640×640	81.5	64.2	50.1	107.9
本文算法	640×640	85.1	60.2	42.5	129.9

实验对比结果表明，Cascade-RCNN虽然在AP达到了85.3%，MR⁻²达到了60.0%，略微超过于Dense-YOLOv5，但是其FPS远远低于本文改进算法，并且GFLOPs达到了270.1；而SSD算法虽然FPS达到了78.2，GFLOPs达到了87.7，但是其AP和MR⁻²性能远不如改进后Dense-YOLOv5。综合各项指标来看，Dense-YOLOv5在上述算法中属于最优算法，确实具有良好的性能。图9是Dense-YOLOv5与其他检测网络检测算法对比图。

图 9 改进算法与其他检测算法对比

下载: 全尺寸图片

4. 结论

本文在YOLOv5-L的基础上提出了一种新的密集行人检测方法Dense-YOLOv5。针对原骨干网络在密集行人场景下特征信息提取不充分的特点，提出用改进的RepVGG模块来替代原有3×3卷积模块。针对小尺度行人检测效果不佳问题，提出增加1个检测头来加强对密集场景下小尺度人群的检测效果。针对原数据集密集场景下带来的重叠问题，在基本不增加网络参数的前提下，引入ECA模块，加强感受野的定位信息，增强模型对于密集场景下行人的检测能力。经实验证明，本文提出的Dense-YOLOv5算法能够很好地解决密集场景下的实时行人检测任务。

此外，在研究时发现，正负样本比例不平衡引起的漏检误检问题是制约密集行人检测算法的一个很大难题。之后的研究中将继续着眼于优化算法网络结构，提升网络精度，将尝试对正负样本比例和分配问题进一步优化，对检测层后处理阶段进一步进行提高，在保证实时的前提下，继续提高AP大小，降低漏检率。

图 1 YOLOv5网络结构

下载: 全尺寸图片

图 2 RepVGG模块训练和推理结构

下载: 全尺寸图片

图 3 改进骨干网络结构

下载: 全尺寸图片

图 4 改进后的检测层

下载: 全尺寸图片

图 5 SE和ECA模块

下载: 全尺寸图片

图 6 加入ECA模块的结构

下载: 全尺寸图片

图 7 数据集部分图片

下载: 全尺寸图片

图 8 YOLOv5-L与改进算法检测效果对比

下载: 全尺寸图片

图 9 改进算法与其他检测算法对比

下载: 全尺寸图片

表 1 消融实验结果

RepVGG	Head	ECA	AP/%	MR⁻²/%	FPS	GFLOPs
			81.5	64.2	50.1	107.9
√			83.1	62.5	47.5	109.6
√	√		84.5	60.8	42.6	129.8
√	√	√	84.8	60.2	42.6	129.9

表 2 改进实验结果

RepVGG	RepVGG(SiLU)	AP/%	MR⁻²/%	FPS	GFLOPs
√		84.8	60.2	42.6	129.9
	√	85.1	60.2	42.5	129.9

表 3 对比实验结果

算法	输入尺寸	AP/%	MR⁻²/%	FPS	GFLOPs
SSD	512×512	68.4	69.4	78.2	87.7
FCOS	640×640	69.5	70.1	22.1	195.9
Faster R-CNN	640×640	80.2	65.1	14.4	223.8
Cascade R-CNN	640×640	85.3	60.0	10.2	270.1
YOLOv5-L	640×640	81.5	64.2	50.1	107.9
本文算法	640×640	85.1	60.2	42.5	129.9

参考文献(23)

[1]	谢富, 朱定局. 深度学习目标检测方法综述[J]. 计算机系统应用, 2022, 31(2): 1−12.
[2]	周薇. 基于卷积神经网络的行人检测方法研究[D]. 成都: 电子科技大学, 2019.
[3]	陈宁, 李梦璐, 袁皓, 等. 遮挡情形下的行人检测方法综述[J], 计算机工程与应用, 2020, 56(16): 13-20.
[4]	刘婉莹, 密集场景下基于 Faster R-CNN的行人检测算法研究[D]. 武汉: 华中科技大学, 2020.
[5]	DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//2005 IEEE Conference on Computer Vision and Pattern Recognition. San Diego: IEEE, 2005: 886-893.
[6]	FELZENSZWALB P, MCALLESTER D, RAMANAN D. A discriminatively trained, multiscale, deformable part model[C]//2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage: IEEE, 2008: 1-8.
[7]	GIRSHICK R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision. Boston: IEEE, 2015: 1440-1448.
[8]	REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. 2015 IEEE transactions on pattern analysis and machine intelligence, 2015, 39(6): 1137-1149.
[9]	CAI Z, VASCONCELOS N. Cascade R-CNN: delving into high quality object detection[C]//2018 IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 6154-6162.
[10]	REDMON J, DIVVALA S, GIRSHICK R, et al.You only look once: unified, real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779-788.
[11]	REDMON J, FARHADI A. YOLO9000: better, faster, Stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017 : 6517-6525.
[12]	舒壮壮, 单梁, 马苗苗, 等. 基于YOLOv3的改进行人检测算法研究[J]. 南京理工大学学报, 2021, 45(3): 259−264. doi: 10.14177/j.cnki.32-1397n.2021.45.03.001
[13]	BOCHKOVSKIY A, WANG C, LIAO H. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. (2020-04-23) [2022-04-17]. https://arxiv.org/abs/2004.10934.
[14]	LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]//European Conference on Computer Vision. Amsterdam: Springer, 2016: 21–37.
[15]	TIAN Zhi, SHEN Chunhua, CHEN Hao, et al. FCOS: fully convolutional one-stage object detection[C]//2019 IEEE/CVF International Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 9627−9636.
[16]	WANG Xinlong, XIAO Tete, JIANG Yuning, et al. Repulsion loss: detecting pedestrians in a crowd[C]//2018 IEEE Conference on Computer vision and pattern recognition. Salt Lake City: IEEE, 2018: 7774-7783.
[17]	PANG Yanwei, XIE Jin, KHAN M, et al. Mask-guided attention network for occluded pedestrian detection[C]//2019 IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 4966–4974.
[18]	邓杰, 万旺根. 基于改进YOLOv3的密集行人检测[J]. 电子测量技术, 2021, 44(11): 90−95. doi: 10.19651/j.cnki.emt.2106129
[19]	冯婷婷, 葛华勇, 孙家慧. 一种基于 SSD 与 FRN 相结合的密集连接行人检测算法[J]. 信息技术与网络安全, 2020, 39(12): 56−60.
[20]	DING Xiaohan, ZHANG Xiangyu, MA Ningning, et al. RepVGG: making vgg-style convnets great again[EB/OL]. (2021-03-29)[2022-04-17]. https://arxiv.org/abs/2101.03697.
[21]	WANG Qilong, WU Banggu, ZHU Pengfei, et al. ECA-Net: efficient channel attention for deep convolutional neural networks[C]//2020 IEEE Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 3-8.
[22]	HU Jie, SHEN Li, SUN Gang. Squeeze-and-excitation networks[C]//2018 IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132-7141.
[23]	SHAO Shuai, ZHAO Zijian, LI Boxun, et al. CrowdHuman: a benc-hmark for detecting human in a crowd[EB/OL]. (2018-04-30)[2022-04-17]. https://arxiv.org/abs/1805.00123.

点击查看大图

图(9) / 表(3)

摘要

基于改进YOLOv5的密集行人检测方法

doi: 10.11991/yykj.202204024

作者简介: 张忠民，男，副教授，博士; 吴泽，男，硕士研究生.

通讯作者: 张忠民，E-mail： zhangzhongmin@hrbeu.edu.cn.

出版历程

Dense pedestrian detection method based on improved YOLOv5

1. YOLOV5检测算法

1.1 特征提取层Backbone

1.2 特融合层Neck

1.3 检测层Head

2. 改进YOLOv5检测算法

2.1 特征提取骨干网络修改

2.2 检测层改进

2.3 特征融合网络改进

3. 实验结果与分析

3.1 实验环境

3.2 实验数据集

3.3 评价指标

3.4 实验设置

3.5 消融实验与改进实验

3.6 实验对比

4. 结论

出版历程

目录

作者简介:
张忠民，男，副教授，博士;

吴泽，男，硕士研究生.

通讯作者:
张忠民，E-mail： zhangzhongmin@hrbeu.edu.cn.