面向小目标检测结合特征金字塔网络的SSD改进模型

引用本文

张建明, 刘煊赫, 吴宏林, 等. 面向小目标检测结合特征金字塔网络的SSD改进模型[J]. 郑州大学学报(理学版), 2019, 51(3): 61-66, 72.

ZHANG Jianming, LIU Xuanhe, WU Honglin, et al. Improved SSD Model with Feature Pyramid Network for Small Object Detection[J]. Journal of Zhengzhou University(Natural Science Edition), 2019, 51(3): 61-66, 72.

基金项目

国家自然科学基金项目(61772454, 61811530332);湖南省教育厅科学研究重点项目(16A008);教育部高等教育司2017年第二批产学合作协同育人项目(201702137008);长沙理工大学研究生课程建设项目(KC201611);湖南省研究生培养创新基地项目(湘教通[2017]451号-30)

通信作者

刘煊赫(1994—)，男，河南禹州人，硕士研究生，主要从事机器学习、深度学习和机器视觉研究，E-mail：liuxuanhe@stu.csust.edu.cn

作者简介

张建明(1976—)，男，湖南益阳人，副教授，主要从事计算机视觉、机器学习、智能交通系统和物联网研究，E-mail：jmzhang@csust.edu.cn

文章历史

收稿日期：2018-09-02

Contents Abstract Full text Figures/Tables PDF

面向小目标检测结合特征金字塔网络的SSD改进模型

张建明^1,2 , 刘煊赫^1,2 , 吴宏林^1,2 , 黄曼婷^1,2

1. 长沙理工大学综合交通运输大数据智能处理重点实验室湖南长沙 410114;
2. 长沙理工大学计算机与通信工程学院湖南长沙 410114

收稿日期：2018-09-02

基金项目：国家自然科学基金项目(61772454, 61811530332);湖南省教育厅科学研究重点项目(16A008);教育部高等教育司2017年第二批产学合作协同育人项目(201702137008);长沙理工大学研究生课程建设项目(KC201611);湖南省研究生培养创新基地项目(湘教通[2017]451号-30)

作者简介：张建明(1976—)，男，湖南益阳人，副教授，主要从事计算机视觉、机器学习、智能交通系统和物联网研究，E-mail：jmzhang@csust.edu.cn.

通信作者：刘煊赫(1994—)，男，河南禹州人，硕士研究生，主要从事机器学习、深度学习和机器视觉研究，E-mail：liuxuanhe@stu.csust.edu.cn.

摘要：针对SSD卷积神经网络模型对小目标检测精度不高的问题，提出了一种基于特征金字塔网络的SSD改进模型.特征金字塔网络可以将深层的携带有更抽象、更丰富的语义信息的卷积特征图与浅层的分辨率更高、更细节的卷积特征图进行融合.检测的过程是将原始SSD网络得到的多层特征图，经改进设计的横向连接层、上采样层、融合层和预测层处理后，再通过非极大值抑制得到最终的检测结果.采用PASCAL VOC 2007和2012(train+val)作为训练集，PASCAL VOC 2007(test)测试集的mAP达到了75.8%，相比原SSD模型提高了1.5%.其中，在盆栽植物类密集小目标检测上有9.9%的提升.

关键词：目标检测卷积神经网络 SSD模型特征金字塔网络特征图融合

Improved SSD Model with Feature Pyramid Network for Small Object Detection

ZHANG Jianming^1,2 , LIU Xuanhe^1,2 , WU Honglin^1,2 , HUANG Manting^1,2

1. Key Laboratory of Intelligent Processing of Big Data on Transportation, Changsha 410114, China;
2. School of Computer and Communication Engineering, Changsha University of Science and Technology, Changsha 410114, China

Abstract: To solve the problem that the low accuracy of SSD convolution neural network model for small target detection, an improved SSD model based on feature pyramid network was proposed. The feature pyramid network could fuse the deeper convolutional feature maps, which had more abstract and richer semantic information, and the shallower convolutional feature maps, with higher resolution and more detailed information. The detection process was that multi-layer feature maps obtained from the original SSD network were processed by the lateral connection layer, upsampling layer, fusion layer, and prediction layer and so on. And then the final detection results were achieved by the non-maximal suppression. In the test, PASCAL VOC 2007 and 2012 (train+val) were used as training sets. The mAP in the PASCAL VOC 2007 (test) test set reached 75.8%, which was 1.5% higher than the original SSD model. In particular, there was a 9.9% improvement in dense small-object detection of potted plants.

Key words: object detection convolutional neural network SSD feature pyramid network feature map fusion

0 引言

目标检测在计算机视觉领域一直是研究热点，通用类的目标检测是智能监控、智能机器人等大量应用投入实际使用时所需要的支撑技术.人脸检测^[1]和行人检测^[2]这两个单一类别目标检测技术已经相当成熟；但通用类的目标检测精度一直不是很高，检测的效果还有很大提升空间.通用类目标检测的难点在于待检测的目标物体的尺寸、形状、颜色等特征千变万化，并且很难找到其中的共性，所以传统的机器学习手工设计待检测目标的特征对通用类的目标检测来说，难度很大.近来，越来越多的研究者转向深度学习，涌现出了很多优秀的基于深度学习的检测算法.

2012年至今，许多深度学习的算法被提出来，如AlexNet^[3]、ZFNet^[4]、VGGNet^[5]、Google-Net^[6]、R-CNN^[7]及Faster R-CNN^[8]等，但这些方法都是分阶段的，检测速度慢，不能达到实时性的要求.鉴于分段式目标检测方法的缺陷，2016年，Redmon等人提出了YOLO(you only look once：unified，real-time object)^[9]网络模型，同年，Liu等人提出了SSD(single shot multibox detector)网络^[10].YOLO和SSD与之前的深度模型不同，它们是基于回归得到输入图片边界框和类别概率的神经网络框架.这种一站式完成提取特征和检测任务的神经网络实现了端到端的优化，提升了框架的速度，但SSD对小目标检测的精度较低，因为小目标检测需要高分辨率，而原始的SSD模型不能对浅层的特征图进行充分利用.本文借鉴SSD网络结构，结合特征金字塔网络^[11]进行改进，充分利用浅层的高分辨率的特征图，以便提升原模型的精度.

本文以SSD为基本的框架模型，针对小目标检测问题，用特征金字塔网络对原始SSD框架进行改进.原始的SSD是基于金字塔特征层对各层不同大小的特征图进行回归，产生默认框的位置信息和类别信息，但原始的SSD对小目标的识别能力不足.本文将采用特征金字塔网络，将原始的SSD更深层的特征图与浅层的特征图进行融合，目的是将深层特征图更抽象的语义信息赋予浅层特征图，然后对融合后的特征图进行回归，得到默认框的位置信息和类别信息.实验表明，在PASCAL VOC数据集上的检测精度比原始的SSD有所提升.

1 预备知识 1.1 SSD模型

SSD模型有3个关键的特征：①多尺度特征图预测.分别从Conv4_3层、Conv7层、Conv8_2层、Conv9_2层、Conv10_2层和Conv11_2层引出特征图，用这些大小不同的特征图做预测；②卷积层预测.每个特征层，都可以通过一组卷积滤波器得到一组固定的预测结果；③默认框和长宽比.每个特征图上的像素点都会对应一系列的框，再根据不同的长宽比，生成更多尺寸不同的框，这些不同尺寸的框可以用来预测不同尺寸和形状的目标.

对于一个给定的像素点位置，有k个默认框，每个默认框要预测出c个类别分数和4个相对原始默认框的偏移值，即每个框要预测(c+4)个值.这样对于一个给定的位置需要k×(c+4)个值，就需要k×(c+4)个卷积核来实现.所以对于一个m×n大小的特征图，共有m×n×k×(c+4)个输出.

SSD的目标损失函数$ L(x, c, l, g)=\frac{1}{N}\left(L_{\mathrm{conf}}(x, c)+\alpha L_{\mathrm{loc}}(x, l, g)\right)$，这里的N为匹配到的默认框的数量, 如果N为0，设定loss=0.x表示输入图片；c表示目标的多类别的置信度；l表示预测框；g表示标定好的真实数据；L_conf表示置信度损失，L_loc表示位置损失.

$ {L_{{\rm{loc}}}}(x, l, g) = \sum\limits_{i \in Pos} \sum\limits_{m \in \{ cx, cy, w, h\} } x_{ij}^ksmoot{h_{L1}}\left( {l_i^m - \hat g_j^m} \right), $

$ \begin{array}{l} \hat g_j^{cx} = \left( {g_j^{cx} - d_i^{cx}} \right)/d_i^w, \hat g_j^{cy} = \left( {g_j^{cy} - d_i^{cy}} \right)/d_i^h, \\ \hat g_j^w = \log \left( {g_j^w/d_i^w} \right), \hat g_j^h = \log \left( {g_j^h/d_i^h} \right), \end{array} $

其中：L_loc是预测框l和标定好的真实数据g之间的smooth_L₁损失；g_j^cx和g_j^cy分别是第j个标定好的真实数据的中心点的横纵坐标；d_i^cx和d_i^cy是第i个默认框的中心点的横、纵坐标；d_i^w和d_i^h是第i个默认框的宽和高；g_j^w和g_j^h是第j个标定好的真实数据的宽和高.由$\hat{g}_{j}^{c x}、\hat{g}_{j}^{c y}、\hat{g}_{j}^{w}、\hat{g}_{j}^{h}$的计算表达式可知，回归不是直接得到预测框的中心点坐标和宽、高，而都是相对于默认框的偏移值，但经过简单的转换就可以得到预测框，

$ {L_{{\rm{conf}}}}(x, c) = - \sum\limits_{i \in Pos}^N {x_{ij}^p} \log \left( {\hat c_i^p} \right) - \sum\limits_{i \in Neg} {\log } \left( {\hat c_i^0} \right), \hat c_i^p = \frac{{\exp \left( {c_i^p} \right)}}{{\sum\limits_p {\exp } \left( {c_i^p} \right)}}, $

其中：L_conf是多类别置信度c的softmax损失；x_ij^p是第i个默认框与类别p的第j个标定好的真实数据是否匹配的标识，取值为{0, 1}；$ \sum\limits_i {x_{ij}^p} \ge 1$; c_i^p是第i个默认框的类别的置信度；$ \hat{c}_{i}^{p}$是第i个默认框的类别置信度的softmax的输出；$ \hat{c}_{i}^{0}$是第i个默认框的背景类的置信度；Pos和Neg分别表示正样本集和负样本集.

1.2 特征金字塔网络

金字塔是种“形近”的表达，如图 1所示，深度学习中有各种各样的金字塔，示意图中灰色部分黑色边框为输入的图片，白色部分黑色边框为通过神经网络得到的特征图.图 1(a)神经网络的输入为尺寸单一的图片，经过不同的卷积层和池化层(通过卷积和池化操作，特征图逐渐变小，也形似金字塔)，仅根据最后一层的特征图进行预测，这是单特征图(single feature map).图 1(b)对图片进行不同比例的放缩，输入到模型，然后对不同尺度的图片进行处理预测，最后对各个预测结果进行综合判定，这是特征化图像金字塔(featurized image pyramid).图 1(c)输入为尺寸单一的图片，不同的卷积池化层，对不同大小的特征图分别进行预测，然后再对所有的预测结果进行综合判定，这是金字塔特征层(pyramidal feature hierarchy).原始的SSD就是采用多层卷积特征图进行综合预测的.图 1(d)对一张图片进行一个尺寸的单一输入，经过不同的卷积层和池化层，得到尺寸大小不一的特征图，再对这些大小不同的特征图分别进行预测，然后再对所有的预测结果进行综合判定.但是不同的是，它选用的用来预测的特征图是将当前层的更深一层的特征图进行上采样后，再和当前层的特征图进行融合得到的特征图，这是特征金字塔网络(feature pyramid network，FPN).

图 1 各种类型金字塔 Fig. 1 Various types of pyramid

2 FPN-SSD模型

SSD是从多层不同尺度大小的特征图去做预测.不同层级的特征图上有着不同的语义信息，浅层的特征图分辨率高，但只是一些浅层特征，表达特征的能力有限，会影响检测性能.SSD利用了深层特征，但却没有充分利用浅层特征，而是增加网络深度，抛弃浅层特征图所携带的细节信息，这会影响小物体目标的检测.FPN的思想是将浅层和深层的特征图进行融合，使得到的浅层特征层也拥有深层的语义能力，且又不影响小物体的检测.FPN能够利用各个层级特征图的特点，来提高SSD网络的综合检测能力.结合FPN思想，提出了FPN-SSD检测器(feature pyramid network for single shot multibox detector，FPN-SSD).

2.1 FPN-SSD模型的处理流程

一张图片输入到FPN-SSD模型中，处理过程如图 2所示.首先图片尺寸会被更改为300×300的大小，再依次通过VGG16的Conv5_3部分及Conv6、Conv7、Conv8_1、Conv8_2、Conv9_1、Conv9_2、Conv10_1、Conv10_2、Conv11_1、Conv11_2这些卷积层进行处理.然后，对Conv11_2的1×1大小的特征图，由c10_2进行上采样操作，得到尺寸为3×3的特征图.用t10_2减少Conv10_2的特征图的通道数，得到3×3大小的特征图.然后由co10_2将这两个3×3的特征图进行相加操作(融合)，得到融合后尺寸大小为3×3的特征图；然后再对融合后得到的特征图，经过c9_2的上采样操作，再与t9_2横向连接层得到的特征图进行融合，得到融合层co8_2的特征图，依次进行同样的操作得到所有融合层的特征图，最后用p4_3、p7、p8_2、p9_2和p10_2处理融合层的特征图，得到预测层的特征图，再用非极大值抑制进行预测.其中，p11_2处理的特征图是由Conv11_2直接得到，不来自融合层.

图 2 基于特征金字塔网络的网络模型图 Fig. 2 Network model map based on feature pyramid network

2.2 FPN-SSD模型分层介绍

FPN-SSD模型分为SSD层、横向连接层、上采样层、融合层和预测层.SSD层是原始的SSD模型，详细的参数见文献[10].其余的横向连接层、上采样层、融合层和预测层是本文的设计，各层详细的参数和作用如表 1所示.表 1展示了横向连接层的各个层由该层到下层的卷积核的大小、通道数量、进行卷积操作时的步长和填充及经过卷积后得到的特征图的大小.该层目的是减少通道数，为后续的融合做准备.因为只有被融合的两层有相同的通道数，才能进行融合.

表 1 横向连接层参数 Tab. 1 Lateral connection layer parameters

上采样层将特征图进行放大，放大到原来的两倍.在特征图放大的过程中，会出现很多没有像素值的空位，空位采用最邻近插值进行值的填充，特征图数量均为256，上采样层c4_3、c7、c8_2、c9_2、c10_2的输出特征图尺寸分别为38×38、19×19、10×10、5×5、3×3.上采样是为了得到融合时所需要尺寸的特征图.

融合层co4_3、co7、co8_2、co9_2、co10_2的输出特征图尺寸分别为38×38、19×19、10×10、5×5、3×3，该层实现了将横向连接层得到的特征图和上采样层得到的特征图进行相加的操作，之前已经将它们的通道数全部转换为256，只有通道数相同且特征图大小一致，才能完成特征图的融合.

表 2展示的是预测层的参数，该层由融合层执行卷积操作得到，目的是将融合层的特征图进行去模糊化操作.因为特征图经过放大都是根据临近位置的像素值进行填充的，这就可能会造成成块的像素值大小相近，目标物体的轮廓不明显，使目标变得模糊，所以就需要这步操作.

表 2 预测层参数 Tab. 2 Prediction layer parameters

3 实验环境与实验结果 3.1 实验环境

本文实验环境是14.04.1-Ubuntu系统，处理器的型号为Intel(R) Xeon(R) CPU E5-2670 v3 @ 2.30 GHz×12，显卡的型号为NVIDIA GeForce GTX TITAN X，显存为12 G，内存为128 G.

本文实验是在PASCAL VOC数据集上进行，实验的模型框架是FPN-SSD，预测层是p4_3、p7、p8_2、p9_2、p10_2和p11_2，训练采用的是随机梯度下降，批次大小是32，权重衰减是0.000 5，动量是0.9，学习率衰减因子是0.94.其中，权重衰减是正则化的系数，防止过拟合；动量的作用是摆脱局部最优达到全局最优.

3.2 实验结果

本文实验的判定指标是平均准确率(mean average precision，mAP)，多个类别的目标物体检测中，每一个类别都可以根据准确率(P)和召回率(R)绘制一条P-R曲线. P-R曲线与坐标轴围起来的面积就是AP，mAP就是多个类别的平均值，$ AP = \int_0^1 P (R){\rm{d}}R, mAP = \sum\limits_{q = 1}^Q A P(q)/Q$.

表 3是在PASCAL VOC 2007 train+val数据集上进行训练，并在PASCAL VOC 2007 test数据集上进行测试得到的结果.其中，Fast是指Fast R-CNN网络；Faster是指Faster R-CNN网络；SSD300是指SSD网络输入的图片尺寸首先更改为300×300；前3行引自文献[10].可以看出，原来的SSD300还没Faster的mAP高.改进后的FPN-SSD，mAP由SSD的68.0%上升到了69.8%，与Faster基本持平，并且大多数的类别也有明显的提升.其中，加粗的是与SSD相比较有提升的类别(表 3列举出了大多数类别).

表 3 PASCAL VOC 2007测试集检测结果(训练集为2007) Tab. 3 PASCAL VOC 2007 test detection results (2007 traintval)

表 4是在PASCAL VOC 2007和2012 train+val数据集上进行训练, 并在PASCAL VOC 2007 test数据集上测试得到的结果.可以看到mAP由原来SSD的74.3%提升到75.8%，并且精度在大多数的类别上都有所提升，尤其以盆栽植物这类原SSD模型不能很好检测的密集小目标，也有较好的提升.其中，加粗的是与SSD相比较有提升的类别.

表 4 PASCAL VOC 2007测试集检测结果(训练集为2007+2012) Tab. 4 PASCAL VOC 2007 test detection results (2007+2012 traintval)

在PASCAL VOC 2007和2012 train+val数据集上训练，YOLOv1在PASCAL VOC 2007 test数据集上的mAP为63.4%.相同条件下，YOLOv2 288的mAP为69.0%；YOLOv2 352的mAP为73.7%；本文方法的mAP为75.8%.其中，YOLOv1是指YOLO的第一个版本，YOLOv2 288是指YOLO的第二个版本且输入首先resize为288×288，YOLOv2 352同理.可以看出同为端到端的模型，本文模型在精度上具有一定的优势.

不同模型的检测结果如图 3所示.第一行是SSD模型，第二行是本文的FPN-SSD模型.第一幅盆栽，FPN-SSD正确检测到了所有的盆栽植物，而SSD模型有一个盆栽没有检测到，并且还有一个多余的检测框；第二幅飞机，FPN-SSD有2架飞机漏检，而SSD模型有5架飞机漏检；第三幅瓶子，FPN-SSD检测到9个瓶子，而SSD检测到5个瓶子.这些都是密集类小目标的检测，可以看出，对于这类目标，本文设计的FPN-SSD的网络确实比原始的SSD有一定的提升.

图 3 不同模型的检测结果对比 Fig. 3 Comparison of detection results of different models

4 结束语

本文选用了端到端检测的经典模型SSD，相比于YOLO模型，SSD模型是利用多层不同尺度大小的卷积特征对目标物体进行预测.同时借助于特征金字塔网络可以将深层的特征图所携带的语义信息与浅层的特征图进行融合，且融合后的特征图有更强的语义信息和更丰富的细节信息，对小目标的物体检测有所帮助.将特征金字塔网络的思想用于SSD模型的改进，实现了FPN-SSD模型在PASCAL VOC数据集上的检测能力有所提升.但是改进后的模型也还是有很多不足，如实验结果中展示的漏检的飞机和瓶子，这种密集小目标的检测虽然有所提升，仍然还有漏检.就检测精度而言，对用于真实场景下的检测^[12]，还有一定的提升空间.

参考文献

[1]	SCHROFF F, KALENICHENKO D, PHILBIN J.Facenet: a unified embedding for face recognition and clustering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Boston, 2015: 815-823. https://www.researchgate.net/publication/273471270_FaceNet_A_Unified_Embedding_for_Face_Recognition_and_Clustering?ev=auth_pub (0)
[2]	TIMÈ D, MONTI F, BAROFFIO L, et al. Deep convolutional neural networks for pedestrian detection[J]. Signal processing: image communication, 2016, 47: 482-489. DOI:10.1016/j.image.2016.05.007 (0)
[3]	KRIZHEVSKY A, SUTSKEVER I, HINTON G E.Imagenet classification with deep convolutional neural networks[C]//Proceedings of Neural Information Processing Systems.Lake Tahoe, 2012: 1097-1105. https://www.researchgate.net/publication/267960550_ImageNe (0)
[4]	ZEILER M D, FERGUS R.Visualizing and understanding convolutional networks[C]//Proceedings of European Conference on Computer Vision.Zurich, 2014: 818-833. http://www.oalib.com/paper/4041303 (0)
[5]	SIMONYAN K, ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[EB/OL].(2015-04-10)[2018-04-12].https://arxiv.org/abs/1409.1556. (0)
[6]	SZEGEDY C, LIU W, JIA Y, et al.Going deeper with convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Boston, 2015: 1-9. http://www.oalib.com/paper/4068635 (0)
[7]	GIRSHICK R, DONAHUE J, DARRELL T, et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Columbus, 2014: 580-587. (0)
[8]	REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137-1149. DOI:10.1109/TPAMI.2016.2577031 (0)
[9]	REDMON J, DIVVALA S, GIRSHICK R, et al.You only look once: unified, real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas, 2016: 779-788. (0)
[10]	LIU W, ANGUELOV D, ERHAN D, et al.SSD: single shot multibox detector[C]//Proceedings of European Conference on Computer Vision.Amsterdam, 2016: 21-37. https://link.springer.com/chapter/10.1007/978-3-319-46448-0_2 (0)
[11]	LIN T Y, DOLLAR P, GIRSHICK R, et al.Feature pyramid networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Honolulu, 2017: 936-944. (0)
[12]	杨鹏, 蔡青青, 孙昊, 等. 基于卷积神经网络的室内场景识别[J]. 郑州大学学报(理学版), 2018, 50(3): 73-77. (0)