2. 北京航空航天大学 数字媒体北京市重点实验室, 北京 100083
2. Beijing Key Laboratory of Digital Media, Beijing University of Aeronautics and Astronautics, Beijing 100083, China
目标检测技术是计算机视觉领域的核心问题之一,遥感图像中的舰船目标检测具有重要的应用价值。作为海上运输载体和重要的军事目标,舰船目标检测一直有着非常重要的意义和价值[1]。在军用领域,了解目标舰船的实时位置能够让我军对敌方舰队的布局和动态有清晰的认知,从而选择恰当的对战策略;在民用领域,实时关注目标海域过往船只的位置能够更好地对海域进行管理,对海上交通、海域安全、海上救援等均有重要作用。利用遥感图像进行舰船检测成为目前目标检测领域的一大热点与重点问题,有重要的军事意义和经济价值。
在遥感舰船检测领域,关于合成孔径雷达图像的研究和成果较多,随着航空航天事业的发展,各国争相发射高分辨率成像卫星,其上搭载的探测设备性能也迅速提升,针对可见光遥感图像的研究也逐渐发展起来。目前,世界上已有多种先进的高分辨率成像卫星,法国的Helios-2B“太阳神2号”光学成像卫星,分辨率可达到0.5 m;以色列Ofeq 9“地平线9号”间谍卫星,分辨率高于0.5 m;中国的“高分二号”卫星目前也已达到优于1 m的可见光图像分辨率。成像状况良好的可见光遥感图像细节多、目标直观、分辨率提升空间大,为遥感图像目标检测带来大量的原始数据,具有良好的发展前景。
近年来,可见光遥感图像舰船检测技术逐渐受到研究者的重视。基于灰度统计特性[2]的方法是经典的舰船检测方法,本质上都是对阈值[3]进行调整从而实现分割,如:大津阈值法、最大熵阈值法和直方图阈值法等,但该方法对海面状况要求较高,需要海面较为平静、匀质且灰度值整体偏低[4]。目前,国外已开发出基于可见光遥感图像目标检测的使用系统,如欧盟DECLIMS(Detection and Classification of Marine Traffic Formspace)项目[5]。文献[6]提出一种基于显著性和方向梯度直方图(Histogram of Oriented Gradient,HOG)特征的非监督舰船检测方法,利用显著性方法提取候选区域并旋转提取HOG特征,利用分类器对特征进行判断得到检测结果;文献[7]首先使用压缩域对舰船目标候选区域进行提取,再利用结合极限学习机的深度神经网络对候选区域进行特征表示和分类识别;文献[8]提出了一种基于贝叶斯决策理论的舰船检测方法,同时提出参数选择策略;文献[9]提出一种“由粗到精”的方法,结合局部特征对舰船目标进行检测。但由于可见光遥感图像受天气影响较大,光照、云层、大气中颗粒物等因素都会对遥感图像的成像造成影响,成为限制可见光遥感图像目标检测算法发展的重要原因。
卷积神经网络(Convolutional Neural Networks, CNN),作为如今最热门的深度神经网络之一,将人工神经网络和深度学习技术相结合,具有局部感受野、结构层次、特征抽取与分类结合的全局训练特征。经过多年的发展,卷积神经网络在图像识别领域取得了一定的成绩,尤其在字符识别和人脸识别方面,以LeNet-5为代表的字符识别已实现商业化应用。2012年,Krizhevsky等[10]提出了AlexNet网络结构,在ILSVRC图像识别竞赛上超越传统方法,top-5错误率由25%降低到17%。
本文提出基于卷积神经网络的遥感图像舰船检测方法,主要创新点如下:
1) 将卷积神经网络应用到舰船检测领域,利用其特征提取层可自主提取图像特征并进行学习的优点,避免了复杂的特征选择和提取过程。
2) 由于获取神经网络参数需要大量训练样本,但舰船样本数量有限,尤其是其中的军舰样本更加难以获得,完全不足以实现对整个网络参数的训练,因此网络特征提取部分采用在ImageNet数据集上训练得到的参数,分类部分采用由舰船样本训练得到的经典支持向量机(Support Vector Machine, SVM)分类器。
3) 应用迁移学习的概念,利用大量民船样本辅助军舰图像的检测。
1 卷积神经网络模型在传统模式识别的方法中,以舰船检测为例,预处理之后,常对样本图像进行连通区域的形状、长宽比或面积等人为预设的具体特征的提取;为了不丢失图像的细节特征,有时也忽略人为预设特征提取的过程,直接将图像中的所有像素作为特征,再将这些特征作为分类器训练与分类的基础信息。但是以上方法,前者不能保证提取到有效或重要的特征,后者又太过繁琐,带来大量冗余信息。卷积神经网络则在一定程度上解决了上述问题,在自动提取图像的显著特性方面表现出了较优的性能,并且对比其他神经网络,卷积神经网络需要训练的参数大大减少,目前已经成为最为热门的深度学习方法之一。
1.1 卷积神经网络结构模型卷积神经网络的一般模型如图 1所示。主要由特征提取层和全连接层组成:特征提取层又包括卷积层和下采样层,二者间隔分布,作用是对输入图像进行特征提取;全连接层以卷积层的输出特征作为全连接层的输入,起到分类器的作用,其输出即为该网络的分类类别。根据不同应用要求,卷积层数和全连接层数都是可调整的。
以输入一幅图像为例,首先经过第一个卷积层进行卷积操作。每层有多个不同的卷积核,利用卷积操作减弱噪声信号、增强目标信号的作用,每个卷积核都对图像进行某种特定特征的提取,从而产生多个卷积结果。卷积层后大多连接下采样层,下采样层对卷积结果进行局部相加,利用训练参数对其添加乘性偏置和加性偏置,然后输入非线性函数中计算,得到下采样结果,即特征映射图。
1.2 网络推导与实现对于多层卷积神经网络来说,经过一次卷积和下采样处理之后,后续的操作是类似的。这一过程可由式(1) 表示:
(1) |
式中:l为层数; i为特征映射图上的点; j为特征映射图的编号; x为计算数值(如在输入级表示图像某通道的灰度值); c表示卷积核; b表示加性偏置; Mj为特征映射图集合。
同理,下采样的过程也可用公式表示为
(2) |
式中:β表示乘性偏置;down表示采样框内像素相加处理[11]。
经过若干卷积层和下采样层进行特征提取之后,需要对提取到的特征进行判定,这时就需要用到全连接网络。在卷积神经网络中,全连接层的应用分为前向传播和反向传播两部分。前向传播中,通过计算实际输出与标准结果的偏差,将某个样本的误差表示为
(3) |
式中:tkn为第n个样本中对应的第k维特征的标准值; ykn为该特征的实际输出; d为特征维数;tn为标准值向量; yn为实际输出向量。利用误差计算误差变化率,公式如下:
(4) |
式中:u表示一个节点的全部输入; b为偏置向量。由于∂u/∂b=1,可以得到∂E/∂b=∂E/∂u=δ,即误差对偏置的变化率可用误差对输入的变化率来表示。将该变化率反向传播,即可对偏置参数产生更新。同理可对权值参数进行更新。
1.3 卷积神经网络特点分析局部感受野是卷积神经网络从生物神经网络受到的启发。1962年,哈佛大学神经生理学实验室的Hubel和Wiesel[12]发现了猫视觉皮层细胞中的局部感受机理和方向感知机理,并提出“感受野”的概念;1984年,日本学者Fukushima[13]提出了基于感受野的认知机模型,首次完成卷积神经网络的实现。在卷积神经网络中,利用卷积和下采样的过程模拟生物提取图像局部区域处理、获得抽象信息的过程[10]。利用这一机理,卷积神经网络中的神经元只需要对局部区域全连接,而不需要与整幅图像进行全连接,且可以提取到包括边缘、角点等局部信息的底层信息。
权值共享是卷积神经网络的另外一个重要特点。所有神经元对局部区域采用相同的连接参数,意味着所有神经元对局部区域提取的特征是同一性质的。为了提取到更多的不同特征,在权值共享的基础上,给出多组不同的权值,可对局部进行多种特征的提取,即给出不同的卷积核,才能得到相应的不同特征映射图。同时,因对局部特征的关注,卷积神经网络还获得了一定意义上的尺度不变性和位移不变性。
2 基于卷积神经网络的舰船检测 2.1 数据集构建数据集包括样本集、验证集和测试集。样本集包括正样本和负样本,正样本包括民船和军舰样本。利用公开的卫星地图,如谷歌地图等,获取多种类型的军舰样本68个、民船样本426个。正样本如图 2、图 3所示。负样本包括陆地、云、海浪等多种情况在内的非舰船目标,负样本如图 4所示。
验证集和测试集包括民船和军舰测试图像。验证集用来进行算法验证和参数调整。由于真实卫星图像中非港口军舰图像难以获得,因此采用仿真方法获得军舰测试集;民船测试集则直接由已公开的卫星数据得到。测试集图像共25张,尺寸为1 000像素×1 000像素,分辨率为1 m。
2.2 卷积神经网络框架搭建及特征提取本文参考AlexNet网络结构[14],共包含8层,前5层是卷积层,用来对图像进行特征提取,后3层是全连接层,对提取到的特征进行分类,第1、2、5卷积层之后都伴随最大值池化层进行池化处理。
在本方案中,提取出原框架前5层卷积层和1层全连接层。使用ImageNet数据集上的训练参数,该网络部分的作用为特征提取,而不需对参数进行更新。此时,通过如图 5所示的网络,得到提取出的4 096维特征,即可作为样本特征输入后续的SVM分类器中进行训练和测试。
2.3 迁移学习应用根据迁移学习定义,可将其分为3个部分:多任务学习、跨领域学习和不同数据分布下的学习,本文主要涉及同领域下的多任务学习和不同数据分布下的学习。
多任务学习是指在同一领域下,利用相关知识来解决新的任务。针对本文研究目标,即属于卷积神经网络对图像中物体进行检测和识别领域内的任务。ImageNet数据集包含1 000类的物体,可以检测到汽车、自行车、房屋等类别,这些目标与遥感图像中的舰船目标均属于人造物体,具有相似性,存在可以迁移的目标基础;从分类方法来看,对于识别领域的不同目标来说,提取信息的方法具有统一性,存在可以迁移的理论依据。
通常的机器学习是依据同分布假设的,但这一条件在很多情况下不容易满足。如本文的研究内容中的军舰目标检测,由于军舰目标非常难以获得,在迁移学习不同数据分布下的学习理论中,可以将与目标(军舰)相似的易得样本(民船)作为训练的辅助样本,与标准正样本(军舰样本)一起作为正样本,对网络进行训练。
由于舰船样本数量远远不能达到对整个卷积神经网络进行训练的要求,因此,应用迁移学习理论,可将在ImageNet数据集上训练得到的参数应用到本文所述的网络中,并在军舰检测中利用民船作为训练的辅助样本。
2.4 SVM分类器与非极大值抑制本文中采用非线性两类SVM。SVM是机器学习中一种有监督的学习方法,用来解决分类和回归的问题,在高维特征、非线性分类领域具有很强的优越性[15]。在与人工神经网络的对比中发现,神经网络通过增加训练样本来减少错分率,样本增加的过程中更易出现过拟合的问题,使网络不具有普适性。而SVM在控制错分率的同时还要控制其风险,将二者结合起来,可在一定程度上避免过度拟合的问题。这也是卷积神经网络进行特征提取之后选择用SVM进行训练和分类的意义。
得到SVM分类分数之后,利用非极大值抑制(NMS)算法对结果进行处理,得到最终检测结果。
2.5 舰船检测方法步骤本文所述方法流程图如图 6所示。方法步骤如下:① 输入一幅图像,对全图进行遍历搜索;② 将搜索框输入2.2节中所述的卷积神经网络进行特征提取;③ 将所有遍历搜索框提取到的特征输入已训练好的SVM分类器;④ 得到SVM分数,利用非极大值抑制对上述结果进行处理;⑤ 得到最终遥感图像舰船检测结果。
3 实验 3.1 评价方法与指标目标检测领域最常用的评价指标为检测率和虚警率,通过对这2项指标的综合分析,得到对检测效果的整体评价。
本实验中,计算人工标注的真值图中目标n中心点坐标(xn, yn)与测试结果为“是舰船”的所有检测框中心点坐标(xi, yi)的欧氏距离dni,dt为距离阈值。若存在dni≤dt,则判定目标n被检测到;若检测框与任意一个目标n的距离关系均为dni>dt,则判定该检测框检测到虚警。由上述2个判定条件得到检测数和虚警数,其与实际目标数的比值即为检测率和虚警率。
位置偏移度是本实验中用来表示检测到的目标位置与实际目标位置的偏移程度,利用目标的偏移距离与检测框边长l的比值来定义,计算公式为
(5) |
对通常存在的问题进行分析,首先要解决的是测试结果中出现虚警和漏检的问题。SVM分类器在进行分类(N类)时,会给出N个分数,分数越高隶属程度越大。为了在保证精确度的前提下降低虚警率,应设置分数阈值;漏检与滑动检测框的步长和SVM的分数阈值均有关,步长过大或分数阈值过高均会导致漏检的情况发生。
因此,对本文方法的舰船检测结果产生影响的因素有:① 检测框滑动步长的选择;② SVM分类器分数阈值选择。检测框滑动步长的选择主要影响检测位置,过大的滑动步长容易丢失检测目标的最佳位置,过小的滑动步长耗时长,易对同一目标多次框选,因此选择适合的滑动步长非常重要;SVM分类器的分数阈值对虚警有较大影响,偏低的分数阈值容易出现虚警过多的现象,偏高容易产生漏检的现象。
利用验证集对上述主要影响参数进行调整。本组实验使用控制变量法,控制分数阈值在0~2.0范围内测试最佳滑动步长,控制滑动步长为20~100像素范围内测试最佳分数阈值,得到检测率、虚警率和位置偏移度等指标,获得参数的最佳选择范围。最佳分数阈值下步长测试结果和最佳步长下阈值测试结果分别如表 1、表 2所示。
编号 | 步长/像素 | 检测框数量 | 位置偏移度 | 检测数 | 漏检数 | 虚警数 | 检测率/% | 虚警率/% |
1 | 100 | 39 | 0.268 8 | 25 | 27 | 7 | 48.08 | 13.46 |
2 | 80 | 44 | 0.220 4 | 32 | 20 | 9 | 61.54 | 17.31 |
3 | 60 | 52 | 0.213 9 | 32 | 20 | 15 | 61.54 | 28.85 |
4 | 40 | 71 | 0.195 2 | 45 | 7 | 23 | 86.54 | 44.23 |
5 | 20 | 98 | 0.189 6 | 46 | 6 | 36 | 88.46 | 69.23 |
编号 | 分数阈值 | 检测框数量 | 位置偏移度 | 检测数 | 漏检数 | 虚警数 | 检测率/% | 虚警率/% |
1 | 0 | 104 | 0.199 7 | 48 | 5 | 41 | 92.31 | 78.85 |
2 | 0.5 | 71 | 0.195 2 | 45 | 7 | 23 | 86.54 | 44.23 |
3 | 1.0 | 42 | 0.188 7 | 26 | 26 | 6 | 50.00 | 11.54 |
4 | 1.5 | 34 | 0.196 1 | 26 | 26 | 2 | 50.00 | 3.85 |
5 | 2.0 | 19 | 0.083 7 | 12 | 40 | 0 | 23.08 | 0.00 |
综合考虑检测率、虚警率以及位置偏移度的测试结果,选定:① 滑动窗步长为40像素;② SVM分类器分数阈值为0.5。在达到一定检测率的要求下,继续缩小滑动窗步长,所获得的性能提升小,计算量和虚警数量大大增加;同时,为保证检测结果的有效性,SVM分数阈值不能过低。民船目标检测结果如图 7所示。
3.3 结果分析1) 不同训练集下军舰目标检测结果
对使用民船作为训练样本来检测军舰目标的迁移学习应用问题进行验证,需要将军舰和民船正样本分开,对同一测试集单独使用不同的正样本集进行训练,包括:军舰样本集、民船样本集、民船和军舰样本集。实验结果如表 3所示,检测步长为40像素,SVM分数阈值为0.5,目标数为33。
从结果中可以看出,尽管是对军舰测试集进行测试,但由于军舰样本数量偏少,若只使用军舰样本集对分类器进行训练,分类器可提取到的特征非常少,检测效果很差;若只使用民船样本集对分类器进行训练,由于训练样本多,且民船与军舰目标具有外形和特征上的相似性,分类器进行训练时能从特征中提取到更多信息,因此可得到好于只使用军舰训练集的实验结果;若使用民船和军舰样本合集对分类器进行训练,使用民船样本作为辅助训练样本,可在保证军舰特征的基础上,辅助以更为丰富的船只特征,可得到较好的检测结果。军舰目标检测结果如图 8所示。
2) 对比实验
对比实验采用基于显著性候选区域提取与HOG特征描述子的舰船目标检测方法,即S-HOG方法,具体算法原理与实现见文献[6]。该方法与本文方法的检测流程一致,均为“候选区域+特征提取+分类识别”模式,因此作为本文方法的对比实验是合理有效的。由表 4的对比实验结果可以看出,在自行建立的包含较复杂背景的军舰目标和民船目标测试集上,应用本文“卷积神经网络+支持向量机”方法,尽管虚警率存在小幅增长,但检测率取得了明显提升,整体检测效果明显优于S-HOG方法,在舰船目标检测问题上具有很强的有效性与优越性。
4 结论
本文提出一种基于卷积神经网络和支持向量机的遥感图像舰船目标检测方法,经实验验证表明:
1) 为解决小样本网络参数训练问题,应用迁移学习的理论,利用在已有数据集上训练得到的网络参数进行特征提取,经过SVM分类器识别后得到了较好的检测结果。
2) 同时,本文提出并验证了利用民船作为辅助样本对军舰目标进行检测的可行性和有效性,对样本较难获得的目标检测问题具有一定的参考意义。
3) 通过实验,可知基于卷积神经网络的舰船目标检测方法具有可行性。
随着计算机处理器的发展,深度学习在图像处理和目标检测等领域将会获得更为广阔的应用和实践。
[1] |
陈韬亦, 陈金勇, 赵和鹏. 基于Ecogniton的光学遥感图像舰船目标检测[J].
无线电工程, 2013, 43 (11): 11–13.
CHEN T Y, CHEN J Y, ZHAO H P. Ecognition-based ship detection on optical remote sensing images[J]. Radio Engineering, 2013, 43 (11): 11–13. DOI:10.3969/j.issn.1003-3106.2013.11.004 (in Chinese) |
[2] |
王彦情, 马雷, 田原. 光学遥感图像舰船目标检测与识别综述[J].
自动化学报, 2011, 37 (9): 1029–1039.
WANG Y Q, MA L, TIAN Y. State-of-the-art of ship detection and recognition in optical remotely sensed imagery[J]. Acta Automatica Sinica, 2011, 37 (9): 1029–1039. (in Chinese) |
[3] | ELDHUSET K.Automatic ship and ship wake detection in space borne SAR images from coastal regions[C]//Remote Sensing:Moving Toward the 21st Century.Piscataway, NJ:IEEE Press, 1988, 3:1529-1533. |
[4] | ZHANG W, BIAN C, ZHAO X, et al.Ship target segmentation and detection in complex optical remote sensing image based on component tree characteristics discrimination[C]//Optoelectronic Imaging and Multimedia Technology Ⅱ.Bellingham, WA:SPIE, 2012. |
[5] |
唐沐恩, 林挺强, 文贡坚. 遥感图像中舰船检测方法综述[J].
计算机应用研究, 2011, 28 (1): 29–36.
TANG M E, LIN T Q, WEN G J. Overview of ship detection methods in remote sensing image[J]. Application Research of Computers, 2011, 28 (1): 29–36. (in Chinese) |
[6] | QI S, MA J, LIN J, et al. Unsupervised ship detection based on saliency and S-HOG descriptor from optical satellite images[J]. Geoscience and Remote Sensing Letters, 2015, 12 (7): 1451–1455. DOI:10.1109/LGRS.2015.2408355 |
[7] | TANG J, DENG C, HUANG G, et al. Compressed-domain ship detection on spaceborne optical image using deep neural network and extreme learning machine[J]. IEEE Transactions on Geoscience and Remote Sensing, 2015, 53 (3): 1174–1185. DOI:10.1109/TGRS.2014.2335751 |
[8] | PROIA N, PAGE V. Characterization of a Bayesian ship detection method in optical satellite images[J]. Geoscience and Remote Sensing Letters, 2010, 7 (2): 226–230. DOI:10.1109/LGRS.2009.2031826 |
[9] | SHI Z, YU X, JIANG Z, et al. Ship detection in high-resolution optical imagery based on anomaly detector and local shape feature[J]. IEEE Transactions on Geoscience and Remote Sensing, 2014, 52 (8): 4511–4523. DOI:10.1109/TGRS.2013.2282355 |
[10] | KRIZHEVSKY A, SUTSKEVER I, HINTON G.ImageNet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems.Stateline:NIPS, 2012:1097-1105. |
[11] | BOUVRIE J.Notes on convolutional neural networks[R/OL].Cambridge:Massachusetts Institute of Technology, 2006[2016-09-15].http://cogprints.org/5869/1/cnn_tutorial.pdf. |
[12] | HUBEL D H, WIESEL T N. Receptive fields, binocular interaction and functional architecture in the cat's visual cortex[J]. The Journal of Physiology, 1962, 160 (1): 106–154. DOI:10.1113/jphysiol.1962.sp006837 |
[13] | FUKUSHIMA K. A hierarchical neural network model for associative memory[J]. Biological Cybemetics, 1984, 50 (2): 105–113. DOI:10.1007/BF00337157 |
[14] | GIRSHICK R, DONAHUE J, DARRELL T, et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway, NJ:IEEE Press, 2014:580-587. |
[15] | CORTES C, VAPNIK V. Support-vector networks[J]. Machine Learning, 1995, 20 (3): 273–297. |