遥感图像场景分类是遥感图像分析解译的重要手段,在灾情监测、武器制导、交通监管等军事和民用领域均有重要应用价值。场景分类的核心是遥感图像特征提取,传统的k最近邻域、支持向量机(support vector machine,SVM)、最大熵方法、提升方法(boosting)等分类方法,仅提取图像颜色、形状、纹理等低层特征,缺乏对图像中层语义的表述,难以跨越低层到高层语义的鸿沟[1-2],泛化能力差[3]。随着遥感图像分辨率的增加,以及可见光、红外、高光谱和雷达等多种遥感系统的应用,遥感图像更加趋向于背景的复杂性和目标的多样性,对此研究能够表达遥感图像高层次抽象特征的分类方法成为该领域的发展趋势[4-5]。
近年来,深度学习作为模式识别中新的智能方法,成为机器学习领域研究的热点,在图像、音频、文字识别与分类中得到了广泛应用[6-8]。通过构建深度网络结构将低级特征组合并变换得到更高层次的抽象特征,特别是其中的深度卷积神经网络(deep convolutional neural network,DCNN),利用卷积操作的网络层次,更适合于图像特征的提取[9-10]。文献[11]构造的DCNN,在ILSVRC-2012数据集上获得了top-5测试错误率为15.3%的最好测试结果。此后,DCNN在图像分类中得到广泛应用。文献[12]将DCNN的最后一个卷积层和最大采样层的特征图分成多块,以提取不同尺度上的图像特征,设计了一种混合深度卷积神经网络(HDNN)方法,并将其应用到遥感图像的车辆检测中,显著提高了检测精度。文献[13]将DCNN与SVM相结合,利用DCNN提取特征,输入SVM中实现目标分类与识别,提出了一种hybrid CNN-SVM方法,在手写体数字识别中相比DCNN方法取得了更高的分类精度。
DCNN在提取图像深层次特征时,构建了多层的网络结构(通常大于6层)[14-15],这就需要大量的带标签样本来训练网络参数,而实际的遥感图像中人工标记的代价大,遥感场景分类中往往样本量小,采用传统的DCNN方法分类精度不高。针对上述问题,本文提出一种基于多尺度深度卷积神经网络(multi-scale DCNN,MS-DCNN)的遥感图像场景分类方法,以获得多尺度的图像特征,提高小样本数据下的分类精度。
1 基于多尺度DCNN的遥感图像分类通常获取的遥感图像数据往往受到噪声的干扰,并且光照条件变化等外部环境也会影响图像的全局特征,此外图像还存在与目标特征无关的冗余信息[16]。由此可以采用多尺度变换的方法对遥感图像分解,得到图像对应的低频和高频子带,低频子带保留了图像中空间位置关系,高频子带体现了图像的细节和边缘信息。对各个子带分别采用DCCN网络学习特征,考虑到各个网络对不同子带学习的特征差异,在最后输出层采用多核支持向量机作为图像分类器,将多子带特征有效融合,能够显著提高图像分类的泛化能力。
1.1 基于非下采样Contourlet变换的多尺度分解Contourlet变换是一种带有方向性的图像稀疏表示方法,通过拉普拉斯金字塔和方向滤波器组来得到不同尺度的方向子带。但Contourlet变换在图像分解和重构的过程中都包含了采样的步骤,因此分解后的图像不具备平移不变性。为此,文献[17]提出了一种非下采样Contourlet变换(nonsubsampled Contourlet transform,NSCT)方法,对应地采用非下采样金字塔和方向滤波器组来实现多尺度分解,得到与源图像尺寸大小相同的子带图像中,保证了平移不变性。NSCT的图像分解原理如图 1所示。
由图 1可以看出,NSCT由两部分组成:一是非下采样金字塔分解,获得与拉普拉斯金字塔分解类似的且具备平移不变性的滤波器结构,保证变换的多尺度性,图像经过第一级双通滤波器得到一个低频图像和高频图像,此后每一级滤波均在低频图像上迭代产生,下一级滤波器是用滤波矩阵D=2I对上一级滤波得到。二是非下采样方向滤波器组,由两通道的非下采样滤波器构造而成,将非下采样金字塔产生的高频带通信号分解到多个方向子带上,使得变换具有多方向性。图 2为非下采样Contourlet变换对一遥感图像进行3层分解的结果,分解后的各层能提供特征学习的直接有用信息,并且各子带图像与源图像尺寸相同,可以采用同样的DCNN进行特征学习。
1.2 多核支持向量机
将支持向量机(SVM)与DCNN网络相结合,用SVM分类器代替原DCNN网络的输出层,可以提高图像分类精度。然而多个子带图像利用DCNN提取的特征差异较大,如果采用单个核映射进行处理并不合理,因此,本文运用多个核函数的线性组合构造多核支持向量机(multiple-kernel SVM,MKSVM)分类器。定义多核函数为[18]
式中,M为基核函数的个数;Km为基核函数。常用的核函数有线性核函数、多项式核函数、Sigmoid核函数和高斯核函数,本文采用多个高斯核函数作为基核函数,其表达式为
式中,σ为高斯核参数,取不同值即可得到多个高斯核函数。
多核支持向量机的优化问题需要同时求解超平面权重和核函数权重dm。通过两步交替优化的方式求解,首先固定核函数权重求解基本的SVM问题,然后构造关于dm的目标函数,固定超平面权重,再用梯度下降法求解。
1.3 多尺度DCNN模型本文提出的多尺度深度卷积神经网络模型分为3个部分,如图 3所示,第1部分为多尺度分解,利用非下采样Contourlet变换将输入图像分解为相同大小的n幅图像;第2部分为深度卷积神经网络,对于分解后的每幅图像分别用DCNN进行训练,提取各个图像的特征;第3部分为多核支持向量机分类,将多核支持向量机代替原DCNN网络的Softmax输出层,对MKSVM进一步训练,即利用训练好的DCNN模型得到各图像的特征,将分解后所有图像的特征向量作为MKSVM的输入样本,训练MKSVM并最终输出图像分类结果。
在本文的试验中,考虑到数据集图像的分辨率不高,经过非下采样Contourlet变换后的第3层及之后的图像包含的特征很少,因此,本文的试验取两层的非下采样Contourlet变换图像,即包括1个低频子带和1个高频子带;MKSVM中采用2个高斯核函数,σ的取值分别为0.7和0.45。DCNN采用文献[11]提出的8层卷积神经网络,该架构前5层为卷积层,后3层是全连接层。
Layer1使用了96个11×11×3的滤波器对输入224×224×3的图像进行卷积,步长为4个像素,输出尺寸为55×55×96的特征层。
Layer2使用了256个5×5×48的滤波器对上层滤波,形成的特征层的尺寸为27×27×256。
Layer3和Layer4都使用了384个3×3×256的滤波器对上层滤波。
Layer5有256个卷积核,大小为3×3×192。
Layer1、Layer2和Layer5在卷积后进行了下采样,采样方式为最大池下采样,尺寸为3×3,步长为2;在Layer1和Layer2进行下采样后对同层相邻节点的响应进行局部归一化。后3层为全连接层,最后由Softmax函数输出分类结果。每一个卷积和全连接后都使用ReLU的激活函数。此外,为了减小过拟合,在前两个全连接层后增加Dropout层。
2 试验结果与分析 2.1 试验数据集试验数据集1为美国土地使用分类数据集UCM_LandUse,包括农田、建筑、河流等21类遥感图像,每类图像包含100幅256×256像素的图像,图 4给出了各类图像的示例。在本文的试验中均随机取每类图像中的80幅作为训练数据,其余20幅图为测试数据。
试验数据集2为武汉大学高分卫星遥感图像场景数据集HRSS,包括19类共1005幅高分辨率遥感图像,每类场景约50幅,图像分辨率为600×600像素。试验中随机取每类中的40幅作为训练数据,其余为测试数据。
2.2 多尺度图像DCNN训练收敛性能分析利用DCNN网络分别对UCM_LandUse数据集的源图像、1个低频子带和1个高频子带图像进行训练,得到训练10 000代的收敛曲线如图 5所示,其中,源图像、低频子带和高频子带的分类正确率分别为87.9%、89.0%和78.6%。从图 5可以看出,低频子带与源图像的收敛曲线基本重合,低频子带的收敛速度和正确率均稍好于源图像。高频子带包含的图像特征最少,其分类正确率最低。由仿真结果可得,经过多尺度变换后的图像保留了源图像中的有用信息,特别是低频图像,在去除与目标特征无关的冗余信息后,得到更高的分类正确率。
2.3 各类别遥感图像识别能力分析
传统的DCNN网络的输出层利用Softmax函数实现分类,本文利用传统的DCNN网络预训练后,将Softmax层替换为多核SVM,继续训练SVM并实现遥感场景分类。为了比较MKSVM和Softmax的优劣,以UCM_LandUse数据集为例,分别对源图像和多尺度图像进行分类,将DCNN预训练后的图像特征通过以上两种分类器进行分类,分类结果列入表 1。由仿真结果可以看出,MKSVM与Softmax在处理源图像分类时精度相当;但对于多尺度图像,由于不同数据源提供图像特征的差异性,Softmax分类精度显著降低,而MKSVM利用多核的组合空间对特征参数进行映射,得到的场景分类结果优于Softmax。
(%) | ||
classification accuracy | source images | multi-scale images |
Softmax | 87.91 | 73.12 |
MKSVM | 88.26 | 91.34 |
利用本文的MS-DCNN算法对UCM_LandUse数据集的21类遥感图像进行分类,各类别的识别概率如图 6所示。同时,为了验证本算法采用多尺度图像训练的优势,将DCNN训练源图像、低频子带图像和高频子带图像的识别概率也列入图 6中。
对比图 6中4组试验对各类图像的识别概率可得,尽管源图像包含了更丰富的图像特征,但低频图像和高频图像在部分类别仍获得更高的识别概率。其中,低频图对十字路口、中等密度住宅区、网球场等类更容易识别,这是因为低频图保留了图像的空间位置关系,有利于目标位置关系明确的场景识别;低频图对其他类场景的识别概率与源图像相当;高频图对建筑物、停车场、储油罐等类有更高的识别概率,这是因为高频图体现了图像的细节和边缘信息,更容易识别出含有大量目标且轮廓特征明显场景。本文算法采用多核支持向量机作为分类器,综合了高频子带和低频子带的优势,得到每类的识别概率均比源图像高。
MS-DCNN算法对两个数据集遥感场景分类的混淆矩阵如图 7所示,由图 7(a)可以看出UCM_LandUse数据集中农田(AgL)、海滩(BcH)、灌木丛(ChL)、机场跑道(RwY)等纹理差异性小的场景分类准确度高,对于建筑物(BuD)、密集住宅区(DrL)、网球场(TsC)等包含多个目标的复杂场景分类准确率低,特别是对于建筑物和密集住宅区等存在二义性的场景容易出现误分。对于HRSS数据集,由图 7(b)可得,海滩(BcH)、森林(FeT)、农田(FlD)等场景分类精度高,与UCM_LandUse数据集分类结果一致;而工业区(IdL)、商业区(CmL)等分类效果较差。
2.4 遥感图像分类算法对比
为了验证算法的优势,针对UCM_LandUse和HRSS两个数据集,将本文MS-DCNN算法与现有文献中的算法对比,各算法的分类结果列入表 2和表 3。
从表 2试验对比结果可以看出,基于深度神经网络的算法(MNCC、ConvNet和MS-DCNN)可以训练得到高层次的语义信息,分类正确度高于只能获得低层特征的SVM和BOVW算法。深度神经网络中ConvNet与MNCC分类效果基本相当。由表 3可得,混合了SVM后的DCNN网络结构能够提高分类精度;本文MS-DCNN利用非下采样Contourlet变换得到不同尺度的图像,通过DCNN网络提取了不同尺度的图像特征,结合多核SVM对图像场景进行分类,显著提高了分类精度。
2.5 高分辨率遥感图像分类利用MS-DCNN算法对某城市大幅高分辨率遥感图像进行分类,如图 8(a)所示,该遥感图像分辨率为13 312×7680像素,包含有农田、建筑、公路、河流和裸地5类场景,试验中将该大幅遥感图像分为52×30个子场景,每个子场景为256×256像素。结合地面真实数据每类各选取50幅作为训练图像,其余1310幅作为待分类图像。将分类结果用不同的颜色块表示,如图 8(b)所示,可以看出算法能够较好地解析出高分辨率遥感图像中的场景,大致反映了该地区农田区域、居民区域等真实的地物分布。
3 结 论
本文提出的遥感图像场景分类方法,利用非下采样Contourlet变换方法对遥感图像多尺度分解,通过DCNN训练得到了不同尺度的图像特征,最后采用多核SVM综合多尺度特征并实现遥感图像场景分类。在标准遥感图像场景数据集上试验的结果表明,本算法能够综合高频子带和低频子带的优势,在图像场景的分类中有明显的优势,对UCM_LandUse和HRSS两个数据集的分类正确率分别达到91.34%和90.05%,并且采用多核SVM后提高了网络学习的泛化能力,增强了解析高分辨率遥感数据的实用性。此外,算法本身的网络结构很适合并行处理,可以通过集群计算、GPU等方式提高训练时间,用于大规模高分辨率遥感图像的分类与识别中。
[1] | 李德仁, 张良培, 夏桂松. 遥感大数据自动分析与数据挖掘[J]. 测绘学报 , 2014, 43 (12) : 1211–1216. DOI:10.13485/j.cnki.11-2089.2014.0187 LI Deren, ZHANG Liangpei, XIA Guisong. Automatic Analysis and Mining of Remote Sensing Big Data[J]. Acta Geodaetica et Cartographica Sinica , 2014, 43 (12) : 1211 –1216. DOI:10.13485/j.cnki.11-2089.2014.0187 |
[2] | CHAN T H, JIA Kui, GAO Shenghua, et al. PCANet:A Simple Deep Learning Baseline for Image Classification[J]. IEEE Transactions on Image Processing , 2015, 24 (12) : 5017 –5032. DOI:10.1109/TIP.2015.2475625 |
[3] | 章锦文, 宋小春, 赵广州, 等. 桥梁目标识别方法综述[J]. 红外与激光工程 , 2012, 41 (12) : 3429–3435. ZHANG Jinwen, SONG Xiaochun, ZHAO Guangzhou, et al. Summary of Bridge Recognition Methods[J]. Infrared and Laser Engineering , 2012, 41 (12) : 3429 –3435. |
[4] | 赵理君, 唐娉, 霍连志, 等. 图像场景分类中视觉词包模型方法综述[J]. 中国图象图形学报 , 2014, 19 (3) : 333–343. ZHAO Lijun, TANG Ping, HUO Lianzhi, et al. Review of the Bag-of-visual-words Models in Image Scene Classification[J]. Journal of Image and Graphics , 2014, 19 (3) : 333 –343. |
[5] | 李昭慧, 张建奇. 城市街区星载光学遥感图像车辆目标自动检测方法[J]. 红外与激光工程 , 2014, 43 (11) : 3751–3755. LI Zhaohui, ZHANG Jianqi. Automatic Vehicle Detection Using Spaceborne Optical Remote Sensing Images in City Area[J]. Infrared and Laser Engineering , 2014, 43 (11) : 3751 –3755. |
[6] | SCHMIDHUBER J. Deep Learning in Neural Networks:An Overview[J]. Neural Networks , 2015, 61 : 85 –117. DOI:10.1016/j.neunet.2014.09.003 |
[7] | 郑胤, 陈权崎, 章毓晋. 深度学习及其在目标和行为识别中的新进展[J]. 中国图象图形学报 , 2014, 19 (2) : 175–184. ZHENG Yin, CHEN Quanqi, ZHANG Yujin. Deep Learning and Its New Progress in Object and Behavior Recognition[J]. Journal of Image and Graphics , 2014, 19 (2) : 175 –184. |
[8] | YAMASHITA T, WATASUE T. Hand Posture Recognition Based on Bottom-up Structured Deep Convolutional Neural Network with Curriculum Learning[C]//Proceedings of 2014 IEEE International Conference on Image Processing. Paris:IEEE, 2014:853-857. |
[9] | SMIRNOV E A, TIMOSHENKO D M, ANDRIANOV S N. Comparison of Regularization Methods for Image Net Classification with Deep Convolutional Neural Networks[J]. AASRI Procedia , 2014, 6 : 89 –94. DOI:10.1016/j.aasri.2014.05.013 |
[10] | HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2015, 37 (9) : 1904 –1916. DOI:10.1109/TPAMI.2015.2389824 |
[11] | KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Image Net Classification with Deep Convolutional Neural Networks[C]//Proceeding of the 26th Annual Conference on Neural Information Processing Systems. Lake Tahoe, California:Neural Information Processing Systems Foundation, Inc, 2012:1097-1105. |
[12] | CHEN Xueyun, XIANG Shiming, LIU Chenglin, et al. Vehicle Detection in Satellite Images by Hybrid Deep Convolutional Neural Networks[J]. IEEE Geoscience and Remote Sensing Letters , 2014, 11 (10) : 1797 –1801. DOI:10.1109/LGRS.2014.2309695 |
[13] | NIU Xiaoxiao, SUEN C Y. A Novel Hybrid CNN-SVM Classifier for Recognizing Handwritten Digits[J]. Pattern Recognition , 2012, 45 (4) : 1318 –1325. DOI:10.1016/j.patcog.2011.09.021 |
[14] | SELTZER M L, DROPPO J. Multi-task Learning in Deep Neural Networks for Improved Phoneme Recognition[C]//Proceeding of IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver:IEEE, 2013: 6965-6969. |
[15] | SPENCER M, EICKHOLTL J, CHENG Jianlin. A Deep Learning Network Approach to ab initio Protein Secondary Structure Prediction[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics , 2015, 12 (1) : 103 –112. DOI:10.1109/TCBB.2014.2343960 |
[16] | 许妙忠, 丛铭, 万丽娟, 等. 视觉感受与Markov随机场相结合的高分辨率遥感影像分割法[J]. 测绘学报 , 2015, 44 (2) : 198–205. DOI:10.11947/j.AGCS.2015.20130453 XU Miaozhong, CONG Ming, WAN Lijuan, et al. A Methodology of Image Segmentation for High Resolution Remote Sensing Image Based on Visual System and Markov Random Field[J]. Acta Geodaetica et Cartographica Sinica , 2015, 44 (2) : 198 –205. DOI:10.11947/j.AGCS.2015.20130453 |
[17] | CUNHA A L D, ZHOU J, DO M N. The Nonsubsampled Contourlet Transform:Theory, Design, and Applications[J]. IEEE Transactions on Image Processing , 2006, 15 (10) : 3089 –3101. DOI:10.1109/TIP.2006.877507 |
[18] | CHEN Zhenyu, LI Jianping, WEI Liwei, et al. Multiple-kernel SVM Based Multiple-task Oriented Data Mining System for Gene Expression Data Analysis[J]. Expert Systems with Applications , 2011, 38 (10) : 12151 –12159. DOI:10.1016/j.eswa.2011.03.025 |
[19] | ZHENG Xinwei, SUN Xian, FU Kun, et al. Automatic Annotation of Satellite Images via Multifeature Joint Sparse Coding with Spatial Relation Constraint[J]. IEEE Geoscience and Remote Sensing Letters , 2013, 10 (4) : 652 –656. DOI:10.1109/LGRS.2012.2216499 |
[20] | ZHANG Fan, DU Bo, ZHANG Liangpei. Saliency-guided Unsupervised Feature Learning for Scene Classification[J]. IEEE Transactions on Geoscience and Remote Sensing , 2015, 53 (4) : 2175 –2184. DOI:10.1109/TGRS.2014.2357078 |
[21] | YANG Yi, NEWSAM S. Bag-of-visual-words and Spatial Extensions for Land-use Classification[C]//Proceedings of the 18th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems. New York: ACM, 2010:270-279. |
[22] | 刘扬, 付征叶, 郑逢斌. 基于认知神经计算模型的高分辨率遥感图像场景分类[J]. 系统工程与电子技术 , 2015, 37 (11) : 2623–2633. LIU Yang, FU Zhengye, ZHENG Fengbin. Scene Classification of High-resolution Remote Sensing Image Based on Multimedia Neural Cognitive Computing[J]. Systems Engineering and Electronics , 2015, 37 (11) : 2623 –2633. |
[23] | ZHAO Lijun, TANG Ping, HUO Lianzhi. Land-use Scene Classification Using a Concentric Circle-structured Multiscale Bag-of-visual-words Model[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing , 2014, 7 (12) : 4620 –4631. DOI:10.1109/JSTARS.2014.2339842 |
[24] | NOGUEIRA K, MIRANDA W O, SANTOS J A D. Improving Spatial Feature Representation from Aerial Scenes by Using Convolutional Networks[C]//Proceedings of the 201528th SIBGRAPI Conference on Graphics, Patterns and Images. Salvador: IEEE, 2015:289-296. |
[25] | CHENG Gong, ZHOU Peicheng, HAN Junwei, et al. Auto-encoder-based Shared Mid-level Visual Dictionary Learning for Scene Classification Using Very High Resolution Remote Sensing Images[J]. IET Computer Vision , 2015, 9 (5) : 639 –647. DOI:10.1049/iet-cvi.2014.0270 |
[26] | HU Fan, XIA Guisong, WANG Zifeng, et al. Unsupervised Feature Learning via Spectral Clustering of Multidimensional Patches for Remotely Sensed Scene Classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing , 2015, 8 (5) : 2015 –2030. DOI:10.1109/JSTARS.2015.2444405 |
[27] | CHERIYADAT A M. Unsupervised Feature Learning for Aerial Scene Classification[J]. IEEE Transactions on Geoscience Remote Sensing , 2014, 52 (1) : 439 –451. DOI:10.1109/TGRS.2013.2241444 |
[28] | PERRONNIN F, SÁNCHEZ J, MENSINK T. Improving the Fisher Kernel for Large-scale Image Classification[C]//Proceedings of the 11th European Conference on Computer Vision. Berlin Heidelberg:Springer, 2010:143-156. |