2. 南昌大学科学技术学院, 江西 南昌 330031;
3. 中国科学院遥感与数字地球研究所, 北京 100089
2. College of Science and Technology, Nanchang University, Nanchang 330031, China;
3. Institute of Remote Sensing and Digital Earth, Chinese Academy of Sciences, Beijing 100094, China
土地利用/土地覆被变化是全球变化研究中的热点话题。通过土地利用/土地覆被分类,不仅可以了解各种土地利用/土地覆被类型的基本属性,还可以认识土地利用/土地覆被的区域结构和分布特点,为进一步研究地域差异奠定基础[1]。地表的最早描述采用土地利用分类系统和植被分类系统实现,随着科技的不断发展,遥感技术[2]成为获取地表地物属性的主要方法。
遥感影像分类[3]是遥感技术的重要分支,分类结果的质量直接影响遥感数据的后期应用,因此,遥感影像分类引起学者的广泛研究。Parea等[4]提出了一种在内核空间中的低密度区域选择未标记样本对多光谱和高光谱图像进行分类的算法。Pasolli等[5]提出将对多光谱和高光谱遥感图像进行的分类转化为对显著样本进行鉴别,同时建立相应的特征区间,从而选择潜在有用样本的问题。根据Demir[6]的研究,迁移学习过程中的不确定性和多样性被用来筛选样本以实现遥感图像的分类。此外,迁移学习方法被用来实现不同空间分辨率的遥感图像分类[7]。文献[8]运用了非线性特征对跨领域的样本集进行特征提取并通过试验证明了其对遥感图像的适用性。以上方法实现了在特定场景或分类数目较少情况下的遥感图像分类。本文提出了利用基于迁移学习的深度残差神经网络实现合成孔径雷达(SAR)图像分类算法。首先使用ImageNet(光学图像)训练深度残差神经网络,然后将训练好的模型迁移到遥感影像数据中进行微调,从而在SAR图像样本较少的情况下完成土地利用/土地覆被中阔叶林、居民区、河流、湖泊等共13类地物的快速准确的分类。
1 数据源与分类方法 1.1 数据源与系统设计本文使用欧空局Sentinel-1卫星[9]搭载的C波段合成孔径雷达提供的SAR数据作为原始数据,从中选取阔叶林、居民区、河流、湖泊等13类具有标志性的地物构成数据集。每类地物均采用100张224×224的图片作为初始数据集,利用旋转、变换等数据增强技术,得到包含13 000张图片的Sentinel-1数据集。将该数据集输入改进的深度残差网络模型中进行微调,实现SAR图像的高精度分类。本文的分类系统框图如图 1所示。
图 1中,左侧为图像采集模块,中间为特征提取及自适应网络[10],右侧为系统的输出。从Sentinel-1卫星获取原始SAR图像并提取目标地物;将样本图像输入到特征提取器中进行特征提取,在自适应网络中进行分类和识别;网络中的第一层小圈代表输入层,中间层小圈代表改进网络的隐藏层(卷积、池化等),最后层小圈代表分类器,最终将样本分成对应的13类地物目标。
1.2 深度残差神经网络深度残差神经网络(ResNet)[11]是由He等在2015年提出的,通过引入大量的残差模块,克服了模型训练过程中的梯度弥散问题,使得神经网络在成百上千层时仍能够很好地训练,增强了模型的特征学习能力,提高了模型的分类性能。残差模块如图 2所示。
从图 2可知,输入x可以跨层输入到下一层与F(x)融合,作为下一个残差模块的输入。该过程可总结为
式中,x、y分别代表该单元的输入和输出;Wi代表神经网络第i层的权值;F是关于x和{Wi}的函数,表示残差单元需要学习到的映射。当残差连接的输入与输出维度相同时,WS变为1;维度不同时,通过方阵WS变换到相同的维度。如果残差y-x等于0,则y=x为恒等映射,没有引入额外的参数和计算复杂度,神经网络的负担不会增加;如果不等于0但是无限接近0,则神经网络需要学习的是输入输出的差别部分,通过这种方法简化学习目标。训练过程中,深层的误差可以通过捷径传播到浅层,减弱了因层数过深造成的梯度弥散现象。本文选用Resnet-50深度残差网络作为图像的特征提取器来学习SAR图像的抽象特征。
1.3 迁移学习深度残差网络模型的训练是建立在大数据的基础上,因此,在监督学习[12]方式下利用深度学习方法实现SAR图像自动分类,需要足够多有标签的SAR图像。然而,目前SAR图像的训练样本数量远达不到训练深度网络模型的要求。
迁移学习的基本思想是:将源数据集图像和目标数据集图像映射到一个高维子空间中,在此子空间中,缩减源数据集图像和目标数据集图像的分布差异,实现源数据和目标数据的近似分布[13]。为此,本文选用基于中层表达的迁移学习方法,利用ImageNet中的大量光学图像对Resnet-50进行预训练,保留训练好的模型参数;然后利用SAR图像对改进的预训练的Resnet-50进行微调,从而实现SAR图像自动分类。
1.4 模型的改进本文对Resnet-50模型进行简化改进,以0.6的压缩比对Resnet-50中每层的卷积模板数量进行压缩,以减少特征提取器部分的模型参数,使得简化的Resnet-50模型更适合13类SAR地物的快速分类;同时为提高模型的泛化能力,本文在简化后的Resnet-50模型后加上一个3层的自适应网络,且采用LReLU作为自适应网络中的激活函数。
Resnet-50中的非线性映射函数为线性整流单元(rectified linear unit,ReLU)[14],表达式为式(2),示意图为图 3(a)。当输入值x≤0时,ReLU的输出为0,该单元处于未激活状态,相应权值也不再更新,造成神经元的浪费。Leaky-线性整流单元(leaky-rectified linear hidden unit,LReLU)[15]的表达式为式(3),示意图为图 3(b)。当输入值x < 0时,输出值为较小的负值,神经元仍处于激活状态,避免了原先神经元出现坏死的现象。LReLU的应用使得自适应网络中的神经元数目可以较少或允许Dropout以较大的比例存在,而不影响模型的分类性能。
Resenet-50简化及添加自适应网络后的模型结构如图 4所示。其中自适应网络A1层的神经元个数为1000;A2层的神经元个数为256,Dropout=0.8;A3层的神经元个数为13。A1、A2每层神经元的激活函数均采用LReLU实现特征的非线性映射。
2 试验结果与分析本文使用ENVI 5.3.1进行图像预处理制作Sentinel-1数据集。硬件为GPU LEAD TEK Quadro k620,内存16 GB,系统为Windows 7 64 bit。软件为Anaconda3.5+Python3.5,模型框架为Tensorflow。训练过程中的超参数见表 1。Sentinel-1数据集共有13 000张图片,按照4:1的比例随机分配训练集(训练:验证=9:1)和测试集。
本文使用交叉熵代价函数来监督改进网络的训练,交叉熵主要用来度量真实样本分布与预测得到的样本分布的差异大小。训练过程中的模型损失和模型准确率变化曲线如图 5所示。图 5(a)为模型训练损失曲线,横坐标为训练的epochs(训练集中的所有样本遍历一次称为epoch),纵坐标为模型损失。由图 5(a)可知,大约经过20个epochs后,训练集和验证集上的模型损失均稳定在0值附近。图 5(b)为训练过程中模型的分类准确率变化曲线,横坐标为epochs,纵坐标为模型分类准确率。由图 5(b)可知,大约经过20个epochs之后,训练集和测试集的分类准确率分别稳定在100%和97%左右,验证集的准确率最高可达99.23%。由此可知,本文提出的迁移模型具有较好的SAR图像分类性能。
本文利用混淆矩阵来展示模型的单类别分类准确率。列代表实际类的实例,行代表预测类的实例,对角线元素值表示对应地物的分类准确率,其他位置为对应的错分率。混淆矩阵见表 2,其中,bro为阔叶林,com为居民区,mix为针阔混交林,con为针叶林,des为沙漠,dry为旱田,gra为草地,ind为工业区,inl为内陆湖,pad为水田,riv为河流,snow为终年积雪区,wet为湿地。
class | bro | com | mix | con | des | dry | gra | ind | inl | pad | riv | snow | wet |
bro | 0.92 | 0.0 | 0.01 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 |
com | 0.0 | 0.98 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.05 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 |
mix | 0.07 | 0.0 | 0.91 | 0.09 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 |
con | 0.0 | 0.0 | 0.01 | 0.97 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 |
des | 0.0 | 0.0 | 0.0 | 0.0 | 0.93 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.03 | 0.0 |
dry | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.94 | 0.0 | 0.0 | 0.0 | 0.02 | 0.0 | 0.0 | 0.06 |
gra | 0.0 | 0.0 | 0.0 | 0.0 | 0.02 | 0.01 | 0.94 | 0.0 | 0.0 | 0.0 | 0.0 | 0.08 | 0.0 |
ind | 0.0 | 0.02 | 0.0 | 0.02 | 0.0 | 0.0 | 0.0 | 0.95 | 0.0 | 0.0 | 0.01 | 0.0 | 0.0 |
inl | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.98 | 0.0 | 0.0 | 0.0 | 0.0 |
pad | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.97 | 0.0 | 0.0 | 0.03 |
riv | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.99 | 0.0 | 0.0 |
snow | 0.0 | 0.0 | 0.0 | 0.01 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.93 | 0.0 |
wet | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.01 | 0.0 | 0.0 | 0.0 | 0.0 | 0.03 | 0.96 |
从表 2可知,河流的分类效果最好,准确率可达99.23%;针阔混交林的分类准确率最差,为91%;整体平均分类准确率为95.15%。可见本文提出的基于迁移学习的改进版深度残差神经网络在Sentinel-1数据集上获得了较好的分类效果。
此外,本文将Resnet-50原始模型与本文提出的迁移学习模型进行比较,比较结果见表 3。其中Resnet-50(Imagenet)是仅使用ImageNet数据集训练获得,Resnet-50(SAR)是仅使用Sentinel-1数据集训练获得,Resnet-50(迁移)是使用Imagenet训练,迁移到Sentinel-1数据集对模型进行微调获得;Proposed(ReLU)和Proposed(LReLU)是改进的网络模型,自适应网络中的激活函数分别采用ReLU和LReLU。表中模型的分类准确率均在本文的测试集上获得。FLOPs为模型的浮点运算量。
模型名称 | FLOPs | 层数/层 | 训练时间/h | 分类时间/s | 分类准确率/(%) |
Resnet-50(ImageNet) | 3.8×109 | 50 | 43 | 0.057 8 | 85.768 1 |
Resnet-50 (SAR) | 3.8×109 | 50 | 23.63 | 0.057 3 | 78.937 6 |
Resnet-50 (迁移) | 3.8×109 | 50 | 42.63 | 0.057 3 | 94.539 5 |
Proposed (ReLU) | 2.28×109 | 52 | 41.67 | 0.052 6 | 94.713 9 |
Proposed (LReLU) | 2.28×109 | 52 | 41.65 | 0.052 5 | 95.153 8 |
由表可知,分类准确率最差为Resnet-50 (SAR),综合图 5和表 2可知,仅使用Sentinel-1数据集训练模型出现了严重的过拟合现象。本文提出的利用ImageNet预训练模型,然后迁移到Sentinel-1数据集上微调的方法要优于仅使用ImageNet或Sentinel-1训练的模型。此外,本文通过对模型进行简化和改进,减少了模型的运算量,缩短了模型的训练时间,而且模型分类性能相对原始模型也有所提高。自适应网络中利用ReLU或LReLU对模型的效率影响不明显,模型的分类准确率稍有提高。
3 结语本文使用欧空局发射的Sentinel-1卫星提供的源数据制作了包含13类地物的Sentinel-1数据集,为了解决SAR数据不足、无法训练深度网络模型的问题,提出了基于中层表达的迁移学习模型。利用改进的深度残差神经网络作为特征提取器,在特征提取器后添加自适应网络并使用Sentinel-1数据集对模型进行微调,实现了13类地物的准确分类。试验结果表明,本文提出的方法适合遥感图像的分类,分类准确率为95.15%。通过本文试验可见,迁移学习理论应用于空间数据信息提取具有非常大的潜力,可以实现土地利用/土地覆被的自动分类,为研究土地利用/土地覆被分类提供了新思路。
[1] | 陈佑启, 杨鹏. 国际上土地利用/土地覆盖变化研究的新进展[J]. 经济地理, 2001, 21(1): 95–100. DOI:10.3969/j.issn.1000-8462.2001.01.022 |
[2] | 牛颖超, 周忠发, 王历, 等. GABA算法的遥感图像分类[J]. 测绘通报, 2018(1): 62–66. |
[3] | 魏立飞, 俸秀强, 李丹丹, 等. 基于S3VM模型的高光谱遥感影像分类[J]. 测绘通报, 2017(12): 43–47. |
[4] | PAREA S, BRUZZONE L. A Fast Cluster-assumption Based Active-learning Technique for Classification of Remote Sensing Image[J]. IEEE Transactions on Geoscience and Remote Sensing, 2011, 49(5): 1617–1626. DOI:10.1109/TGRS.2010.2083673 |
[5] | PASOLLI E, MELGANI F, BAZI Y. Support Vector Machine Active Learning through Significance Space Construction[J]. IEEE Geoscience & Remote Sensing Letters, 2011, 8(3): 431–435. |
[6] | DEMIR B, PERSELLO C, BRUZZONE L. Batch-mode Active-learning Methods for the Interactive Classification of Remote Sensing Images[J]. IEEE Transactions on Geoscience & Remote Sensing, 2011, 49(3): 1014–1031. |
[7] | TUIA D, PASOLLI E, EMERY W J. Using Active Learning to Adapt Remote Sensing Image Classifiers[J]. Remote Sensing of Environment, 2011, 115(9): 2232–2242. DOI:10.1016/j.rse.2011.04.022 |
[8] | PERSELLO C, BRUZZONE L. Active Learning for Domain Adaptation in the Supervised Classification of Remote Sensing Images[J]. IEEE Transactions on Geoscience & Remote Sensing, 2012, 50(11): 4468–4483. |
[9] | 吴文豪, 李陶, 陈志国, 等. Sentinel-1A卫星TOPS模式数据干涉处理[J]. 测绘通报, 2016(2): 42–45. |
[10] | 王云艳.基于多层网络模型的全极化SAR图像分类[D].武汉: 武汉大学, 2015. http://cdmd.cnki.com.cn/Article/CDMD-10486-1016018252.htm |
[11] | HE K, ZHANG X, REN S, et al.Deep Residual Learning for Image Recognition[C]//Computer Vision and Pattern Recognition.[S.l.]: IEEE, 2016: 770-778. http://www.tandfonline.com/servlet/linkout?suffix=CIT0020&dbid=16&doi=10.1080%2F15481603.2018.1426091&key=10.1109%2FCVPR.2016.90 |
[12] | GENG J, WANG H, FAN J, et al. Deep Supervised and Contractive Neural Network for SAR Image Classification[J]. IEEE Transactions on Geoscience & Remote Sensing, 2017, 55(4): 2442–2459. |
[13] | YOSINSKI J, CLUNE J, BENGIO Y, et al. How Transferable are Features in Deep Neural Networks?[J]. International Conference on Netural Information Processing Systems, 2014, 27: 3320–3328. |
[14] | GLOROT X, BORDES A, BENGIO Y.Deep Sparse Rectifier Neural Networks[C]//Proceedings of the 14th International Conference on Artificial Inteligence and Statistics.[S.l.]: AISTATS, 2010: 315-323. http://www.mendeley.com/catalog/deep-sparse-rectifier-neural-networks/ |
[15] | NAIR V, HINTON G E.Rectified Linear Units Improve Restricted Boltzmann Machines[C]//International Conference on International Conference on Machine Learning.Omnipress: [s.n.], 2010: 807-814. http://dl.acm.org/citation.cfm?id=3104425 |