东北黑土区侵蚀沟遥感影像特征提取与识别 | [PDF全文] |
收稿日期: 2017-05-27
2. Beijing Normal University, Faculty of Geographical Science, Beijing 100875, China
耕地是人类赖以生存和发展的基础,耕地保护一直以来都是中国土地资源管理的核心(李宪文和林培,2001)。东北黑土区是中国最大的商品粮产区,其粮食生产能力和农业可持续性关系到国家的粮食安全战略(程叶青和张平宇,2005)。然而经过长期开垦,黑土区坡耕地的土壤受到了侵蚀,造成了严重的水土流失现象,尤其是侵蚀沟发展迅速,在全国范围内实属罕见,引起了广泛关注。根据侵蚀沟的发育阶段,可将其分为细沟、切沟、冲沟和坳沟(范昊明 等,2007)。细沟一般宽0.5 m,深0.1—0.4 m,长可达数米;切沟已有明显的边缘,宽、深均可达1—2 m,沟口处开始形成陡坎;冲沟沟口已形成明显的陡坎,沟坡处经常发生崩塌、滑坡,致使沟槽不断加宽,深达几米至几十米,长可达几百米;坳沟浅而宽,沟底由大量碎屑物填充。侵蚀沟的识别是土壤侵蚀监测工作中的一个关键问题,对坡耕地保护和水土流失防治具有重要意义,引起人们的广泛关注。
兴起于20世纪60年代的遥感技术,因具有大范围、多时相、低成本的优势,在侵蚀沟识别中应用广泛(闫业超 等, 2005, 2007),但传统方法多依赖人工解译,自动化程度不高,方法效率较低(Mcinnes 等,2011)。为不断提高侵蚀沟识别的效率和精度,众多方法被相继提出。其中,基于像元的分类方法较为普遍(Metternicht和Zinck,1998),但由于单一像元会丢失很多信息,在识别分类中会有很大的局限(Blaschke和Strobl,2001)。相比之下,基于对象的分类方法利用一个对象的光谱信息、几何信息、纹理信息等,可大大提高分类精度(Shruthi 等,2011)。然而随着遥感影像分辨率的不断提高,一幅遥感影像中包含多种场景的语义信息,基于场景的分类方法可以更好的揭示其空间特征和结构特征,对图像的解译能力更好(Chen 等,2011)。
对不同场景进行分类识别需要进行特征的选取。图像的特征可分为浅层特征、中层特征和深层特征(Xia 等,2016)。其中,浅层特征是描述图像的最基本特征,提取方法简单,复杂度较低;中层特征通常是对浅层特征进行编码得来,相比用于描述局部特征的浅层特征,中层特征能更好地描述图像的全局特征;而深层特征是深度学习模仿生物神经系统在处理信息时的分级特点,由浅到深逐步抽象而来,相比于浅层特征和中层特征,深层特征更为抽象,层次越深对数据的抽象程度越高,也越能反应数据的本质。浅层特征包括光谱特征、纹理特征、结构特征、SIFT(Scale Invariant Feature Transform)特征(Lowe,2004)等,通常把多个浅层特征组合起来可以优化分类结果,Luo等人(2013)将6种浅层特征组合成多特征来进行多分辨率遥感影像的分类检索,结果表明多个特征的结合能更好的描述遥感影像。中层特征的编码方法中,最为人熟知的编码方法是词袋模型(Yang和Newsam,2010),但词袋模型忽视了图像局部的空间分布特征,SPM(Spatial Pyramid Matching)方法(Lazebnik 等,2006)可以很好的弥补这一不足,而ScSPM方法(Yu,2013)用稀疏编码代替了SPM中的k-means算法,进一步提高了图像识别的精度。提取深层特征的深度学习方法中,最具代表性的是卷积神经网络CNN(Convolutional Neural Network),比较典型的有AlexNet(Krizhevsky 等,2012),VGGNet(Simonyan和Zisserman,2014),GoogLeNet(Szegedy 等,2015)等,均在图像识别领域取得了出色的成果。
本文为提高侵蚀沟遥感影像识别的精度和自动化程度,选择基于场景的分类方法,提取光谱特征和纹理特征为浅层特征,由ScSPM编码后的SIFT特征为中层特征,以及利用CNN提取的深层特征,依据这3种特征分别对遥感影像的不同场景进行分类,识别出侵蚀沟影像,并根据识别精度对比分析不同层次特征对侵蚀沟影像的描述能力。
2、方法原理 (2.1) 样本选取在图像识别中,其结果的好坏依赖于样本的质量和数量。本文针对东北黑土区坡耕地中的侵蚀沟这一特定识别目标,对训练样本进行了人工判别和选取。侵蚀沟包括细沟、切沟、冲沟和坳沟,其中,细沟的宽度约0.5 m,即便在高分辨率遥感影像上也较难分辨,而坳沟的形态尺度过大,在小尺度的影像中难以显示全貌。因此受到遥感影像分辨率和图像样本尺度的限制,本文所研究的侵蚀沟主要为冲沟和切沟。
样本分为未侵蚀耕地和侵蚀沟两大类,其中,耕地的判别依据为耕地地块完整不破碎,耕地表面均匀或受田垄分割呈规则整齐分布;侵蚀沟的判别依据为:耕地中有明显较为弯曲的沟壑分布,沟壑的边缘不整齐,沟体周围耕地受侵蚀严重,耕地被分割破碎不规则。
(2.2) 多层次特征提取本文所用的多层次特征是指浅层特征、中层特征和深层特征,这3种不同层次的特征在描述图像时具有各自的特点和优势。
2.2.1. 浅层特征提取浅层特征选取的是光谱特征和纹理特征,为突出浅层特征计算量少,提取难度低的优势,光谱特征选择了两个基本的统计量:波段均值(μ)和波段标准差(σ);纹理特征通过计算图像的灰度共生矩阵(Haralick 等,1973)来获得,选取了对比度(CT)、相关性(CR)、能量(E)和同质度(H)。浅层特征向量F定义为
${{F}} = \left( {\mu ,\sigma ,CT,CR,E,H} \right)$ | (1) |
相关计算公式如下:
$\mu = \frac{1}{N}\mathop \sum \limits_{i,j}^N p\left( {i,j} \right)$ | (2) |
$\sigma = \sqrt {\frac{1}{{N - 1}}\mathop \sum \limits_{i,j}^N {{\left| {p\left( {i,j} \right) - \mu } \right|}^2}} $ | (3) |
$CT = \mathop \sum \limits_{i,j} {\left| {i - j} \right|^2}p\left( {i,j} \right)$ | (4) |
$CR = \frac{\displaystyle{\mathop \sum \limits_{i,j} \left( {i - {\mu _i}} \right)\left( {j - {\mu _j}} \right)p\left( {i,j} \right)}}{{{\sigma _i}{\sigma _j}}}$ | (5) |
$E = \mathop \sum \limits_{i,j} {\left\{ {p\left( {i,j} \right)} \right\}^2}$ | (6) |
$H = \mathop \sum \limits_{i,j} \frac{1}{{1 + \left| {i - j} \right|}}p\left( {i,j} \right)$ | (7) |
式中,N是像元数,p(i, j)是(i, j)处的归一化值。
2.2.2. 中层特征提取提取中层特征,首先计算图像的SIFT特征。SIFT特征描述了特征点4×4邻域内Gaussian图像梯度大小和方向的统计结果,是一个128维的向量,它具有图像尺度和旋转的不变性。然后使用结合了稀疏编码与最大池化的ScSPM方法对SIFT特征进行处理,将编码后的SIFT特征作为图像的中层特征。
2.2.3. 深层特征提取深层特征依靠深度学习的方法来获取,本文利用CNN网络来提取图像的深度特征。首先构建一个CNN网络,将训练样本输入该网络,经过多层的卷积和池化操作到输出,再利用反向传播算法不断训练直到网络收敛,最终获得的深层特征就被保存在该网络中。网络的训练过程如图1所示。
针对浅层特征和中层特征,利用线性SVM分类器(Gualtieri和Chettri,2000)进行分类识别;而基于深层特征的分类识别,则使用CNN网络末端的Softmax分类器直接输出分类结果。
识别精度总体分类精度OA(Overall Accuracy)表示,即所有样本中被正确分类样本的比例:
$OA = \mathop \sum \limits_{i = 1}^m \frac{{{x_i}}}{M}$ | (8) |
式中,m是被正确分类的样本数,M是总样本数。
本文基于多层次特征的侵蚀沟遥感影像自动识别的技术路线如图2所示。
遥感影像种类丰富,不同类型的遥感影像在不同应用领域中各具优势,而高质量、易获取的遥感影像为本文的研究提供了可能。
从形态上分析发现东北黑土区的侵蚀沟宽度一般较小,尤其在发育初期,宽度不足1 m,在低分辨率遥感影像上难以分辨,因此样本选取对遥感影像的空间分辨率要求较高。此外,耕地作为一类具有季节变化特征的地物,其特征也具有时间序列的变化,如有庄稼覆盖的耕地和收割后的裸露耕地在其特征上差异较大,所以应选取多时相的遥感影像,避免样本的单一性。
Google Earth遥感影像为RGB彩色图像,因其获取便利、具备高空间分辨率等优势在遥感领域应用广泛。综合考虑,选定东北黑土区多时相空间分辨率为0.4 m的Google Earth影像作为实验数据。
3.1.2. 样本选取结果东北黑土区的耕地在100 m×100 m的范围内较为均匀,侵蚀沟在该尺度上也易于识别,因此将每幅训练影像的大小设为256 m×256 m,这样一方面使得训练样本具有较高的质量,另一方面也保证了训练样本选取工作的效率。样本分为两类:一是没被侵蚀过的耕地,样本容量为1200,图3给出了部分未侵蚀耕地的训练样本示例;二是耕地的侵蚀沟,样本容量为600,图4给出了部分耕地侵蚀沟的训练样本示例。
从样本中提取的浅层特征如表1所示,根据公式(1)分别提取彩色图像中R、G、B3个波段的特征,最终每幅图像的浅层特征为一个18维的向量:
${{{F}}_{{\rm{rgb}}}} = \left( {{{{\mu}} _{{\rm{rgb}}}},{{{\sigma}} _{{\rm{rgb}}}},{{{CT}}_{{\rm{rgb}}}},{{{CR}}_{{\rm{rgb}}}},{{{E}}_{{\rm{rgb}}}},{{{H}}_{{\rm{rgb}}}}} \right)$ |
计算众样本浅层特征中单个特征的均值和标准差,如表2所示,其中类别1表示耕地样本,类别2表示侵蚀沟样本。对比分析两类样本的浅层特征统计量发现,两类样本的光谱特征存在一定的差异,纹理特征差异相对较小,但也有所区分,综合多个浅层特征,可以在一定程度上将二者分类。
中层特征的提取是在Matlab中编程实现,首先提取图像的SIFT特征,计算用时10 min;然后将SIFT特征进行稀疏编码操作,该过程耗时较长,用时约1953 min;再经过最大池化,最终每幅图像都生成一个21504维的向量,即为中层特征。
3.2.3. 深层特征本文设计了一个5层的卷积神经网络来提取并保存深层特征:输入图像的大小为256×256×3;网络的第1层C1由32个11×11×3大小的卷积核组成,由ReLU函数激活,再经max pooling输出;第2层C2由96个5×5×32大小的卷积核组成,由ReLU激活,再经max pooling输出;第3层C3由128个3×3×96大小的卷积核组成,由ReLU函数激活,再经max pooling输出;第4层F1是全连接层,有2048个单元;最后的输出层为Softmax层,输出为[1, 0]或[0, 1],分别代表耕地和侵蚀沟两种类别。网络结构示意图如图5所示。该网络的是在Tensorflow框架下搭建的,在一个GPU上进行训练,网络训练次数为50000次,训练结束时网络已收敛,此过程耗时约450 min。图6展示了两类样本经过卷积层输出的一部分特征图像,可以看出CNN能够提取到侵蚀沟的显著特征,与耕地的特征存在明显区别。
基于浅层特征的分类识别实验分为3组,首先分别将光谱特征和纹理特征单独输入线性SVM分类器中进行训练,再将二者结合输入到线性SVM分类器中进行训练。
以样本总量的10%、20%、30%作为测试数据,分别输入到3个训练好的线性SVM分类器中进行测试。经过多次实验发现,基于光谱特征的识别精度达到了88.7%,基于纹理特征的识别精度稍低,为86.4%,而将二者结合后识别精度达到了91.1%。由此可见,将多种浅层特征结合起来可提高识别的精度。但仅依靠浅层特征很难继续提高识别精度,具有一定的局限性。
3.3.2. 基于中层特征的识别结果分析将提取的中层特征输入到线性SVM分类器中进行训练,再分别以样本总量的10%、20%、30%作为测试数据输入到线性SVM分类器中进行测试。经过多次实验发现,识别精度大大提高,达到了98.5%。由此可见,中层特征比浅层特征能更好的描述图像,但中层特征比较复杂,在设计时需要人工干预和足够的经验支持,某种程度上限制了自动化。
3.3.3. 基于深层特征的识别结果分析分别以样本总量的10%、20%、30%作为测试数据,将其输入训练后获得的稳定网络。经过多次实验发现,利用CNN提取深层特征进行分类识别的精度最高可达到95.5%。虽然比基于中层特征的识别精度略低,但该类方法的巨大优势在于,CNN网络从图像输入到识别结果输出,可以实现“端到端”的自动学习,无需人工设计提取特征,可大大提高图像分类识别的自动化程度。
为验证方法的适用性,选取了3块典型实验区,用本文的方法对3个区域的侵蚀沟进行识别,得到的结果如图7、8、9所示,图中被判别为耕地的呈灰色,被判别为侵蚀沟的呈绿色。在基于浅层特征的识别结果中,针对3幅验证影像的识别精度为78.6%、81.3%和79.2%,对侵蚀沟的识别能力较低,达不到预期效果;基于中层特征的识别精度分别为90.5%、92.5%和91.7%,中层特征对侵蚀沟的识别能力最高;基于深层特征的识别精度为88.1%、90.0%和87.5%,深层特征对侵蚀沟的识别能力较高,同样能达到预期效果。
综合3组实验分析发现:第1块实验区内组成成分较为纯净,侵蚀沟发育不剧烈,耕地受侵蚀程度较轻,在这种情况下,浅层特征很难将侵蚀沟完整识别出来,而中层特征和深层特征的识别效果都较理想;第2块实验区内的侵蚀沟发育剧烈、特征明显,耕地受侵蚀程度严重,在这种情况下,3种方法均能比较完整的将侵蚀沟识别出来;第3块实验区与第2块实验区相似,但该实验区内的组成成分比较复杂,包含少量其他地物,耕地稍显破碎,在这种情况下,3种方法虽均能够将侵蚀沟大致识别出来,但在一定程度上受到了干扰。
通过本文的研究表明:浅层特征对图像的描述能力较低,识别精度不高,但综合多个浅层特征可以获得比单一特征更好的效果。而相比于浅层特征,中层特征和深层特征在描述图像方面的能力更强,基于中层特征和深层特征的识别精度也更高。在测试中,基于深层特征的识别精度可达到95.5%,虽略低于基于中层特征的识别精度98.5%,但深层特征无需人工设计,而是利用CNN自动提取,实现“端到端”的自动学习,因此基于深层特征的识别方法自动化程度更高。
在侵蚀沟识别的实际应用中发现,浅层特征的优势在于简单、计算少、耗时低,但对侵蚀沟的描述能力不强,识别精度不高,仅依靠浅层特征很难将侵蚀沟完整地识别出来,无法满足要求。基于中层特征和深层特征的识别方法虽然在前期训练阶段耗时较长,但实际应用时基本能够将侵蚀沟完全识别出来,尤其是基于深层特征的识别方法,借助CNN可以实现侵蚀沟的自动识别。
总体来说,本文的研究结果符合预期效果,但仍有几个值得注意的地方:
(1) 3种方法相对于测试阶段,识别精度均有所降低,原因在于选取的训练样本纯净度很高,而实际应用中会存在其他地物的干扰,如包含田间小路的耕地容易被误分为侵蚀沟,在一定程度上限制了识别的精度。这也反映了识别精度的提高依赖于训练样本的大容量和多样化。
(2) 在利用深度学习方法进行侵蚀沟影像识别的过程中,发现该方法具有一定的优势,但同时也面临着一些问题。在深度学习中,网络层数越多,得到的特征越抽象,描述图像的能力越强,但多层网络需要大量的样本来训练,在本文的研究中存在小样本的问题,因此选择了较少层数的CNN网络。但同时也说明,深度学习在遥感影像识别中还具有非常大的潜力,若继续增加样本容量,扩大网络结构,能够获得更深层次的特征,对侵蚀沟影像的识别精度也可获得进一步提高。
(3) 本文使用的Google Earth遥感影像包含R、G、B3个波段,在此基础上取得了较为理想的结果。由此可将该方法推广至其他遥感影像的应用中,增加波段数量,扩充特征维数,预期能获得更高的识别精度。
综上所述,在今后的研究中需重点考虑增加样本的数量和多样性,同时进一步改进方法,提高其适用性,挖掘更大的潜力。
[1] | Blaschke T and Strobl J. What’s wrong with pixels? Some recent developments interfacing remote sensing and GIS[J]. GIS Zeitschrift für Geoinformationssysteme, 2001, 6 (1) : 12 –17. |
[2] | Chen L J, Yang W, Xu K and Xu T. 2011. Evaluation of local features for scene classification using VHR satellite images//Proceedings of 2011 Joint Urban Remote Sensing Event. Munich, Germany: IEEE: 385–388 [DOI: 10.1109/JURSE.2011.5764800] |
[3] | 程叶青, 张平宇. 中国粮食生产的区域格局变化及东北商品粮基地的响应[J]. 地理科学, 2005, 25 (5) : 513 –520. Cheng Y Q and Zhang P Y. Regional patterns changes of Chinese grain production and response of commodity grain base in northeast China[J]. Scientia Geographica Sinica, 2005, 25 (5) : 513 –520. DOI: 10.3969/j.issn.1000-0690.2005.05.001 |
[4] | 范昊明, 王铁良, 蔡强国, 郭成久, 武敏, 周丽丽. 东北黑土漫岗区侵蚀沟发展模式研究[J]. 水土保持研究, 2007, 14 (6) : 384 –387. Fan H M, Wang T L, Cai Q G, Guo C J, Wu M and Zhou L L. Gully erosion developing model in the gentle hilly black soil regions in Northeast China[J]. Research of Soil and Water Conservation, 2007, 14 (6) : 384 –387. |
[5] | Gualtieri J A and Chettri S. Support vector machines for classification of hyperspectral data//IEEE 2000 International Geoscience and Remote Sensing Symposium[J]. Honolulu, HI: IEEE, 2000, 2 : 813 –815. DOI: 10.1109/IGARSS.2000.861712 |
[6] | Haralick R M, Shanmugam K and Dinstein I. Textural features for image classification[J]. IEEE Transactions on Systems, Man, and Cybernetics, 1973, SMC-3 (6) : 610 –621. DOI: 10.1109/TSMC.1973.4309314 |
[7] | Krizhevsky A, Sutskever I and Hinton G E. 2012. ImageNet classification with deep convolutional neural networks//Advances in Neural Information Processing Systems. Lake Tahoe: NIPS: 1097–1105 |
[8] | Lazebnik S, Schmid C and Ponce J. 2006. Beyond bags of features: spatial pyramid matching for recognizing natural scene categories//Proceedings of 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York, NY: IEEE: 2169–2178 [DOI: 10.1109/CVPR.2006.68] |
[9] | 李宪文, 林培. 国内外耕地利用与保护的理论基础及其进展[J]. 地理科学进展, 2001, 20 (4) : 305 –312. Li X W and Lin P. The theoretical basis and progress: utility and protection of the farmer-land in foreign and home[J]. Progress in Geography, 2001, 20 (4) : 305 –312. DOI: 10.3969/j.issn.1007-6301.2001.04.002 |
[10] | Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60 (2) : 91 –110. DOI: 10.1023/B:VISI.0000029664.99615.94 |
[11] | Luo B, Jiang S J and Zhang L P. Indexing of remote sensing images with different resolutions by multiple features[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2013, 6 (4) : 1899 –1912. DOI: 10.1109/JSTARS.2012.2228254 |
[12] | McInnes J, Vigiak O and Roberts A M. 2011. Using Google earth to map gully extent in the west Gippsland region (Victoria, Australia)//Proceedings of the 19th International Congress on Modelling and Simulation. Perth, Australia: MODSIM: 3370–3376 |
[13] | Metternicht G I and Zinck J A. Evaluating the information content of JERS-1 SAR and Landsat TM data for discrimination of soil erosion features[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 1998, 53 (3) : 143 –153. DOI: 10.1016/S0924-2716(98)00004-5 |
[14] | Shruthi R B V, Kerle N and Jetten V. Object-based gully feature extraction using high spatial resolution imagery[J]. Geomorphology, 2011, 134 (3/4) : 260 –268. DOI: 10.1016/j.geomorph.2011.07.003 |
[15] | Simonyan K and Zisserman A. 2014. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv: 1409.1556 |
[16] | Szegedy C, Liu W, Jia Y Q, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V and Rabinovich A. 2015. Going deeper with convolutions//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA: IEEE: 1–9 [DOI: 10.1109/CVPR.2015.7298594] |
[17] | Xia G S, Hu J W, Hu F, Shi B G, Bai X, Zhong Y F and Zhang L P. AID: a benchmark data set for performance evaluation of aerial scene classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 55 (7) : 3965 –3981. DOI: 10.1109/TGRS.2017.2685945 |
[18] | 闫业超, 张树文, 李晓燕, 岳书平. 黑龙江克拜黑土区50多年来侵蚀沟时空变化[J]. 地理学报, 2005, 60 (6) : 1015 –1020. Yan Y C, Zhang S W, Li X Y, and Yue S P. Temporal and spatial variation of erosion gullies in Kebai black soil region of Heilongjiang during the past 50 years[J]. Acta Geographica Sinica, 2005, 60 (6) : 1015 –1020. DOI: 10.11821/xb200506015 |
[19] | 闫业超, 张树文, 岳书平. 克拜东部黑土区侵蚀沟遥感分类与空间格局分析[J]. 地理科学, 2007, 27 (2) : 193 –199. Yan Y C, Zhang S W and Yue S P. Classification of erosion gullies by remote sensing and spatial pattern analysis in black soil region of eastern Kebai[J]. Scientia Geographica Sinica, 2007, 27 (2) : 193 –199. DOI: 10.3969/j.issn.1000-0690.2007.02.012 |
[20] | Yang Y and Newsam S. 2010. Bag-of-visual-words and spatial extensions for land-use classification//Proceedings of the 18th SIGSPATIAL International Conference on Advances in Geographic Information Systems. San Jose, California: ACM: 270–279 [DOI: 10.1145/1869790.1869829] |
[21] | Yu K, Yang J C and Gong Y H. 2013. Linear Spatial Pyramid Matching Using Sparse Coding. US, US8374442B2. |