2. 中国测绘科学研究院, 北京 100830;
3. 广东省国土资源测绘院, 广东 广州 510500
2. Chinese Academy of Surveying and Mapping, Beijing 100830, China;
3. Survey and Mapping Institute Lands and Resource Department of Guangdong Province, Guangzhou 510500, China
沿海地区是人口聚集、资源丰富的地区,不仅因修建港口码头、开采近海石油等项目具有重要的经济价值,也是海洋开发、滨海综合工业基地及对外贸易和文化交流的纽带。根据国务院第一次全国地理国情普查领导小组办公室的统一部署,沿海地区地表覆盖信息在全国地理国情普查中占有重要地位[1]。但在第一次全国地理国情普查中,无论是传统的实地勘测调查,还是人工解译,或因沿海地区环境复杂,通达性差,或因巨大工作量限制了其地表覆盖信息的提取。
随着遥感技术的发展,遥感影像分类为沿海地区地表覆盖信息提取提供了一种重要方法。传统的基于像元的分类方法在技术上和应用上已经比较成熟[2-4],但分类结果会产生“椒盐效应(salt-and-pepper effect)”。现在越来越多的高空间分辨率影像被用于遥感信息提取中,传统的基于像元的分类方法已不再具有明显的优势[5],面向对象影像分类不但考虑光谱的统计特性,还考虑其空间、纹理、拓扑关系[6-7],能大大提高分类精度,适用于高分辨率遥感影像分类。
GLC分类器将C5.0与Adaboost算法结合,提高分类精度,此分类器应用于诸如Landsat中低分辨率遥感影像的分类中已取得很好的效果[8]。本文以沿海地区“高分一号”(简称GF-1) 高分辨率影像为数据源,验证面向对象GLC分类对沿海地区高分辨率遥感影像地表覆盖信息提取的有效性与优越性,并提出沿海地区高分辨率遥感影像地表覆盖信息提取的技术流程。
1、 数据来源及试验区概况 1.1. 数据来源GF-1是我国高分辨率对地观测卫星系统重大专项的第一颗卫星,搭载两台2 m分辨率全色/8 m分辨率多光谱相机、4台16 m分辨率多光谱相机。在具有高空间分辨率的同时,其重复周期只有4 d。因此,GF-1卫星影像是第一次全国地理国情普查的重要数据源,主要使用2 m分辨率全色与8 m分辨率多光谱(蓝、绿、红、近红外4个波段)影像进行地表覆盖分类。
1.2. 试验区概况沿海地区是海洋与陆地相互作用的地带,特殊的地理位置与资源优势使其拥有独特的土地利用方式,带来区别于其他地区的地表覆盖。我国海岸线较长,试验区应选择基本反映沿海地区地表覆盖特点的地区。本文试验区区域属亚热带海洋性气候,年平均气温22.3℃,冬无严寒,雨量充沛。
2、 技术流程与方法本文采用如图 1所示的技术流程验证面向对象GLC分类对沿海地区高分辨遥感影像地表覆盖信息提取的有效性与优越性。
2.1. 预处理本文采用GF-1的2 m分辨率全色影像与8 m分辨率多光谱影像均已经过辐射校正与地面控制点几何校正,结合DEM模型进行地形校正;接着进行两幅影像的影像配准,使得同名点像元一一对应,选择pan sharpening进行图像融合,最后经ENVI进行影像裁剪。
2.2. 影像分割与特征提取影像分割是面向对象分类技术的基础,影像分割的好坏直接决定遥感影像分类的精度[9]。本文采用基于边缘的分割方法,利用临近像素亮度、纹理等对影像进行分割。这种算法速度很快,并且只需一个输入参数,通过不同尺度上边界的差异控制,从而产生从细到粗的多尺度分割,但需要结合合并算法达到最佳分割效果。
面向对象遥感影像分类的一个关键技术就是特征提取:一方面可以从单波段或多个波段中提取影像对象特征;另一方面,除了光谱特征以外,还可以提取包括纹理、空间等特征信息。本文选择4个波段均参与特征提取,选择的特征变量见表 1。
类型 | 变量 |
光谱 | Spectral Mean、Std、Min、Max、NDVI |
纹理 | Texture Range、Mean、Variance、Entropy |
空间 | Area、Length、Compactness、Convexity、Solidity、Roundness、Form Factor、Elongation、Rectangular Fit、Main Direction、Major Length、Minor Length、Number of Holes、Hole Aare/Solid Area |
第一次全国地理国情普查内容包含《地理国情普查内容与指标》中定义的12个一级类、58个二级类和135个三级类[10],但在利用GF-1进行地表覆盖分类时,考虑到遥感影像的分辨率及沿海地区地表覆盖的特殊性,沿海地区地表覆盖分类系统应以《地理国情普查内容与指标》为基础,结合遥感影像,对分析意义不明显或遥感影像不支持的分类进行粗化合并,如林地、园地因在影像上光谱信息相似、纹理信息及空间信息不易分辨,归为一类;对分析意义重大及表现沿海地区特征的分类进行细化分类,如堤坝是沿海地区特色,需在分类系统中从其他人造覆地中细分。最终形成的用于沿海地区的地表覆盖分类系统见表 2。
基于面向对象的GLC决策树分类方法中,样本以点形式采集与存储。结合不同波段组成的假彩色影像、更高分辨率的卫星影像、航空影像或Google Earth等辅助工具来帮助采集样本点,提高样本采集的正确度;样本点的选取有个数要求,一景影像中每个类别的样本点应至少5个;样本点矢量数据应与遥感影像及分割结果保持参考系一致。
代码 | 一级类 | 二级类 | 与普查对照/定义 |
0100 | 耕地 | 相同 | |
0200 | 林园地 | 调整项,包括普查中的林地、园地 | |
0400 | 草地 | 相同 | |
0500 | 房屋建筑(区) | 相同 | |
0600 | 道路 | 相同 | |
0700 | 其他人造覆盖 | 调整项,包括普查中的构筑物、人工堆掘地 | |
0710 | 除堤坝外其他人造覆盖 | 调整项, 包括普查的构筑物(除堤坝),人工堆掘地 | |
0720 | 堤坝 | 调整项,专指水工设施中的堤坝 | |
0900 | 裸露地表 | 相同 | |
1000 | 水域 | 相同 | |
1010 | 人工养殖池 | 新增项,用于水产养殖,且形状规则的坑塘水面 | |
1020 | 其他陆地水域 | 调整项,陆地上除人工养殖池以外的所有水域 | |
1040 | 海面 | 相同 | |
合计/(个) | 8 | 5 | — |
中国测绘科学研究院研发的GLC决策树分类技术对C5.0决策树算法[11]进行了多方面的改进。使用二叉树代替多叉树。二叉树结构不进行连续属性的离散化,预测精度高且利于大量分类数据的预测,规则描述简单,可以提高分类精度。用AdaBoost.M1[12]代替Boosting引入到C5.0决策树算法中。AdaBoost.M1算法开始时对每个样本赋予相同的权重,接着在样本训练的过程中,每一轮迭代被分错的样本重新获取更高的权重,迫使弱分类算法生成的子分类器更关注于这些被分错的样本[13],同时使用加权投票方法,分类精度更高的子分类器获得更高的投票权值,最终形成模型集,同时解决子分类器生成及集成问题;废除原C5.0算法终止条件,使用设置树高的方式,以达到树高时样本集T中的多数类标记并确定叶节点N;将综合决策树转换成规则集,从根到每个树叶节点的每条路径生成一个规则,并可根据阈值设置进行规则自动调整。每条规则预测函数的权重由其准确率及所在单棵树权重共同计算得出。该分类器通过样本点自动创建规则集,减少了人工建立规则集的工作量,在保证进度的前提下可大幅提升分类速度。GLC决策树自动分类技术流程如图 2所示。
2.5. 分类后处理及精度评价面向对象分类减少了传统分类图像中的孤立点、孔洞等,即“椒盐噪声”,因此本试验完成两种面向对象分类后,运用数学形态学算子完成聚类处理,相同对象明显错误分类的修改,优化分类结果。两种方法分类结果,相同类别应使用相同颜色表示,因此后处理需要更改类别颜色。
遥感影像分类结果必须进行客观可靠的精度验证[14-15]。本文采用混淆矩阵进行进度评价,通过比较分类的总体精度、各类别的用户精度、制图精度、以及Kappa系数验证面向对象GLC分类方法的有效性及相对面向对象SVM分类方法的优越性。精度评价的参考源可以是样本,也可以是标准分类图,基于实地调查的利用高分辨率影像数字化解译的地表覆盖矢量数据基本可以反映研究区地表覆盖的实际情况,可以作为精度评价的标准分类图。
3、 试验与分析本文选取了2015年1月10日获取的部分GF-1 PMS 2 m分辨率全色及8 m分辨率多光谱影像。区域内无云,可视性良好,基本包含了沿海地区典型地表覆盖类型,园地、林地、草地、道路、房屋建筑(区)等。
3.1. 试验过程预处理后的数据如图 3所示,分割尺度与合并尺度分别选择40、80形成分割矢量结果,并提取包括光谱、纹理、空间3类表 1中的特征;结合遥感影像的实际情况,解译标志为分类系统中的林园地、草地、房屋建筑(区)、道路、除堤坝外其他人造覆盖、堤坝、裸露地表、其他陆地水域、海面9类。采集样本372个(以波段1、2、3分别为蓝、绿、红的假彩色影像为例,采集样本时的解译标志示例见表 3)。第一次全国地理国情普查采用优于(含)1 m分辨率遥感影像,解译形成的地表覆盖和地理要素数据的现势性为2015年,经过实地调查修改、数据裁切、合并等处理后,按照分类系统,对成果进行部分合并与细化调整,形成标准分类图。本试验同时进行面向对象GLC决策树分类和SVM分类试验。两种分类方法的分类结果与标准分类图的对比结果如图 4所示。
类别 | 解译实例 | 描述 |
林园地 | 颜色为墨绿色或黑色,大多形状不规则,边界清晰,有立体感 | |
草地 | 多分布在房屋建筑(区)、道路或林园地附近;边界不明显,呈暗灰色或暗棕色 | |
房屋建筑(区) | 多分布在道路附近,边界清晰,多呈淡蓝色、淡紫色或砖红色 | |
道路 | 形状多呈长条状,分布规则,颜色多呈深灰色或淡白色 | |
除堤坝外其他人造覆盖 | 分布不规则,颜色多呈浅灰色、淡白色 | |
堤坝 | 分布在水域附近,边界清晰,形状规则,呈长条状,颜色多呈淡白色或浅灰色 | |
裸露地表 | 大多形状不规则,颜色多为浅棕色、亮白色 | |
其他陆地水域 | 蓝色、深蓝色或墨绿色,分布于陆地,边界清晰,影像几何形状不规则 | |
海面 | 蓝色、深蓝色或墨绿色,大面积分布,轮廓边界清晰 |
面向对象GLC地表覆盖分类与面向对象SVM分类的混淆矩阵分别见表 4、表 5。
从上述分类结果与精度评价的数据来看,采用面向对象GLC分类技术进行沿海地区地表覆盖信息提取效果较好,分类结果令人满意。总体分类精度达到了87.159 0%,Kappa系数为0.840 4。其中海面的分类效果最好,其制图精度与用户精度分别高达98.86%、99.63%。在相同的影像分割、特征提取和样本的基础上,除堤坝、裸露地表外,面向对象GLC决策树分类方法在沿海地区地表覆盖分类中不论是从用户精度、制图精度,还是评价总体分类效果的总体精度、Kappa系数上,分类效果都高于面向对象SVM分类方法,而且总体精度、Kappa系数分别提高了5.278 5%、0.065 6。虽然前者对裸露地表的分类精度比后者的要低,但分类结果还是令人满意的。但面向对象GLC决策树分类技术对道路、堤坝的分类用户精度较低,仅为60.54%、57.15%。造成道路用户精度较低的主要原因是部分林园地和除堤坝外其他人造覆盖被错分为道路。林园地周围或内部存在部分道路,分割时有些地方二者被错误地划分为同一对象,道路与除堤坝外其他人造覆盖在光谱信息等特征上有些比较接近,这些均是造成被错分为道路的原因;堤坝与海面大面积直接接触,虽然二者边界较明显,但因分割精度的影响,或是分割后的堤坝对象边缘呈锯齿状,将本是海面的部分错分为堤坝。
类型 | 0200 | 0400 | 0500 | 0600 | 0710 | 0720 | 0900 | 1020 | 1040 | 总和/个 | 制图精度/(%) |
0200 | 232 302 | 1507 | 3538 | 22 357 | 15 006 | 1646 | 2251 | 2276 | 19 | 280 902 | 82.7 |
0400 | 2678 | 59 375 | 756 | 754 | 1544 | 531 | 223 | 1723 | 0 | 67 584 | 87.85 |
0500 | 3331 | 1270 | 61 726 | 810 | 9270 | 116 | 87 | 149 | 14 | 76 773 | 80.4 |
0600 | 4458 | 1768 | 415 | 48 249 | 2745 | 297 | 939 | 101 | 1 | 58 973 | 81.82 |
0710 | 10 642 | 2237 | 9555 | 5450 | 245 422 | 525 | 638 | 2177 | 0 | 276 646 | 88.71 |
0720 | 192 | 0 | 0 | 962 | 6 | 6967 | 76 | 0 | 377 | 8580 | 81.2 |
0900 | 3552 | 0 | 0 | 290 | 77 | 57 | 14 143 | 168 | 0 | 18 287 | 77.34 |
1020 | 772 | 323 | 75 | 826 | 1979 | 381 | 186 | 40 906 | 136 | 45 584 | 89.74 |
1040 | 0 | 0 | 0 | 0 | 0 | 1671 | 0 | 4 | 145 561 | 147 236 | 98.86 |
总和/个 | 257 927 | 66 480 | 76 065 | 79 698 | 276 049 | 12 191 | 18 543 | 47 504 | 146 108 | 980 565 | — |
用户精度/(%) | 90.07 | 89.31 | 81.15 | 60.54 | 88.91 | 57.15 | 76.27 | 86.11 | 99.63 | — | — |
总体精度:87.159 0%Kappa系数:0.840 4 |
类型 | 0200 | 0400 | 0500 | 0600 | 0710 | 0720 | 0900 | 1020 | 1040 | 总和/个 | 制图精度/(%) |
0200 | 221 178 | 10 829 | 2651 | 19 224 | 21 857 | 183 | 1780 | 3187 | 13 | 280 902 | 78.74 |
0400 | 5262 | 57 372 | 189 | 710 | 2435 | 17 | 66 | 1533 | 0 | 67 584 | 84.89 |
0500 | 4004 | 3445 | 50 316 | 939 | 16 013 | 775 | 503 | 758 | 20 | 76 773 | 65.54 |
0600 | 5749 | 2331 | 595 | 43 510 | 6154 | 150 | 322 | 162 | 0 | 58 973 | 73.78 |
0710 | 15 044 | 6393 | 17 246 | 6878 | 225 719 | 993 | 547 | 3809 | 17 | 276 646 | 81.59 |
0720 | 42 | 5 | 16 | 971 | 273 | 6943 | 29 | 0 | 301 | 8580 | 80.92 |
0900 | 4021 | 295 | 21 | 276 | 521 | 38 | 13 018 | 97 | 0 | 18 287 | 91.19 |
1020 | 1231 | 425 | 1441 | 791 | 1833 | 248 | 156 | 39 376 | 83 | 45 584 | 86.38 |
1040 | 956 | 0 | 0 | 4 | 0 | 816 | 0 | 0 | 145 460 | 147 236 | 98.79 |
总和/个 | 257 487 | 81 095 | 72 475 | 73 303 | 274 805 | 10 163 | 16 421 | 48 922 | 145 894 | 980 565 | — |
用户精度/(%) | 85.9 | 70.75 | 69.43 | 59.36 | 82.14 | 68.32 | 79.28 | 80.49 | 99.7 | — | — |
总体精度:81.88 05%Kappa系数:0.774 8 |
通过以上试验及分析,面向对象GLC决策树分类在沿海地区高分辨率影像地表覆盖信息提取上能够取得更好的效果,在此基础上提出沿海地区高分辨率影像地表覆盖信息提取的总的技术流程如图 5所示。首先选择合适的分割尺度与合并尺度完成影像分割,选择特征变量进行特征提取,在已经建立好的沿海地区分类体系的指导下,采集样本并完成面向对象GLC决策树自动分类,在自动分类结果的基础上,将某些错分、漏分的类别经过自动、人工编辑后输出分类结果。
[1] | 程滔, 周旭, 刘若梅. 面向地理国情监测的地表覆盖信息提取方法[J]. 测绘通报, 2013 (8) : 84–86. |
[2] | 王常颖. 基于数据挖掘的遥感影像海岸带地物分类方法研究[D].青岛:中国海洋大学,2009. http://cdmd.cnki.com.cn/Article/CDMD-10423-2009160346.htm |
[3] | 郭健, 张继贤, 张永红, 等. 多时相MODIS影像土地覆盖分类比较研究[J]. 测绘学报, 2009, 38 (1) : 88–92. |
[4] | 王知鸷. 基于纹理及光谱信息融合的遥感图像分类方法研究[D].西安:西安电子科技大学,2010. http://cdmd.cnki.com.cn/article/cdmd-10701-2010128463.htm |
[5] | JENSEN J R. Introductory Digital Image Processing:A Remote Sensing Perspective[M]. Upper Saddle River: Prentice Hall PTR, 1986. |
[6] | 曹莹, 苗启广, 刘家辰, 等. AdaBoost算法研究进展与展望[J]. 自动化学报, 2013, 39 (6) : 745–758. |
[7] | 常虹, 詹福雷, 杨国东, 等. 面向对象的高分遥感影像信息提取技术研究[J]. 测绘通报, 2015 (1) : 99–101. |
[8] | ZHAI L, SANG H Y, GAO Y, et al. A New Approach for Mapping Regional Land Cover and the Application of This Approach in Australia[J]. Remote Sensing Letters, 2015, 6(4): 267–275. DOI:10.1080/2150704X.2015.1029089 |
[9] | 翟亮, 张晓贺, 桑会勇, 等. 面向地理国情普查的地表覆盖分类技术与试验[J]. 遥感信息, 2014 (4) : 71–75. |
[10] | 曾波, 赵展. 地理国情普查中高分辨率遥感影像自动分类技术研究[J]. 测绘通报, 2015 (1) : 95–98. |
[11] | 白秀莲, 巴雅尔, 哈斯其其格. 基于C5.0的遥感影像决策树分类实验研究[J]. 遥感技术与应用, 2014, 29 (2) : 338–343. |
[12] | FREUND Y, SCHAPIRE R. A Decision-Theoretic Generalization of On-line Learning and an Application to Boosting[J]. Journal of Computerand System Sciences, 1997, 55(1): 119–139. DOI:10.1006/jcss.1997.1504 |
[13] | 龚健雅, 姚璜, 沈欣. 利用AdaBoost算法进行高分辨率遥感影像的面向对象分类[J]. 武汉大学学报(信息科学版), 2010, 35 (12) : 1440–1443. |
[14] | 刘旭拢, 何春阳, 潘耀忠, 等. 遥感图像分类精度的点、群样本检验与评估[J]. 遥感学报, 2006, 10 (3) : 366–372. |
[15] | CONGALTON R G, GREEN K. Assessing the Accuracy of Remotely Sensed Data:Principles and Practices[M]. Second Edition. London: Chemical Rubber Company Press Taylor &Francis Group, 2009. |