多光谱遥感数据波段较多、信息量大,具备数据获取周期短、覆盖空间范围广的特点,已经广泛应用于城市地物分类与提取、军事目标识别、煤矿灾害调查和生物量的精细提取等方面[1-4]。多光谱遥感技术既可以根据影像上地物的形态特征识别目标,还可以根据地物在不同波段上的光谱差异进行识别,给地物提取和分类带来很大的便利[5]。在进行遥感影像分析时,波段选择是减少数据冗余、提高运算效率较为有效的方法,其中最佳指数法(optimum index factor, OIF)已经在多光谱影像的分类和地物提取中取得较好的效果[6-9]。
目标提取的常用算法包括支持向量机(support vector machine, SVM)、面向对象技术、基于规则和机器学习等算法。但这些算法均有其局限性,如SVM和机器学习需要选取每类地物的样本作为训练数据[10-11]、面向对象技术受到多尺度分割参数难以确定的限制[12-13]、基于规则的方法地物提取参数难以控制[1]等,而一类支持向量机(one-class support vector machine, OC-SVM)只需要选取目标地物的样本作为训练数据就能提取出目标地物,大大减少了选取样本的工作量,在研究区地物混杂、种类较多时较为适用。
OC-SVM结合OIF提取特定目标地物能够提高效率,但也存在以下不足:① OC-SVM只需选取目标地物样本作为训练数据,而OIF以整幅影像为研究对象使其较适合多分类,当面临提取目标地物的“二分类”问题时并不能保证训练数据的信息量最大;② 利用OC-SVM作为模型进行地物提取时,对样本质量要求高,前人研究结果表明训练样本的好坏对最终结果的影响甚至大于模型自身[14],因此如何筛选出稳定性较强的目标地物样本所在波段对于精度的提高至关重要。针对上述问题,本文提出一种改进的最佳波段组合方法(modified optimum index factor, MOIF),利用OC-SVM对江苏滩涂上的光伏电站进行提取,也为后续其他目标地物的提取提供新的思路与方法。
1 改进的最佳波段组合指数(MOIF) 1.1 波段组合原理由于多光谱影像波段较多,且原始影像波段之间存在不同程度的相关,因此进行目标地物提取时如何筛选出适当的波段及组合,对于减小数据冗余、提高试验效率较为重要。最终波段一般由原始波段的某3个波段构成,波段选择时应遵循以下原则[6-9]:① 所选波段包含信息量大且波段间相关性较小;② 目标地物要在所选的波段组合内与其余地物有较好的可分性。
依据以上原则,波段选择的前提是计算不同波段的标准差和相关性。标准差是反映影像灰度值离散程度的指标,标准差越大表示影像信息量越丰富,因此波段组合时选择的波段标准差之和要尽可能大;另外,遥感影像的辐射特性使得波段间存在不同程度的相关,因此3个标准差最大的波段组合起来并不一定能得到最大的信息量,还需满足波段间相关性尽可能小。在此基础上,还需满足目标地物和其余地物在所选波段上有较好的可分性。
1.2 改进最佳波段组合指数的提出与独立分量分析(ICA)[15]、主成分分析(PCA)[16]等减少数据冗余方法相比,OIF指数综合考虑单波段的信息量和波段间的相关度,是一种比较客观的衡量标准[8-9]。其公式如下
式中,Si为第i个波段的标准差;Rij为i和j波段间的相关系数。OIF值越大,表明该组合信息量越丰富。遥感影像地物提取和分类的理论依据为:同种地物在特定条件下具有相似的光谱特征,而不同地物之间光谱特征具有一定的差异,因此若不同地物的特征空间越离散,则越容易将各类地物分开。这也是OIF指数要求波段的标准差越大越好的原因,即类间距离要大,类内距离要小[17]。
OIF指数在影像分类方面取得了较好的效果[6, 9],但是利用OC-SVM提取特定目标地物时OIF指数却暴露出诸多不足,具体表现如下:① 特定目标地物提取相当于二分类,只需考虑目标地物和非目标地物间的差异即可,而OIF指数将非目标地物中各类地物间的差异考虑在内,这势必造成其准确度下降;② 对于提取同一个目标地物而言,如果研究区的大小发生变化,则OIF遴选出的最优组合可能随之发生变化。鉴于目标地物提取应用广泛,因此有必要针对该问题进行研究。
根据波段组合原理,本文作如下分析:对于光谱特征而言,类间距离越大则不同地物间的差异越大,影像标准差越大,越有利于分类;类内距离越小则表明此类地物的特征稳定性越强,标准差越小,越有利于地物提取。因此,针对特定地物提取问题提出一种改进的最佳波段组合指数(MOIF),该指数从目标地物的特征考虑,首先选取一定数量目标地物样本,计算目标地物样本在不同波段上的标准差和相关性,通过分析标准差和相关性,筛选出目标地物稳定性强且信息量较大的波段组合,具体公式如下
式中,S为目标地物在不同波段上的标准差;Rij为i和j波段间的相关系数。MOIF值越小,表明该组合地物的光谱稳定性越强,冗余度小,越有利于目标地物的提取。
2 研究区概况及数据源 2.1 研究区概况研究区位于江苏省沿海中部(32°33′N-32°57′N,120°07′E-120°53′E),上接盐城,下依南通,拥有85 km黄金海岸线,属于典型的滨海滩涂地区。国内最大的滩涂光伏电站--东台30兆瓦滩涂电站于2011年12月建成并网,该项目位于东台沿海经济区,占地面积约4.23 km2,研究区内的地物类型主要包括农田、混凝土屋顶、石棉瓦屋顶、光伏电池板、水池、道路和光滩。中节能江苏射阳20兆瓦滩涂电站于2010年12月并网发电,占地约1.87 km2,研究区地物类型与东台类似。
2.2 数据源试验数据采用2015年10月13号的Landsat8 OLI卫星数字产品,条带号为119、37,包括11个波段,与ETM+数据相比新增两个波段。其中第1波段为海蓝波段,主要用于海岸带监测;第9波段为卷云波段,主要用于云检测;第8波段为全色波段,主要用于凸显地物几何特征,分辨率为15 m;第10和11波段为热红外波段,用于城市热岛效应观测等,空间分辨率为100 m;其余波段的分辨率均为30 m。由于试验采用的影像云量仅为2.11%,因此无需作去云处理;考虑到提取地物的特征,不需要利用第8、9、10、11波段,即本文采用1~7波段进行试验。
3 研究方法与试验分析首先,对影像进行预处理,通过波段间相关信息的统计,结合最佳指数法(OIF)得到最佳波段组合A;通过选取适量的光伏电站样本,结合MOIF得到最佳波段组合B;然后,利用OC-SVM进行光伏电站信息提取;最后对提取结果进行评定精度。技术流程如图 1所示。
3.1 一类支持向量机一类支持向量机(OC-SVM)的原理是在向量空间中寻找一个最优超平面,使得大多数点都在超平面的一侧,并且把这一侧作为正侧,原点为负类代表。通过核函数将输入样本映射到特征空间,并且将其与原点的间隔尽可能最大化[18]。与SVM不同,OC-SVM通过学习目标样本的信息,可以把目标样本和非目标样本区分开。对于电站样本X={xi|xi∈Rd}i=1l,为使模型具有一定的容错性,引入松弛因子ξi,使用特征函数ϕ将向量空间中的样本映射到特征空间中,OC-SVM的目标函数如下
式中,ν∈(0, 1]是全部支持向量个数的下界,叫作ν属性。由优化理论的对偶理论可得
对于决策函数
本文选取两个研究区对提出的波段组合方法进行验证,其中东台研究区空间大小为1400×900像素,选取电站样本342个;射阳研究区空间大小为300×460像素,选取电站样本312个。以下各表中小括号里的数值为依据选取电站样本的统计信息。
通过ENVI软件中的波段分析统计工具(Compute Statistic)计算研究区1~7各波段统计信息和波段间相关系数;利用Matlab和SPSS Statistics工具分别计算选取电站样本的标准差和相关系数,计算结果见表 1和表 2。由表 3可知,457波段组合的OIF指数最大,为最佳波段组合;利用MOIF指数时,光伏电站的样本标准差越大,表明该波段上样本的稳定性越差,越不利于地物提取,因此对于东台地物的光伏电站,标准差最大的波段6不参与提取试验;此外,进行相关性分析时将阈值设为0.9,即两个波段相关系数大于0.9时不能同时出现在一个组合中。由表 2中的相关系数可知,波段1、2,波段3、4,波段4、5,波段5、7不能组合,最终筛选出组合135、137、235、237作为备选波段组合。MOIF指数的计算结果见表 4,可以看到137波段组合的MOIF值最小,表明该波段组合样本稳定性强,所含信息量较多,有利于光伏电站的提取。不同波段组合的电站提取效果和精度如表 5和图 2所示,可以看出根据OIF指数的提取结果中噪声现象严重,将大量的光滩和部分水泥马路误识别为光伏电站,而根据MOIF指数提取的电站,整体精度达到77.05%,落在背景区的误分像元数仅为503个,较前者精度有大幅提高。
波段序号 | 最小值 | 最大值 | 平均值 | 标准差 |
1 | 10 273(11 661) | 16 303(12 143) | 11 209.90(11 904.09) | 426.33(87.01) |
2 | 9337(10 786) | 16 624(11 316) | 10 461.04(11 056.58) | 552.65(105.52) |
3 | 8143(9548) | 16 944(10 197) | 9 835.02(9 872.09) | 766.51(136.41) |
4 | 7223(8780) | 18 195(9839) | 9 483.15(9 297.31) | 1 230.81(237.60) |
5 | 6194(8309) | 25 095(10 442) | 12 099.42(9 357.98) | 3 398.10(559.08) |
6 | 5121(8978) | 33 570(11 656) | 8 749.73(10 605.34) | 2 910.17(651.58) |
7 | 5083(7177) | 52 351(9321) | 7 282.77(8 300.86) | 1 953.58(507.89) |
波段序号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
1 | 1.000 | ||||||
2 | 0.991(0.953) | 1.000 | |||||
3 | 0.936(0.771) | 0.968(0.894) | 1.000 | ||||
4 | 0.902(0.683) | 0.946(0.842) | 0.982(0.947) | 1.000 | |||
5 | -0.478(0.599) | -0.494(0.755) | -0.454(0.822) | -0.467(0.931) | 1.000 | ||
6 | -0.382(0.679) | -0.404(0.788) | -0.428(0.766) | -0.418(0.878) | 0.745(0.923) | 1.000 | |
7 | -0.230(0.574) | -0.248(0.733) | -0.286(0.808) | 0.274(0.929) | 0.601(0.941) | 0.965(0.956) | 1.000 |
波段组合 | OIF | 波段组合 | OIF |
156 | 4 196.01 | 157 | 4 414.06 |
256 | 4 175.84 | 257 | 4 396.37 |
356 | 4 348.35 | 357 | 4 562.40 |
456 | 4 625.20 | 457 | 4 904.98 |
射阳电站样本的统计量见表 6和表 7。由表 8可以看出,456波段组合的OIF指数最大,为最佳组合;利用MOIF指数时标准差最大的波段5不参与提取试验。由表 7中的相关系数可知,波段1、2,波段3、4,波段6、7不能组合,最终筛选出备选波段组合136、137、146、147、246、247。MOIF指数计算的最佳波段组合为137,见表 9。射阳研究区不同波段组合的电站提取效果和精度如表 5和图 3所示,可以看出根据OIF指数的提取结果将部分地物和光滩误识别为光伏电站,提取精度仅为60.29%时背景区的错误像元数达到1006个;而根据MOIF指数提取的电站,整体精度达到70.73%,落在背景区的误分像元数减少389个,且提取出的光伏电站更加紧凑,孤立的斑点噪声簇明显减少。
波段序号 | 最小值 | 最大值 | 平均值 | 标准差 |
1 | 9848(10 786) | 21 150(11 553) | 10 480.75(11 199.99) | 435.45(155.45) |
2 | 8923(9987) | 22 097(10 771) | 9 750.95(10 362.52) | 561.88(177.75) |
3 | 7757(8751) | 23 006(9820) | 9 235.08(9 212.91) | 735.03(204.72) |
4 | 6819(8085) | 25 037(9454) | 8 743.76(8 664.907) | 1 055.29(274.89) |
5 | 5784(7914) | 28 602(13 094) | 12 021.82(9 662.03) | 3 898.83(744.77) |
6 | 4871(9434) | 27 450(11 927) | 9 062.03(10 742.36) | 2 811.40(534.14) |
7 | 5011(7387) | 38 382(9426) | 7 452.37(8 231.641) | 1 918.62(397.04) |
波段序号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
1 | 1.000 | ||||||
2 | 0.989(0.981) | 1.000 | |||||
3 | 0.883(0.884) | 0.930(0.941) | 1.000 | ||||
4 | 0.850(0.803) | 0.897(0.882) | 0.962(0.974) | 1.000 | |||
5 | -0.223(0.184) | -0.268(0.242) | -0.283(0.353) | -0.208(0.355) | 1.000 | ||
6 | 0.125(0.711) | 0.067(0.776) | -0.043(0.816) | 0.090(0.816) | 0.750(0.666) | 1.000 | |
7 | 0.301(0.666) | 0.245(0.760) | 0.113(0.859) | 0.241(0.859) | 0.600(0.468) | 0.961(0.915) | 1.000 |
波段组合 | OIF | 波段组合 | OIF |
156 | 6 507.90 | 157 | 6 252.9 |
256 | 6 702.40 | 257 | 5 731.65 |
356 | 6 919.38 | 357 | 6 598.67 |
456 | 7 409.84 | 457 | 6 551.70 |
波段组合 | MOIF | 波段组合 | MOIF |
136 | 1 411.59 | 137 | 1 203.26 |
146 | 1 496.02 | 147 | 1 290.54 |
246 | 1 611.82 | 247 | 1 413.25 |
通过分析OC-SVM与常用波段选择指数OIF相结合在提取特定目标地物时存在的不足,本文提出了一种改进的最佳波段组合指数(MOIF),利用Landsat8多光谱影像作为数据源,选择江苏省沿海滩涂上东台和射阳两个研究区进行了试验分析,得出以下结论:
(1) 传统的最佳指数法(OIF)较适用于多分类,但与OC-SVM相结合在提取特定目标地物时存在弊端。
(2) 本文提出的MOIF指数在保证训练数据信息量尽可能大的基础上,将目标地物的光谱稳定性考虑在内,适用于特定地物的提取,在提取精度和识别效果方面具备一定优势。
(3) OC-SVM仅需要选择目标地物的部分样本作为训练数据,省时省力,且提取地物的精度令人满意。
当然,本文方法还存在些许不足,如未能根据相似地物的光谱特征深入分析, 下一步将尝试加入纹理特征,以进一步提高光伏电站的提取精度。
[1] | 闫利, 赵展, 聂倩, 等. 利用规则进行高分辨率遥感影像地物提取[J]. 武汉大学学报(信息科学版), 2012, 37(6): 636–639. |
[2] | 李益. 基于光谱/空间联合特征的遥感影像地物提取技术研究[D]. 郑州: 信息工程大学, 2012. http://cdmd.cnki.com.cn/Article/CDMD-90005-1013161023.htm |
[3] | 卢遥, 卢小平, 武永斌, 等. 综合机载LiDAR与高分影像的煤矿区典型地物提取方法[J]. 测绘通报, 2015(12): 57–59. |
[4] | 王树东, 张立福, 陈小平, 等. 基于Landsat TM的热带精细地物信息提取的模型与方法——以海南岛为例[J]. 生态学报, 2012, 32(22): 7036–7044. |
[5] | 程维芳, 周艺, 王世新, 等. 基于多光谱遥感的撂荒地识别方法研究[J]. 光谱学与光谱分析, 2011, 31(6): 1615–1620. |
[6] | 郭娜, 刘剑秋. TM遥感影像植被信息提取的最佳波段组合选择——以福建省松溪至建瓯高速公路为例[J]. 福建师范大学学报(自然科学版), 2012, 28(1): 103–107. |
[7] | CHAVEZ P S, BERLIN G L, SOWERS L B. Statistical Method for Selecting Landsat MSS Ratios 147[J]. Journal of Applied Photographic Engineering, 1984, 8(1): 23–30. |
[8] | 陆灯盛, 游先祥, 崔赛华. TM图像的信息量分析及特征信息提取的研究[J]. 环境遥感, 1991(4): 267–274, 323. |
[9] | 冯恩国, 秦奋, 李淑香. 居民地信息提取的最优波段组合方案研究——以开封市区为例[J]. 水土保持研究, 2007, 14(3): 200–202. |
[10] | TARABALKA Y, BENEDIKTSSON J A, CHANUSSOT J. Spectral-Spatial Classification of Hyperspectral Imagery Based on Partitional Clustering Techniques[J]. IEEE Transactions on Geoscience & Remote Sensing, 2009, 47(8): 2973–2987. |
[11] | 慎利, 唐宏, 王世东, 等. 结合空间像素模板和Adaboost算法的高分辨率遥感影像河流提取[J]. 测绘学报, 2013, 42(3): 344–350. |
[12] | 周亦, 张亚亚. 利用eCognition进行高分一号卫星数据土地利用现状解译能力测试[J]. 测绘通报, 2016(8): 77–80. |
[13] | 殷亚秋, 李家国, 余涛, 等. 基于高分辨率遥感影像的面向对象水体提取方法研究[J]. 测绘通报, 2015(1): 81–85. |
[14] | 胡俊. 基于多元逻辑回归和邻域信息的高光谱遥感影像半监督分类[D]. 徐州: 中国矿业大学, 2015. http://cdmd.cnki.com.cn/Article/CDMD-10290-1015972002.htm |
[15] | 曾生根, 王小敏, 范瑞彬, 等. 基于独立分量分析的遥感图像分类技术[J]. 遥感学报, 2004, 8(2): 150–157. DOI:10.11834/jrs.20040209 |
[16] | 翟天林, 金贵, 邓祥征, 等. 植被信息的Landsat8卫星影像提取方法[J]. 测绘科学, 2016, 41(10): 126–131. |
[17] | 张荟平. 基于光谱特征不确定性的遥感影像分类研究[D]. 武汉: 华中科技大学, 2013. http://cdmd.cnki.com.cn/Article/CDMD-10487-1014026563.htm |
[18] | 林颢, 赵杰文, 陈全胜, 等. 近红外光谱结合一类支持向量机算法检测鸡蛋的新鲜度[J]. 光谱学与光谱分析, 2010, 30(4): 929–932. |