2. 浙江工业大学 计算机科学与技术学院/软件学院,浙江 杭州 310023;
3. 中国科学院 研究生院,北京 100049
2. Software College, Zhejiang University of Technology, Hangzhou 310023, China;
3. Graduated University, Chinese Academy of Sciences, Beijing 100049, China
1 引 言
在遥感影像,特别是多光谱影像分类中,光谱特征是分类的重要依据,而在选定特征后,相似性度量是重要的分类判据,因此,作为度量光谱相似性的重要方法,光谱匹配技术得到了广泛的应用与研究[1, 2]。由于遥感图像分类多基于模式识别的方法,现有分类方法中的相似性度量主要基于欧氏距离,这往往会忽略地物光谱曲线上的特点(如吸收谷、反射峰、红边等),也有学者引进余弦相似度、相关系数等手段来改善,特别是在高光谱影像分类中效果比较明显[3]。在多光谱影像分类中,由于数据本身光谱特征较少,直接进行光谱匹配(如光谱角匹配)往往难以有效表征地物波谱间的差异,导致分类效果不够理想[4]。很多学者通过引入辅助信息(地形、气候等)结合多光谱特征来提高地物类之间的可区分度,取得了较好的精度改进[5],但仍然鲜有通过挖掘多光谱影像本身信息来改善分类效果的技术探讨。
从机器学习的角度来看,文献[6]认为支撑向量机之类的算法应该有效利用源问题中隐含的特殊信息(privileged information)以实现智能理解。由于Landsat、SPOT等卫星影像的波段设定无论从理论上还是实践上都极具地物针对性,在更有效的数据挖掘方法辅助下有可能提取足够的光谱特征以区分关键地物,因此本文提出采用更有针对性的光谱匹配技术用于改进相似性度量的准确性,实现提高分类精度的目的。
核函数方法通过非线性映射能够较好地分辨、提取并放大有用的特征,大大提高特征空间的非线性处理能力[7],如文献[8]实现的基于再生核Hilbert空间的小波核函数支持向量机在高光谱影像分类中取得了较好的效果。本文提出的KSAM方法一方面结合光谱匹配技术改进核函数,另一方面又以改进的核函数将多维空间映射至高维空间,在高维空间利用光谱匹配技术度量相似性,实现了针对多光谱影像的精确光谱匹配。对Landsat TM影像分别进行聚类和监督分类两组试验,结果表明,基于KSAM的分类方法可以更准确地区分地物,提高分类精度。试验表明,考虑遥感影像本身光谱特征可以有效改进光谱匹配度量,基于此的分类应用为模式识别方法结合遥感领域知识提供了新的思路。 2 基于光谱匹配的相似性度量
光谱匹配是广泛应用于高光谱遥感信号解译的一种技术,通过对高光谱影像中像元光谱在每个波段的变化量与方向进行分析[9],可以定量表示像元间的光谱相似度。目前在高光谱影像中比较常用的光谱匹配技术有光谱角制图(spectral angle mapper,SAM)、光谱数据编码等[10],而光谱相似度(spectral similarity value,SSV)还适用于多光谱影像[11]。 2.1 光谱角制图
光谱角制图将像元的n个波段的光谱响应作为n维空间的矢量,通过计算两个矢量的夹角来定量表征两个像元之间的匹配程度
从公式可以看出,xy的值与光谱矢量x、y的模无关,即与图像的增益系数无关。在高光谱遥感中,余弦相似度可能比欧氏距离更能反映地物间的差异[12],这是由实际地物间的光谱差异和遥感成像系统所决定的,大量试验研究证明了SAM方法应用于图像分类的有效性与可靠性。 2.2 光谱相似度与光谱角不同,光谱相似度综合考虑光谱间的形状和距离关系,一般情况下比SAM有效[13]。具体公式为
式中,
分别为均值和标准差。
从现有研究及实际应用的情况来看,光谱相似度方法比较适用于多光谱影像[14],本文亦采用光谱相似度作为多光谱影像的主要相似性度量。 2.3 改进核映射下的度量
对于多光谱影像来说,输入样本空间一般不超过10维,非线性处理能力有限,由此采用核空间映射的方法加以改进,同时结合光谱匹配技术形成了新的相似性度量方法。
假设输入空间的样本xk∈RN(k=1,2,…,l)被某种非线性映射Φ映射到某一特征空间H得到Φ(x1)、Φ(x2)、…、Φ(xl),那么x、y在特征空间的点积形式就可以通过Mercer核[15, 16]以输入空间的样本来表示
代入式(1)可以得到特征空间中的余弦相似度表示为
接下来讨论核映射中关键的核函数(即式(4)中的K(x,y)。高斯核函数将多维空间映射至无限维空间,是一种比较常用的Mercer核。针对多光谱影像分类的实际需求,同时参照光谱相似度方法,将SSV匹配技术引入高斯核函数得到适用于多光谱遥感影像的KSSV函数为
式中,d(x,y)表示式(2)中x与y的SSV距离;β为大于0的自定义参数。于是,基于KSSV函数的相似性度量可以表示为[17] 3 改进度量的核分类在上述度量方法的基础上,分别对k均值聚类、最小距离分类和SVM分类几种方法改进了相似性度量方法。 3.1 基于KSSV与SAM的核聚类
作为一种普适的方法,核聚类在性能上比经典的聚类算法有较大的改进。它通过非线性映射能够较好地分辨、提取并放大有用的特征,从而实现更为准确的聚类,算法收敛速度也较快。当在某些经典聚类算法失效的情况下,核聚类算法也能够得到正确的聚类结果[18]。
距离尺度是决定聚类效果的关键因素。许多学者通过改进k均值聚类中的欧氏距离度量来改进聚类效果,可以有效提高聚类方法的健壮性及收敛性,如文献[18]等提出如下的度量[19]
式(7)实际上为核空间中的欧氏距离按式(3)改造后的高斯核距离。在2.3节通过KSSV与SAM配合的方法改进核空间的相似性度量,得到了多光谱影像聚类所需的距离尺度。同时聚类算法还需确定迭代过程中的聚类中心以计算样本到中心的距离。由于在高维核空间中聚类中心无法显式地表示,因此可以通过以下方法直接计算样本与第j类中心的距离 式中,sij∈{0,1}表示第i个样本是否属于第j类;l为样本个数。迭代终止条件也是影响聚类算法效率的重要因素,考虑到降低算法复杂度,沿用k均值聚类方法的迭代终止判定方法。
综上所述,改进的聚类方法可如下表述:
步骤1 初始化,对所有样本随机指定k个类别标签并分配聚类中心。
步骤2 分配样本,根据式(6)计算每个样本到各个聚类的距离,以最小距离为标准更新sij。
步骤3 计算中心,根据式(8)计算各聚类中心。
步骤4 判断收敛,将当前聚类中心与前次迭代所得比较是否稳定,若是则终止本算法;否则返回步骤2。 3.2 基于KSSV与SAM的监督分类
为说明本文提出的相似性度量对多光谱影像分类的普适性,特选择最小距离分类与SVM分类两种监督分类方法进行效果比较。前者可以定量检验KSSV配合SAM度量的改进程度,后者可以有效比较KSSV核函数的改进作用。下面简单介绍两种分类器的改进方法。
最小距离分类属于较简单的监督分类,其分类效果主要取决于分类样本质量以及相似性度量的效果,以式(6)中的度量方法代替一般方法中的欧氏距离即得到基于KSSV与SAM的最小距离分类器。
SVM分类器在高维特征空间中搜索最优分类面以解决低维空间的非线性分类问题,核函数方法是其固有的特征。如2.3节所述,将式(5)中的KSSV核函数替代原有核函数,实现了SVM分类方法针对多光谱遥感影像的改进。 4 试验及结果分析 4.1 研究区域
本文选择新疆赛里木湖沿岸作为试验区,赛里木湖位于新疆博乐市境内天山西段的高山盆地中,海拔2072 m,面积457 km2,是新疆面积最大的高山湖泊。试验选用TM多光谱影像数据,裁取覆盖研究区域大小为1490像素×1150像素的图像子区作为试验数据(图 1)。 4.2 试验方法
对试验区影像分别进行非监督聚类与监督分类,并分别对经典算法与改进算法的结果进行比较。其中聚类时为了有效观察主要地物的聚合情况,使聚类结果更好地反映类内一致性与类间区分度,根据影像中地物分布情况将初始聚类数设为10。直接通过地物聚类的结果比较分析两种度量方法对多光谱影像上k均值聚类能力的影响。
监督分类根据野外考察数据并参考更高分辨率的影像将土地覆盖类型分为6类,分别是低覆盖度草地、高覆盖度草地、林地、湖泊、戈壁、荒漠,其中每一类选择100~125个样本,每次抽选其中的1/5作为训练样本,剩余样本用于测试精度,如此分类5次取平均分类精度。针对最小距离分类与SVM分类所采用各种度量方法比较分析KSAM对多光谱影像上监督分类效果的作用。 4.3 结果及分析 图 1是聚类结果比较图。图 1(a)i是原图,图(b)i与图(c)i分别是图(a)i的两个局部,纵列图ii(4/3/2波段组合)与图iii是用改进度量的k均值核聚类和原k均值聚类两种方法分别对原图进行聚类的结果。在局部区域图(b)i中,主要地物包括植被、戈壁以及荒漠,在左上角的戈壁地带有低覆盖度草地混杂,中部山坡上有大片的高寒荒漠由于光照的关系呈现同物异谱,同时阴坡下的植被与荒漠呈现异物同谱现象。通过图(b)ii可以看出改进的方法可以较好地分离低覆盖度草地,提高类间区分度,同时较好地区分了阴坡下的植被和荒漠,在一定程度上克服了阴影的影响,而由图(b)iii可以看出基于欧氏距离的方法对于低覆盖度草地与戈壁的区分度不够,且无法区分阴坡的地物,将阴坡的植被与荒漠聚成为同一类。
|
| 图 1 聚类结果比较(i——原图;ii——改进的聚类方法;iii——原聚类方法) Fig. 1 Comparison of cluster results |
在局部区域图(c)i中,主要地物包括湖岸沙堤隔成的两种水体,湖岸公路,戈壁及其中散落的植被与道路。图(c)ii中改进的方法可以较好地区分两种水体,且道路在戈壁中的区分度也大大提高,而由图(c)iii可以看出基于欧氏距离的聚类方法对两种水体区分的效果较差,且戈壁未聚合完全导致难以区分其中的道路。
对图 1中图(a)i进行不同度量基础上的两种监督分类,5次分类平均精度的比较如表 1所示。对于最小距离分类器,可以看出SSV度量对于多光谱的TM影像效果比较明显,而SAM度量效果反而较差,这应该与两者的度量侧重点以及本文所设置的地物类别有关(如图 2(a))。表中KSSV+SAM(SSV)表示在KSSV核函数改进核映射后在核空间使用SAM(SSV)度量的方法,可以发现在高维空间SAM相对有效。综合考虑,在本例中可以看出基于多光谱的SSV度量改进KSSV核函数映射分类精度改进贡献较大,这主要与多光谱影像的特征有关,而在核空间的SAM度量改进更大,这也是高光谱影像分类中多采用SAM的原因。对于SVM分类器,表中KSSV与KSAM表示分别以SSV或SAM方法改进高斯核函数,也有较大的精度改进,同样说明了在多光谱影像分类中本文的核函数方法的有效性,而且KSSV方法对于多光谱影像更合适有效。综合两种分类器考虑,发现依本文改进度量的最小距离分离器效果仍难以达到SVM的分类效果,这可能与本文训练样本选择较少有关,值得在后续研究中进一步探索。
|
| 图 2 SVM分类结果比较 Fig. 2 Comparison of classification results by SVM |
| (%) | |||||||
| 欧氏距离 | KSAM | KSSV | SAM | SSV | KSSV+SSV | KSSV+SAM | |
| 最小距离分类器 | 71.21 | — | — | 68.92 | 77.83 | 79.21 | 81.75 |
| SVM分类器 | 83.93 | 88.62 | 90.02 | — | — | — | — |
图 2所示为基于欧氏距离与KSSV核函数改进的两种SVM分类结果局部区域的比较(均为5次中效果最好的1次)。从图 2(a)几种地物的光谱DN值比较可以看出湖泊与林地、戈壁与荒漠的欧氏距离较小,容易产生混淆,而从光谱形状(吸收谷,反射峰等)来看湖泊与林地可以有效区分。表 2中两种SVM分类混淆矩阵的比较可以明显看出改进。(从混淆矩阵可以看出有8个测试样本被误分为林地),如图 2(c)中虚线框内所示基于欧氏距离的SVM方法将部分湖泊分成为林地,而改进的方法较好地区分出了湖泊,边界清晰。从两次分类的混淆矩阵可以发现根据KSSV改进后的SVM分类的总体精度达到了92.06%,以欧氏距离为度量的原方法的总体精度为85.19%。通过分析可以发现对于林地与湖泊混淆的区分本文的方法具有明显的改进作用,从图 2(a)可以看出虽然两者欧氏距离相差不大,但是两者的形状相似度较低,因此相似度量改进的方法比较有效;对于戈壁和荒漠的混淆则改进不大,主要是两者欧氏距离与相关系数均较小;而对于高覆盖度草地与低覆盖度草地的区分则相对下降了,这可能与两类草地的光谱形状比较相似,区分主要依靠近红外波段的亮度值,造成改进作用不大。
| 分类方法 | 类型 | 低草地 | 高草地 | 林地 | 湖泊 | 戈壁 | 荒漠 | 用户精度/(%) |
| 基于KSSV函数的SVM分类 | 低草地 | 89 | 9 | 3 | 0 | 1 | 1 | 86.4 |
| 高草地 | 6 | 91 | 0 | 0 | 0 | 0 | 93.8 | |
| 林地 | 5 | 0 | 95 | 0 | 0 | 5 | 90.5 | |
| 湖泊 | 0 | 0 | 2 | 100 | 0 | 0 | 98.0 | |
| 戈壁 | 0 | 0 | 0 | 0 | 89 | 7 | 92.7 | |
| 荒漠 | 0 | 0 | 0 | 0 | 10 | 87 | 89.7 | |
| 生产者精度/(%) | 89 | 91 | 95 | 100 | 89 | 87 | ||
| 基于欧氏距离的SVM分类 | 低草地 | 81 | 7 | 3 | 0 | 9 | 0 | 81.0 |
| 高草地 | 13 | 89 | 0 | 3 | 0 | 0 | 84.8 | |
| 林地 | 6 | 4 | 90 | 9 | 0 | 7 | 77.6 | |
| 湖泊 | 0 | 0 | 7 | 88 | 0 | 0 | 92.6 | |
| 戈壁 | 0 | 0 | 0 | 0 | 77 | 11 | 87.5 | |
| 荒漠 | 0 | 0 | 0 | 0 | 15 | 82 | 84.5 | |
| 生产者精度/(%) | 81 | 89 | 90 | 88 | 77 | 82 |
本文提出以光谱匹配与核函数映射技术改进遥感图像分类方法,通过合理引入适用于高光谱遥感的SAM和SSV两种光谱匹配方法,改进特征空间的相似性度量方法,从而更准确地描述多光谱影像(TM)上地物间的差异性,提高可区分度,改进分类结果。试验结果基本体现了本文方法的有效性,同时根据分析可以得出以下结论:
(1) 在TM图像上的非监督聚类经过本文方法改进相似性度量后对不同地物的区分度明显增加,地物的类内不一致性也相对降低;监督分类在排除样本的影响后可以明显看出相似性度量的改进效果,当然由于本文方法是多步骤合成,其中各步效果的定量评价以及这些试验结果对方法理论的影响还有待进一步研究。
(2) 仅以多光谱波段进行地物分类存在诸多限制(如本文类别设置多为一级地类,难以深入至二级地类),如道路、河流等线状地物在光谱上不突出,空间分布范围上相对较小,无法直接对其分类,这要求提取纹理等空间信息进行辅助,更精确地描述地物特征。然而多种特征的结合也要求采用更有效的相似性度量方法,距离尺度学习可能会更加适应这些不确定特征[20, 21],但如何使之适合遥感图像的特征,同时针对这些特征加以改进还需要进一步研究。
随着遥感图像分辨率的不断提高,地物的光谱、空间等特征将越来越复杂,如何模拟人工解译过程从遥感图像中挖掘更多领域知识,如何从这些知识中挑选最适用的并使之服务于各类遥感领域的应用,模式识别方法在解决此类问题的同时其本身也必将迎来长足的发展。
| [1] | TANG H, FANG T, SHI P. Spectral Similarity Measure Based on Fuzzy Feature Contrast Model[J]. Optics Communications, 2004, 238(1-3): 123-137. |
| [2] | XU Weidong,YIN Qiu,KUANG Dingbo. Comparison of Different Spectral Match Models[J]. Journal of Infrared and Millimeter Waves, 2005, 24(4): 296-300. (许卫东, 尹球, 匡定波. 地物光谱匹配模型比较研究[J]. 红外与毫米波学报, 2005, 24(4): 296-300.) |
| [3] | KUMAR A S, KEERTHI V, MANJUNATH A S, et al. Hyperspectral Image Classification by a Variable Interval Spectral Average and Spectral Curve Matching Combined Algorithm[J]. International Journal of Applied Earth Observation and Geoinformation, 2010, 12(4): 261-269. |
| [4] | TAO Chao, TAN Yihua, PENG Bifa, et al. A Probabilistic Latent Semantic Analysis Based Classification for High Resolution Remotely Sensed Imagery[J]. Acta Geodaetica et Cartographica Sinica, 2011, 40(2): 156-162.(陶超,谭毅华,彭碧发,等. 一种基于概率潜在语义模型的高分辨率遥感影像分类方法[J]. 测绘学报, 2011, 40(2): 156-162.) |
| [5] | LIU Pu,ZHANG Yuan,ZHOU Bin, et al. Land Use/Cover Classification Using Multi-source Data with SAM[J]. Journal of Zhejiang University, 2009, 43(9): 1574-1579. (刘璞,张远,周斌, 等. 基于SAM和多源信息的土地利用/覆盖自动分类[J]. 浙江大学学报: 工学版, 2009, 43(9): 1574-1579.) |
| [6] | VAPNIK V, VASHIST A. A New Learning Paradigm: Learning Using Privileged Information[J]. Neural Networks,0 2009, 22(5-6): 544-557. |
| [7] | MULLER K R, MIKA S, RATSCH G, et al. An Introduction to Kernel-based Learning Algorithms[J]. IEEE Transactions on Neural Networks, 2001, 12(2): 181-201. |
| [8] | TAN Kun,DU Peijun. Wavelet Support Vector Machines Based on Reproducing Kernel Hilbert Space for Hyperspectral Remote Sensing Image Classification[J]. Acta Geodaetica et Cartographica Sinica, 2011, 40(2): 142-147. (谭琨,杜培军. 基于再生核Hilbert空间小波核函数支持向量机的高光谱遥感影像分类[J]. 测绘学报, 2011, 40(2): 142-147.) |
| [9] | TONG Qingxi, ZHANG Bing, ZHENG Lanfen.Hyperspectral Remote Sensing[M]. Beijing: Higher Education Press, 2006.(童庆禧,张兵,郑兰芬. 高光谱遥感:原理、技术与应用[M]. 北京: 高等教育出版社, 2006.) |
| [10] | MEER F VAN DER. The Effectiveness of Spectral Similarity Measures for the Analysis of Hyperspectral Imagery[J]. International Journal of Applied Earth Observation and Geoinformation, 2006, 8(1): 3-17. |
| [11] | CAI Xueliang, CUI Yuanlai. Crop Planting Structure Extraction in Irrigated Areas from Multi-sensor and Multi-temporal Remote Sensing Data[J]. Transactions of the Chinese Society of Agricultural Engineering, 2009, 25(8):124-130. (蔡学良,崔远来. 基于异源多时相遥感数据提取灌区作物种植结构[J]. 农业工程学报, 2009, 25(8):124-130.) |
| [12] | DENNISON P E, HALLIGAN K Q, ROBERTS D A. A Comparison of Error Metrics and Constraints for Multiple Endmember Spectral Mixture Analysis and Spectral Angle Mapper[J]. Remote Sensing of Environment, 2004, 93(3): 359-367. |
| [13] | THENKABAIL P S, GANGADHARARAO P, BIGGS T, et al. Spectral Matching Techniques to Determine Historical Land Use/Land Cover(LULC) and Irrigated Areas Using Time-series AVHRR Pathfinder Datasets in the Krishna River Basin, India[J]. Photogrammetric Engineering and Remote Sensing, 2007, 73(9): 1029-1040. |
| [14] | MEER F VAN DER. Spectral Matching Using Pixel Cross-correlograms for the Analysis of LANDSAT TM Data[J]. International Journal of Applied Earth Observation and Geoinformation, 2001, 3(2): 197-202. |
| [15] | SCHOLKOPF B, MIKA S, BURGES C J C, et al. Input Space Versus Feature Space in Kernel-based Methods[J]. IEEE Transactions on Neural Networks. 1999, 10(5): 1000-1017. |
| [16] | GENTON M G. Classes of Kernels for Machine Learning: A Statistics Perspective[J]. Journal of Machine Learning Research, 2002, 2(2): 299-312. |
| [17] | XIA Liegang. Study on Automatic Classification Method for Remotely Sensed Imagery by Incorporating Spatial-Spectral Features[D]. Hangzhou: Zhejiang University of Technology, 2011: 36-39. (夏列钢. 耦合“图—谱”特征的遥感影像自动分类方法研究[D]. 杭州:浙江工业大学, 2011: 36-39.) |
| [18] | ZHANG Li, ZHOU Weida, JIAO Licheng. Kernel Clustering Algorithm[J]. Chinese Journal of Computers, 2002, 25(6): 587-590. (张莉,周伟达,焦李成. 核聚类算法[J]. 计算机学报, 2002, 25(6): 587-590.) |
| [19] | WU K, YANG M. Alternative c-means Clustering Algorithms[J]. Pattern Recognition, 2002, 35(10): 2267-2278. |
| [20] | XING E P, NG A Y, JORDAN M I, et al. Distance Metric Learning with Application to Clustering with Side-information[C]//Advances in Neural Information Processing Systems. Vancouver: MIT Press, 2003: 521-528. |
| [21] | CHANG H, YEUNG D. Kernel-based Distance Metric Learning for Content-based Image Retrieval[J]. Image and Vision Computing, 2007, 25(5): 695-703. |


