2. 安徽大学 电子信息工程学院,安徽 合肥 230601
2. School of Electronics and Information Engineering,Anhui University,Hefei 230601,China
1 引 言
云检测是卫星遥感图像处理与应用过程中的一大难点,云和晴空的分离是反演大气和地表各种参数所必须的预处理工作,云检测结果的正确与否直接影响到其他参数的反演结果。
目前国内外研究较多的云检测方法是产生二分“云/晴空”掩模[1, 2, 3]。文献[4]利用高分辨率遥感图像像元值和同时相同区域的低空间分辨率图像的无云像元值进行比较实现云像元鉴定,再进行基于目标的区域生长方法获得云掩模。该方法的优点是不依赖热波段且可用于最高分辨率遥感图像的云识别,缺点是利用高分辨率图像和中低分辨率图像之间地物光谱的线性相关性识别云层时,如果图像中存在大片云层,则方法失效。文献[5, 6]提出阈值算法进行云检测,文献[7]结合光谱阈值法和纹理分析法实现遥感相机自主辨云。阈值法简单易实现,但算法性能对阈值的选择比较敏感。针对Landsat图像,文献[8]使用迭代自回归技术(ISODATA)产生Landsat TM图像的云和云阴影掩模。ISODATA是无监督分类,还有一些研究使用有监督分类方法建立云掩模,这些方法利用一些特殊波段来确定云阈值,比如文献[9]使用TM波段1和波段4的亮度阈值,文献[10]使用ETM+波段1和波段6L。文献[11, 12]提出云量自动评估(automatic cloud cover assessment,ACCA)算法,通过建立两组滤波器,并利用地物的先验特征进行Landsat图像云检测,检测结果表明,91%的云量自动评估与实际云覆盖率相差20%以内。文献[13]采用基于像元和基于目标的方法,提高ACCA算法检测Landsat ETM+图像中云的识别率。ACCA算法现已被应用于其他传感器,如ASTER[14]、SPOT及IRS-LISS[15]。ACCA算法由于缺少1.375μm波段,因而云边缘以及半透明云例如卷云等难以检测。文献[16]提出了MLTK算法,通过设置Landsat 图像波段1、波段3、波段4和波段5的反射率阈值,将Landsat 图像像元分解成云像元和其他非云像元。由于缺少热波段数据,MLTK算法对于薄云、冰雪、岩石等高反射率地物上空的云层检测能力有限。
近年来,以统计学习理论和结构风险最小化原理为基础的支持向量机(support vector machine,SVM)已被有效地应用于遥感图像云检测和云去除[17, 18]。本文提出一种基于ACCA和WSVM相结合的Landsat遥感图像云检测算法,先利用ACCA算法对Landsat图像进行初步处理,实现厚云的快速有效检测,再利用WSVM算法的强学习能力将ACCA算法难以检测的半透明云检测出来。
2 加权支持向量机在标准支持向量机方法中,不同类别的样本采用相同的惩罚参数,造成预测结果偏向于大样本类别。因此,根据各个样本的具体情况,应该选择不同的惩罚参数,从而得到更准确的预测结果,即所谓的加权支持向量机[19, 20]。
设给定样本集x={(x1,y1),(x2,y2),…,(xn,yn)},其中xi∈Rd,yi∈{-1,+1},n是样本数量,xi为输入向量,yi为xi所属类别,d为xi的维数。加权支持向量机模型描述如下
式中,C是均衡常数;非线性函数φ(·)将训练样本集数据x映射到一个高维线性特征空间;si表示第i个训练样本的加权系数。采用Lagrange乘子法求解得到对偶的二次规划为
式中,矩阵H是半正定矩阵,Hij=yiyjK(xi,xj);e=[1 1…1]T;α=[α1 α2…αn]T。由计算出的αi可以得出决策函数如下 式中,SV表示支持向量集;NNSV为支持向量个数。由于训练样本对最终分类模型的贡献程度不一样,特别是位于分类超平面上的支持向量样本贡献最大,为了增加支持向量样本的权重,本文采用一种基于两类样本中心距离的权值确定方法。
假设训练样本分别为X+ ={xi+,i = 1,2,…,n+},X- = {xi-,i = 1,2,…,n-},则正类、负类样本中心分别为
对每个正类训练样本xi+来说,都有两个中心距离:自中心距离DZ(xi+)=||xi+-m+|| (i=1,2,…,n+)和互中心距离DH(xi+)=||xi+-m-||。对每个负类训练样本xi来说,也有两个中心距离:自中心距离DZ(xi-)=||xi--m-||(i=1,2,…,n+)和互中心距离DH(xi-)=||xi-m+||。
如果样本点是线性可分的,则互中心距离要大于自中心距离。假设中心距离和加权系数存在某种函数关系,则可以构造权值函数si=f(D)。相比其他样本点,支持向量样本所对应的自中心距离相对较大,而对应的互中心距离相对较小,因而本文构造二次权重函数
将自中心距离较大的样本加权系数赋值为1,自中心距离较小的样本加权系数赋值为足够小的正数ε。另一方面,将互中心距离较小的样本加权系数赋值为1,互中心距离较大的样本加权系数赋值为足够小的正数ε。其满足的自中心距离与权值关系的边界条件为
互中心距离与权值关系的边界条件为 利用自中心距离与权值关系的边界条件,获得基于自中心距离的权重函数为 利用互中心距离与权值关系的边界条件,获得基于互中心距离的权重函数为先对每类样本分别求出基于自中心距离和互中心距离的权重系数,再求其平均值作为每类样本的权重系数。这样,支持向量样本所获得的权重就较大,远离分类超平面的样本点所获得权重系数就较小。
3 云检测算法 3.1 基于ACCA算法的像元分类ACCA算法[12]需要把Landsat图像波段2到波段5的原始数据转化成大气顶部反射率,波段6原始数据转换成传感器温度值。在波段i上,大气顶部辐射亮度Li*和图像数据的关系如下
式中,Qi是遥感图像像元量化水平;Gi是波段i上的传感器响应值;Q0i是波段i上零辐射亮度的偏置值。波段2到波段 6的大气顶部反射率ρi*与大气顶部辐射亮度Li*之间的转换公式为
式中,ds是日地天文单位距离;E0i是波段i上的大气外层太阳辐射照度;θ是太阳天顶角。波段6的亮度温度和大气顶部辐射亮度之间的转换公式如下
式中,T和K2分别是传感器上的温度和校准常数1282.71,均以开尔文度数表示;K1是校准常数666.09;L6* 是波段6的大气顶部辐射亮度。ACCA算法利用8个滤波器将Landsat图像像元分解成云像元、非云像元和待定像元。
亮度阈值滤波器:将图像中各个像元在波段3上的反射率和亮度阈值比较,如果该像元的反射率小于此阈值,则将该像元识别为非云像元。如果该像元的反射率大于此阈值,则将该像元送到归一化雪差异指数滤波器中进行处理。
归一化雪差异指数滤波器:是由波段2和波段5的反射率表示
由于云像元和雪像元在波段2上的反射率很接近,但是在波段5上云像元的反射率高而雪像元的反射率低。因此,此滤波器被有效应用于消除雪的干扰。如果某像元的NDSI值大于设定的阈值,则该像元被认为是雪像元,被标记为非云点,否则将该像元送往温度滤波器处理。温度阈值滤波器:将波段6的亮温值与设定的阈值比较,如果一个像元温度值超过该阈值,则将该像元标记为非云点,否则将该像元送往波段 5/6复合滤波器中继续检验。
波段 5/6复合滤波器表达式为
如果一个像元的复合值超过阈值,则此像元被标记为待定点,否则将该像元送往波段4/3比率滤波器中继续处理。波段4/3比率滤波器:用来排除高反射率的植被。绿色植物在近红外波段(波段4)有较高的反射率,在红色波段(波段3)中有较低的反射率。因此植被的波段4/3比值高于云。如果一个像元的波段4/3比值超过设定的阈值,则该像元被标记为待定点,否则将该像元送往波段 4/2比率滤波器中继续检验。
波段 4/2比率滤波器:枯萎植物在绿色区域(波段2)有较高的反射率。因此植被的波段 4/2 比值高于云。如果一个像元的波段4/2比值超过设定的阈值,则该像元被标记为待定点,否则将该像元送往波段4/5比率滤波器中继续检验。
波段4/5比率滤波器:用于排除高反射率的岩石和沙漠区域。如果一个像元的波段4/5比值低于设定的阈值,则该像元被标记为待定点,否则将该像元送往波段5/6复合阈值滤波器中继续检验。
如果一个像元的波段5/6比值超过设定的阈值,则该像元被标记为暖云点,否则该像元为冷云点。
3.2 基于WSVM的云检测经过ACCA算法的8组滤波器处理之后,每一景图像中每个像元都被确定为云像元、非云像元或待定像元,ACCA算法对待定像元利用地物的先验特征进行云检测,算法由于缺少1.375μm波段,因而云边缘以及半透明云例如卷云等难以检测。本文将ACCA算法和WSVM算法相结合,对待定像元利用WSVM算法进行进一步分类,提高云检测的精确性。
由于多光谱图像含有丰富的地物信息,在不同时刻、不同地理位置上具有不同的光谱特性,而云的光谱特征受云的类型、厚度、透明度、高度、背景等多种因素影响。为了降低预测误差,本文从Landsat图像数据库中挑选与试验图像具有相同地理位置的含云典型图像构建训练样本和测试样本。针对Landsat图像的特点,根据云层特定的光谱特性,由波段2到波段5的反射率值、波段6的温度值、NDVI(归一化植被指数)、NDSI、波段 5/6、4/3、4/2、4/5的比值作为图像内容信息的特征描述,形成图像的11维特征向量,利用该11维特征向量训练WSVM,获得分类超平面,再将待定像元构建上述的11维特征向量,利用WSVM算法进行待定像元云检测,最终获得全部像元的云检测结果。全部云检测过程示意图见图 1。
4 试验与结果本部分进行试验。基于ACCA的云检测算法、基于MLTK云检测算法、基于ACCA和SVM相结合的云检测算法被用来与本文提出的基于ACCA和WSVM相结合的云检测算法进行对比分析。试验中ACCA算法采用文献[12]中的各项参数,MLTK算法和参数来自文献[16],SVM和WSVM模型的核函数取高斯核K(xi,xj)=e-||xi-xj||2/2σ2,核参数σ和均衡常数C采用网格搜索法确定。
试验选取来自Landsat 7 ETM+传感器拍摄的不同云含量的3组多光谱图像,已经过辐射校正和几何校正等处理。为了便于文中显示,将多光谱图像中的部分波段(红、绿、蓝波段)合成彩色图像,并从图像中截取大小为300×300的子图,见图 2。3组图像的拍摄时间、全球参考系统坐标WRS见表 1。
对上述3组多光谱图像分别利用4种不同云检测算法的检测结果二值图见(图 3-图 5),其中白色区域表示云区域,黑色区域表示非云区域。
从上述3组图像云检测结果可以看出,4种算法都能够将厚云识别出来,但ACCA算法难以检测云边缘以及薄云,MLTK算法利用光谱阈值对云和地物分类,能够检测出部分薄云,但在复杂地表信息区域把部分具有高反射率的岩石误判为云像元,该方法对云边缘和薄云存在一些漏判现象。在ACCA云检测的基础上,利用SVM和WSVM的学习算法对待定像元进行云检测,能有效提高薄云检测效果。由于WSVM算法对不同的样本进行加权,突出支持向量的权重,其学习效果更优于相同权重的SVM算法,从图 3(d)、图 4(d)、图 5(d)可以看出本文算法将检测的云边缘扩展到透明云与非云区域的交界处,检测出了其他3种算法难以检测的云边缘以及薄云,对薄云像元有更好的识别精度,有效地提高了云检测效果。
对上述云检测结果的评价,可用定量分析方法。本文选取准确率、Kappa系数作为定量评价标准。由于真实的地表信息难以获取,本文将试验图像分解成10×10的小块,采用气象专家目测打分的方法获取云掩膜,并假设该云掩膜是准确的,试验中的准确率和Kappa系数都是以此为参考获得的。利用不同算法云检测结果的定量评价指标见表 2。
云检测算法 | 准确率 | Kappa系数 | |
第1组 | ACCA | 0.5483 | 0.3700 |
MLTK | 0.7903 | 0.6471 | |
ACCA+SVM | 0.8225 | 0.6841 | |
ACCA+WSVM | 0.9677 | 0.9411 | |
第2组 | ACCA | 0.2923 | 0.3125 |
MLTK | 0.6549 | 0.6857 | |
ACCA+SVM | 0.6900 | 0.7237 | |
ACCA+WSVM | 0.9760 | 0.9796 | |
第3组 | ACCA | 0.4587 | 0.5983 |
MLTK | 0.7064 | 0.7803 | |
ACCA+SVM | 0.8256 | 0.8902 | |
ACCA+WSVM | 0.9631 | 0.9824 |
从表 2可以看出,本文算法云检测效果优于其他3种云检测算法,从定量评价上证明了本文算法的优越性。这是因为ACCA算法不能识别透明薄云,MLTK算法只能检测出部分薄云,且存在误判现象,SVM+ACCA算法对透明云与非云区域交界处的云边缘不能有效识别,而本文算法能够有效识别出图像中薄云区域并将检测的云边缘扩展到透明云与非云区域的交界处。表 3是4种不同云检测算法在上述3组试验中检测出的云含量比较,表中的云含量是指不同算法正确识别出的云像素占整幅图像像素的百分比。从表 3可以看出,在ACCA算法的基础上,对待定像元利用WSVM算法进行进一步检测,可以提高检测出的云含量。除了上述3组试验外,本文作者还利用含云的Landsat图像进行了多次试验,结果都表明,4种方法都能将图像中的厚云检测出来,而ACCA算法结合WSVM算法对半透明云有良好的检测能力,如果图像中含有大量的半透明云,利用本文算法可以有效提高检测出的云含量。
(%) | ||||
ACCA | MLTK | SVM+ ACCA | WSVM+ ACCA | |
第1组 | 29.10 | 61.21 | 74.73 | 77.15 |
第2组 | 16.26 | 24.07 | 27.29 | 39.41 |
第3组 | 12.80 | 14.06 | 24.47 | 26.57 |
ACCA算法通过建立两组滤波器,并利用地物的先验特征进行Landsat图像云检测,对图像中的积云、层云等具有较好的检测效果,但由于ACCA算法缺少1.375μm波段,因而云边缘以及半透明云例如卷云等难以检测。传统的SVM算法在解决小样本、非线性以及高维空间模式识别中表现出较强的优势,但SVM对大规模数据进行分类时将耗费大量的机器内存和运算时间。本文结合ACCA算法和WSVM算法的云检测优势,先用ACCA算法对原始数据进行预处理,再利用WSVM算法进行判断分类。由于不同样本对最终分类的贡献程度不一样,通过选用合理的权值系数构建WSVM分类器,对图像信息进行预测分类,与ACCA阈值法相比,避免了由于主观因素造成的误差。试验结果表明,本文方法进行遥感图像云检测具有较好的效果,就本文的试验结果而言,云检测含量比ACCA算法有着明显的提高。下一步的研究将考虑云层特征包括光谱特征和纹理特征的提取并对特征加权,以及构建更强分类能力的模型,进一步提高云检测的精确性。
[1] | ZAVODY A M, MUTLOW C T, LLEWELLYN-JONES D T. Cloud Clearing over the Ocean in the Processing of Data from the Along-track Scanning Radiometer (ATSR)[J]. Journal of Atmospheric and Oceanic Technology, 2000, 17(5): 595-615. |
[2] | WILSON M J, OREOPOULOS L. Enhancing a Simple MODIS Cloud Mask Algorithm for the Landsat Data Continuity Mission[J]. IEEE Transactions on Geoscience and Remote Sensing, 2013, 51(2): 723-731. |
[3] | LIU Ronggao, LIU Yang. Generation of New Cloud Masks from MODIS Land Surface Reflectance Products[J]. Remote Sensing of Environment, 2013, 133(15): 21-37. |
[4] | SEDANO F, KEMPENEERS P, STROBL P, et al. A Cloud Mask Methodology for High Resolution Remote Sensing Data Combining Information from High and Medium Resolution Optical Sensors[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2011, 66(5): 588-596. |
[5] | JEDLOVEC G J, HAINES S L, LAFONTAINE F J. Spatial and Temporal Varying Thresholds for Cloud Detection in GOES Imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2008, 46(6):1705-1717. |
[6] | DI VITTORIO A V, EMERY W J. An Automated,Dynamic Threshold Cloud-masking Algorithm for Daytime AVHRR Images over Land[J]. IEEE Transactions on Geoscience and Remote Sensing, 2002, 40(8): 1682-1694. |
[7] | TAO Shuping, JIN Guang, ZHANG Guixiang, et al. A Wavelet SCM Algorithm Used to Detect Cloud in Remote Sensing Cameras[J]. Acta Geodaetica et Cartographica Sinica, 2011, 40(5): 598-603.(陶淑苹, 金光, 张贵祥, 等. 实现遥感相机自主辨云的小波SCM算法[J]. 测绘学报, 2011, 40(5): 598-603.) |
[8] | HELMER E H, RUEFENACHT B. Cloud-free Satellite Image Mosaics with Regression Trees and Histogram Matching[J]. Photogrammetric Engineering and Remote Sensing, 2005, 71 (9): 1079-1089. |
[9] | SONG M, CIVCO D L. A Knowledge-based Approach for Reducing Cloud and Shadow[C]// ASPRS-ACSM Annual Conference and FIG XXII Congress. Washington D C:[s.n.], 2002. |
[10] | MARTINUZZI S, GOULD W A, RAMOS GONZALEZ O M. Creating Cloud-free Landsat ETM+Data Sets in Tropical Landscapes: Cloud and Cloud-shadow Removal[R]. [S.l.]: United States Department of Agriculture, 2007: 1-18. |
[11] | IRISH R R, BARKER J L, GOWARD S N, et al. Characterization of the Landsat-7 ETM+Automated Cloud-cover Assessment (ACCA) Algorithm[J]. Photogrammetric Engineering & Remote Sensing, 2006, 72 (10): 1179-1188. |
[12] | IRISH R R. Landsat7 Automatic Cloud Cover Assessment[J]. Proceedings of SPIE, 2000, 4049: 348-355. |
[13] | WATMOUGH G R, ATKINSON P M, HUTTON C W. A Combined Spectral and Object-based Approach to Transparent Cloud Removal in an Operational Setting for Landsat ETM+[J]. International Journal of Applied Earth Observation and Geoinformation, 2011, 13(2): 220-227. |
[14] | HULLEY G C, HOOK S J. A New Methodology for Cloud Detection and Classification with ASTER Data[J]. Geophysical Research Letters, 2008, 35(16): L16812. |
[15] | SOILLE P. Image-2006 Mosaic: SPOT-HRVIR/HRG and IRS-LISS Ⅲ Cloud Detection[R]. [S.l.]:European Commission,2008. |
[16] | OREOPOULOS L, WILSON M J, VARNAI T. Implementation on Landsat Data of a Simple Cloud-mask Algorithm Developed for MODIS Land Bands[J]. IEEE Geoscience and Remote Sensing Letters,2011,8(4):597-601. |
[17] | LEIVA-MURILLO J M, GOMEZ-CHOVA L, CAMPS-VALLS G. Multitask Remote Sensing Data Classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2013, 51(1): 151-161. |
[18] | LIANG Dong, KONG Jie, HU Gensheng, et al. The Removal of Thick Cloud and Cloud Shadow of Remote Sensing Image Based on Support Vector Machine[J].Acta Geodaetica et Cartographica Sinica, 2012, 41(2): 225-231.(梁栋, 孔颉, 胡根生, 等. 基于支持向量机的遥感影像厚云及云阴影去除[J].测绘学报, 2012, 41(2): 225-231.) |
[19] | GUO Lei, WU Youxi, ZHAO Lei, et al. Classification of Mental Task from EEG Signals Using Immune Feature Weighted Support Vector Machines[J]. IEEE Transactions on Magnetics, 2011, 47(5): 866-869. |
[20] | HWANG J P, PARK S, KIM E. A New Weighted Approach to Imbalanced Data Classification Problem via Support Vector Machine with Quadratic Cost Function[J]. Expert Systems with Applications, 2011, 38(7): 8580-8585. |