测绘地理信息   2022, Vol. 47 Issue (2): 105-110
0
基于随机森林的遥感影像雪冰云信息检测方法[PDF全文]
陈海洋1, 孟令奎2, 周元1    
1. 广东省城乡规划设计研究院有限责任公司,广东 广州,510200;
2. 武汉大学遥感信息工程学院,湖北 武汉,430079
摘要: 结合随机森林(random forest,RF),提出了一种检测遥感影像雪冰云信息方法。建立有效区分影像中冰凌、雪、云的特征组合,采用随机森林算法和形态学操作得到初步分类检测结果,进一步对分类检测流程优化,增加了“二次检测”。实验结果表明,采用优化后的算法总体分类精度均为90% 以上、Kappa系数均为0. 8以上,精度较高。该算法说明了采用随机森林算法检测卫星影像的冰凌、雪、云信息的可行性,具有自动化、高精度、高效率监测冰凌灾害和雪冰灾害的优势。
关键词: 随机森林    遥感影像    冰雪云检测    特征组合    
Ice Snow and Cloud Detection in Remote Sensing Images Based on Random Forest
CHEN Haiyang1, MENG Linkui2, ZHOU Yuan1    
1. Guangdong Urban & Rural Planning And Design Institute Co., Ltd., Guangzhou 510200, China;
2. School of Remote Sensing and Information Engineering, Wuhan University, Wuhan 430079, China
Abstract: We propose a method to detect snow, ice and cloud from remote sensing images based on random forest. Firstly, we establish features combination that distinguish the gray, texture and edge features of snow, ice and cloud. Then we use random forest algorithm and morphological operations to obtain the preliminary results. Then, we optimize the detection process to increase the secondary detection to reduce misdetection and improve accuracy. The results show that the overall classification accuracy is more than 90%, and all the Kappa coefficients are above 0. 8. The algorithm illustrates the feasibility of using random forest algorithm to detect ice, snow and cloud in satellite imagery. It has the advantages of automatic, high precision and high efficiency to monitor snowice disaster.
Key words: random forest    remote sensing    snow-ice-cloud detection    feature combination    

冬、春季我国黄河宁夏、内蒙和山东河段极易形成不同程度的冰凌或雪冰灾害,造成国家和人民的重大的经济损失[1]。借助遥感影像时间和空间分辨率的优势,快速高效地检测黄河冰凌、雪灾范围、冰雪覆盖范围、雪水当量等信息对管理和预防雪冰灾害具有重大意义。目前,国内外许多学者对遥感影像中雪冰的识别和监测进行了广泛而深入的研究。任朝辉[2]依据海冰和海水灰度特征的差异性,采用决策树算法检测遥感影像中的海冰信息。丁海燕等[3]通过研究云雪的纹理特征,提出基于分形维数来自动识别和检测全色影像中的云雪的方法。杨成林等[4]以MODIS(moderate-resolution imaging spectroradiometer)为数据源通过分析雪冰光谱反射特征,借助辐射亮温和归一化植被指数理论,总结出基于数据挖掘的海冰信息反演方法。李成蹊等[5]将高分一号遥感影像3个时相的数据作为多个视图,基于旋转森林算法构建面向多时相的识别模型,设计出检测多时相影像数据的积雪算法。Parajka等[6]针对MODIS雪冰覆盖产品,依据云层覆盖像素是否位于雪线区域范围内,提出Sonw-l算法。关于影像中雪、冰、云及其中两者的监测已经有很多,但对同时存在雪、冰、云信息的影像进行分类识别和检测研究甚少。本文采用优化后的随机森林(random forest,RF)算法,以海量遥感影像作为实验数据,结合冰凌、雪、云的灰度、纹理和边缘特征,实现高分辨率光学遥感影像雪、冰、云信息的精确快速识别检测。

1 RF算法原理

RF算法是Breiman[7]提出的基于多棵决策树对样本进行训练,并根据训练得到的模型对待测样本类别进行预测的一种监督学习分类算法。研究表明,RF可以快速处理高维属性数据集和海量遥感影像,尤其是高维数据分类中,具有泛化能力强、鲁棒性好、速度快、精度高等优势[8-12]。因此,本文将其应用在遥感影像中雪、冰、云信息的分类监测中。RF算法分类流程如图 1所示。其主要步骤如下:

图 1 随机森林分类流程图 Fig.1 Flow Chart of Random Forest Classification

1)采用bootstrap采样。从原始样本集中进行有放回的重复随机采样,生成n个与原始样本大小相同的样本子集,从每个样本子集中计算某个特征统计量的bootstrap分布。

2)构造CART(classification and regression tree)决策树。先从n个样本子集的所有属性中,随机地挑选k个属性特征,然后计算这k个属性特征的Gini指数,哪个属性特征的Gini指数最小,就将其作为节点的最佳分裂属性,依次来构造每棵决策树。

3)生成随机森林。重复上述的步骤1)、步骤2)m次,即重复m次Bootstrap采样和节点分裂,则最终构造了m棵CART决策树,这些树的集合即组建为随机森林。

4)获取分类结果。当新的待测数据进入随机森林分类器中时,森林中每一棵CART决策树分别进行类别判断,判定这个样本应该属于哪一类,最终该新数据的类别由所有CART决策树投票来决定,投票类别数多的则属于此类别。

RF算法是基于多棵决策树对样本进行训练,并根据训练得到的模型,对未知待测样本类别进行预测的一种监督学习分类算法[13]。相比单棵决策树,RF无需进行繁琐的剪枝,避免了过拟合的弊端,并且抗噪性能好、鲁棒性强,训练样本选取的随机性和节点分裂特征集合选取的随机性,保证了RF具有很强的泛化能力。相比神经网络和支持向量机,RF算法具有较少的训练参数和训练时间,具有较强的稳定性,即使部分数据丢失,也仍然可维持总体精度,且随机森林训练完成后,可排序特征变量的重要程度。相比于一般分类算法,RF算法放回抽样是随机的,每个训练样本是随机的,每棵决策树是随机的,树中每个节点的特征属性集合是随机选取的,在泛化能力、鲁棒性方面更加优越,并且具有非线性处理能力。因此,本文选用RF算法作为雪、冰凌、云信息的检测方法。

2 数据处理与分析 2.1 实验数据介绍

随着我国遥感技术的迅猛发展,国产高分辨率卫星数目日益增多,如高分一号、高分二号、资源一号02C星、天绘一号等,其高空间分辨率的优势满足实验中提取有效纹理特征的需求,此外卫星影像的全色和多光谱数据,保证检测方法的普适性[14, 15]。考虑到我国冬春季黄河上游宁夏到内蒙的河套段及下游在山东段的入海口,容易形成冰凌,因此实验区选为黄河在宁夏、内蒙段和山东境内的河段,选取的影像时间为每年11月中旬至次年3月中旬包含冰凌信息的遥感影像。数据来源于水利部水利高分产品服务与分发子系统网站、天绘卫星产品查询系统网站、中国资源卫星应用中心网站、资源三号卫星影像云服务平台网站。实验所用影像数据的详细信息如表 1所示。

表 1 遥感影像信息 Tab.1 Remote Sensing Image Information

本实验主要使用的多光谱影像快视图尺寸约为1 200×1 200像素,全色影像快视图尺寸约为2 500像素,为了提高实验效率,分别将多光谱和全色影像块切分成16×16像素和32×32像素,如图 2所示。

图 2 多光谱和全色影像块样本 Fig.2 Multi-spectral and Panchromatic Image Samples

2.2 雪冰云特征提取

由于雪冰云在影像中表现的多样性及复杂性,本文选择灰度特征、纹理特征和边缘特征等多种特征组成多维特征矢量来全面描述雪冰云的特征,通过构建特征组合生成随机森林分类器所需的特征矢量组合。

灰度可简单理解为是色彩的深浅程度,也可表征亮度的深浅,实验选取的雪冰云的灰度特征包括灰度平均值、灰度均方差、直方图信息熵、平均梯度、一阶差分。

纹理特征是一种全局特征,对噪声具有较强抵抗能力,能刻画出图像区域所对应景物表面的性质特性,也具有旋转不变的特性。本实验主要通过灰度共生矩阵和分形维数提取影像纹理特征。灰度共生矩阵能反映图像灰度关于方向、相邻间隔、变化幅度的综合信息,在利用影像的纹理特征改善影像的地学目标分类效果上具有明显优势[14]。灰度共生矩阵主要通过研究灰度的空间相关特性来表征纹理特性,利用灰度共生矩阵得到的特征统计量包括对比度、能量、相关性、逆差矩、熵。分形维数可描述图像的自相似特征和粗糙度,度量图像表面不规则度,表征图像纹理整体与局部的相似度。计算分形维数计算方式有很多种,本文采用实用性强的盒维数得到特征统计量。

仅通过灰度特征和纹理特征检测影像上的雪、冰、云效果会较差,雪、冰的边缘特征较明显,边缘灰度梯度变化较大,而一般地物的边缘较模糊,边缘灰度梯度变化较缓慢,因此可利用边缘特性提高检测精度。Canny边缘检测能较精确估算出图像边缘的强度、梯度方向,具有定位准确、单边响应和信噪比高等优势[15],可选用Canny算子进行边缘检测。

2.3 雪冰云二次检测

实验检测的是影像中的黄河冰凌和雪,由于雪和云在影像具有相似的特征,极其容易混淆,因此在检测雪的同时也一并对云进行检测,以提高检测雪的精度。考虑到遥感影像中冰凌、雪、云与某些高亮地物存在“异物同谱”的现象,为了提高冰凌和雪的分类精度,将检测影像雪、冰信息的实验分为两个阶段。

第一阶段如图 3所示,主要是进行RF模型训练,然后再进行分类预测,其过程可大致分为以下几个步骤:

图 3 雪冰云检测流程图 Fig.3 Snow Ice Cloud Detection Flow Chart

1)选择训练影像数据集。本文选用高分一号、高分二号、资源一号02C星、天绘一号卫星影像快视图,包括全色和多光谱影像。

2)挑选冰凌、雪、云和地物样本。为提高分类检测准确度,选取的样本要尽可能包含各个类别的各种不同类型特征,且单个样本尽量只包含单个类别,减少后续实验提取特征的误差。

3)裁剪样本。将步骤2)选取的样本裁剪成规则的正方形影像块,用于训练随机森林模型,从而极大降低了计算的复杂性。

4)特征提取。采用特征提取方法提取每个影像块的灰度、纹理和边缘特征,得到对应的特征矩阵,通过对其所属类别进行标记组成该样本的特征矢量集。

5)训练随机森林分类模型。根据步骤4)得出的样本特征矢量集训练随机森林模型分类器,得到用于区分影像中黄河冰凌、雪、云和地物的随机森林分类模型。

6)检测待分类影像。将待分类影像进行切分,提取每个小影像块的特征。根据步骤5)得到的随机森林分类模型,以影像块为基本单元对每一幅影像进行检测,初步得出影像上黄河冰凌、雪、云。

7)形态学操作。对步骤6)得到的结果进行膨胀操作,将孤立区域连成一片,再进行腐蚀操作,消除影像中冰凌、雪、云的“孤立”噪声区域,得到影像中的冰凌、雪、云的分布区域。

8)边缘分析。对合并后的各类别区域边缘进行分析,如果两种类别区域范围有相交的情况,将该相交区域划分为范围区域较大的那一方,并根据预设的先验知识规则,排除小于预设阈值的孤立小区域,如零星冰或只占几个影像块的冰区域。最终得到黄河冰凌、雪、云的初分类结果。

针对实验过程中冰凌、雪、云和有效区域地物之间的错检,本文对实验流程进行改进和优化,增加“二次检测”流程来减少错检。“二次检测”指在第一次分类检测结果基础上,将错检的冰凌、雪、云和地物区域与第一次的样本一起作为训练样本,通过影像切分、特征提取和随机森林训练,得到冰凌、雪、云与地物的RF分类器模型,利用这3个分类器模型对影像中冰凌、雪和云信息进行再次检测。只有对影像块第二次检测结果和第一次检测结果一致,才能判定它为冰凌、雪或云,否则均判定为地物。二次检测实验流程如图 4所示。

图 4 二次检测流程图 Fig.4 Secondary Detection Flow Chart

3 实验结果及精度分析 3.1 实验参数

RF中决策树的数量Ntree和节点随机分裂特征子集候选特征数Mtry(即候选特征子集数)是影响RF模型分类性能和效率的主要因素[16]。本文设置决策树最大数量Ntree为100,取候选特征子集数Mtry为1~8(本文实验特征维数最大值为8),对同一训练样本反复进行实验,得到模型的OOB(out-of- bag)误差和创建随机森林模型所需时间,实验结果如图 5所示。设置候选特征子集数Mtry为3,从小到大改变Ntree的取值,对同一训练样本反复进行实验,得到一系列RF模型的OOB误差和创建RF模型所需时间,实验结果如图 6所示。

图 5 Mtry与OOB误差和模型创建时间关系 Fig.5 Relationship of Mtry and OOB Error and Model Creation Time

图 6 Ntree与OOB误差和模型创建时间关系 Fig.6 Relationship of Ntree and OOB Error and Model Creation Time

图 5(a)可知,OOB误差随着Mtry的增大整体呈现减小趋势,当Mtry大于3时,OOB误差趋于稳定,在1% 以下;由图 5(b)可知,创建模型时间随着Mtry的增大而增大,增长幅度不大。因此可以得出,分类误差对于参数Mtry的设置并不敏感。一般情况下,Mtry为特征维数的平方根时效果较好。由图 6(a)可知,OOB误差随着Ntree增大呈指数型下降,当Ntree>100时,OOB误差稳定在1% 左右;由图 6(b)可知,随着Ntree的增大,创建模型耗时也一直增大,且当Ntree>100时,构建RF模型时间增长很多,此时的RF模型也会变得庞杂难懂。因此当Ntree取值100时,RF的分类准确率和运算效率最优。

根据上述参数设置实验,本文实验参数为决策树最大数量为100,决策树最大深度为50,最大聚类数为8,节点最小样本数为10,节点分裂特征子集候选特征数为8,OOB终止误差率为0. 01。

3.2 优化前后分类精度定性评价

使用RF算法检测宁夏、内蒙段和山东境内河段的遥感影像冰凌、雪云(图略),从优化前后冰凌检测结果可以看出,全色和多光谱影像经过二次检测后,冰凌的检测结果更加精确,明显减少了周围白色高亮地物错检为冰凌的区域。雪云边缘轮廓更加准确,减少了因形态学闭运算导致地物错检为雪云的区域。因此可以得出,二次检测结果精度比第一次检测结果精度有较大的提升。

将目视判读结果与本文分类检测方法所得的结果进行对比分析,误差在±10% 以内,则表示该景影像检测结果合格,否则代表不合格。本文对优化前后的检测结果先进行定性评价,得到如表 2所示的各卫星一检和二检冰凌、雪、云分类检测精度。

表 2 算法优化前后检测精度对比 Tab.2 Comparison of Detection Accuracy Before and After Algorithm Optimization

一般当分类检测方法精度达到85% 以上时,就可认为此方法具备工程实践应用的价值。由表 2可知,GF1和GF2影像第一次检测的影像结果精度就达到了85% 以上,说明本文基于随机森林算法可有效地检测出GF1和GF2影像上的冰凌、雪、云,具备实用意义;而“二次检测”显著提高了检测精度,各卫星影像检测结果精度均超过了85%,其中精度最高的GF1影像检测精度达到93. 1%。同时,二次检测相比于第一次检测,检测时间增加不到20%,说明经过改进优化后的二次检测方法检测精度和效率均较高,可以在遥感影像灾害监测、影像质检等方面使用。

3.3 优化前后分类精度定量评价

表 2中GF1多光谱遥感影像检测结果为例,对第一次检测和优化后的二次检测结果使用总体分类精度和Kappa系数进行定量的精度评价。表 3为第一次分类检测结果所得的混淆矩阵。由表 3可知,优化前检测结果总体分类精度为87. 10%,Kap- pa系数为0. 7186,检测效果较好。但也存在较多地物错检为冰凌、雪、云的像元,各个类别之间的误检也较多,因此可在第一次随机森林分类检测方法基础上进行优化改进。

表 3 优化前检测结果混淆矩阵 Tab.3 Pre-Optimization Detection Result Confusion Matrix

表 4为第二次分类检测结果所得的混淆矩阵。由表 4可知,优化后二次检测的总体分类精度达到91. 18%,Kappa系数达到了0. 8以上,表明在第一次检测结果基础上进行改进和优化后,分类精度有了较大的提升。从表 3表 4中的混淆矩阵可知,二次检测后,各类别被正确分类的像元数均增多,地物误检为冰凌、雪、云的像元数减少,表明检测的各类别区域与实际参考影像的各类别分布区域较吻合。因此可以得出结论,优化后的二次检测方法可有效提升冰凌、雪、云的检测精度和效率。

表 4 优化后的结果混淆矩阵 Tab.4 Optimized Detection Result Confusion Matrix

通过对比表 3表 4可知,优化后的算法正确检测地物的像素个数明显提升,基本上类别错分情况明显下降。重点分析表 4可以看出,错分为雪的像素个数明显高于错分为其他地物的个数,这主要由于地势复杂,积雪厚度不同,海拔较高的地方,积雪厚,海拔较低的地方,积雪薄,并且地面积雪交错覆盖,积雪呈块状不连续分布,与冰凌和云等分布不同,积雪分布更加多变,有些零碎分布,有些大片分布。对于小片零碎分布的较薄的雪,与地物相连较密切,容易将这类地物错分为雪。同时,对于平坦地面,当积雪呈现大片分布,且厚度较薄时,易错分为薄云,当积雪较厚,不管是大面积分布或是小面积分布,易错分为厚云。由于研究区域为黄河,增加了雪冰同时存在的概率,两者错分为另外一方的像素个数均较多。

4 结束语

本文建立有效区分影像中冰凌、雪、云的特征组合,采用RF算法检测影像中的雪冰云信息,并对分类的各区域进行形态学操作,得到初步的分类检测结果,针对第一次分类错检结果,结合检测样本对分类检测流程进行优化,增加对冰凌、雪、云的二次检测。该算法实现对遥感影像中冰凌、雪、云信息的自动识别检测,满足自动化、高精度、高效率监测冰凌灾害和雪冰灾害监测要求。本文仍然存在误检结果,因此可以考虑结合地形及河流区域等辅助信息进一步提高检测精度。

参考文献
[1]
孟闻远, 郭颍奎, 王璐. 黄河冰凌特点及防治措施[J]. 华北水利水电大学学报(自然科学版), 2010, 31(6): 27-29. DOI:10.3969/j.issn.1002-5634.2010.06.007
[2]
任朝辉. 基于决策树算法的遥感影像海冰检测技术研究与应用[D]. 青岛: 青岛大学, 2012
[3]
丁海燕, 马灵玲, 李子扬, 等. 基于分形维数的全色影像云雪自动识别方法[J]. 遥感技术与应用, 2013, 28(1): 52-57.
[4]
杨成林, 徐跃通. 基于遥感的海冰信息检测及其变化分析[J]. 绿色科技, 2015(9): 6-9.
[5]
李成蹊, 肖鹏峰, 冯学智, 等. 用高分一号卫星数据识别多时相山区积雪[J]. 遥感信息, 2017, 32(2): 71-78.
[6]
Parajka J, Pepe M, Rampini A, et al. A Regional Snow-Line Method for Estimating Snow Cover from MODIS During Cloud Cover[J]. Journal of Hydrology, 2010, 381(3): 203-212.
[7]
Breiman L. Random Forests[J]. Machine Learning, 2001, 45(1): 5-32. DOI:10.1023/A:1010933404324
[8]
Verikas A, Gelzinis A, Bacauskiene M. Mining Data with Random Forests: A Survey and Results of New Tests[J]. Pattern Recognition, 2011, 44(2): 330-349. DOI:10.1016/j.patcog.2010.08.011
[9]
余婷婷, 董有福. 利用随机森林回归算法校正ASTER GDEM高程误差[J]. 武汉大学学报·信息科学版, 2021, 46(7): 1098-1105.
[10]
严婷婷, 边红枫, 廖桂项, 等. 森林湿地遥感信息提取方法研究现状[J]. 国土资源遥感, 2014, 26(2): 11-18.
[11]
王书玉, 张羽威, 于振华. 基于随机森林的洪河湿地遥感影像分类研究[J]. 测绘与空间地理信息, 2014, 37(4): 83-85.
[12]
Dronova I. Object-Based Image Analysis in Wetland Research: A Review[J]. Remote Sensing, 2015, 7(5): 6.
[13]
张佳华, 姚宜斌, 曹娜. 基于决策树对有无降水进行预测[J]. 测绘地理信息, 2017, 42(5): 107-109.
[14]
黄祥, 杨武年. 结合灰度和基于动态窗口的纹理特征的遥感影像分类[J]. 测绘科学技术学报, 2015, 32(3): 279-281.
[15]
刘念. 基于坎尼边缘检测算法的遥感影像自动绘图研究[J]. 测绘地理信息, 2016, 41(6): 75-78.
[16]
刘敏, 郎荣玲, 曹永斌. 随机森林中树的数量[J]. 计算机工程与应用, 2015, 51(5): 126-131.