2. 中国气象科学研究院,北京 100081;
3. 海南省气象服务中心,海口 570203
2. Chinese Academy of Meteorological Sciences, Beijing 100081;
3. Meteorological Service Center of Hainan Province, Haikou 570203
云的形成和演变对于天气和气候的变化起着重要的指示和调节作用,云的观测主要包括3个方面内容:云底高度、云量和云状。近年来由于激光云高仪、全天空成像仪[1]、总天空成像仪[2]、全天空成像系统[3-4]、全天空红外测云系统[5]和地基全天空云观测系统[6]等设备的研制以及一些相关的云检测算法[7-13]的研究,云底高度和云量的观测已基本实现了自动观测,但是对于云状的观测还主要依赖于气象观测员的目视判断,这已成为气象业务自动化观测的一个瓶颈。
根据观测和天气预报的需要,我国地面气象观测规范将云分成了3族10属29种[14], 但在目前阶段要采用器测将云自动分成29种还存在较大难度。随着地基测云设备的相继研制成功,一些相关研究也见报道。如Peura等[15]对全天空成像仪所获得的云图,主张采用云的基本物理信息如云体的轮廓清晰度、污点大小纤维性程度和边缘信息分区域进行识别,利用KNN (K-Nearest Neighbor) 算法试图区分10属云类。Buch等[16]通过对全天空成像仪云图的纹理特征、色彩信息和位置信息进行分析,采用二元决策树方法研究了晴空、高积云、卷云、积云、层云5种典型天空类型的判别;Singh等[17]通过5种不同的纹理特征分析方法提取了大量的纹理特征,并采用KNN算法和神经网络分类算法对5种天空类型进行了判别;孙学金等[18]提出了基于模糊纹理光谱结合云物理属性的全天空云类识别方法,并用最小距离分类器进行云类的识别。Calbó等[19]利用全天空相机获取的云图,通过傅立叶变换和云检测结果进行了波状云、层状云和积状云等几类天空的识别;Heinle等[20]分析了地基云图的光谱特征和灰度共生矩阵纹理特征,并采用KNN分类器对波状云、高积云、层积云、积云和晴空等几类天空进行了自动分类。
总体来说,由于利用器测对地基云进行分类始终没有一个客观的标准,本文拟探讨一种新的器测云图分类方案,通过对云图的纹理特征、颜色特征和形状特征进行分析,并引入成熟的KNN分类算法在不同的K取值情况下对这几类天空类型进行分类识别,以分析这种新的分类方案的可行性。
1 云图特征 1.1 纹理特征提取纹理特征是一种不依赖于颜色的反映图像中同质现象的视觉特征,刻画了图像像素邻域灰度空间分布的规律。纹理特征包含了物体表面结构组织排列的重要信息及其与周围环境的联系,人类的视觉系统对外部世界的感知有赖于物体所表现出的纹理特征[21]。它描述的是图像局部特性,即相邻像元之间的关系。对于纹理特征的分析方法有多种,包括统计分析方法、结构分析方法、模型分析方法和频谱分析方法。本文利用统计方法进行分析,采用了两种方法提取纹理特征:一种是Haralick等[22]提出的灰度共生矩阵法;另外一种是基于人类对纹理的视觉感知的心理学研究,Tamura等[23]提出的纹理特征表达。
1.1.1 灰度共生矩阵灰度共生矩阵 (GLCM) 能反映图像灰度关于方向、相邻间隔、变化幅度的综合信息,它是分析图像的局部模式和它们排列规则的基础。它被定义为从灰度为i的点离开某个固定位置关系δ=(dx, dy) 到灰度为j的点的概率,δ为两个像素之间的位置关系,dx为灰度级为j的点与灰度级为i的点的横坐标的距离,dy为灰度级为j的点与灰度级为i的点的纵坐标的距离,不同的δ代表不同的距离和方向,灰度共生矩阵关于距离d和方向θ的表达式为p(i, j, d, θ)。在本文中d取为1; θ取0°, 45°, 90°和135°共4个不同的方向。提取的纹理特征量包括能量、熵、对比度、局部平稳和相关性5种纹理特征量。
1.1.2 Tamura纹理Tamura纹理特征的6个分量对应于心理学角度上纹理特征的6种属性,分别是粗糙度、对比度、方向度、线性度、规整度和粗略度。一般情况下,前3个分量对于图像检索尤其重要。
1.2 颜色特征提取颜色特征是一种全局特征, 描述了图像或图像区域所对应的景物的表面性质。相对于其他特征,颜色特征非常稳定。对于旋转、平移、尺度变化都不敏感,表现出相当的鲁棒性,因此,利用颜色特征来检索图像应用广泛。面向图像检索的颜色特征的表达涉及到两个问题,一是需要选择合适的颜色空间来描述颜色特征,另外需要采用一定的量化方法将颜色特征表达为向量的形式。本文通过颜色矩来表达云图的颜色特征,该方法由Stricker等[24]提出,它的数学基础在于图像中任何的颜色分布均可以用它的矩来表示,由于颜色分布信息集中在低阶矩中,采用颜色的一阶矩、二阶矩就可以表达图像的颜色分布。与颜色直方图相比,该方法的另一个好处在于无需对特征进行向量化。图像的颜色矩共有6个分量 (亮度、色调、饱和度3个分量,每个分量有2个低阶矩)。
1.3 形状特征提取形状特征是表达云状信息的一个重要特征,因而形状特征量对于云状的分类识别有重要的意义。本文采用形状无关矩法[25]进行提取,形状无关矩是基于区域的物体形状表示方法,共7个矩,具有变换、旋转和缩放无关性。
2 KNN分类算法K最近邻分类器[26]是一种典型的非线性分类器,KNN算法与感知器算法一样,不需要事先给出先验概率和类条件概率密度函数等知识,而是直接对样本进行操作。总体来说,KNN算法是相对比较容易理解的算法之一,假设每一个类包含多个样本数据,而且每个数据都有一个唯一的类标记表示这些样本是属于哪一个分类,KNN就是计算每个样本数据到待分类数据的距离,取和待分类数据最近的K个样本数据,那么在K个样本数据中哪个类别的样本数据占多数,则待分类数据就属于该类别。KNN算法的原理简单,实现起来比较方便,支持增量学习,但是K值的选取需要若干次试验才能确定,往往导致计算开销大。
设有一组样本,S={X1, X2, …, XN},首先在这N个样本中找出X的K个近邻,若K1, K2…, Kc分别是K个近邻中属于w1, w2…,wc类中的样本数,则可以定义判别函数如式 (1) 所示。
![]() |
(1) |
决策规则:若
根据云的形态及其发生的物理过程,首先对云图进行一个大致的划分,将云分成积状云、层状云和卷云,进一步再根据云底高度将云分成低云、中云和高云3族,这两种分类存在着如表 1所示的对应关系。如果能通过模式识别方法将积状云、层状云和卷云这3类云分开,再结合激光云高仪获取的云底高度信息,则可得到较具体的云图分类结果。
![]() |
表 1 云图分类表 Table 1 Types of cloud image |
本文的工作只是这个新的分类方案中的第1部分内容,晴空作为一种特殊的天空类型将与积状云、层状云和卷云一起研究。本文分析了前面提到的云图 21个特征参量,并用KNN分类算法在不同的K取值情况下对这几类天空类型进行了分类识别。
文中分析的云图源自专家筛选并确认的数字云图,云图包括积状云、层状云、卷云和晴空每类各210个样本,共840个样本,其中训练样本各120个,测试样本各90个。本研究中的数字云图均为无符号8位的RGB图像,灰度值大小为0~255。需要指出的是文中分析的数字云图均去除了太阳或者建筑物等杂物干扰,将云图的有效部分作为一个整体考虑,计算特征量。
3.2 试验步骤① 分别提取训练样本和测试样本的纹理、颜色和形状特征量。
② 用KNN算法对测试样本进行分类识别,分类识别包括3种情形:单独利用纹理特征、颜色特征和形状特征进行分类识别;纹理特征、颜色特征和形状特征两两组合的分类识别;纹理、颜色和形状3种特征量相结合的分类识别。
③ 依次选取8个K值进行分类识别,并对上述的几种分类识别情形的结果作对比,通过识别正确率确定最适合云状分类的特征量和K值。
3.3 试验分析基于前文介绍,本文首先通过提取云图的纹理特征量、颜色特征量和形状特征量,并对提取的各个特征量的平均值进行统计,统计情况如表 2所示。从表 2可以很直观看出,各类天空类型的差异,如粗糙度反映的是一幅图像平均的粗糙程度,表中积状云有最大的平均值,晴空平均值最小,有很好的对应关系;GLCM能量能反映图像纹理的均一性,晴空和层状云的值较大,晴空图片上虽然没有较多的纹理,但其云图分布均匀,层积云有较粗的纹理且分布均匀,这与其纹理的均一规则性也是相符合的。另外积状云和卷云的云图上表现出了无序和不规则性,这与它们的能量平均值小有较好的对应关系;GLCM对比度反映的是图像清晰度及沟纹深浅程度, 积状云、卷云和层状云的值相对较大,而晴空的值较小,这一统计特征对于云类和晴空的区分有一定的统计意义;GLCM熵值是描述某种过程方向性或不可逆性的物理量, 对于数字云图来说, 熵值描述的是云图的无序程度, 熵值越高说明云图有可能越混乱, 也就是它的随机性越高,统计表格中晴空的熵值最小,这也说明其图像是均匀分布最好的。提取的颜色和形状特征的各个分量平均值也呈现出一定的差异,能够体现出4类天空状况之间的差异,对后文提到的云图分类有重要意义。另外也对这4类天空类型的特征量求取了均方差,最大的均方差为0.31,最小的仅为0.008,说明这批数据分布的均一性很好,样本选取合理。
![]() |
表 2 云图特征量平均值统计表 Table 2 Average values of characteristic parameters |
3.3.1 单独利用纹理、颜色和形状特征进行分类识别 3.3.1.1 基于纹理特征的分类识别
本文首先选取了8个纹理特征参量进行分类识别,其中KNN算法的K值分别取1,3,5,7,11,21,31,51,对4类天空类型的平均识别率分别为63.1%,65.3%,67.2%,66.4%,66.7%,64.2%,64.4%,65.6%。当K=5时,有较高的平均识别正确率,表 3中给出了K=5时各类天空类型的识别正确率以及误判情况。从表 3可以看出积状云中分别有19个样本被误判为层状云和卷云,层状云中有12个样本被误判为卷云,对卷云的识别效果仅有51.1%,并且有23个样本被误判为积状云,这说明只选取纹理特征量来进行识别不能得到较好的识别效果。
![]() |
表 3 K=5时,提取纹理特征量的分类混淆矩阵 Table 3 Confusion matrix using texture features alone when K is set to 5 |
3.3.1.2 基于颜色特征的分类识别
本文提取的颜色特征共有6个特征参量,采用KNN分类器进行分类识别,得到的平均识别正确率分别为77.9%,74.5%,75.6%,78.9%,79.5%,77.8%,78.1%,79.5%。当K等于11或51时,有最高的识别正确率,表 4给出了K=11时各类天空类型的识别正确率以及误判情况。从平均识别正确率来看高于先前提取纹理特征进行分类识别的正确率,并且对积状云和层状云的识别率都超过了77%,但对卷云的识别正确率仅有58.9%,而且卷云中有22个样本被误判为积状云,仅仅从颜色特征的角度来进行分类识别,对于卷云和积状云的区分造成了很大的混淆。
![]() |
表 4 K=11时,提取颜色特征量的分类混淆矩阵 Table 4 Confusion matrix using color features alone when K is set to 11 |
3.3.1.3 基于形状特征的分类识别
本文提取的形状特征共有7个特征参量,采用KNN分类器进行分类识别,得到的平均识别正确率分别为44.2%,39.2%,41.7%,43.6%,43.1%,43.3%,42.8%,42.5%。当K=1时有最高的识别率44.2%。从整个识别情况来看,识别率均没有超过50%。表 5给出了K=1时的分类混淆矩阵,可以看出各类天空类型的误判相当严重。
![]() |
表 5 K=1时,提取形状特征量的分类混淆矩阵 Table 5 Confusion matrix using shape features alone when K is set to 1 |
3.3.2 纹理特征、颜色特征和形状特征两两组合的分类识别 3.3.2.1 纹理特征和颜色特征相结合的分类识别
选取的纹理和颜色特征共14个特征参量,得到的平均识别率分别为74.2%,77.2%,78.3%,79.2%,79.7%,81.1%,82.5%,82.8%。当K=51时,最好的识别率达到82.8%,整体平均识别正确率比较高。表 6是K=51时的分类混淆矩阵,识别率要好于只提取纹理特征或只提取颜色特征的识别率,但是云状的相互误判情况依然存在,如卷云样本中依然有21个样本被误判为积状云,特征量的选取依然不充分,还需要结合其他特征量进行分类识别。
![]() |
表 6 K=51时,提取纹理和颜色特征量的分类混淆矩阵 Table 6 Confusion matrix when the texture features are used in conjunction with color features and K is set to 51 |
3.3.2.2 纹理特征和形状特征相结合的分类识别
选取的纹理和形状特征共15个特征参量,得到的平均识别率分别为63.9%,65.9%,65.9%,64.8%,67.3%,66.7%,68.1%,67.2%。当K=31时,最好识别率为68.1%,表 7是K=31时的分类混淆矩阵,相比只提取纹理特征量或形状特征量的识别情况,识别率要高于前两者,这说明两种特征量的结合有利于提高识别正确率。
![]() |
表 7 K=31时,提取纹理和形状特征量的分类混淆矩阵 Table 7 Confusion matrix when the texture features are used in conjunction with shape features and K is set to 31 |
3.3.2.3 颜色特征和形状特征相结合的云状识别
选取的颜色和形状特征共13个特征参量,得到的平均识别率分别为75.6%,75.5%,78.2%,78.5%,80.7%,79.1%,80.7%,78.9%,整体识别率要高于只提取颜色特征或形状特征的识别率。当K为11或者31时有最高的识别率,表 8为K=31时的分类混淆矩阵,可以看到积状云、层状云和晴空的识别率较高,但对卷云的识别率偏低。
![]() |
表 8 K=31时,提取颜色和形状特征量的分类混淆矩阵 Table 8 Confusion matrix when the color features are used in conjunction with shape features and K is set to 31 |
3.3.3 纹理特征、颜色特征和形状特征相结合的分类识别
选取的纹理、颜色和形状特征共21个特征参量,得到的平均识别率分别为77.9%,78.4%,80.6%,83.9%,83.1%,82.2%,81.1%,81.1%,具体识别率分布情况如图 1所示,整体的识别率要高于之前的情况,当K=7时,最高的识别率为83.9%,这也是本研究中云状识别最高的识别率。表 9是K=7的分类混淆矩阵,对4类天空类型的识别率均超过了70%,并且对晴空的识别率达到100%,这说明3类特征参量的结合有利于提高识别正确率,是最适合本研究进行云状分类的特征参量组合。
![]() |
|
图 1. 提取纹理、颜色和形状特征量识别率统计分布 Fig 1. Statistical distribution of recognition rate when the texture features are used in conjunction with shape and shape features |
![]() |
表 9 K=7时,提取纹、颜色和形状特征量的分类混淆矩阵 Table 9 Confusion matrix when the texture features are used in conjunction with color and shape features and K is set to 7 |
3.3.4 误判个例分析
当提取纹理、颜色和形状特征量进行分类识别时且K=7时,有最高的识别率83.9%,其中晴空的识别率为100%,积状云、层状云和卷云的识别率分别只有91.1%,74.4%和70.0%,从表 2可以看到,有些特征量的平均值很接近,因而出现误判是不可避免的。
积状云中有3个样本被误判为卷云,发现这几个样本的共同特点是云体零碎;积状云中5个样本被误判为层状云,分析这些样本可以看到这些云图的云体布满天空,呈现出一定的层状特性。图 2a是积状云误判为层状云的一个典型示例。
![]() |
|
图 2. 几种典型的误分类情况 (a) 积状云误判为层状云, (b) 层状云误判为积状云, (c) 卷云误判为积状云 Fig 2. Typical misclassification (a) cumulus are mistaken for stratus, (b) stratus are mistaken for cumulus, (c) cirrus are mistaken for cumulus |
层状云中有11个样本被误判为积状云,分析这些样本发现这些云布满天空,但是云体上依然有一些块状,呈现积状特性 (如图 2b所示)。层状云中有10个样本被误判为卷云,云体下方有些零零碎碎,因而导致了识别时的误判。
卷云中有18个样本被误判为积状云,分析这些样本发现云体很大,同时有少量的积状云,也就是所谓的复杂天空,因而导致误判 (如图 2c所示)。另外卷云中还有两幅云图被误判为晴空,经分析发现这两幅图的特点是云量很少。
4 小结地基云的自动化观测是云能天自动观测的重要组成部分,而云图分类是其中亟待解决的一个难点。通过对积状云、层状云、卷云和晴空4种天空类型的纹理特征、颜色特征和形状特征进行分析,并采用KNN分类算法在不同的K取值情况下对这几类天空类型进行识别。得到如下结论:
1) 讨了一种新的器测云图分类方法,即通过模式识别先将积状云、层状云和卷云这3类云分开,晴空作为无云状况时的1种天空类型一起进行分类,识别结果表明新的云分类方案可行。
2) 当K=7且纹理特征、颜色特征和形状特征结合时,KNN算法对积状云、层状云、卷云和晴空的识别最好, 识别率分别为91.1%,74.4%,70.0%和100.0%,平均为83.9%。
需要指出的是云图特征特别复杂,仅仅利用其纹理特征、颜色特征和形状特征还不能完全表征其特性。本研究只是选取了几类特征参量进行识别分类结果的比较,还需进一步对特征量组合进行优化,提高识别率。虽然文中的数据对象针对的是可见光数字云图,但这种方法对基于红外云图的云状识别也有参考意义。另外,本文只是对单一天空类型时的云图进行了分类试验,而天空中的云经常由不同类型的云状混合而成,如何对这类复杂情况下的云图进行分类识别还需更多研究。
[1] | Shields J E, Karr M E, Tooman T P, et a1. The Whole Sky Imager—A Year of Progress. Eighth Atmospheric Radiation Measurement (ARM) Science Team Meeting, Tucson, Arizona, 1998. |
[2] | Long C N, Slater D W, Tooman T. Total Sky Imager Model 880 Status and Testing Results. ARM technical Report ARM TR-006, US Department of Energy, Washington D C, 2001. |
[3] | 吕达仁, 霍娟, 吕曜, 等. 地基全天空成像仪遥感的科学、技术问题和初步试验//童庆禧. 中国遥感——奋进创新20年. 北京: 气象出版社, 2001: 114-120. |
[4] | Cazorla A, Olmo F J, Alados-Arboledas L. Development of a sky imager for cloud cover assessment. Journal of the Optical Society of America, 2008, 25, (1): 29–39. DOI:10.1364/JOSAA.25.000029 |
[5] | 孙学金, 高太长, 霍东力, 等. 基于非制冷红外焦平面阵列的全天空红外测云系统. 红外与激光工程, 2008, 37, (5): 761–764. |
[6] | 张阳, 吕伟涛, 马颖, 等. 基于球瓣旋转遮光结构的地基全天空云自动观测系统. 中国专利: 200920277594. 5. 2009. |
[7] | 谭涌波, 陶善昌, 吕伟涛, 等. 双站数字摄像测量云高. 应用气象学报, 2005, 16, (5): 629–637. DOI:10.11898/1001-7313.20050509 |
[8] | 翁笃鸣, 韩爱梅. 我国卫星总云量与地面总云量分布的对比分析. 应用气象学报, 1998, 9, (1): 32–37. |
[9] | 高太长, 刘磊, 赵世军, 等. 全天空测云技术及发展. 应用气象学报, 2010, 21, (1): 101–109. DOI:10.11898/1001-7313.20100114 |
[10] | 杨俊, 吕伟涛, 马颖, 等. 基于自适应阈值的地基云自动检测方法. 应用气象学报, 2009, 20, (6): 713–721. DOI:10.11898/1001-7313.20090609 |
[11] | Yang J, Lu W, Ma Y, et al. An automated cirrus cloud detection method for ground-based cloud image. J Atmos Ocean Technol, 2012, 29: 527–537. DOI:10.1175/JTECH-D-11-00002.1 |
[12] | Huo J, Lu D. Cloud determination of all-sky images under low-visibility conditions. J Atmos Ocean Technol, 2009, 26: 2172–2181. DOI:10.1175/2009JTECHA1324.1 |
[13] | 杨俊, 吕伟涛, 马颖, 等. 基于局部阈值插值的地基云自动检测方法. 气象学报, 2010, 68, (6): 1007–1017. DOI:10.11676/qxxb2010.095 |
[14] | 中国云图.北京:气象出版社, 2004. |
[15] | Peura M, Visa A, Kostamo P. A New Approach to Land-based Cloud Classification. Proceedings of the Thirteenth International Conference on Pattern Recognition (ICPR'96), Vienna, Austria, 1996: 143-147. |
[16] | Buch J K A, Sun C H. Cloud Classification Using Whole-sky Imager Data. 9th Symposium on Meteorology Observations and Instruments, Charlotte, North Carolina, 1995:353-358. |
[17] | Singh M, Glennen M. Automated ground-based cloud recognition. Pattern Anal Applic, 2005, (8): 258–271. |
[18] | 孙学金, 刘磊, 高太长, 等. 基于模糊纹理光谱的全天空红外图像云分类. 应用气象学报, 2009, 20, (2): 157–163. DOI:10.11898/1001-7313.20090204 |
[19] | Calbó J, Sabburg J. Feature extraction from whole-sky ground-based images for cloud-type recognition. J Atmos Ocean Technol, 2008, 25: 3–14. DOI:10.1175/2007JTECHA959.1 |
[20] | Heinle A, Macke A, Srivastav A. Automatic cloud classification of whole sky images. Atmospheric Measurement Techniques Discussions, 2010, 3: 269–299. DOI:10.5194/amtd-3-269-2010 |
[21] | 孙君顶, 马媛媛. 纹理特征研究综述. 计算机系统应用, 2010, 19, (6): 245–250. |
[22] | Haralick R M, Dinstein I, Shanmugam K. Texture Features for Image Classification. IEEE Transactions on Systems, Man and Cybernetics, 1973: 610-621. |
[23] | Tamura H, Mori S, Yamawaki T. Texture Features Corresponding to Visual Perception. IEEE Transactions on Systems, Man and Cybernetics, 1978: 460-473. |
[24] | Stricker M, Orengo M. Similarity of Color Images. SPIE Storage and Retrieval for Image and Video Databases Ⅲ, 1995:381-392. |
[25] | Hu M K. Visual Pattern Recognition by Moment Invariants. IEEE Trans on Information Theory, 1962: 170-179. |
[26] | 冯伟兴, 唐墨, 贺波, 等. Visual C++数字图像处理模式识别技术详解. 北京: 机械工业出版社, 2010. |