与常规天气雷达相比, 双偏振雷达除了能像普通多普勒气象雷达那样获取目标回波的强度、风场信息外, 还可额外获取差分反射率因子、差分相移常数、零延迟相关系数等偏振参数, 从而获得台风、强对流等灾害性天气系统内部降水粒子的类型、大小、形状、谱分布和取向等信息, 为降水粒子相态识别提供了更丰富的参数。研究双偏振雷达对流降水类型识别方法, 对深入研究对流系统的发展演变机理, 提高灾害性天气的预警预报能力具有重要意义。利用双偏振雷达来获取降水类型是降水粒子相态识别的重要手段。在国外, Aydin et al. (1986)提出了由雷达偏振参量计算得出的冰雹识别因子HDR来判别冰雹。Vivekanandan et al. (1999)首次将模糊逻辑应用到水凝物粒子分类, Thompson et al. (2014)将水凝物粒子模糊逻辑识别算法分别应用到X、C和S波段双偏振雷达上, 用于探测冬季降水粒子类型。在国内, 刘黎平等(1993)采用Aydin et al. (1986)的方法, 利用C波段双偏振雷达, 基于雨滴谱分布进行粒子散射模拟, 得出冰雹识别因子HDR来识别冰雹区, 取得了一定的识别效果。曹俊武等(2005, 2007)研究了模糊逻辑法在双线偏振雷达识别降水粒子相态中的应用, 取得了基本合理的识别结果。目前双偏振雷达也提供了基于模糊逻辑提供粒子相态分类产品(HCL)。然而模糊逻辑法需要充分的资料来确定最佳权重系数和设置合理的模糊基, 而HDR法无法细分粒子类别, 因而都存在一定的局限性。支持向量机(Support Vector Machine, SVM)是一种有效的小样本智能学习方法, 可处理高度非线性分类、回归等问题, 它避免了人工神经网络等方法的网络结构难以确定、过学习和欠学习以及局部极小等问题, 且其分类结果不依赖于阈值, 分类速度快, 准确率高。近年来SVM在气象领域得到广泛应用, 陈永义等(2004)分析了SVM在气象研究业务中的应用前景, 冯汉中和陈永义(2004)将SVM应用于气象预报试验, 显示出该方法具有一定的预报能力。王建生和熊秋芬(2007)基于SVM建立降水预报模型, 证明天空云量的预报因子可用于降水的预报因子, 模型具有较好稳定性和预报能力; 李才媛等(2008)利用探空和地面气象要素资料, 建立了大雾SVM预报模型, 经试用检验其预报服务效果较好; 朱国栋(2011)利用机场的本站观测资料基于SVM建立分类和回归预测模型, 表明建立的预测模型有较好的稳定性, 对温度、能见度具有比较明显的预报能力; 何娜等(2013)建立了SVM夏季晴雨预报模型, 表明预报效果优于T639模式, 对夏季晴雨预报有一定的客观参考价值; 贺佳佳等(2017)建立动态SVM短时临近降水预测模型, 实现了地理空间上更高密度、更精细化的降雨预测。2007年, 上海市气象局引进了X波段双偏振移动多普勒天气雷达(DWSR-2001X-SDP/ M型), 已经多次开展对台风前沿与强对流天气的精细观测(陶岚, 2011), 2014年上海已完成WSR-88D雷达的双偏振升级, 可实现在实际业务运行中开展不同波段下, 双偏振雷达联合观测方法的研究。因此本文利用基于T矩阵法(Waterman, 1965)建立的降水粒子雷达探测模型(杨通晓和袁招洪, 2017)所获取的双偏振雷达偏振参量, 研究SVM在双偏振雷达识别降水类型中的应用, 并探讨分析SVM在多波长双偏振雷达联合观测中提高预测准确率和可靠性, 以期提高雷达对流天气降水类型的识别能力。
1 SVM雷达降水类型识别模型的建立本文采用基于T矩阵理论建立的降水粒子雷达探测模型, 在不同条件下, 如:入射波的波长、入射仰角、降水粒子类型、大小、形状、粒子谱分布以及下落过程中粒子的取向等, 获得雷达反射率因子ZHH、差分反射率因子ZDR、比差分相移KDP和零延迟相关系数CC等雷达参数值。同时, 将降水类型分为4类:雨、冰雹、冰水混合物和冰气混合物, 并将雷达参数ZHH、ZDR、KDP、CC以及入射波波长作为SVM分类识别样本数据, 来研究支持向量机在双偏振雷达识别降水类型中的准确率和可靠性。
1.1 SVM方法介绍Corinna and Vapnik(1995)等首先提出了支持向量机, 它是建立在统计学习理论的VC维理论和结构风险最小原则的基础上, 具有坚实理论基础的新颖的小样本学习方法。其主要思想是:将向量映射到一个更高维的空间里, 建立一个分类超平面作为一个决策曲面, 使得正例和反例之间的隔离边缘被最大化。其目标是得到现有信息下的最优解, 而不仅仅是样本数趋于无穷大时的最优值。支持向量机在解决小样本、非线性及高维模式识别中表现出许多特有的优势, 因此被认为是目前针对小样本的分类、回归等问题的最佳理论。
线性支持向量机的最优超平面决策函数为
| $ M\left(x \right) = {\rm{Sgn}}\left({\left({{w^*} \cdot x} \right) + {b^*}} \right) = {\rm{Sgn}}\left({\sum\limits_{S.V.} {\alpha _i^*{y_i}\left({x \cdot {x_i}} \right){\rm{ }} + {\rm{ }}{b^*}} } \right) $ | (1) |
其中Sgn()为符号函数; ai*, b*为确定最优划分超平面的参数; x, xi∈RN为N维向量, x为超平面上的点, xi为样本数据集, (x·xi)为两个向量的点积; yi∈{1, 2, ……, k}为k类划分。非支持向量对应的ai都为零, 求和只对少数支持向量进行。
对于线性不可分的情况, 通过非线性映射φ, 把样本空间映射入一个高维的特征空间, 使在样本空间中的高度非线性问题在高维特征空间中应用线性分类的方法得以实现。由于在特征空间中采用的是线性分类方法, 所以在特征空间中的最优超平面决策函数为
| $ \begin{array}{l} \;M\left(x \right) = {\rm{Sgn}}\left({\left({{w^*} \cdot \varphi \left(x \right)} \right) + {b^*}} \right)\\ {\rm{ = Sgn}}\left({\sum\limits_{S.V.} {\alpha _i^*{y_i}\left({\varphi \left(x \right) \cdot \varphi \left({{x_i}} \right)} \right) + {b^*}} } \right) \end{array} $ | (2) |
根据Mercer定理(Courant and Hilbert, 1953), 可得非线性支持向量机的最优超平面决策函数为
| $ \begin{array}{l} M\left(x \right) = {\rm{Sgn}}\left({\left({{w^*} \cdot \varphi \left(x \right)} \right) + {b^*}} \right)\\ {\rm{ = Sgn}}\left({\sum\limits_{S.V.} {\alpha _i^*{y_i}K\left({x, {x_i}} \right) + {b^*}} } \right) \end{array} $ | (3) |
其中K (x, xi)=(j (x)·j (xi))为Mercer核, Mercer核函数的计算代替了点积的计算, 在整个求解过程中不需要知道非线性映射的显式表达式, 因此与线性方法相比几乎不增加多少计算量, 但特征空间的线性划分却对应于原来样本空间的高度非线性划分。需要说明的是, SVM建模过程中受诸多因素影响, 其中以下两个因素较为关键:
(1) 核函数形式及其参数。SVM的关键在于核函数, 采用不同的核函数将导致不同的SVM算法。不同核函数对分类性能有影响, 相同核函数不同参数也有影响。SVM常用的核函数有线性核函数、多项式核函数、径向基核函数、两层感知核函数。
(2) 误差惩罚参数C。对错分样本比例和算法复杂度折衷, 即在确定的特征子空间中调节学习机器置信范围和经验风险比例, 使学习机器的推广能力最好。
通过寻找最佳的核函数和参数优化方式, 建立基于SVM的雷达降水类型识别模型来预测降水类型, 快速有效地实现双偏振雷达对流降水类型预测识别工作。
1.2 模型样本数据通过基于T矩阵法建立的降水粒子雷达探测模型, 获得不同类型降水粒子分别在S波段和X波段下各偏振参量ZDR、KDP和CC随ZHH的分布特征(图 1)。粒子相态在一定条件下是可以相互转化的, 为了能区分不同类型的降水粒子偏振参量特点, 模拟时取冰气混合物密度小于0.5 g·cm-3, 当密度变大时各偏振参量更趋向于冰的特性; 取冰水混合物含水量小于30%, 当含水量变大时各偏振参量更趋向于水的特性。
|
图 1 各相态粒子在S波段和X波段下在0°仰角时的ZDR、KDP、CC值:(a)、(c)、(e)为X波段, (b)、(d)、(f)为S波段 Fig. 1 ZDR、KDP、CC of various hydrometeors at 0° degree elevation. (a), (c), and (e) are for X-band, while (b), (d) and (f) are for S-band. |
分析图 1a、b可知, 不管在X波段还是S波段, 降雨时ZDR远大于其他降水类型, 而其他降水类型ZDR值在0值附近, 在相同的ZHH处ZDR值有明显的重叠; 分析图 1c、d可知, 当降水较弱时, 各种降水类型的KDP值相接近, 当降水较强时, 降雨的KDP值明显大于其他降水类型, 同样其他降水类型的KDP值仍有较多重合; 进一步由图 1e、f可知, CC只有在S波段时冰雹粒子容易被区分, 其他情况下CC都有较多重叠区。这表明不管在X波段还是S波段, 由于雨滴的介电常数较大, 下降过程中稳定性好, 因此降雨较强时ZDR、KDP和CC远大于其他降水类型, 但在降雨较小以及其他类型的降水时, 在S、X波段下各偏振参量均存在重叠区, 当仰角变化时现象更突出。可见, 不同降水粒子对应的雷达偏振参量信息并不是绝对排斥, 而是存在某种程度的重叠, 这为粒子相态的识别增加了难度, 因此, 必须建立合理的SVM雷达降水类型识别模型实现对流降水类型的有效识别。
1.3 SVM模型建立SVM模型建立首先提取训练集和测试集, 并进行数据预处理, 在交叉验证意义下, 采用启发式算法粒子群优化算法来获取最优参数, 然后用训练集进行训练得到SVM模型, 最后使用测试集测试分类效果, 本文分类预测准确率是指降水类型预测准确的测试样本数占总测试样本数的比重。基于SVM的雷达降水类型识别流程见图 2。
|
图 2 基于SVM的雷达降水类型识别流程图 Fig. 2 Flow chart of hydrometeor classification. |
SVM模型建立的具体步骤如下:
(1) 选定训练集和测试集。通过变化降水粒子雷达探测模型的输入参数, 获取模拟样本数500个, 从样本数据中提取50个样本作为训练集, 450个样本作为测试集。
(2) 样本数据预处理。为了避免各个样本因子之间量级的差异, 减少单位和量纲的影响, 同时保证程序运行时收敛加快, 需要对各个样本因子分别进行归一化。归一化采用的映射
| $ y = \left({{y_{{\rm{max}}}} - {y_{{\rm{min}}}}} \right) \times \left({x - {x_{{\rm{min}}}}} \right)/\left({{x_{{\rm{max}}}} - {x_{{\rm{min}}}}} \right){\rm{ }} + {\rm{ }}{y_{{\rm{min}}}} $ | (4) |
其中x、xmin、xmax分别是原始样本数据及其最小、最大值, y、ymin、ymax分别是归一化后的样本数据及其最小、最大值。
通过对原样本数据进行归一化预处理可提高分类的准确率, 不同的归一化方式对预测准确率也会有一定影响。由表 1可见, 不进行归一化预处理时, X和S波长下分类预测准确率较低, 分别仅为27.51%和31.67%;当进行[-1, 1]归一化或[0, 1]归一化时, 分类预测准确率得到了很大的提高, X波段下均达到了80%以上, 而在S波段下均达到了95%左右, 以上这两种归一化方法的准确率相近, 本研究选取[0, 1]归一化进行数据预处理。
|
|
表 1 不同归一化方式分类准确率(单位:%)对比 Table 1 Accuracy of hydrometeor classification with different normalization methods. |
(3) 选择最佳核函数及参数。SVM常用的核函数有以下四种:
① 线性核函数(Linear Kernel)
| $ K\left({x, {x_i}} \right) = {x^T}{x_i} $ | (5) |
② 多项式核函数(Polynomial Kernel)
| $ K\left({x, {x_i}} \right) = {\left({\gamma {x^T}{x_i}{\rm{ }} + {\rm{ }}r} \right)^p}, \gamma > 0 $ | (6) |
③ 径向基核函数(Radial Basis Function)
| $ K\left({x, {x_i}} \right) = {\rm{exp}}\left({ - \gamma {{\left| {\left| {x - {x_i}} \right|} \right|}^2}} \right), \gamma > 0 $ | (7) |
④ 两层感知核函数(Sigmoid Kernel)
| $ K\left({x, {x_i}} \right) = {\rm{tanh}}\left({ - \gamma {x^T}{x_i} + r} \right), \gamma > 0 $ | (8) |
式中γ、r和p为核参数, 其中γ表示单个训练样本的影响距离。
SVM的参数选择问题, 其实质就是一个优化问题。SVM做分类预测时需要调节相关的参数(主要是惩罚参数C和核函数参数γ)才能得到比较理想的预测分类准确率, 在交叉验证(Cross Validation, CV)意义下, 网格划分(grid search)在寻求最佳参数C和γ比较费时, 采用启发式算法可以不必遍历网格的所有参数点, 也能找到全局最优解, 本文选用启发式算法粒子群优化算法(Particle Swarm Optimization, PSO)来获取最优参数。简单来讲, POS是一种进化计算技术, 是Eberhart and Kennedy(1995)于1995年提出的, 最初是受到飞鸟集群活动的规律性启发, 进而利用群体智能建立的一个简化模型。PSO的主要特点是一种基于迭代的优化算法, 系统初始化为一组随机解, 通过迭代搜寻最优值, 但是它没有遗传算法(Genetic Algorithm, GA)用的交叉(crossover)以及变异(mutation), 而是粒子在解空间追随最优的粒子进行搜索, 同GA比较, PSO的优势在于简单容易实现, 并且没有许多参数需要调整。PSO以其实现容易、精度高、收敛快等优点引起了学术界的重视, 并且在解决实际问题中展示了其优越性。
在对原样本数据进行[0, 1]归一化预处理后, 采用粒子群优化算法(PSO)选择最佳惩罚参数C和核函数参数γ, 对比不同核函数下分类准确率。由表 2可知, 四种核函数的分类准确率都较高且相近。
|
|
表 2 不同核函数分类预测准确率(单位:%)对比 Table 2 Accuracy of hydrometeor classification with different kernel functions. |
结合前文1.2节分析, 样本数据是非完全线性独立的, 通过比较择优选择径向基核函数作为SVM的核函数, 建立降水粒子识别模型。将式(7)带入式(3), 得到采用径向基核函数的非线性支持向量机的最优超平面决策函数为
| $ \begin{array}{l} M\left(x \right) = {\rm{Sgn}}\left({\sum\limits_{S.V.} {\alpha _i^*{y_i}K\left({x, {x_i}} \right) + {b^*}} } \right)\\ {\rm{ = Sgn}}\left({\sum\limits_{S.V.} {\alpha _i^*{y_i}\exp \left({ - \gamma {{\left\| {x, {x_i}} \right\|}^2}} \right) + } {b^*}} \right) \end{array} $ | (9) |
图 3为降水粒子相态识别图。图中蓝圈为实际测试集分类, 红星为预测测试集分类, 纵坐标为降水粒子分类类型, 横坐标为测试样本序列, 依次按照四种降水类型(雨、冰雹、冰水混合物、冰气混合物)取相同数量的测试样本。若预测测试集分类与实际测试集分类相符(图 3中显示为蓝色圈与红色星重叠)则降水类型预测准确, 反之不相符(图 3中显示为在某测试样本处, 蓝色圈与红色星不重叠, 分别落在不同分类类型处)则降水类型预测失败。进一步分析图 3发现, 雷达仰角为0°时, 在X波段预测准确率为81.74%, S波段准确率为96.52%, SVM雷达降水类型识别模型在不同波段均达到了较高的分类准确率, 尤其在S波段更为显著。
|
图 3 降水粒子相态识别结果图(仰角0°)(a) X波段预测准确率81.74%; (b) S波段预测准确率96.52% Fig. 3 Classification results of various hydrometeors(at 0 degree elevation) for (a) 81.74% forecast accuracy at X-band and (b) 96.52% forecast accuracy at S-band. |
雷达天线工作扫描方式按照中国新一代天气雷达降水模式VCP11、VCP21取值如下:VCP11选取0.5°、1.45°、2.4°、3.35°、4.3°、5.52°、6.2°、7.5°、8.7°、10.0°、12.0°、14.0°、16.7°、19.5°共14个仰角; VCP21选取0.5°、1.45°, 2.4°、3.35°、4.3°、6.0°、9.9°、14.6°、19.5°共9个仰角。
进一步选取雷达降水模式中0.5°、5.52°、10.0°、16.7°和19.5°等5种不同仰角做模拟, 分析不同雷达发射波长下, SVM雷达降水识别模型的预测准确率(表 3)。由表 3可知, X波段下各仰角的预测准确率相近且都达到80%以上, 平均值为82.78%;S波段下各仰角的预测准确率也相近, 均在95%左右, 平均值为95.82%。
|
|
表 3 X及S波段不同仰角下分类准确率(单位:%)对比 Table 3 Accuracy of hydrometeor classification at different elevations of X-band and S-band. |
考虑到不同波长下粒子相态识别有差异, 为了进一步提高SVM雷达降水识别模型预测结果的准确率和可靠性, 本研究开展双波段偏振雷达联合探测法, 但由于两部雷达观测到的降水粒子的视角不同, 因此, 下面选取雷达降水模式中0.5°、5.52°、10.0°、16.7°和19.5°等5种不同仰角, S波段下每个仰角分别结合X波段下各仰角进行模拟, 结果见表 4。在表 4中, S、X两个波段下, SVM雷达降水识别模型预测结果同时准确的概率用红色表示, 预测结果为一个准确的概率用绿色表示, 预测结果同时错误的概率用黑色表示。分析表 4模拟结果可见, S、X两个波段下, 模型预测结果同时准确、一个准确和同时错误的平均概率分别为80.4%、17.4%和2.2%, 也就是说双波段下基于SVM建立的分类模型, 当预测降水类型相同时, 预测结果准确的概率达到97.3%而错误的概率仅为2.7%。可见, 基于SVM雷达降水识别模型, 在采用双波段偏振雷达联合探测时, 具有较高的准确率和可靠性。
|
|
表 4 双波段偏振雷达联合探测准确率(单位:%) Table 4 Accuracy of hydrometeor classification by multi-wavelength dual linear polarization Doppler radars. |
本文通过利用基于T矩阵法建立的降水粒子雷达探测模型所获取的双偏振雷达偏振参量, 建立了基于SVM的雷达降水类型识别模型, 开展雷达对流天气下降水类型的预测识别工作, 并探讨了多波长双偏振雷达联合观测方法下, 模型的预测准确率和可靠性, 主要结论如下:
(1) 采用基于SVM法的降水粒子相态识别方法, 利用小样本克服各相态粒子偏振参量观测值重叠难以分辨的问题, 由于雷达各偏振参量间的非线性, 择优选径向基核函数作为非线性支持向量机的核函数, 能有效对降水粒子相态进行分类。
(2) 样本数据的归一化预处理, 避免了各个样本数据之间量级的差异, 同时保证程序运行时收敛加快, 归一化预处理使得分类预测准确率有了大幅提高。不同的归一化方式对预测准确率也会有一定影响, 需要选取合适的归一化方式。
(3) 在交叉验证意义下, 采用启发式算法粒子群优化算法POS获取最优核函数参数C和γ, 使模型达到较高分类预测准确率, X波段下各仰角的预测准确率相近且都达到80%以上, 平均值为82.78%;S波段下各仰角的预测准确率也相近, 均在95%左右, 平均值为95.82%。
(4) 探讨了多波长双偏振雷达联合观测下基于SVM的雷达降水类型识别模型的准确率和可靠性, 当多波长下预测对流降水类型为同一种类型时, 预测结果准确率达到97.3%, 而错判的概率仅为2.7%, 有效提高了降水粒子相态识别准确率和可靠性。
最后需要说明的是, 本研究基于SVM的雷达降水类型识别模型是通过降水粒子雷达探测模型获取偏振参量样本, 实际情况要远远比本文模拟研究的情况更加复杂, 比如回波受雷达系统自身的影响, 衰减等对偏振参量的影响, 还需进一步完善模型以更好地对降水粒子进行分类识别。
曹俊武, 刘黎平, 葛润生. 2005. 模糊逻辑法在双线偏振雷达识别降水粒子相态中的研究[J]. 大气科学, 29(5): 827-836. DOI:10.3878/j.issn.1006-9895.2005.05.15 |
曹俊武, 刘黎平. 2007. 双线偏振雷达判别降水粒子类型技术及其检验[J]. 高原气象, 26(1): 116-127. DOI:10.3321/j.issn:1000-0534.2007.01.014 |
陈永义, 俞小鼎, 高学浩, 等. 2004. 处理非线性分类和回归问题的一种新方法(Ⅰ)-支持向量机方法简介[J]. 应用气象学报, 15(3): 345-354. DOI:10.3969/j.issn.1001-7313.2004.03.011 |
冯汉中, 陈永义. 2004. 处理非线性分类和回归问题的一种新方法(Ⅱ)-支持向量机方法在天气预报中的应用[J]. 应用气象学报, 15(3): 355-365. DOI:10.3969/j.issn.1001-7313.2004.03.012 |
贺佳佳, 陈凯, 陈劲松, 等. 2017. 一种多时间尺度SVM局部短时临近降雨预测方法[J]. 气象, 43(4): 402-412. |
何娜, 付宗钰, 赵玮, 等. 2013. SVM方法在北京地区夏季晴雨预报中的初步应用[J]. 暴雨灾害, 32(3): 284-288. DOI:10.3969/j.issn.1004-9045.2013.03.014 |
李才媛, 韦惠红, 邓红. 2008. SVM方法在武汉市大雾预警预报中的应用[J]. 暴雨灾害, 27(3): 264-267. DOI:10.3969/j.issn.1004-9045.2008.03.012 |
刘黎平, 张鸿发, 王致君, 等. 1993. 利用双线偏振雷达识别冰雹区方法初探[J]. 高原气象, 12(3): 333-337. |
陶岚. 2011.移动X波段双偏振雷达在短时、临近预报中的综合应用[C]//第八届长三角气象科技发展论坛论文集: 497-506
|
王建生, 熊秋芬. 2007. 支持向量机方法在单站降水预报中的应用探讨[J]. 暴雨灾害, 26(2): 159-162. DOI:10.3969/j.issn.1004-9045.2007.02.012 |
杨通晓, 袁招洪. 2017. 多波段双偏振天气雷达识别降水类型的模拟研究[J]. 高原气象, 36(1): 241-255. |
朱国栋. 2011. 基于SVM方法的乌鲁木齐国际机场多要素预测[J]. 沙漠与绿洲气象, 5(4): 40-43. DOI:10.3969/j.issn.1002-0799.2011.04.010 |
Aydin K, Seliga T A, Balaji V. 1986. Remote sensing of hail with a dual linear polarization radar[J]. J App Meteo, 25(10): 1475-1484. |
Cortes C, Vapnik V. 1995. Support-vector networks[J]. Machine Learning, 20(3): 273-297. |
Courant R, Hilbert D. 1953. Method of Mathematical Physics[M]. Volume Ⅰ. Springer Verlag Eberhart R C, Kennedy J. A new optimizer using particle swarm theory[C]//Proceedings of the Sixth International Symposium on Micro Machine and Human Science, Nagoya: IEEE, 1995: 39-43
|
Thompson E J, Rutledge S A, Dolan B, et al. 2014. A dual-polarization radar hydrometeor classification algorithm for winter precipitation[J]. J Atmos Oceanic Technol, 31(7): 1457-1481. DOI:10.1175/JTECH-D-13-00119.1 |
Vivekanandan J, Zrnic D S, Ellis S M, et al. 1999. Cloud microphysics retrieval using S-band dual-polarization radar measurements[J]. Bull Amer Meteor Soc, 80(3): 381-388. DOI:10.1175/1520-0477(1999)080<0381:CMRUSB>2.0.CO;2 |
Waterman P C. 1965. Matrix formulation of electromagnetic scattering[J]. Proc IEEE, 53(8): 805-812. DOI:10.1109/PROC.1965.4058 |
2019, Vol. 38 