应用气象学报  2009, 20 (3): 354-359   PDF    
基于最小二乘支持向量机的副热带高压预测模型
刘科峰1,2, 张韧1,2, 洪梅1, 余丹丹1, 王辉赞1     
1. 解放军理工大学气象学院, 南京211101;
2. 中国科学院大气物理研究所, 北京100029
摘要: 采用EOF时空分解、小波频牢分解和最小二乘支持向量机(LS-SVM)交叉互补方法,建立夏季500 hPa位势高度场的预测模型,用以描绘和表述副热带高压形势场的形态和变化。首先用经验正交函数分解(EOF)方法将NCEP/NCAR再分析资料500 hPa位势高度场序列分解为彼此正交的特征向量及其对应时间系数,随后提取前15个主要特征向龟的时间系数(方差贡献96.2%),采用小波分解方法将其分解为相对简单的带通信号,再利用LS-SVM方法建立各分量信号的预测模型,最后通过小波时频分量重构和EOF时空重构,得到500hPa位势高度场的预测结果以及副热带高压形势场的预测。通过对预测模型的试验情况和分析对比,结果表明:基于上述思想提出的算法模型能较为准确地描述500 hPa位势高度场的形态分布并预测1~7 d的副热带高压活动,对10~15 d的副热带高压活动预测结果也有参考意义。
关键词: EOF分解    小波分解    遗传算法    支持向量机    副热带高压预测    
Subtropical High Forecast Model of Least Square Support Vector Machine
Liu Kefeng1,2, Zhang Ren1,2, Hong Mei1, Yu Dandan1, Wang Huizan1     
1. Institute of Meteorology, PLA University of Science and Technology, Nanjing 211101;
2. Institute of Atmospheric Physics, Chinese Academy of Sciences, Beijing 100029
Abstract: Based on the methods of empirical orthogonal decomposition (EOF), wavelet frequency decomposition and least square support vector machine, a summer 500 hPa potential height forecasting model is established to describe the form and change of the subtropical high situation. First, 500 hPa potential height fields sequences on NCEP/NCAR are separated into the time coefficients and corresponding eigenvectors which are orthogonal to each other with the method of empirical orthogonal decomposition. Then fifteen time coefficient series corresponding with major eigenvector (square contribution of 96.2%) are extracted and each time coefficient is decomposed to relatively simple signals with the method of wavelet analysis. Then, each signal prediction model is set up with the method of least square support vector machine. Finally, the forecasting simple signals are used to reconstruct the corresponding forecasting time series with the method of wavelet decomposition, then, the forecasting time series and corresponding major eigenvector are used to reconstruct 500 hPa potential fields with the methods of empirical orthogonal decomposition. The reconstructed potential fields are the fields which are forecasting results. Through experiments and analysis of contrast on the prediction model, the results show that the proposed algorithm model based on the above ideas can basically describe the distribution of 500 hPa potential situation and basically forecast the location and intensity of subtropical high within seven days. And the results also show that the 10-15 day forecasting results by the model can be used for reference for the medium and long-term activity of the subtropical high. The results also show that the model exhibits its properties of simplicity, stability, flexibility and good prospect of application.
Key words: empirical orthogonal function     wavelet decomposition     genetic algorithm     support vector ma chine     the subtropical high forecast    
引言

西太平洋副热带高压(简称副高)是一个重要且复杂的天气系统,是影响我国夏季天气气候的主要天气系统。我国夏季雨带的分布和移动与副高的季节性移动密切相关,其强度变化和东西进退活动异常往往会导致江淮流域持续性的洪涝和干旱。

目前,基于自适应和非线性的人工神经网络方法在副高的研究和预测中已取得一定进展[1-2]。但是神经网络方法存在着难以克服的缺陷,如隐层单元神经元的数目难以确定;容易陷入局部最优;神经网络的结构设计依赖于设计者的先验知识和经验,缺乏一种有理论依据的严格设计程序等。另外,从概率统计的角度说,神经网络的学习算法采用经验风险最小化原理(ERM),仅仅试图使经验风险最小化,并没有使期望风险最小化,与传统的最小二乘法相比,在原理上缺乏实质性的突破,同时也缺乏理论依据。总之,神经网络学习算法缺乏定量的分析与机理完备的理论结果[3-4]。由于500 hPa 5880 gpm高度值的范围和位置能够比较全面直观地反映副高形势场活动,而目前关于副高的预测大多为副高形态指数的预测,直接对副高形势场的预测研究相对较少,因此有必要引入新思路、新方法对副高形势场预测做进一步研究。

1995年,贝尔实验室Vapnik等人在统计学习理论的基础上提出了模式识别的新方法———支持向量机(support vector machine,SVM),近年来受到了国际学术界的广泛重视,并且已广泛应用于时间序列预测[5]、分形插值[6]、水文预报[7]、气象预报[8-11]等领域。

为此,本文拟采用时空分解(EOF)、时频分解(小波分解)与最小二乘支持向量机相结合的方法,建立副高形势场的预测模型。

1 研究资料和方法 1.1 资料

研究资料为美国国家预测中心(NCEP)和美国国家大气研究中心(NCAR)提供的1995—2005年夏季(5—8月)的2.5°×2.5°网格500hPa逐日位势高度场再分析资料,资料范围取为10°~50°N,90°~160°E。

为便于模型的建立和预测结果的比较,将数据资料分为两部分:一部分用于模型建立和拟合测试,所取数据为1995—2003年夏季(5月31日—8月31日)共1107 d;在建立模型的过程中,采用k-折交叉检验方法,其基本思想是将l个样本点随机分成k个互不相等的子集,即k-折S1S2,…,Sk。每个折的大小大致相等,共进行k次训练与测试,即对i= 1,2,…,k,进行k次迭代,第i次迭代的做法是,选择Si为测试集,其余S1,…,Si-1Si+1,…,Sk的合集为训练集,本文取k=10。另一部分资料不参与建模,主要用于模型独立预测检验和预测效果评估,资料范围为2003—2005年5月31日—8月31日共246 d。

1.2 方法 1.2.1 最小二乘支持向量机

支持向量机根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折中,使结构风险最小,即同时最小化经验风险与VC维的界,以期获得最好的泛化能力。与经典支持向量机相比,Suykens等[12-13]提出的最小二乘支持向量机(least square support vector machine,LS-SVM)用等式约束代替不等式约束,求解过程变成了解一组等式方程,避免了求解耗时的QP问题,求解速度加快。

1.2.2 EOF分解与小波分解

小波分解(wavelet,WT)旨在构造一个频率上高度逼近原始信号的正交小波基。小波变换的多分辨率分析即是对信号低频空间作细致分解,使其低频部分分辨水平越来越高,从而降低信号的复杂程度,相关的应用研究可参见相关文献[14]。经验正交函数(empirical orthogonal function,EOF)是地球科学中广泛应用的场分析方法,该分析方法在大气科学研究中使用极为普遍,相关算法原理和步骤不再赘述。

2 副高形势场的最小二乘向量机预测模型

首先将上述位势高度场时间序列进行EOF分解,其中分解后的第1特征向量占总方差的59.72%,第2特征向量占总方差的8.10%,前7个特征向量的总方差之和已达总方差的88.64%,基本表现了要素场的主要信息。为了使重构后的位势场尽可能多地保留原始场信息,同时又不会给建立模型带来太多的困难,本文选取EOF分解后的前15个特征向量的时间系数(累积方差贡献96.2%)作为模型的预测目标和建模对象。

下面只对分解后的第1特征向量对应时间系数建模过程加以阐述,其他特征向量的时间系数的建模过程类似。将EOF分解后第1特征向量对应的时间系数利用sym5小波分解则可将其分解为5个频段相对简单的高频信号(a4)和低频信号(d4d3d2d1)。将每个频段的信号分为两部分,第1部分1107d用于模型的建立,第2部分246d用于模型的检验。然后对a4d4d3d2d1这5个频段的信号分别建立多输入、单输出的最小二乘支持向量机模型。选用过去1,2,3,4 d的时间系数作为模型的预测因子,未来1 d,3 d,5 d,7 d,10 d,15 d的时间系数为预测对象。设PT分别为最小二乘支持向量机模型的预测因子和预测对象序列。即

(1)
(2)

则每一时次的训练数据对为[Xt),Xt-1),Xt-2),Xt-3),Xm)],最小二乘支持向量机预测模型可以描述为:

(3)

其中,ϕ为非线性映射。在建立每个频段的最小二乘支持向量机模型时,每个模型均选用RBF核函数Kxixj)=exp(-σ|xixj|2),σ>0。核函数确定后,还需确定两个相关的参数:σγσ为核参数,调节核函数的平滑程度;γ为正则化参数,控制模型的复杂度和函数逼近误差的大小。这两个参数在很大程度上决定了该模型的学习能力及泛化能力。如何确定模型参数,目前尚缺乏一个客观有效的方法。基于遗传算法的自适应性和全局寻优的特点,有利于模型参数的客观合理选择。为此,通过引入遗传算法,来对支持向量机模型的参数σγ进行优化选择,旨在使该模型具有较好的学习能力和泛化能力。具体实现步骤如下:① 在解得搜索空间[0. 001,1000]中,对σγ进行十进制编码。然后随机生成一个初始种群,并给定最大遗传代数N。本文N= 30。② 计算当前群体中所有遗传个体的适应度。目标函数为:。其中k为交叉检验的折数,mk-折交叉检验中检验样本个数,yj为训练集中样本,为支持向量机模型拟合值。fγσ)越小,个体的适应值越高。因此,个体的适应值函数可取1/fγσ)。③ 根据个体的适应度,对群体进行遗传操作。其中选择采用赌轮法,交叉则采用单点交叉,生成新一代群体。④ 重复② 和③,每进行一次,群体就进化一代,一直进化到第N代。

对最佳个体进行解码,即可得到最小二乘支持向量机模型的参数σγ

将求解的最优参数γσ即可建立预测模型,将a4频段信号第2部分独立检测样本代入该模型可得到该频段信号的独立检验结果。同样也可以得到其他4个频段的独立检验结果。然后小波重构5个频段的独立检验结果。即可得到EOF分解的第1特征向量对应时间系数的预测值。

同样也可以得到其他14个时间系数的预测值。对特征向量和预测得到的与其对应的15个时间系数作EOF重构,即可得到预测的位势场。

3 结果分析

为检验最小二乘向量机模型预测结果是否能够客观、准确地反映500 hPa位势高度场的变化,将未参与建模共246 d(2003—2005年5月1日—8月31日)资料用于模型的独立预测检验,分别代入不同预测时效(1 d,3 d,5 d,7 d,10 d,15 d)的预测模型即可得到不同预测时效的预测结果。图 1给出了NCEP/NCAR2004年8月15日500 hPa实况场、以2004年8月15日为1 d,3 d,5 d,7 d,10 d,15 d预测对象最小二乘支持向量机模型的预测场。比较实况环流位势场、最小二乘支持向量机模型的预测场可以看出,最小二乘支持向量机模型的预测场能够较为准确地描绘1~7 d副高的基本分布特征(副高活动位置、范围、强度等特征),对10~15 d副高的活动提供参考。

图 1. 实况与预测对比试验(单位:gpm) (a) 2004年8月15日500 hPa高度场实况,(b) 1 d预测位势场,(c) 3 d预测位势场,(d) 5 d预测位势场,(e) 7 d预测位势场,(f) 10 d预测位势场,(g) 15 d预测位势场 Fig 1. Observation and prediction comparative test (unit:gpm) (a) 500 hPa potential field on August 15, 2004, (b) 1-day prediction potential field, (c) 3-day prediction potential field, (d) 5-day prediction potential field, (e) 7-day prediction potential field, (f) 10-day prediction potential field, (g) 15-day prediction potential field

对短期预测(1~3 d),从图 1b~1c上可以看出预测高度场基本上反映了实际高、低压系统的分布特征,整体上与实况高度场比较相近。但高压系统相对偏强,低压系统相对偏弱。特别是副高中心较实况场整体偏东、偏北。

对中期预测(5~7 d),从图 1d~1e上可以看出预测高度场没有刻画出低纬度地区高压脊的活动,高纬度地区的低压系统强度较实况场偏弱。但能够反映副高的基本活动。副高中心较短期预测结果偏西、偏南(5900 gpm等位势线),强度增强。

对长期预测(10~15 d),从图 1f~1g上可以看出预测高度场没有刻画出低纬度地区高压脊的活动,高纬度地区的低压系统强度较实况场继续偏弱。但预测场能够提供一些未来副高活动的信息。从10 d预测结果来看,预测副高中心继续偏西、偏南,强度加强。15 d的预测场没有反映出副高的活动,与实况场有较大差别。要用于实际预测还需对其结果作进一步修正。

从上面的分析来看,该模型短期预测结果,副高强度偏弱,中心偏东、偏北,中期预测结果,副高强度逐渐增强,高压脊西伸。长期预测结果,副高预测误差较大,强度逐渐偏弱。为验证此结论是否对该模型具有普遍意义,进一步对2004年5月1日、5月22日、6月10日、7月10日1~15 d的预测结果进行统计,证实了该结论的有效性。依据此统计结果,可对模型的预测结果做针对性的订正。

为了客观定量检验最小二乘支持向量机模型预测效果,分别计算该模型预测的2003—2005年5月1日—8月31日共246 d位势高度场和实况场的平均相关系数、均方差(如表 1所示)。对比可以看出(表 1),前10d的位势场的平均相关系数均大于0.9,平均距平相关系数均大于0.65,均方差也比较小,说明预测场和实际场比较相近。

表 1 2003—2005年5月1日一8月31日预测位势场和实况场的平均相关系数及均方差 Table 1 Average correlation coefficients and variances between prediction and observation fields from May 1 to Augast 31 in 2003-2005

当然,本模型的预测效果还存在一些缺点和不足,有待进一步改进完善,主要表现如下:① 该模型的预测对象是对EOF分解后前15个特征向量对应的时间系数进行预测,然后利用预测的时间系数与对应的特征向量重构高度场。重构过程中,保留了位势高度场的主要信息,而舍弃了一些细节信息,从而导致预测环流形势场和实况环流形势场强度及位相间存在一定的偏差。② 对时间系数进行预测时,仅考虑了时间系数自身所包含的信息。预测因子的选取不够充分,难以充分描述预测因子和变量之间的关系。

4 小结

1)基于EOF时空分解和小波时频分解的最小二乘支持向量机预测方法理论合理、技术可行,预测结果能够表现副高的基本活动,预测结果有实用意义。模型短期(1~3 d)、中期(5~7 d)预测结果较为准确,长期(10~15 d)预测偏差较大。

2)该模型短期预测(1~3 d)的副高强度偏弱,中心偏东、偏北,随着预测时效增加,中期预测(5~7 d),预测的副高强度逐渐增强,高压脊西伸;长期预测(10~15 d),副高强度逐渐偏弱,预测误差增大。此后,可根据这一特点,对模型预测结果做进一步订正,以提高预测准确度。

由于本文建立的最小二乘支持向量机预测模型要求用来建模和检验的资料必须有时间上的连续性,这也是该模型的不足之处。因此,除在加强模型预测因子选取之外,需针对这一不足进一步完善该模型。

参考文献
[1] 张韧. 基于前传式网络逼近的太平洋副热带高压活动的诊断预测. 大气科学, 2001, 25, (5): 649–660.
[2] Zhang Ren, Yu Zhihao. Neural network BP model approximation and prediction of complicated weather systems. ACTA Meteorologica Sinica, 2001, 15, (1): 105–115.
[3] Vapink V, Goloeich S, Smola A. Support Vector Method for Function Approximation, Regression Estimation, and Signal Processing. Cambridge: MIT Press, 1997: 281-287.
[4] Smola A J. Regression Estimation with Support Vector Learning Machines. Technische University at Myunchen, 1996
[5] 马云潜, 张学工. 支持向量机函数拟合在分形插值中的应用. 清华大学学报, 2000, 40, (3): 76–78.
[6] 董辉, 傅鹤林, 冷伍明. 支持向量机的时间序列回归与预测. 系统仿真学报, 2006, 18, (7): 1785–1788.
[7] 林剑艺, 程春田. 支持向量机在中长期径流预报中的应用. 水利学报, 2006, 37, (6): 681–686.
[8] 陈永义, 俞小鼎, 高学浩, 等. 处理非线性分类和回归问题的一种新方法 (Ⅰ)——支持向量机方法简介. 应用气象学报, 2004, 15, (3): 345–354.
[9] 冯汉中, 陈永义. 处理非线性分类和回归问题的一种新方法 (Ⅱ)——支持向量机方法在天气预报中的应用. 应用气象学报, 2004, 15, (3): 355–365.
[10] 刘科峰, 张韧, 万齐林, 等. 结构风险极小的支持向量机方法及其在副热带高压数值预报优化中应用. 应用基础与工程科学学报, 2006, 14: 384–390.
[11] 刘科峰, 张韧, 徐海斌, 等. 支持向量机与卡尔曼滤波集合的西太平洋副热带高压数值预报误差修正. 气象学报, 2007, 65, (3): 141–157.
[12] Suykens J A K, Vandewalle J. Least squares support vector machine classifiers. Neural Processing Letters, 1999, 9, (3): 293–300. DOI:10.1023/A:1018628609742
[13] Suykens J A K, Van Gestel T, de Brabanter J, et al. Least Squares Support Vector Machines. Singapore: World Scientific Pub Co, 2002.
[14] 张韧, 何金海, 董兆俊. 南亚夏季风影响西太平洋副高南北进退活动的小波包能量诊断. 热带气象学报, 2004, 20, (2): 113–121.
[15] 朱家元, 杨云, 张恒喜. 基于优化最小二乘支持向量机的小样本预测研究. 航空学报, 2004, 25, (6): 565–568.
[16] 张学工. 关于统计学习理论与向量机. 自动化学报, 2000, 26, (1): 32–42.
[17] 刘科峰, 张韧. EOF分解与Kalman滤波相结合的副高位势场数值预报优化. 解放军理工大学学报 (自然科学版), 2006, 7, (3): 291–296.