气象学报  2021, Vol. 79 Issue (6): 1035-1048   PDF    
http://dx.doi.org/10.11676/qxxb2021.057
中国气象学会主办。
0

文章信息

蒋薇, 刘芸芸, 陈鹏, 张志薇. 2021.
JIANG Wei, LIU Yunyun, CHEN Peng, ZHANG Zhiwei. 2021.
利用深度神经网络和先兆信号的江苏夏季降水客观预测方法
Prediction of summer precipitation in Jiangsu province based on precursory factors:A deep neural network approach
气象学报, 79(6): 1035-1048.
Acta Meteorologica Sinica, 79(6): 1035-1048.
http://dx.doi.org/10.11676/qxxb2021.057

文章历史

2021-01-15 收稿
2021-06-28 改回
2021-11-05 接受
利用深度神经网络和先兆信号的江苏夏季降水客观预测方法
蒋薇1 , 刘芸芸2 , 陈鹏3 , 张志薇4     
1. 江苏省气候中心,南京,210041;
2. 国家气候中心,中国气象局气候研究开放实验室,北京,100081;
3. 江苏省气象信息中心,南京,210041;
4. 江苏省气象科学研究所,南京,210041
摘要: 利用1961—2019年江苏省67个站降水量和气候指数数据集等资料,选取大气环流、海温和积雪等先兆信号的不同组合作为预测因子方案,通过对比不同机器学习方法对江苏省夏季降水开展预测试验。结果表明,深度神经网络(Deep Neural Network,DNN)较传统统计方法和其他机器学习方法有一定优势,深度神经网络结合动态权重集合因子方案对江苏省夏季降水的预测技巧最高,其独立样本检验结果稳定,2015—2019年的平均PS评分为76.0,距平符号一致率为0.62,距平相关系数达0.35,尤其对江苏省中南部的预测技巧更高,具有业务应用价值。不同预测因子方案对比分析表明,大气环流因子在江苏省夏季降水预测中做主要贡献,而海温因子和积雪等其他因子也有正贡献,说明使用综合性预测因子以及集合方案有助于提升季节预测准确率。
关键词: 夏季降水    季节预测    先兆信号    深度神经网络    动态权重集合方案    
Prediction of summer precipitation in Jiangsu province based on precursory factors:A deep neural network approach
JIANG Wei1 , LIU Yunyun2 , CHEN Peng3 , ZHANG Zhiwei4     
1. Jiangsu Climate Center,Nanjing 210041,China;
2. Laboratory for Climate Studies,National Climate Centre,China Meteorological Administration,Beijing 100081,China;
3. Jiangsu Meteorological Information Centre,Nanjing 210041,China;
4. Jiangsu Institute of Meteorological Sciences,Nanjing 210041,China
Abstract: Based on precipitation data collected at 67 national stations in Jiangsu province and a series of climatic indices from 1961 to 2019, the prediction experiment on summer precipitation in Jiangsu province is carried out using different machine learning methods accompanied by five prediction schemes with different combinations of precursor signals, including atmospheric circulation, sea surface temperature and snow cover, etc. It is shown that the deep neural network (DNN) method has advantages over traditional statistical methods and other machine learning methods on the prediction of summer precipitation in Jiangsu province. The comparison of the prediction results of five different prediction schemes with the DNN method further indicates that the model of DNN mixed dynamic weight set scheme (DMDW) has the highest prediction skill for summer precipitation in Jiangsu province. The results of the independent sample test by DMDW are stable with the five-year average PS score of 76.0, the symbol consistency rate of 0.62, and the abnormality correlation coefficient (ACC) of 0.35. In the operational application, the model shows higher accuracy of precipitation forecast over central and southern Jiangsu province. Furthermore, the potential impacts of the precursor signals in the prediction factor schemes on the prediction accuracy of the summer precipitation in Jiangsu province are also investigated in this work. The atmospheric circulation factors play a major role in the summer precipitation prediction in Jiangsu province, while other factors such as SST and snow cover have positive contributions. Therefore, the DMDW model with the comprehensive precursory factors has the best prediction effect, which can effectively improve the accuracy of seasonal prediction of summer precipitation in Jiangsu province.
Key words: Summer precipitation    Seasonal prediction    Precursory signals    Deep Neural Network (DNN)    Dynamic weight set scheme    
1 引 言

中国东部地区受东亚季风活动影响,是洪涝灾害较为严重的地区之一(黄荣辉等,2003Ding,et al,2021)。因此,针对东部地区夏季降水预测的研究一直是气候研究的重要课题之一(丁一汇等,1997Fan,et al,2008魏凤英等,2010)。准确的降水预测是洪涝防治和防灾、减灾的关键(冯强等,2001)。

影响中国东部夏季旱涝的物理过程和影响因子众多,诸如东亚季风、西北太平洋副热带高压、中高纬度大气模态、ENSO循环、西太平洋热力状况等(高辉等,2003张庆云等,2007梁萍等,2008朱蒙等,2014李秀真等,2018刘芸芸等,20092020)。此外,由于预测因子之间存在复杂的相互联系,使得夏季降水预测面临巨大的挑战(彭京备等,2006杨杰等,2012杜良敏等,2016)。近年来中国夏季降水预测准确率为60%—70%,而长江流域只有50%左右(李维京等,2013)。江苏省地处中国东部地区,位于长江、淮河下游,河湖纵横,水网密布,洪涝灾害不容忽视,例如1991年夏季江淮流域暴雨、1998年长江全流域特大洪水、2003和2007年淮河流域洪涝灾害、2016年长江中下游地区区域性暴雨等事件,都造成了人员伤亡和巨大经济损失。因此,提高对江苏夏季旱涝的预测能力意义重大。

进入21世纪以来,机器学习方法在诸多领域得到了越来越多的应用,涌现出了大量研究成果(Gers,et al,2000Ranzato,et al,2007LeCun,et al,2015)。其中,由多层感知机基础上发展而来的人工神经网络(ANN)成为机器学习领域发展最快的一个分支,在此基础上发展出了递归神经网络(RNN)、卷积神经网络(CNN)和深度神经网络(DNN)等适应于不同应用场景的神经网络方法。与传统的统计方法相比,神经网络模型由于结构复杂,训练数据量大,往往能够通过机器学习获取更加复杂的时间、空间甚至是物理特征,因此被广泛应用于政府决策、工业生产、金融预测、科学研究等领域,且取得了不错的效果(Tompson,et al,2014Yan,et al,2018)。

数据和算法是气象预报、预测的核心。随着观测手段及预报、预测业务的发展,气象数据的覆盖范围广、时间频次高,为利用机器学习算法提升气象预报、预测水平提供了有力的数据基础和技术支撑。另外,天气、气候系统是典型的非线性复杂系统,预报、预测涉及的要素多,关系复杂。传统的预测方法存在一定的局限性,其中天气学方法主要依赖于预报员的主观经验,而统计学方法则没有充分利用已知的物理规律,二者都很难实现真正意义上的非线性预报(任宏利等,2007)。20世纪90年代,已有相关研究工作(孙照渤等,1998)尝试将人工神经网络应用于夏季降水预报中。近十几年来,机器学习技术在气象预报领域得到了越来越多地应用,已有一些学者(孙军波等,2010孙照渤等,2013孔令彬等,2014李文娟等,2018Kamani,et al,2018Haberlie,et al,2019孙全德等,2019任萍等,2020周康辉等,2021)将机器学习应用于短时临近预报和天气模式的预报订正中,研究表明利用机器学习方法和观测、预测数据可以实现有效信息的提取,实现更准确的天气预报。也有一些研究(李智才等,2006Kisi,et al,2012Ho,et al,2014苗春生等,2017Reichstein,et al,2019沈皓俊等,2020)在极端气候事件、环流异常、全球温度变化等方面进行了探讨。基于机器学习方法,利用多因子建模开展对中国汛期区域降水的预测,近年来也已取得了一些突破性进展。例如,Wei等(2020)用决策树方法尝试构建了中国汛期降水预测模型;Tong等(2019)发展了一套递归随机森林方法,从中国气象局国家气候中心发布的88个环流因子中选取出影响华北降水异常的决定性因子;Gao等(2019)运用多元Logistic回归的方法建立了中国东部降水的客观预测模型。这些研究成果无疑为进一步提升季节预测准确率提供了一个新的研究方向。

深度神经网络模型可以尝试从样本量较小的气候数据中发现和学习复杂非线性特征(Tompson,et al,2014Yan,et al,2018)。本研究利用江苏省67个国家级气象观测站降水资料和气候指数数据集,基于深度神经网络模型对江苏省夏季降水开展季节预测试验,构建夏季降水预测模型,并与传统统计方法和多种机器学习算法的预测效果进行对比。在此基础上,通过对深度神经网络模型的网络层数、神经元数量以及学习率等超参数进一步对比优化(Wistuba,et al,2015),从而获得最优超参数方案。最后,对比分析不同预测因子组合的预测结果,讨论影响深度神经网络模型预测结果的因素。本研究尝试将深度学习方法与气候预测业务融合,为气候预测提供一种新思路,推动气候预测业务智能化发展。

2 资料和方法 2.1 资 料

降水观测资料是由江苏省气象信息中心提供的全省70个国家级气象观测站(图1)1961—2019年夏季(6—8月)降水数据,经过质量控制剔除存在缺测的站点,实际使用站点为67个。本研究中气候态为1981—2010年30 a的平均值,这里关注夏季降水异常分布,预测对象和建模时使用的是各站的降水距平百分率。

图 1  江苏省70个国家级气象观测站分布 Fig. 1  Distribution of 70 national observation stations in Jiangsu province

此外,选取了由中国国家气候中心以及美国国家海洋和大气管理局(NOAA)发布的共130项气候指数数据集作为预测因子(王启光等,2011),起始时间为1961年1月至2019年3月。将其分为88项大气环流指数、26项海温指数和16项积雪、海冰等陆面因子气候指数(杨杰等,2012沈皓俊等,2020)。数据取自http://cmdp.ncc-cma.net/Monitoring/cn_index_130.php。所有因子均分别经过归一化处理后再输入模型进行建模和预测。归一化公式如下,其中X表示任一预测因子矩阵,X'为归一化处理后得到的新矩阵。

$ {\boldsymbol X}'=\frac{{\boldsymbol X}-\min({\boldsymbol X})}{\max({\boldsymbol X})-\min({\boldsymbol X})} $

所有方案中的因子都应用于模型训练,模型在训练过程中迭代更新网络权重的过程,包含了传统预测方法中根据权重、相关性筛选预测因子的过程,通过模型的迭代训练和更新,根据因子对预测误差的贡献,动态更新各个因子的权重,其中重要的因子权重较大,而不重要的因子会得到非常低的权重。

2.2 研究方法 2.2.1 深度神经网络

深度神经网络是在感知机基础上发展出来的一种具有多个隐含层的人工神经网络(Schmidhuber,2015)。深度神经网络内部的神经网络层可以分为3类:输入层、隐藏层和输出层,第一层是输入层,最后一层是输出层,中间的都是隐藏层。数据经输入层进入网络,其维度由实际输入数据的维度决定,经过各层向后流动,最后到达输出层输出。

网络中间有n个隐藏层,每层含有若干个神经元,层与层之间是全连接的,如第i层的任意一个神经元一定与第i+1层的任意一个神经元相连,对于每个神经元之间的局部模型来说,计算包含线性变换和激活函数两部分,激活函数是用来加入非线性因素,解决线性模型所不能解决的问题。不同网络层之间是由激活函数来模拟神经元对激励的响应,通过选择不同的激活函数以及动态阻断前后层神经元之间的连接,可以使模型更好地学习到数据的非线性特征,避免出现过拟合的情况。常用的激活函数有双曲正切函数、线性整流函数、泄露线性整流函数等,文中使用的是线性整流函数,其优势在于可以解决梯度消失问题,还能加快收敛速度提高学习速度(Krizhevsky,et al,2012)。

深度神经网络的训练过程包含前向传播算法和后向传播算法2个步骤:第1步是前向传播算法,进行一系列线性运算和激活运算,从输入层开始,一层层向后计算,一直到输出层,得到输出结果。第2步后向传播算法,选择一个损失函数,也就是误差评定标准,度量训练样本计算出的输出和真实的训练样本输出之间的损失,对这个损失函数进行优化求最小化的极值过程中,后向不断对一系列线性系数w和偏倚向量b进行更新,直到达到预期效果。

2.2.2 其他预测方法

此外,还使用轻量级梯度提升机(Light GBM)、随机森林(RF)、支持向量机(SVM)等机器学习方法和线性回归(LR)方法,比较不同的客观预测方法对江苏省夏季降水的预测能力。

轻量级梯度提升机是2017年8月微软公司开源的一个实现梯度提升决策树算法的框架(Ke,et al,2017),能够解决样本量大、数据维度高时占用内存大、耗费时间长等问题,通过训练回归决策树对样本数据进行学习并做出合理的预测。

随机森林是由Breiman(2001)和Adele Cutler提出的机器学习算法,通过随机生成多棵决策树对样本进行分类回归,在降低过度拟合情况的前提下实现预测。其优势体现在可以将高维度数据转化为多个变量输入并且确定最重要的变量,达到降低数据维度的目的。

支持向量机开始提出是为了解决分类问题(Cortes,et al,1995),经过推广可以将之应用到求解回归问题中(Drucker,et al,1997)。利用统计理论中的结构风险最小化原则在非线性问题上具有一定的优势,但训练出来的模型往往存在泛化能力差的缺陷,所以需要集成其他算法对模型进行进一步优化。

线性回归是传统气候预测中应用最为广泛的统计方法(魏凤英,2007),其具体做法是将变量逐个引入,以保证最后得到的解释变量集是最优的。

2.2.3 评价指标

均方根误差(RMSE)和平均绝对误差(MAE)是机器学习常见的回归评价指标(门晓磊等,2019),其误差值越小代表模型预测技巧越高。这里主要参考这两个指标来判断不同的机器学习方法对预报对象的适用性。气候趋势预测评分(PS)、距平符号一致率(SC)和距平相关系数(ACC)是中国气候预测业务中常用的预测准确率评价指标(陈桂英等,1998),主要用于对江苏省夏季降水预测结果的评估。

此外,采用交叉检验和独立样本检验(吴洪宝等,2005)两种方式来评估模型的预测技巧。为了避免模型过拟合,提高模型泛化能力,增强模型的实际业务应用能力,本研究将1961—2014年作为训练时段,2015—2019年作为预测时段,检验模型的实际预测能力。

3 江苏省夏季降水异常特征分析

从江苏省夏季降水的标准化距平序列(图2)可以看到,1961—2019年江苏省夏季降水总体呈现上升趋势,且表现出明显的阶段性变化。20世纪60年代至80年代前期为少雨期;80年代后期至90年代前期夏季降水增多,进入相对多雨期;90年代中后期夏季降水减少;从90年代末至21世纪以来,夏季降水再次显著增加,进入多雨期。此外,2015—2019年江苏省夏季降水阶段性特征显著,2015—2016年为显著多雨年,2017—2019年则是相对少雨年。近年来,江苏省夏季降水极端性也较强,2015年苏南地区降水量较常年偏多7成,仅次于1991和1999年,夏季前期6—7月江苏省梅雨量偏多,盛夏期间7—8月先后受到“灿鸿”“苏迪罗”和“天鹅”3个台风影响,风大雨强;2016年夏季“暴力梅”致全省江河湖堤全线超警,梅雨期降水量为430.8 mm,较常年偏多1倍;2017年夏季降水量显著偏少,区域性暴雨日数为1961年以来最少。因此,将2015—2019年作为本研究的预测时段,具有较好的代表性。

图 2  1961—2019年江苏省夏季平均降水量标准化距平序列 (黑色线为5 a滑动平均) Fig. 2  Time series of normalized anomaly of summer precipitation in Jiangsu province from 1961 to 2019 (the black line is the 5 a moving average)
4 预测试验与结果检验 4.1 预测因子

预测因子的选取是建立预测模型非常重要的部分,因子选择是否合适对预测模型的结果有很大影响。这里考虑将130项指数在当年1、2月和前一年3—12月的所有因子作为预测前兆信号使用,共130×12=1560个因子。对因子进行初步筛选,把缺测较多的因子去掉,参加建模的共1153个因子。因子中既包含了因子的年际变化尺度,也包含冬春季因子变化对后期的跨季节影响。考虑到因子的物理意义,将其分为3组,即大气环流因子组、海温因子组和积雪等其他因子组。对比试验中,在因子组合上考虑了5种方案,方案1—3是单独考虑大气环流因子、海温因子和积雪等其他因子,方案4是包括所有预测因子,方案5将前3种方案融合后的动态权重集合(表1),5种方案的计算流程如图3所示。方案5是将方案1—3的模型作为基础模型,将3个方案产生的预测结果作为方案5的预测因子,进行训练,构建预测模型,最终得到动态的加权模型,加权模型能够在一定程度上降低预测误差。

表 1  5种方案的因子选择组合 Table 1  Five different schemes of factor selection and combination
方案序号 所采用的因子场
方案 1 大气环流因子
方案 2 海温因子
方案 3 积雪等其他因子
方案 4 所有因子(大气环流因子、海温因子和积雪等其他因子)
方案 5 方案1—3的动态权重集合
图 3  5种因子方案与计算流程示意 Fig. 3  Schematic diagram of five factor schemes and calculation process
4.2 预测模型

使用深度神经网络、轻量级梯度提升机、随机森林、支持向量机和线性回归等多种预测方法预测江苏省夏季降水,对比不同模型的学习和泛化能力,选出最优模型。利用上述5种方法和方案4预测江苏省夏季降水距平百分率,将1961—2014年作为训练时段,2015—2019年作为预测时段。表2为预测的误差分析结果,综合考虑平均绝对误差和均方根误差两个指标,深度神经网络模型较其他方法有一定的优势,故选择深度神经网络模型做进一步的预测试验。

表 2  不同方法得到的江苏省夏季降水预测误差分析 Table 2  Error analysis of summer precipitation prediction in Jiangsu province obtained by different methods
模型名称 平均绝对误差 均方根误差
深度神经网络 0.1877 0.2598
轻量级梯度提升机 0.1996 0.2638
随机森林 0.2120 0.2810
支持向量机 0.2615 0.3435
线性回归 0.2242 0.2957
4.3 深度神经网络模型调优

由于不同站点的实际地形、气候特征存在差异,针对江苏省67个国家级气象观测站分别搭建深度神经网络模型,并对每个模型的参数进行调优,需要调优的参数如表3所示。深度神经网络模型是基于PyTorch框架进行建模,其中隐含层节点数对应了每层提取的数据特征,节点数过少无法提取到足够多的数据特征,节点数过多会出现数据过拟合的现象,此处隐含层节点参数设为10、20、50和100共4种。神经网络层数为5—10层,通过对比不同层数模型的训练效果,确定最优隐含层数。训练批次是模型的训练迭代次数,学习率决定了模型梯度更新的快慢,本研究学习率的初始值在训练中设为0.01,随着模型训练迭代学习率逐渐减少至0.0001,这样可以保证训练前期模型较快收敛到最优值附近,训练后期又能够更精确地找到全局最优解。此外,激活函数能够使模型更好地学习到数据的非线性特征,经过对比参数方案中的3种激活函数发现,线性整流函数(Rectified Linear Unit,简称ReLU)在实际预测中能够起到更好的效果。为了避免数据出现过拟合,在模型训练中采用十折交叉验证,每个训练批次中都将1961—2014年的逐年数据随机分成10份,每一份数量不需要完全相同。轮流将其中9份作为训练数据、1份作为验证数据,循环进行10次后,针对每年数据都有10个验证结果,计算10个验证结果的误差平均作为该训练批次的交叉验证误差,在训练达200个批次时取验证误差最小的作为最优模型。

表 3  深度神经网络参数 Table 3  DNN network parameters
序号 参数名 含义 参数值 值类型
1 Epoch_num 训练批次 200 Integer
2 Learning_rate 学习率 0.01—0.0001 Float
3 Dropout_prob 随机失活率 0.1—0.3 Float
4 Activation 激活层函数 ReLU String
5 Layers 神经网络层数 5—10 Integer
6 Kernel 单层神经元数量 10,20,50,100 Integer
4.4 预测结果分析

利用参数调优后的深度神经网络模型预测1961—2019年的江苏省67个国家级气象观测站夏季降水距平百分率,并与观测结果进行对比。图4给出了1961—2014年训练时段江苏区域平均夏季降水距平百分率的观测与预测结果的对比。方案1—5模拟的夏季降水与观测值的年际变化几乎一致,两者相关系数都在0.99以上,达到0.001的显著性水平。而2015—2019年预测时段,方案1—5模拟的夏季降水与观测值存在一些差异。下面将定量化评估预测时段的预测效果。

图 4  

首先对5种方案的训练时段和预测时段分别进行评分。5种方案在训练时段的交叉预报检验结果都具有很好的评分(表4),PS评分为97.0—99.2,距平符号一致率为0.93—0.98,距平相关系数评分为0.95—0.99。但预测时段的独立样本预报检验结果存在较大差异(表4图5)。在方案1中,只使用大气环流因子,其5 a回报的PS评分为77.7、符号一致率为0.64,距平相关系数达0.34,总体效果不错。方案2只使用海温因子,方案3使用积雪等其他因子,尽管这两个方案建模在训练期的交叉检验结果仅比方案1稍差,但独立样本检验结果不太理想,方案2的5 a平均距平相关系数为负值。方案4是考虑了大气、海温、积雪等所有因子,训练期的交叉预报检验结果评分较方案1有所提升,但独立样本检验的结果不如方案1。方案5是方案1—3的动态权重集合,包含了所有预测因子和不同因子方案的信息,具有集合的思想,建模的交叉预报检验结果有明显提升,且独立样本检验结果也较为稳定,PS评分为76.4,距平符号一致率为0.62,距平相关系数的5 a均值达到了0.35,逐年的交叉预报检验结果仅有1 年为负值,表明其预测结果相对稳定,预测结论有较好的参考价值。

表 4  5种方案的交叉检验和独立预测检验 Table 4  Cross-validation and independent forecast verification for five schemes
方案序号 1961—2014年交叉预报检验 2015—2019年独立样本预报检验
PS评分 符号一致率 ACC评分 PS评分 符号一致率 ACC评分
方案 1 98.3 0.96 0.98 77.7 0.64 0.34
方案 2 97.0 0.93 0.95 58.4 0.42 −0.06
方案 3 98.0 0.95 0.98 72.6 0.54 0.13
方案 4 98.6 0.97 0.99 74.0 0.60 0.30
方案 5 99.2 0.98 0.99 76.4 0.62 0.35
图 5  

进一步对方案5的逐年空间预报结果与观测进行对比分析。在2015—2019年预测时段,2015年(图6a)和2019年(图6c)的江苏夏季降水空间分布类型有显著差异:2015年降水以偏多为主,主雨带位于苏南地区,而2019年降水则以整体偏少为主。对比这两年的预测结果(图6b、d)可以看到,预测的空间型与实况基本相符。此外,2015年预报偏多2成以上的区域与实况较为一致,2019年偏少2成以上的区域也有所体现,可见预测结果对偏多或者偏少的异常量级把握也较好,在一定程度上能够预测出降水的极端性。说明深度神经网络结合动态权重集合方案的预报模型对江苏省夏季降水具备较好的预测能力。

图 6  2015 (a、b) 和2019 (c、d) 年观测的 (a、c) 和方案5预测的 (b、d) 江苏夏季降水距平百分率 (%) 分布 Fig. 6  Distributions of observed (a,c) and predicted (b,d) summer precipitation anomaly percentage (%) in Jiangsu province under Scheme 5 in 2015 (a,b) and 2019 (c,d),respectively

江苏夏季降水根据时空演变特征可以从南至北划分为苏南、江淮和淮北3个区域(吕军等,2006)。图7给出了苏南地区(30.5°—32.0°N,118.5°—122.0°E)、江淮地区(32.0°—33.5°N,118.0°—121.0°E)和淮北地区(33.5°—35.0°N,116.5°—120.5°E)3个区域的降水预测与观测实况的对比。降水预测结果成功地再现了2015—2019年苏南夏季降水逐年减少的变化特征,降水距平同号率为1,5 a预测值和观测值的趋势都呈现出一致偏多或偏少,其中2019年预测值与观测值最为接近(图7a)。预测(图7b)也很好地呈现出2015—2019年江淮地区夏季降水的下降趋势,降水距平百分率的同号率为0.8,其中2016和2017年预测和实况最接近,尤其在2016年,二者几乎相等。淮北地区降水预测结果(图7c)和实况在前2年存在一些差异,后3年较为一致,降水距平同号率为0.6,其中2018年预测与实况趋于一致。由前面的分析可知2018年江苏全省预测效果不理想,从分区域预测和实况对比来看,主要是由于江淮地区预测与观测趋势相反,而苏南和淮北地区均把握住了偏少的趋势。可见,深度神经网络结合动态权重集合因子的预报方案能够较好地预测江苏夏季降水,预测技巧存在一定区域差异,对江苏中部和南部的预测技巧更高,独立样本检验期5 a评分江淮地区的PS为78.4,距平相关系数为0.39;苏南地区的PS为74.9,距平符号一致率为0.34。表明模型对江苏中南部地区夏季降水具有更高的预测能力和业务应用价值。

图 7  

4.5 预测因子的讨论

深度学习在气象中的应用目前还处于初级阶段,这种数据驱动的方式有可能发现过去未知的规律和内在联系,从而推动气象领域的新认识(Reichstein,et al,2019)。可解释性一直是人工神经网络发展的重大方向,受制于模型的复杂性以及人们对模型可解释性的认知,深度神经网络目前还很难像传统的统计方法或气候模式一样找到相对直观的物理机理解释。这里,试图通过对比试验来初步讨论不同因子方案对预测结果的影响。

图8是预测时段使用不同因子方案的深度神经网络预测结果与江苏区域平均夏季降水实况的对比。与观测实况相比,深度神经网络方法整体预测性能在2015、2016、2019年较好,大部分方案把握住了降水偏多或偏少的异常趋势,2015年方案1、2、4、5和2016年方案1、4、5都预测出偏多2成以上,偏多异常预测正确,2019年方案1、4、5都预测出偏少2成以内,其中方案5与实况完全一致,而2017、2018年预测效果不太理想。比较不同方案发现,大气环流因子、所有因子和动态权重集合的方案都能较好地模拟出江苏夏季降水的趋势变化特征,动态权重集合方案与实况更为接近、更加稳定,而海温因子和积雪等其他因子的方案模拟能力年际差异较大,在特定年份表现出技巧,方案2在2015、2016年与观测值接近,可能与这两年处于超强厄尔尼诺背景有关;方案3在2018、2019年与观测值接近,可能与这两年高原积雪异常信号较为明显有关(2017/2018年冬季高原积雪偏少,2018/2019年冬季积雪则异常偏多)。说明海温和积雪等其他因子在异常信号显著时对江苏夏季降水预测也有正贡献。

图 8  2015—2019年逐年江苏区域平均夏季降水实况与不同因子方案深度神经网络预测结果对比 Fig. 8  Comparison between real-time average summer precipitation in Jiangsu from 2015 to 2019 and predictions of different schemes with DNN

表5给出了2015—2019年深度神经网络结合不同方案的预测结果与观测的误差指标对比。总体来看,方案2和方案3预测结果的误差较大,方案1、4、5误差较小,从误差分析结果来看方案5最佳。误差指标对比的结果同样是大气环流因子、所有因子和动态权重集合的方案效果较好,动态权重集合方案的误差最小。综上所述,大气环流因子对江苏夏季降水预测有主要贡献,海温因子和积雪等其他因子的贡献在不同年份存在差异,动态权重集合方案预测效果最好。

表 5  2015—2019年不同因子方案深度神经网络预测江苏夏季降水与观测的误差指标对比 Table 5  Comparison of error index between different DNN schemes for summer precipitation predictions and observations in Jiangsu province
数据结果 平均绝对误差
均方根误差
方案1 11.8 13.9
方案2 24.5 25.2
方案3 25.5 30.7
方案4 12.1 14.5
方案5 11.0 13.9
5 结论与讨论

利用1961—2019年江苏省67个国家级气象观测站降水量和气候指数数据集等资料,选取大气环流、海温和积雪等先兆信号的不同组合作为预测因子方案,使用深度神经网络、轻量级梯度提升机、随机森林、支持向量机和线性回归等方法建立预测模型,开展江苏省夏季降水的预测试验,对预测效果进行对比分析,并探讨了不同预测因子方案对江苏省夏季降水预测结果的潜在影响。具体结论如下:

(1)1961—2019年江苏省夏季降水总体呈现上升趋势,且表现出明显的阶段性变化,近5年中2015—2016年为显著多雨年,2017—2019年为相对少雨年。对比分析深度神经网络、轻量级梯度提升机、随机森林、支持向量机和线性回归等预测模型对江苏省夏季降水的预测结果误差特征,发现利用深度神经网络模型对江苏省夏季降水预测具有一定优势。

(2)不同因子方案的深度神经网络预测结果在训练时段(1961—2014年)的交叉预报检验结果都有很好的表现,但从预测时段(2015—2019年)的独立样本预报检验结果来看,动态权重集合的方案预测效果最好,深度神经网络结合动态权重集合因子方案能够较好地预测江苏夏季降水,独立样本检验PS评分为76.4,距平符号一致率为0.62,距平相关系数的5 a均值达到了0.35,其预测结果较为稳定。预测技巧还存在区域差异,对江苏中南部的预测技巧更高,具有业务应用价值。

(3)不同预测因子组合方案的预测结果对比分析表明,就单类型因子方案而言,大气环流因子方案优于海温因子和积雪等其他因子方案,对江苏夏季降水预测有主要贡献,海温因子和积雪等其他因子的贡献在不同年份存在差异;所有因子方案优于大气环流因子方案,说明海温因子和积雪等其他因子在特定年份有正贡献;将所有因子和方案信息进行动态权重集合的方案预测效果最好,说明深度神经网络模型结合动态权重集合方案有助于提升季节预测准确性。

本研究针对汛期降水预测这一重点与难点,使用深度神经网络方法建立预测模型,有效提升了预测的准确性,为汛期降水预测提供了一种可能的参考。在对比不同预测因子方案时发现,单独使用海温因子的方案预测效果不佳,且大气环流因子总体优于海温和积雪陆面因子,这可能一方面是海温因子仅考虑了某几个区域平均指数,而海温对大气和降水的影响需要综合考虑海温的不同发展阶段和空间分布型;另一方面这里的分析主要针对江苏夏季降水,预报对象区域范围较小,关键大气环流因子对局地降水的关系和表征性更为直接,而热带海温异常信号对较小区域范围的降水异常的关系不一定显著。但也需要指出,本研究的结果是初步的,而深度学习的可解释性范畴仍是计算机领域的热点问题,如何更有效地解释深度神经网络方法预测降水的物理机制仍有待于进一步探索。

本研究使用近几十年的观测数据建模,但实际上与机器学习方法建模所需要的大量数据样本相比还存在较大差距,会增加模型获得稳定有效特征的难度,同时数据样本不够还会导致出现过拟合问题。为了避免模型出现过拟合,在模型训练中采用了随机失活和十折交叉验证两种优化方法,随机失活即在训练过程中随机将部分隐含层节点的权重归零,十折交叉验证通过重复运用随机产生的子样本进行训练和验证,能够很大程度上避免数据过拟合的问题。但由于气候数据样本有限,如何在提高拟合精度的同时避免过拟合确实是个难题,这也是机器学习在气候领域应用遇到的瓶颈之一。Tong等(2019)曾提出通过对多种(88个)可能因子基于传统气候学分析先分类,再通过递归式随机森林的方法进行建模,通过特征工程从原始数据中挖掘、构造更加有效的特征数据,有助于减小过拟合问题,提升模型的预测精度。这也为下一步工作提供了思路,在深度神经网络的训练和应用中可以通过数据的特征提取、构造更多有效特征来减少样本量不足的问题,提升模型预测效果。

参考文献
陈桂英, 赵振国. 1998. 短期气候预测评估方法和业务初估. 应用气象学报, 9(2): 178-185. Chen G Y, Zhao Z G. 1998. Assessment methods of short range climate prediction and their operational application. Quart J Appl Meteor, 9(2): 178-185. (in Chinese)
丁一汇, 陆尔. 1997. 据1991年特大洪涝过程的物理分析试论江淮梅雨预测. 气候与环境研究, 2(1): 32-38. Ding Y H, Lu E. 1997. An essay of Meiyu prediction in the light of the syno-dynamical study of summer monsoon behavior during 1991 flood in China. Climatic Environ Res, 2(1): 32-38. DOI:10.3878/j.issn.1006-9585.1997.01.04 (in Chinese)
杜良敏, 柯宗建, 刘长征等. 2016. 基于聚类分区的中国夏季降水预测模型. 气象, 42(1): 89-96. Du L M, Ke Z J, Liu C Z, et al. 2016. Summer precipitation prediction models based on the clustering regionalization in China. Meteor Mon, 42(1): 89-96. DOI:10.7519/j.issn.1000-0526.2016.01.011 (in Chinese)
冯强, 陶诗言, 王昂生等. 2001. 暴雨洪涝灾害对社会经济和人民生活的影响分析. 灾害学, 16(3): 44-48. Feng Q, Tao S Y, Wang A S, et al. 2001. Analysis of the influence of heavy-rain and flood disaster on social economy and human life. J Catastrophol, 16(3): 44-48. DOI:10.3969/j.issn.1000-811X.2001.03.009 (in Chinese)
高辉, 薛峰, 王会军. 2003. 南极涛动年际变化对江淮梅雨的影响及预报意义. 科学通报, 48(S2): 87-92. Gao H, Xue F, Wang H J. 2003. Influence of interannual variability of Antarctic oscillation on mei-yu along the Yangtze and Huaihe River valley and its importance to prediction. Chinese Sci Bull, 48(S2): 61-67(in Chinese)
黄荣辉, 陈际龙, 周连童等. 2003. 关于中国重大气候灾害与东亚气候系统之间关系的研究. 大气科学, 27(4): 770-787. Huang R H, Chen J L, Zhou L T, et al. 2003. Studies on the relationship between the severe climatic disasters in China and the East Asia climate system. Chinese J Atmos Sci, 27(4): 770-787. DOI:10.3878/j.issn.1006-9895.2003.04.22 (in Chinese)
孔令彬, 赵艳茹, 王聚杰等. 2014. 基于支持向量机风速订正方法的研究. 西南大学学报(自然科学版), 36(5): 194-200. Kong L B, Zhao Y R, Wang J J, et al. 2014. Modification of wind speed based on SVM. J Southwest Univ (Nat Sci), 36(5): 194-200. (in Chinese)
李维京, 郑志海, 孙丞虎. 2013. 近年来我国短期气候预测中动力相似预测方法研究与应用进展. 大气科学, 37(2): 341-350. Li W J, Zheng Z H, Sun C H. 2013. Improvements to dynamical analogue climate prediction method in China. Chinese J Atmos Sci, 37(2): 341-350. DOI:10.3878/j.issn.1006-9895.2012.12311 (in Chinese)
李文娟, 赵放, 郦敏杰等. 2018. 基于数值预报和随机森林算法的强对流天气分类预报技术. 气象, 44(12): 1555-1564. Li W J, Zhao F, Li M J, et al. 2018. Forecasting and classification of severe convective weather based on numerical forecast and random forest algorithm. Meteor Mon, 44(12): 1555-1564. DOI:10.7519/j.issn.10000526.2018.12.005 (in Chinese)
李秀真, 唐旭紫, 李施华等. 2018. 春季青藏高原感热对中国东部夏季降水的影响和预测作用. 气象学报, 76(6): 930-943. Li X Z, Tang X Z, Li S H, et al. 2018. Impact of the spring sensible heat flux over the Tibetan Plateau on summer rainfall over East China and its role in rainfall prediction. Acta Meteor Sinica, 76(6): 930-943. (in Chinese)
李智才, 马文瑞, 李素敏等. 2006. 支持向量机在短期气候预测中的应用. 气象, 32(5): 57-61. Li Z C, Ma W R, Li S M, et al. 2006. Application of support vector machine to short-term, climate forecast. Meteor Mon, 32(5): 57-61. DOI:10.3969/j.issn.1000-0526.2006.05.010 (in Chinese)
梁萍, 丁一汇, 何金海. 2008. 长江下游夏季降水与东亚夏季风及春季太平洋海温的关系. 高原气象, 27(4): 772-777. Liang P, Ding Y H, He J H. 2008. Relations between summer rainfall over the lower reach of Yangtze River and East Asian summer monsoon as well as sea surface temperature over the pacific in spring. Plateau Meteor, 27(4): 772-777. (in Chinese)
刘芸芸, 丁一汇. 2009. 西北太平洋夏季风对中国长江流域夏季降水的影响. 大气科学, 33(6): 1225-1237. Liu Y Y, Ding Y H. 2009. Influence of the western North Pacific summer monsoon on summer rainfall over the Yangtze River basin. Chinese J Atmos Sci, 33(6): 1225-1237. DOI:10.3878/j.issn.1006-9895.2009.06.09 (in Chinese)
刘芸芸, 丁一汇. 2020. 2020年超强梅雨特征及其成因分析. 气象, 46(11): 1393-1404. Liu Y Y, Ding Y H. 2020. Characteristics and possible causes for the extreme Meiyu in 2020. Meteor Mon, 46(11): 1393-1404. DOI:10.7519/j.issn.1000-0526.2020.11.001 (in Chinese)
吕军, 张静, 刘健等. 2006. 江苏省夏季降水时空分布演变特征. 气象, 32(6): 48-52. Lü J, Zhang J, Liu J, et al. 2006. Study on spatial-temporal distribution of summer precipitation. Meteor Mon, 32(6): 48-52. DOI:10.3969/j.issn.1000-0526.2006.06.008 (in Chinese)
门晓磊, 焦瑞莉, 王鼎等. 2019. 基于机器学习的华北气温多模式集合预报的订正方法. 气候与环境研究, 24(1): 116-124. Men X L, Jiao R L, Wang D, et al. 2019. A temperature correction method for multi-model ensemble forecast in North China based on machine learning. Climatic Environ Res, 24(1): 116-124. DOI:10.3878/j.issn.1006-9585.2018.18049 (in Chinese)
苗春生, 何东坡, 王坚红等. 2017. 基于C4.5算法的长江中下游地区夏季降水预测模型研究及应用. 气象科学, 37(2): 256-264. Miao C S, He D P, Wang J H, et al. 2017. Research and application of summer rainfall prediction model in the middle and lower reaches of the Yangtze River based on C4.5 algorithm. J Meteor Sci, 37(2): 256-264. (in Chinese)
彭京备, 陈烈庭, 张庆云. 2006. 多因子和多尺度合成中国夏季降水预测模型及预报试验. 大气科学, 30(4): 596-608. Peng J B, Chen L T, Zhang Q Y. 2006. The statistic prediction model and prediction experiments of the summer rain over China by multiple factors and multi-scale variations. Chinese J Atmos Sci, 30(4): 596-608. DOI:10.3878/j.issn.1006-9895.2006.04.06 (in Chinese)
任宏利, 丑纪范. 2007. 数值模式的预报策略和方法研究进展. 地球科学进展, 22(4): 376-385. Ren H L, Chou J F. 2007. Study progress in prediction strategy and methodology on numerical model. Adv Earth Sci, 22(4): 376-385. DOI:10.3321/j.issn:1001-8166.2007.04.007 (in Chinese)
任萍, 陈明轩, 曹伟华等. 2020. 基于机器学习的复杂地形下短期数值天气预报误差分析与订正. 气象学报, 78(6): 1002-1020. Ren P, Chen M X, Cao W H, et al. 2020. Error analysis of short-term numerical weather prediction under complex terrain based on machine learning. Acta Meteor Sinica, 78(6): 1002-1020. (in Chinese)
沈皓俊, 罗勇, 赵宗慈等. 2020. 基于LSTM网络的中国夏季降水预测研究. 气候变化研究进展, 16(3): 263-275. Shen H J, Luo Y, Zhao Z C, et al. 2020. Prediction of summer precipitation in China based on LSTM network. Climate Change Res, 16(3): 263-275. (in Chinese)
孙军波, 钱燕珍, 陈佩燕等. 2010. 登陆台风站点大风预报的人工神经网络方法. 气象, 36(9): 81-86. Sun J B, Qian Y Z, Chen P Y, et al. 2010. The artificial neural network method on the station wind in landfall typhoon. Meteor Mon, 36(9): 81-86. DOI:10.7519/j.issn.1000-0526.2010.09.013 (in Chinese)
孙全德, 焦瑞莉, 夏江江等. 2019. 基于机器学习的数值天气预报风速订正研究. 气象, 45(3): 426-436. Sun Q D, Jiao R L, Xia J J, et al. 2019. Adjusting wind speed prediction of numerical weather forecast model based on machine learning methods. Meteor Mon, 45(3): 426-436. (in Chinese)
孙照渤, 谭桂容, 赵振国. 1998. 人工神经网络方法在夏季降水预报中的应用. 南京气象学院学报, 21(1): 47-52. Sun Z B, Tan G R, Zhao Z G. 1998. ANN prediction of summer rainfall patterns of East China. J Nanjing Inst Meteor, 21(1): 47-52. (in Chinese)
孙照渤, 谭桂容, 赵振国等. 2013. 中国东部夏季雨型的人工神经网络集合预测. 大气科学学报, 36(1): 1-6. Sun Z B, Tan G R, Zhao Z G, et al. 2013. Ensemble prediction of summer rainfall patterns over eastern China based on artificial neural networks. Trans Atmos Sci, 36(1): 1-6. DOI:10.3969/j.issn.1674-7097.2013.01.001 (in Chinese)
王启光, 封国林, 郑志海等. 2011. 长江中下游汛期降水优化多因子组合客观定量化预测研究. 大气科学, 35(2): 287-297. Wang Q G, Feng G L, Zheng Z H, et al. 2011. A study of the objective and quantifiable forecasting based on optimal factors combinations in precipitation in the middle and lower reaches of the Yangtze River in summer. Chinese J Atmos Sci, 35(2): 287-297. DOI:10.3878/j.issn.1006-9895.2011.02.08 (in Chinese)
魏凤英. 2007. 现代气候统计诊断与预测技术. 2版. 北京: 气象出版社: 213-214. Wei F Y. 2007. Modern Climate Statistical Diagnosis and Prediction Technology. 2nd ed. Beijing: Meteorology Press: 213-214. (in Chinese)
魏凤英, 黄嘉佑. 2010. 大气环流降尺度因子在中国东部夏季降水预测中的作用. 大气科学, 34(1): 202-212. Wei F Y, Huang J Y. 2010. A study of downscaling factors of atmospheric circulations in the prediction model of summer precipitation in eastern China. Chinese J Atmos Sci, 34(1): 202-212. DOI:10.3878/j.issn.1006-9895.2010.01.19 (in Chinese)
吴洪宝, 吴蕾. 2005. 气候变率诊断和预测方法. 北京: 气象出版社: 144pp. Wu H B, Wu L. 2005. Diagnosis and Prediction of Climate Variability. Beijing: Meteorology Press: 144pp. (in Chinese)
杨杰, 赵俊虎, 郑志海等. 2012. 华北汛期降水多因子相似订正方案与预报试验. 大气科学, 36(1): 11-22. Yang J, Zhao J H, Zheng Z H, et al. 2012. Estimating the prediction errors of dynamical climate model on the basis of prophase key factors in North China. Chinese J Atmos Sci, 36(1): 11-22. DOI:10.3878/j.issn.1006-9895.2012.01.02 (in Chinese)
张庆云, 吕俊梅, 杨莲梅等. 2007. 夏季中国降水型的年代际变化与大气内部动力过程及外强迫因子关系. 大气科学, 31(6): 1290-1300. Zhang Q Y, Lü J M, Yang L M, et al. 2007. The interdecadal variation of precipitation pattern over China during summer and its relationship with the atmospheric internal dynamic processes and extra-forcing factors. Chinese J Atmos Sci, 31(6): 1290-1300. DOI:10.3878/j.issn.1006-9895.2007.06.23 (in Chinese)
朱蒙, 陈海山, 蒋薇等. 2014. 陆面热力因子应用于中国夏季降水预测的初步试验. 气象学报, 72(6): 1135-1142. Zhu M, Chen H S, Jiang W, et al. 2014. A preliminary test of the summer rainfall prediction in China based on the land surface thermal factors. Acta Meteor Sinica, 72(6): 1135-1142. (in Chinese)
周康辉, 郑永光, 王婷波. 2021. 利用深度学习融合NWP和多源观测数据的闪电落区短时预报方法. 气象学报, 79(1): 1-14. Zhou K H, Zheng Y G, Wang T B. 2021. Very short-range lightning forecasting with NWP and observation data: A deep learning approach. Acta Meteor Sinica, 79(1): 1-14. (in Chinese)
Breiman L. 2001. Random forests. Mach Learn, 45(1): 5-32. DOI:10.1023/A:1010933404324
Cortes C, Vapnik V. 1995. Support-vector networks. Mach Learn, 20(3): 273-297. DOI:10.1007/BF00994018
Ding Y H, Liu Y Y, Hu Z-Z. 2021. The record-breaking Meiyu in 2020 and associated atmospheric circulation and tropical SST anomalies. Adv Atmos Sci, 38(12): 1980-1993. DOI:10.1007/s00376-021-0361-2
Drucker H, Burges C J C, Kaufman L, et al. 1997. Support vector regression machines∥Proceedings of the 9th International Conference on Neural Information Processing Systems. Denver, Colorado: MIT Press, 155-161
Fan K, Wang H J, Choi Y J. 2008. A physically-based statistical forecast model for the middle-lower reaches of the Yangtze River Valley summer rainfall. Chinese Sci Bull, 53(4): 602-609. DOI:10.1007/s11434-008-0083-1
Gao L H, Wei F Y, Yan Z W, et al. 2019. A study of objective prediction for summer precipitation patterns over eastern china based on a multinomial logistic regression model. Atmosphere, 10(4): 213. DOI:10.3390/atmos10040213
Gers F A, Schmidhuber J, Cummins F. 2000. Learning to forget: Continual prediction with LSTM. Neural Comput, 12(10): 2451-2471. DOI:10.1162/089976600300015015
Haberlie A M, Ashley W S. 2019. A radar-based climatology of mesoscale convective systems in the United States. J Climate, 32(5): 1591-1606. DOI:10.1175/JCLI-D-18-0559.1
Ho H C, Knudby A, Sirovyak P, et al. 2014. Mapping maximum urban air temperature on hot summer days. Remote Sens Environ, 154: 38-45. DOI:10.1016/j.rse.2014.08.012
Kamani M M, Farhat F, Wistar S, et al. 2018. Skeleton matching with applications in severe weather detection. Appl Sof Comput, 70: 1154-1166. DOI:10.1016/j.asoc.2017.05.037
Ke G L, Meng Q, Finley T, et al. 2017. LightGBM: A highly efficient gradient boosting decision tree∥Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: Curran Associates Inc., 3146-3154
Kisi O, Cimen M. 2012. Precipitation forecasting by using wavelet-support vector machine conjunction model. Eng Appl Artif Intell, 25(4): 783-792. DOI:10.1016/j.engappai.2011.11.003
Krizhevsky A, Sutskever I, Hinton G E. 2012. ImageNet classification with deep convolutional neural networks∥Proceedings of the 25th Interna-tional Conference on Neural Information Processing Systems. Lake Tahoe, Nevada: Curran Associates Inc.
LeCun Y, Bengio Y, Hinton G. 2015. Deep learning. Nature, 521(7553): 436-444. DOI:10.1038/nature14539
Ranzato M A, Huang F J, Boureau Y L, et al. 2007. Unsupervised learning of invariant feature hierarchies with applications to object recogni-tion∥Proceedings of 2007 IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis: IEEE
Reichstein M, Camps-Valls G, Stevens B, et al. 2019. Deep learning and process understanding for data-driven Earth system science. Nature, 566(7743): 195-204. DOI:10.1038/s41586-019-0912-1
Schmidhuber J. 2015. Deep learning in neural networks: An overview. Neural Netw, 61: 85-117. DOI:10.1016/j.neunet.2014.09.003
Tompson J, Jain A, LeCun Y, et al. 2014. Joint training of a convolutional network and a graphical model for human pose estimation∥Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press, 1799-1807
Tong X, Yan Z W, Xia J J, et al. 2019. Decisive atmospheric circulation indices for July–August precipitation in North China based on tree models. J Hydrometeorol, 20(8): 1707-1720. DOI:10.1175/JHM-D-19-0045.1
Wei W G, Yan Z W, Jones P D. 2020. A decision-tree approach to seasonal prediction of extreme precipitation in eastern China. Int J Climatol, 40(1): 255-272. DOI:10.1002/joc.6207
Wistuba M, Schilling N, Schmidt-Thieme L. 2015. Hyperparameter search space pruning: A new component for sequential model-based hyperparameter optimization∥Proceedings of the Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Porto, Portugal: Springer,104-119.
Yan Y, Lee F, Wu X Q, et al. 2018. Face recognition algorithm using extended vector quantization histogram features. PLos One, 13(1): e0190378. DOI:10.1371/journal.pone.0190378