2. 解放军理工大学气象学院, 南京 211101;
3. 中国科学院大气物理研究所大气科学和地球流体力学数值模拟国家重点实验室, 北京 100029
2. Institute of Meteorology, PLA University of Science and Technology, Nanjing 211101;
3. State Key Laboratory of Numerical Modeling for Atmospheric Sciences and Geophysical Fluid Dynamics, Institute of Atmospheric Physics, CAS, Beijing 100029
为解决数值预报中的不确定性, 集合预报方法应运而生, 并于20世纪90年代在世界上多个国家投入业务使用。经典的集合预报方法是初值集合。对初值集合而言, 如何构造初始扰动是至关重要的[1]。集合预报的初始扰动技术研究始于20世纪70年代, 扰动方法是估计分析误差的概率分布, 如蒙特卡罗法 (MFC) [2]、时间滞后法 (LAF) [3]等。但是这些方法都不是产生初始扰动的最理想方法[4-5]。进入90年代以后, 基于“快速增长模”的思想[4, 6], 提出增长模繁殖法 (BGM) [4]和奇异矢量法 (SVs) [5]。
用BGM法构造初始扰动与SVs方法可谓异曲同工。SVs方法是通过切线性伴随方程直接求出奇异矢量, 通过奇异矢量的叠加求出初始扰动, 这需要大量的计算机资源; 而增长模繁殖法是直接用数值模式通过繁殖循环估计出最快增长模。实际上用繁殖法得到的最快增长模近似等于主奇异矢量, 但计算量却相对小得多[7]。BGM方法求取集合预报初始扰动实际上是模仿分析循环中误差 (即扰动) 的增长过程, 即将一个任意的随机扰动叠加在分析场上, 通过模式的循环积分使其得到“繁殖”。经过若干个繁殖循环以后, 初始扰动中的衰减分量大部分已经消耗殆尽, 而主要留下 (快速) 增长分量, 扰动的增长率也会逐渐稳定于某个值, 或者说扰动达到了“饱和”。因此, 可将扰动在某种意义上达到的饱和的状态作为对实际分析误差快速增长模的一个估计, 并由此产生集合预报的初始扰动。
从BGM方法的基本思想可知, 繁殖过程何时结束, 即所谓的繁殖长度是一个很值得研究的问题。繁殖长度实际上就是在集合预报系统中对初始扰动的繁殖总时间。确定繁殖长度的一般步骤是: ①定义增长模的饱和特征, 即增长模繁殖需达到什么标准; ②考察繁殖循环中增长模的增长和饱和过程, 大致确定饱和时间; ③参考增长模饱和时间, 选取不同繁殖长度进行大量的集合数值预报试验, 根据预报效果决定繁殖长度。
关于增长模的增长和饱和问题已有一些研究[4, 8], 结果表明繁殖过程中增长模在大小和形态两方面都有趋于饱和的过程, 但不同物理量不同等压面上存在差别。总的来看, 在取合理繁殖方案的情况下, 增长模经过3~4 d左右的繁殖可达到饱和要求。本文将在以往研究结果的基础上设计试验, 比较不同繁殖长度对集合预报效果的影响。
1 资料选取及试验设计本文所用的模式为全球中期数值预报谱模式T63L9, 模式分辨率为2.5°×2.5°。有关模式的详细介绍参见文献[9]。试验初始资料来自1998年1月和6月的NCEP/NCAR逐6 h再分析场。以1月为例, 分别从5—20日共16 d的00:00(世界时, 下同) 起报, 这样可获得16组集合预报试验个例, 每组试验的预报时效均为10 d; 6月同样选取5—20日的00:00起报, 得到16组集合预报试验个例, 这样总共就是32组试验个例。预报场距平相关系数的检验资料采用1958—1997年NCEP/NCAR的月平均资料。
基于BGM方法生成集合预报的初始扰动时, 繁殖循环的初始扰动、繁殖循环的周期和繁殖长度的确定都直接关系到集合预报的质量。本文的目的是分析繁殖长度对集合预报效果的影响, 故试验设计中根据已有的一些研究成果将繁殖循环周期取为6 h, 繁殖过程中采用动态调整, 即在繁殖过程中始终保持繁殖模与初始模大小相当 (在均方根误差意义上)。繁殖循环的初始扰动即初始模参考文献[10-11]的作法, 取随机分布, 其随机数服从[-1, +1]之间的均匀分布; 文献[8]在对繁殖循环中增长模的饱和情况分析时指出, 不同的物理量在不同的高度上, 增长模的饱和时间和饱和增长率不同, 而初始模的大小影响了增长模的饱和特征, 故对不同的物理量和不同的高度应取不同的初始模, 具体作法为:对位势高度场及风场扰动, 200 hPa以上取为24 h预报误差的100% (均方根误差意义上, 下同), 其余层次取为24 h预报误差的50%;对相对湿度场, 各层均取24 h预报误差的25%。集合预报的成员取为7个, 包含3对扰动预报以及1个控制预报, 集合预报取7个成员的等权平均。
参考文献[8, 10]关于增长模饱和的研究结果, 分别取2, 3, 4 d作为繁殖长度。具体做法如下:以5日00:00起报的试验为例, 若繁殖长度为2 d, 则繁殖循环就从3日00:00开始, 同理, 繁殖长度为3 d的繁殖循环从2日00:00开始, 繁殖长度为4 d的繁殖循环就从1日00:00开始。
2 集合预报的有效率及加权评分分析在一定数量的试验样本中, 称集合预报优于控制预报的样本数为集合预报的有效率, 为方便, 这里给出的是具体数量而非百分比。表 1给出了32组试验个例在给定的预报时效上, 各集合预报优于相应控制预报 (即500 hPa位势场均方根误差小于控制预报) 的样本数。表中F0代表控制预报, F2, F3, F4分别代表繁殖长度为2, 3, 4 d的集合预报。应注意的是进行比较的每组试验个例的每个预报时效 (每天输出一次预报结果作为一个预报时效) 都计为一个样本, 这样表中预报第3, 6, 9 d的总样本数均为32个, 5~8 d就包含4个预报时效, 其总样本数为32×4=128个。
|
|
表 1 四组预报的500 hPa位势高度场均方根误差加权评分 Table 1 The root-mean-square error (RMSE) weight skill for 500 hPa geopotential height of four groups of forecasting expriments |
总的来看, 在各个预报时效上各组集合预报对全球500 hPa形势场的预报效果均比控制预报有明显改进。其中预报第6天三组集合预报F2, F3, F4好于控制预报的百分比依次为88%, 94%和100%, 而所有32组试验个例在第5~8天的预报时效上的128个样本中, 三组集合预报优于控制预报的百分比分别达到90%, 93%和96%。
从优于控制预报的样本数来看, 不同繁殖长度的各组集合预报在各个预报时效上也是各有优劣。然而对中期数值预报而言, 表中最具意义的第6天和第5~8天两项的比较数据都显示, 这三组集合预报按其改进控制预报的有效率由高到低依次是F4, F3, F2。
为综合分析不同繁殖长度的三组集合预报对控制预报的改进程度, 还可以使用加权评分的方法。加权评分与上述集合预报的“有效率”分析的区别在于, “有效率”分析是将各组集合预报分别与控制预报作比较, 而加权评分则是对四组预报进行综合比较。
首先定义加权评分的方法, 在某个个例的某个预报时效上 (如1月5日个例的第6天预报结果), 上述四组预报的预报效果总可以按某种评分 (例如均方根误差) 进行排序, 从而得到效果最好、次好的预报。下面加权评分的做法是:效果最好的预报加3分, 次好的预报加1分, 其余不加分。这样, 对所有的个例在给定的预报时效上就会有个总评分, 以此来反映各个预报的总体预报效果。
对均方根误差评分而言, 其值越小反映预报场越接近分析场, 说明预报效果越好。因此可根据均方根误差大小将四组预报即控制预报F0和三组集合预报F2, F3, F4, 按预报效果排序, 即预报均方根误差最小的为效果最好, 排在第1名, 以此类推。如对控制预报F0, 假设第i组试验 (32个个例中的第i个) 第j天的预报 (预报10 d中的第j天), 其预报效果在四组预报中排在第x名, 则给该组预报加上Sijx分。其中:
|
(1) |
对32组试验个例, 若考虑预报第5~8天的预报效果, 则F0的总评分可以表示如下:
|
(2) |
同理可得到其他三组预报的总加权评分。同时, 为便于比较, 本文对得到的加权评分数据进行了标准化处理, 即以F2的总得分S2为基准分, 各预报得分与S2相比得到最后的标准化评分。显然, 评分值越高代表预报效果越好。从表 1给出的结果明显可见, 集合预报的加权评分远远超过控制预报, 这一点和上面关于集合预报的“有效率”的分析结论也是一致的。
对三组不同繁殖长度集合预报的加权评分进行比较的结论是:总体来看, 在全球, 北半球 (20°~90°N) 和亚洲 (0°~60°N, 100°~160°E) 的大部分预报时效上, F4和F3要明显优于F2, 而F4则略优于F3。例如对全球形势场第5~8天的预报, 控制预报和三组集合预报的标准化加权评分依次为0.03, 1.00, 1.60和1.67, 非常典型的反映了四种情况的相对预报效果。
3 均方根误差和距平相关系数评分改进量及改进率分析从上面的初步分析可看出, 三组集合预报均明显优于控制预报, 而繁殖3 d和4 d的集合预报又明显优于繁殖2 d的。为获得更加全面和直观的结论, 又计算了三组集合预报分别对控制预报均方根误差 (RMSE) 和距平相关系数 (ACC) 的改进量及相对改进率 (32组试验的平均值), 具体计算方法参见文献[12]。
3.1 均方根误差的改进情况图 1a、图 2a、图 3a分别给出了不同繁殖长度时全球、北半球和亚洲地区集合预报对控制预报的改进。从图上可见, 集合预报对控制预报的均方根误差改进有其“绝对”性, 即不论是全球、北半球还是亚洲, 从预报第1天到第10天三组集合预报均比控制预报有不同程度的改进, 且预报时效越长, 预报效果的改进越大。总体来看, 预报前3 d集合预报对控制预报的改进相当有限。从第4天开始, 集合预报的改进程度稳步提升。6 d以后集合预报的全球形势场可比控制预报平均改进5%以上, 而北半球的改进更大, 6 d以后可超过10%。以第6天为例, 三组集合预报500 hPa全球位势高度场均方根误差的改进量分别为3.8, 4.9和4.6 gpm。第6天集合预报比控制预报改进最为显著的是北半球形势场, 集合预报的均方根误差比控制预报的降低了7 gpm。均方根误差可以表征预报场与分析场在数值上的近似程度, 因此集合预报对控制预报的均方根误差改进的这种“绝对”性表明:集合预报至少在整体的数值大小方面使得预报场更接近实际分析场。
|
|
| 图 1. 集合预报对控制预报全球500 hPa高度场的改进量 (直方图) 和改进率 (曲线) Fig 1. Improvement quantity (column diagram) and quotiety (curve line) on the global 500 hPa geopotential height by the ensemble forecasts with respect to the control forecast | |
|
|
| 图 2. 北半球500 hPa高度场的改进 (其他同图 1) Fig 2. The improvement for the Northern hemisphere 500 hPa fields (others as in Fig. 1) | |
|
|
| 图 3. 亚洲范围500 hPa高度场的改进 (其他同图 1) Fig 3. The improvement for the Asian 500 hPa fields (others as in Fig. 1) | |
由于本文研究的是集合预报对中期数值天气预报的改进, 因此重点关注预报第4天以后的改进情况。显而易见, 三组集合预报中, 繁殖长度为2 d的集合预报 (F2) 效果最差。比较F4和F3两种情况, 分别统计这两组集合预报对控制预报的改进相对较好的预报日。例如对全球形势场的均方根误差改进, 第4~5天的预报F3明显好于F4, 而第6~10天则F4明显好于F3(见图 1a)。表 2给出的统计数据表明, 就均方根误差而言, 总的来说F4要略优于F3, 特别是6 d以后的预报。
|
|
表 2 F4和F3对控制预报的改进相对较好的预报日 Table 2 The forecasting days in which with 4-day breeding and with 3-day breeding have better improvements on the control forecast |
3.2 距平相关系数的改进情况
同均方根误差的改进情况不同, 距平相关系数通常是在预报第4天以后才有上述所谓的“绝对”改进, 而对短期天气预报 (1~3 d), 试验结果显示集合预报并不比控制预报更好, 这也说明中期集合预报的增长模繁殖方案并非通过简单移植就可用于短期集合预报, 在一些关键技术上还需做进一步研究。
仍以繁殖长度为3 d的集合预报为例, 从预报第4 d开始, 集合预报的改进程度迅速提升。其中, 北半球 (图 2b) 和亚洲 (图 3b) 形势场的改进最多, 6 d以后的改进率分别达到8%~30%和5%~32%, 全球 (图 1b) 形势场的平均改进程度约为5%~18%。
显而易见, 三组集合预报中, F2效果最差, 表 2给出了F4和F3的预报结果对距平相关系数相对改进情况的统计数据。就整个预报时效而言, F4与F3的预报技巧不相上下。总体来看, F3似乎在3~5 d改进更多, 而F4在6~8 d更占优势。这一结论是否具有普遍性以及更深层次的原因, 有待进一步研究。
4 Talagrand分布检验从平均统计意义上看, 一个理想的集合预报系统中的每个成员的准确率应大致相同[1], 换言之, 某个或某些预报成员不应该总是比其他一些成员准确, 这可称为“成员等同性”(equal-likelihood)。这种“成员等同性”可以用所谓的Talagrand分布来度量[13]。
设在某个预报时效, 某个格点上N个集合成员对某气象变量的预报值按从小到大的顺序排列为x1≤x2≤…≤xN, 则观测值xa必定落在某个区间内。根据上述的“成员等同性”原理, 对足够数目的样本, 观测值落在x1和xi+1之间的概率fi应趋于平均值f, 即
|
(3) |
取北半球20°~60°N为检验范围, 共有G=2448个格点。用于检验的实验个例为L=32个, 则实际有效样本为M=GL。若观测值落在 (N+1) 个区间中的频数分别为S1, S2, …, SN+1, 则可计算得频数Si相对于期望值M/(N+1) 的均方差D以及观测值落在各区间的概率分布fi和概率均方差Q:
|
(4) |
|
(5) |
|
(6) |
其中, 平均概率为f=0.125。图 4是由概率分布fi得到的500 hPa高度场北半球20°~60°N集合预报第6天的Talagrand分布检验图。可见不同繁殖长度的三组集合预报的Talagrand概率分布与理想情况下的概率期望值 (图中以水平断线表示) 都存在一定差距, 相互间区别不明显, 两端值特别是右端值均明显偏大。为量化表征集合预报Talagrand分布对平均概率的偏离程度, 本文还计算了由式 (4)、式 (6) 给出的D值和Q值。显然, 这两个值应当越小越好。表 3给出的计算结果表明, 繁殖长度为3 d的集合预报 (F3) 在Talagrand分布上最为合理, 其次是F4, 但优势并不明显。
|
|
| 图 4. 500 hPa位势高度场的Talagrand分布图 (点划线表示期望概率f=0.125) Fig 4. The Talagrand distribution diagram of 500 hPa geopotential height (dash-dotted line represents the expected probability:f=0.125) | |
|
|
表 3 集合预报相对于期望值的频数均方差D和概率均方差Q Table 3 The frequence root-mean-square (RMS) D and probability RMS Q of ensemble forecasts with respect to the expected values |
5 离散度分析
集合预报离散度可定义为各预报成员相对集合平均值的标准差。一个好的集合预报系统, 其成员间的离散度同集合平均预报的误差大小应大体上相当。这样当集合成员足够多时, 大气的真实状态在大多数情况下就应该被包含在预报的集合当中了。但就现有的一些集合预报系统而言, 它们的离散度一般都偏小[1]。另外, 集合预报的离散度应该反映真实大气的可预报性。如果集合成员间的发散程度 (离散度) 很大, 则未来大气不可预报, 反之则说明预报可信度高。遗憾的是, 这种“离散度-可预报性”的相关关系在现有的大多数集合预报系统中表现并不是很明显[13]。如何在不影响预报准确率的前提下适当增大集合成员间的离散度是目前很多集合预报系统需要解决的问题[14]。
本文计算了北半球500 hPa位势高度场各集合成员相对于集合平均预报的平均离散度, 同时为比较其与集合平均预报误差的相对大小, 给出的是二者之间的比值:
|
(7) |
其中, Sem, Eem为集合成员的平均离散度和集合平均预报的均方根误差, 分别由下式给出:
|
(8) |
|
(9) |
式中, L=32(试验个例数), N=7(集合成员数), 
|
|
| 图 5. 各集合成员相对于集合平均预报的离散度 (给出的是500 hPa位势高度场32组试验个例的平均值, 计算范围取北半球) Fig 5. Spread of the ensemble forecasts relative to respective ensemle mean (shown are average values of 32 examples for geopotential height fields at 500 hPa and the Northern hemisphere is selected to be the analysis area) | |
6 小结
本文利用T63L9全球谱模式和NCEP/NCAR再分析资料对增长模繁殖法中增长模的繁殖长度对集合预报效果的影响进行了分析, 结果表明:不同繁殖长度的集合预报都能够使控制预报的效果得到一定程度的改进, 特别是第4天以后的预报, 改进程度随预报时效稳步提高。但是集合预报对预报场的均方根误差和距平相关系数的改进有所不同, 从平均情况来看, 对前者的改进贯穿于整个预报时效, 而对后者的改进集中在第4天以后。三组不同繁殖长度的集合预报对控制预报的改进还存在差别, 繁殖长度为2 d的集合预报 (F2) 效果最差, F4与F3在整个预报时效上的预报效果不相上下, 但对6 d以后的预报F4略优于F3。本文还对集合Talagrand分布以及离散度情况进行了初步分析。结果表明, 繁殖长度取为3 d似乎最为合理。
需要说明的是, 本文的试验虽然得到了一些定性的结论, 但要使集合预报有更好的预报效果, 还可在增加集合成员数、改变初始扰动大小、采用区域加扰方式、引入物理过程扰动、进行多模式超级集合等方面作工作。这也是今后的工作方向。
致谢 感谢南海舰队海洋水文气象中心的刘玉国和谢璐分担了论文的一部分试验个例的计算。| [1] | 杜钧. 集合预报的现状和前景. 应用气象学报, 2002, 13, (1): 16–28. |
| [2] | Epstein E S. Stochastic dynamic prediction. Tellus, 1969, 21: 739–759. |
| [3] | Hoffman R N, Kalnay E. Lagged average forecasting, an alternative to Monte Carlo forecasting. Tellus, 1983, 35A: 100–118. DOI:10.1111/tela.1983.35A.issue-2 |
| [4] | Toth Z, Kalnay E. Ensemble forecasting at NMC:The generation of perturbations. Bull Amer Meteor Soc, 1993, 74: 2317–2330. DOI:10.1175/1520-0477(1993)074<2317:EFANTG>2.0.CO;2 |
| [5] | Molteni F, Buizza R, Palmer T N, et al. The ECMWF ensemble prediction system:methodology and validation. Q J R Meteor Soc, 1996, 122: 73–119. DOI:10.1002/(ISSN)1477-870X |
| [6] | Palmer T N, Molteni F, Mureau R, et al. Ensemble prediction, ECMWF research department. Tech Memo, 1992, 188: 1–45. |
| [7] | Houtekamer P L, Derome J. Methods for ensemble prediction. Mon Wea Rev, 1995, 123: 2181–2196. DOI:10.1175/1520-0493(1995)123<2181:MFEP>2.0.CO;2 |
| [8] | 于永锋, 张立凤. 基于增长模繁殖法的集合预报初始扰动饱和分析. 大气科学, 2005, 29, (6): 955–964. |
| [9] | 付顺旗, 张立凤, 张铭. 谱模式T63L9正规模初值化方案及试验. 大气科学, 2001, 25, (5): 661–675. |
| [10] | 于永锋. 用增长模繁殖法生成集合预报初始扰动的关键技术研究. 南京: 解放军理工大学气象学院, 2005. |
| [11] | Toth Z, Kalnay E. Ensemble forecasting at NCEP and the breeding method. Mon Wea Rev, 1997, 125, (6): 3297–3319. |
| [12] | 柳崇健, 刘英, 康红文. 一种新的物理耗散技术及其在中尺度数值天气预报模式中的应用. 中国科学 (D辑), 2002, 32, (3): 255–264. |
| [13] | Talagrand O, Vautard R.Evaluation of probabilistic prediction systems.Proc of the ECMWF Workshop on Predictability, Reading, United Kingdom, 1997: 1-25. |
| [14] | Hersbach H, Mureau R, Opsteegh J D. A short-range to early-medium-range ensemble prediction system for the european area. Mon Wea Rev, 2000, 128: 3501–3519. DOI:10.1175/1520-0493(2000)128<3501:ASRTEM>2.0.CO;2 |
2007, 18 (1): 86-93

