应用气象学报  2013, 24 (6): 686-694   PDF    
一种适用于延伸期过程事件预报的检验方法
杜良敏1,2, 柯宗建1     
1. 国家气候中心 中国气象局气候研究开放实验室,北京 100081;
2. 武汉区域气候中心,武汉 430074
摘要: 基于延伸期过程性天气气候事件预报评估的特点,结合实际科研和业务工作的需求,提出了一种适用于延伸期过程预报的检验方法 (简称PPS方法)。该方法参考了常用的预报评分方法准则,借鉴了命中率、假警报率、欧式距离和动态时间弯曲距离等评估检验方法。利用命中率、假警报率和该方法对实际预报中可能出现的有漏报没有空报和既有漏报也有空报这两类情况的多个实例进行对比分析,表明该方法既能考虑大气随着时间的延长预报效果急剧降低的特性,也考虑了相似时间序列度量不精确匹配和形变的问题。利用该方法对1999—2010年冬季冷空气过程业务预报进行检验,结果表明:该方法能清晰表征延伸期预报时段内冷空气过程预报的准确程度,真实反映了目前延伸期预报准确率较低的现状,有较好的适用性。同时,该方法也适用于其他延伸期过程事件预报的评分,具有较好的应用前景。
关键词: 延伸期预报    检验    PPS方法    
A Verification Approach for the Assessment of Extended-range Process Event Prediction
Du Liangmin1,2, Ke Zongjian1     
1. Laboratory for Climate Studies, National Climate Center, CMA, Beijing 100081;
2. Wuhan Regional Climate Center, Wuhan 430074
Abstract: Based on the features of forecast and assessment for extended-range weather and climate events, a verification approach named PPS (process-event prediction score) for process event forecast is proposed, which is combined with the actual requirements of extended-range forecast operation. This approach considers not only the criteria of event forecast scores including hit rate, false alarm rate commonly used in weather forecast operation, but also the advantages of other approaches such as Euclidean distance and dynamic time warping distance.As the forecast period is relatively long, it is very difficult to forecast a process event completely and accurately. Therefore, it is terrifically valuable for adjacent hit, denoting the forecast with one to two days lead or lag, in operational application. Based on the above-mentioned features, the periods of forecast and observation for process events are extended, respectively, and the virtual events are transformed into similar imaginary events. In terms of the accordance extent between forecast and observation, classified score table is constructed. Moreover, weight is used to show the influence of false alarm on forecast score.The features of PPS approach are assessed by couples of cases including "no false alarm but missing" and "missing and false alarm", and the relations of PPS to hit rate and false alarm rate are analyzed. Under the condition of "no false alarm but missing", scores of PPS and hit rate increase with the correct forecast number of days. The PPS score is generally higher than hit rate score, which indicates the increasing score effect from the expansion for process events of observation and forecast. In the case of missing and false alarm, PPS scores are higher than the hit rate score when false alarm rate is low. However, PPS scores will be lower than the hit rate score when false alarm rate significantly increases, which shows the influence of false alarm to PPS score. Combined with the features of process event forecast and the possible influence of false alarm on forecast skill, PPS score objectively reflects the actual skill of forecast. Compared with hit rate and false alarm rate, it is more efficient to represent the process event information involved in a forecast. Therefore, it is more applicable for assessing the skills of process event forecast.By this approach, skills of operational cold air process forecast are assessed during winters from 1999 to 2010. The results show that the PPS score reflects the accuracy of cold air process forecast well. Moreover, the verification actually indicates relatively low accuracy of extended-range forecast today. Above all, this approach can be used to assess extended-range process forecast and shows good prospect for operational application.
Key words: extended-range forecast     verification     PPS approach    
引言

延伸期预报通常指未来10~30 d时间尺度的预报。从大气演变特征看,该时间尺度大气初始场的信息已经减弱,而下垫面 (海洋、积雪、海冰等) 对大气的影响才刚刚开始,因此,延伸期预报是当今天气预报与气候预测的难题。与延伸期预报能力不一致的是对延伸期预报的业务需求在不断增加,如2008年1月我国南方大范围低温雨雪天气[1-2]、近几年我国西南地区频繁出现的气象干旱[3-4]等,均对延伸期预报提出了更高的服务要求。

国际上主要采用动力延伸预报模式开展延伸期时段的试验性预测,如美国的NCEP/CFS (Climate Forecast System)[5-6]、日本的月内数值集合预报系统[7]均利用海气耦合模式或大气环流模式预报未来1个月或更长时间的逐日要素信息。目前,中国气象局国家气候中心利用动力延伸预报模式[8]提供未来1~40 d动力预报产品。而国内一些业务中心结合本地的气候特点,利用大气低频信息结合传统天气图方法开发延伸期预报方法,并应用于汛期降水过程预测业务中[9-10]。相比于天气预报及月、季气候预测业务,国内开展延伸期预报业务较晚,也缺乏适合业务应用的延伸期预报客观检验方法,这在某种程度上限制了对延伸期预报能力的认识和相关业务的深入发展。

度量和评分方法是时间序列分类、聚类、异常发现等诸多数据挖掘问题的基础, 可以有效促进过程预报方法的研究。Flueck[11]在1987年曾提出建立一种评分方法应遵循5条准则。本文借鉴相关文献[12-16],并根据研究和业务应用需求,提出了6条评分方法准则:① 构造一个简单易懂的值来表示评分结果,避免过于复杂带来应用和理解上的困难;② 评分标准要客观;③ 对预报能力的变化有一定灵敏度;④ 评分结果真实反映预报水平;⑤ 评分要有可比性;⑥ 对预报的改进方向有一定的指示作用。

延伸期预报现阶段主要包括未来逐日或若干小时间隔的连续性要素预报,也包括事件及发生时段的预报,这归根结底是对时间序列的预报,在许多研究领域相似性常常与距离联系在一起。时间序列之间的相似性度量可以用距离来表示,距离大小表示两个序列之间的相似程度。时间序列之间距离定义和相似性度量的方法很多,其中欧式距离和动态时间弯曲是两种常见的相似性度量方法。但欧式距离不支持时间的弯曲匹配,动态时间弯曲也因为其平方阶的时间复杂度而无法得到广泛应用。结合延伸期过程预报的特点,考虑过程事件的平移容错性,设计一种适合延伸期预报业务的客观检验方法是本研究的主要目的。

1 检验方法 1.1 命中率和假警报率

对于二分类事件进行检验,命中率和假警报率是常用的方法[17]。当考虑一次事件发生与不发生的状态,命中率反映了预报的准确性,假警报率反映了达到这一预报能力包含空报的比例。对于一个预报而言,需要利用命中率和假警报率来共同表征其技巧,单独采用命中率或假警报率均不能很好地反映预报水平。这种特点也决定了该检验方法虽然客观,但在业务上使用其检验信息并不直观。命中率 (RH) 和假警报率 (RFA) 可以分别用式 (1) 和式 (2) 表达,其中,abcd的含义如表 1所示。

表 1 双态分类联列 Table 1 Classification table for double state

(1)
(2)
1.2 欧式距离

算法实现简单,应用广泛,易于理解,但不适用于过程预报对于事件时间平移的容错性。

1.3 动态时间弯曲

动态时间弯曲用于计算两个时间序列之间的最大相似性,即求最小距离。这种计算方法是时间序列相似性度量所特有的[18-19], 其计算公式如下:

(3)

式 (3) 中, Wk是两个序列Q, C对应点qi, cj的距离d(qi, cj),K为较长序列的长度。通常采用迭代方法计算。可以看到, 计算DTW距离的时间复杂度为平方阶O(n2), 远高于计算欧氏距离的线性阶O(n), 但DTW距离不要求两个序列等长, 且两个时间序列求差值的点可以一对多或多对一。在实际应用过程中DTW虽然算法较为复杂,但对于过程事件的平移容错性较好,在时间序列的模式识别和匹配评估方面得到了较为广泛的应用。

1.4 过程事件检验方法

延伸期预报的时段较长,距离起报日的过程事件的预报难度大,而在实际应用过程性事件的预报中偏早或偏晚1~2 d也具有一定的参考价值。从前面的介绍可以看出,命中率和假警报率算法实现简单,检验非常客观,但在业务上使用其检验信息并不直观,而且其检验不区分预报的难易程度;与之类似地,欧式距离评分简单易于理解,但不考虑延伸期业务预报的容错性问题。动态时间弯曲对于过程性事件的平移容错性较好,但算法较为复杂,不适合基于事件的过程度量和比较应用,但是其非固定相似匹配的思路可以供借鉴参考。本文将结合上述检验方法的优势,针对延伸期过程预报的特点,提出一种适合延伸期预报业务的客观检验方法。在预报业务中,与实际情况存在多大相似度可视为正确,就涉及到容错性问题,如何考虑一个延伸期过程预报的容错性,首先需要考虑如何准确地描述出一次过程的预报和实况。

本文过程事件的定义如下:如在预报时段内的某日发生了降温或降水等事件,称当日发生了一次过程事件。降温事件指当天的日平均气温明显低于前一天的某个阈值或自定义的其他条件;降水事件则定义为当日某个站点出现降水大于1 mm或其他条件,而这些事件的定义可以根据实际的科研业务需求来制定。

为了更清晰地描述预报时段内的天气过程事件,可以用“1”和“0”分别表示单位时间是否出现了这一次事件,考虑到延伸期时间段较长且过程性天气事件难以准确预报的特点,借鉴时间度量方法的事件可扩展性,如前文描述的动态时间弯曲距离,可以将一次过程事件的时段进行扩展,将出现事件发生的前后两天的序列分别赋为非零的值,在本文中赋值为0.5(图 1)。这一方面扩大了事件发生的时间跨度,增加了参与检验的时间范围,另一方面也体现出扩展的前后2 d虚拟事件与实况事件有所差异,充分考虑了在延伸期过程事件的预测中偏早或偏晚1~2 d对实际应用也具有一定的参考价值的特性,增强了过程事件表征的客观性。

图 1. 预报与实况预处理 Fig 1. Prediction and observation pretreatments

在考虑预报时隙的基础上,如何度量预报评分是需要考虑的问题。以降水事件的实况为例,首先要区分预报时段内是否出现降水过程,当实况无降水过程时,利用命中率进行评分。当实况出现降水过程,用分级方法进行评分 (表 2)。为了突出过程性预报的针对性,主要是针对实况出现降水过程进行评分,而对于实况与预报均无降水并不进行评分。评分原则基本可以描述如下:① 实况出现降水事件,预报降水评分为100;② 实况出现降水事件,实况的前1 d或后1 d预报降水 (0.5) 评分为80;③ 实况出现降水事件,相差1 d以上预报降水评分为0。

表 2 评分分级表 Table 2 Classification table for prediction score

需要说明的是,当实况与预报相差2 d时,扩展时隙后,出现实况与预测均为0.5情况时评分为0,与评分原则③ 一致。

为定量表示过程事件检验方法 (简称PPS方法) 的检验结果,定义评分S,其计算公式如下:

(4)

式 (4) 中,Pi为降水时段单日的评分, N为实况出现降水的总日数,Nf为预报降水的总日数。当预报日数大于实况日数的2倍时,对评分进行加权,这一方面考虑了延伸期过程预报的难度,另一方面考虑了空报对预报的影响。对于延伸期天气过程,完全准确的预报非常困难,实际预报中空报难以避免,因此,允许出现一定比例的空报,也符合延伸期预报业务特点。但如果不对空报程度进行限制,完全忽略空报的影响,预报员可以预报所有时段均出现降水过程,而其评分却不受影响,这显然不合理。因此,空报对评分的影响是评分方法需要考虑的问题,当空报达到何种程度需要考虑其影响,这里选取降水日数预报与实况之比大于2时进行加权,这是经过评估检验后确定的系数,基本符合延伸期预报的特点。

先以只有漏报没有空报的情况为例,来初步评估这个评分方法的表现。为描述和比较方便,此处只有漏报没有空报的这一类例子用C1表示。假设在预报时段内出现了3次降水过程,每次降水过程均为2 d,给出评分随预报正确日数增加的变化情况 (图 2)。可以看出,扩充降水时隙后,参与评分的天数明显增加。以图 2a为例,预报正确1 d时,有3 d参与评分 (灰色柱状图)。当第2次降水过程有1 d报对时,又有3 d参与评分。对于预报正确日数从1 d增加到6 d,对应参与评分的日数分别为3 d,6 d,9 d,10 d,11 d和12 d,评分分别为23, 47, 70, 80, 90, 100。这个例子中,原始系列的预报中不存在空报现象,而实际延伸期预报中,不存在空报的可能性很小。

图 2. 无空报情况下不同正确预报日数对应的评分 (a)1 d, (b)2 d, (c)3 d, (d)4 d, (e)5 d, (f)6 d Fig 2. Scores of different hit prediction without false alarm (a)1-day hit, (b)2-day hit, (c)3-day hit, (d)4-day hit, (e)5-day hit, (f)6-day hit

以既有漏报也有空报的情况为例,此类例子用C2表示,为易于理解此处给出预报正确和相邻预报正确日数为1:1的几个特例。图 3给出了完全预报正确和相邻预报正确日数从1 d到6 d评分的变化,与C1不同的是,从预报的原始系列看,存在预报正确日数,同时也存在空报现象。而从参与评分的日数看,其演变趋势分别是3 d,6 d,9 d,10 d,11 d和12 d,评分别为22, 43, 65, 73, 82, 90。虽然从评分日数的变化看,和前面的例子相似,但可以看到不同时间单位上的评分有所差异,这也体现了空报对评分的影响。

图 3. 原始系列预报正确与相邻预报正确日数为1:1对应的预报评分 (a)1 d, (b)2 d, (c)3 d, (d)4 d, (e)5 d, (f)6 d Fig 3. Prediction scores for the ratio of 1:1 between hit and adjacent hit for original time series (a)1-day hit, (b)2-day hit, (c)3-day hit, (d)4-day hit, (e)5-day hit, (f)6-day hit

1.5 SRHRFA在过程预报中的实际应用对比

图 4a反映的是图 2图 3中评分为100的日数, 图 4b反映的是图 2图 3中评分为80的日数。可以看出,在图 4a中随着预报正确日数的增加,图 2中有漏报没有空报的情况 (C1) 和图 3既有漏报也有空报的情况 (C2),评分为100的日数均呈单调递增的趋势,但有漏报没有空报 (C1) 的斜率更大,且有漏报、没有空报 (C1) 情况下评分为100的日数均大于既有漏报也有空报 (C2) 的情况。相应地,C2预报评分为80的日数均大于C1(图 4b)。这一方面体现了扩展观测与预报时隙后,考虑了邻近预报正确对评分的贡献,另一方面,也体现了邻近预报正确与完全预报正确的差异。

图 4. 不同预报正确日数情况下参与评分日数 (C1表示有漏报无空报, C2表示预报正确与相邻预报正确日数为1:1的情况) (a) 评分为100的日数对比, (b) 评分为80的日数对比 Fig 4. Involved days of score under different hit predictions (C1 represents no false alarm, C2 represents the ratio of 1:1 between hit and adjacent hit) (a)100 points, (b)80 points

图 5给出了SRHRFA的关系。无空报的情况下,随着预报正确日数的增加,SRH均呈现递增趋势,但也可以看出,S高于RH评分 (除了评分为0和100外),这体现了扩展过程事件预报和实况的时隙后带来的评分增值效应 (图 5a)。当预报中存在空报现象时,空报对S有所影响。当有空报也有漏报且预报正确与相邻预报正确日数为1:1,正确日数和相邻日数均大于3 d时,评分增长趋势减缓;当有空报也有漏报且预报正确与相邻预报正确日数为1:1,正确日数和相邻日数均大于5 d时,S小于RH,同时可以看到,RFA超过20(图 5b)。可见,S综合了RHRFA的评分信息,假警报率对S有影响。当假警报率较小时,S高于RH,当假警报率显著上升时,其对S影响也变得显著,可能导致S低于RH

图 5. SRHRFA的关系 (a) 无空报,(b) 既有空报也有漏报且预报正确与相邻预报正确为1:1 Fig 5. The relations between S and RH, RFA (a) no false alarm, (b) the ratio of 1:1 between hit and adjacent hit

从前面的例子可以看出,PPS方法结合了过程事件预报的特点,考虑了空报对预报技巧的影响,较为客观地反映了过程事件预报的真实水平,与命中率和假警报率相比有更好的适用性,能更加有效表征预报内包含的过程信息。而PPS方法是否适用于实际预报业务,下面考察其在冷空气过程业务预报中的应用。

2 冬季冷空气过程业务预报检验

冷空气过程是我国冬半年天气预报及气候预测的关注重点。国家气候中心每年9月至次年4月于下旬发布下一个月中国区域冷空气过程预报意见,其时间尺度与延伸期预报相似。

图 6给出了1999—2010年 (指12月对应的年份) 冬季逐日冷空气实况与预报频次分布,反映了逐月冷空气预测的总体特征。12月冷空气月内变化特征比较显著,上旬、中旬和下旬分别有明显的峰值期,最大频次为7 d;预报对上旬和中旬冷空气明显偏多的时段总体把握较好,但对下旬的峰值期预报有偏差。1月冷空气月内分布比较均匀,上旬、中旬和下旬虽然均出现频次相对高的时段,但最大频次仅为4 d,变率较12月明显偏小;预测对峰值时段的趋势把握较好,但预报存在明显高估现象。2月冷空气过程在下旬最显著,22—27日出现冷空气的频次均达到或超过4次,为2月冷空气多发时段,而且上旬后期 (8—10日)、中旬中期 (14—16日) 各有冷空气相对活跃的时段;预报对2月下旬冷空气多发时段的把握很好,其次对2月上旬后期冷空气发生的另一高值期有所反映,而中旬冷空气出现频次较高的时段预报存在较大偏差,而且存在明显高估的现象。

图 6. 1999—2010年冬季逐月冷空气实况与预报频次 Fig 6. Frequency of observed and predicted monthly cold air in winter from 1999 to 2010

前面统计了1999—2010年冬季逐日冷空气过程出现的频次及相应的预报情况,但它仅反映了冬季逐日冷空气出现频次实况与预报的统计特征,并未反映出冬季冷空气过程的年际变化特征。因此,利用本文提出的PPS方法对1999—2010年冬季逐月冷空气过程预报结果进行检验 (图 7)。由图 7可以看出,不同月份,冷空气预报评分 (S) 差异很大,12月预测最好的年份为2010年,评分为86,而1999年和2000年评分为21,并列最低评分;1月最高评分为59,出现在1999年;历史最低评分为0,出现在2006年;2月最高评分为66, 出现在2008年,最低评分为0,出现在1999年。对这12年的预报评分进行算术平均,12月、1月和2月的评分分别为46,27和39。比较而言,检验时段12月评分最高,2月次之,1月最低。但也可以看出,3个月的平均评分均小于50,充分反映了目前业务上冷空气过程预报仍存在很大的难度。对于1月而言,冷空气过程在月内分布比较均匀,给预报带来的难度更大,预报评分也充分反映了这种特征。

图 7. 1999—2010年冬季逐月冷空气过程预报评分 Fig 7. Monthly prediction score for cold air in winter from 1999 to 2010

3 结论与讨论

本文针对延伸期过程事件预报的特点和客观化检验的需求,提出了一种延伸期过程事件检验方法 (简称PPS评分),对该检验方法应用效果分析,得到如下结论:

1) 该方法综合考虑了目前延伸期过程事件预报难度大,而预报的过程事件略偏早或略偏晚也具有参考价值的特性,将过程事件在时间序列上进行延展,既借鉴了预报的命中率和假警报率的评分方法,也参考了动态时间弯曲距离度量中不精确匹配和形变的特点,为目前延伸期过程事件评分提供了一种客观方法。

2) 与命中率和假警报率对比分析表明,PPS方法结合了过程事件预报的特点,考虑了空报对预报技巧的影响,较为客观地反映了过程事件预报的真实水平,与命中率和假警报率相比有更好的适用性,能更有效地表征预报包含的过程事件信息。

3) PPS方法在中国冬季冷空气过程业务预报中的应用表明,利用该检验方法,能够清晰表征冷空气过程预报的准确程度,给过程预报的评估提供了有效度量方法,也真实反映了目前延伸期冷空气过程预报水平仍较低的特点,在延伸期冷空气预报业务上有较好的适用性。

PPS方法解决了目前科研业务中延伸期过程事件预报常规检验方法适用性不强的问题,实现较为简便、易于理解,也可以应用于延伸期其他过程事件的检验。在对过程事件有无评分基础上,对图 1中的事件扩展方式、表 2中的评分值和式 (4) 的参数作调整,可以对较长时间段内过程事件 (降水、降温、持续低温等) 的量级提供专项的评分设定,因此PPS方法具有较好的业务应用前景。

致谢 本文得到了中国气象局短期气候预测创新团队的大力支持,特此致谢!
参考文献
[1] 李崇银, 杨辉, 顾薇. 中国南方雨雪冰冻异常天气原因的分析. 气候与环境研究, 2008, 13, (2): 113–122.
[2] 张勇. 南方低温雨雪冰冻灾害历史罕见. 气象, 2008, 34, (4): 132–135. DOI:10.7519/j.issn.1000-0526.2008.04.019
[3] 宋洁, 杨辉, 李崇银. 2009/2010年冬季云南严重干旱原因的进一步分析. 大气科学, 2011, 35, (6): 1009–1019.
[4] 琚建华, 吕俊梅, 谢国清, 等. MJO和AO持续异常对云南干旱的影响研究. 干旱气象, 2011, 29, (4): 401–406.
[5] Saha S, Nadiga S, Thiaw C, et al. The NCEP Climate Forecast System. J Climate, 2006, 19, (15): 3483–3517. DOI:10.1175/JCLI3812.1
[6] Saha S, Moorthi S, Pan H-L, et al. The NCEP Climate Forecast System Reanalysis. Bull Amer Meteor Soc, 2010, 91, (8): 1015–1057. DOI:10.1175/2010BAMS3001.1
[7] Japan Meteorological Agency.Outline of Operational Numerical Weather Prediction at the Japan Meteorological Agency.Appendix to WMO Numerical Weather Prediction Progress Report.2007.
[8] 陈丽娟, 李维京. 月动力延伸预报产品的评估和解释应用. 应用气象学报, 1999, 10, (4): 486–490.
[9] 孙国武, 信飞, 陈伯民. 低频天气图预报方法. 高原气象, 2008, 27, (增刊): 64–68.
[10] 孙国武, 信飞, 孔春燕, 等. 大气低频振荡与延伸期预报. 高原气象, 2010, 29, (5): 1142–1147.
[11] Flueck J A.A study of some measures of forecast verification.10th Conf Probability and Statistics in Atmospheric Sciences, Edmonton, AB, Canada, Amer MeteorSoc, 1987: 69-73.
[12] 陈辉, 黄卓, 田华, 等. 高温中暑气象等级评定方法. 应用气象学报, 2009, 20, (4): 451–457. DOI:10.11898/1001-7313.20090409
[13] 周兵, 郭幼君, 何金海. 降水概率预报评分方法分析. 南京气象学院学报, 1999, 22, (3): 367–373.
[14] 丁金才. 天气预报评分方法评述. 南京气象学院学报, 1995, 18, (1): 143–150.
[15] 张强, 熊安元, 张金艳. 晴雨 (雪) 和气温预报评分方法的初步研究. 应用气象学报, 2009, 20, (6): 692–698. DOI:10.11898/1001-7313.20090606
[16] 罗阳, 赵伟, 翟景秋. 两类天气预报评分问题研究及一种新评分方法. 应用气象学报, 2009, 20, (2): 129–136. DOI:10.11898/1001-7313.20090201
[17] 王晨稀. 短期集合降水概率预报试验. 应用气象学报, 2005, 16, (1): 78–88. DOI:10.11898/1001-7313.20050110
[18] 刘懿, 鲍德沛, 杨泽红, 等. 新型时间序列相似性度量方法研究. 计算机应用研究, 2007, 24, (5): 112–114.
[19] 吴学雁, 黄道平. 基于事件的时间序列相似性度量方法. 计算机应用, 2010, 30, (7): 1944–1946.