应用气象学报  2010, 21 (3): 379-384   PDF    
气候预测PS评分对业务影响
田武文, 吴素良, 王娜     
陕西省气候中心, 西安 710015
摘要: 通过对中国气象局现行PS评分办法与理论PS评分的对比,发现现行评分办法对理论PS评分进行了两处修改。一处修改是扩大了预报正确的评定范围,但在PS评分办法实施后,在气候预测业务中,却出现了只预报2个等级的普遍现象,即在能获得高分的同时却降低了预报能力。另一处修改是按统一的要素距平划分等级,结果出现了预报对象的等级分布随着测站、月份变化而变化的现象。预报对象的等级分布是无技巧预报评分的决定因素,而预报技巧是由PS评分与无技巧预报评分之差决定的。在无技巧预报评分有差异的情况下,不同月份、不同区域之间的PS评分便失去了对比的基础。该文针对上述问题,对现行PS评分办法提出了修改建议。
关键词: 月气候预测    PS评分    无技巧预报    预报正确评定范围    等级分布    
The Impact of PS Method on Operational Climate Forecast
Tian Wuwen, Wu Suliang, Wang Na     
Shaanxi Provincial Climate Center, Xi'an 710015
Abstract: In the operation of climate forecast, scoring methods of PS, SS, ACC are widely used. Among them, SS and ACC, known as technique scores, are defined as the similarity between forecast and realistic results when comparing with non technique forecasts or the expectations of non technique forecasts equal to zero. The technique scores are basically originated from the evaluations in the forecast results from different populations and thus provide a basis for impartial comparisons. However, PS is considered as the concordance of forecast grades and are not compared with technique scores, so PS is not technique scores. In China, PS is of greater importance in climate forecasts. The PS of short term climate forecasts by each province are performed every year in the China Meteorological Administration and the ranks of monthly precipitation, mean temperature and total forecasting ability are released. The impact of present PS method used on the climate forecast is analyzed. The results show that the theoretical PS is a score of consistence rate based on accurate forecasts on the grades; the foundational requirement of the PS inter comparison is that they share the same probability distribution in ranking. Through comparisons between the present and theoretical PS method, it's also found that the present scoring method is taken as the theoretical scoring method with two modifications which makes the present PS method actually become the concordance of weighted anomalies. The first revision has extended the range of forecast accuracy assessment, in which level 1, 2, 5 and 6 have extended to three grades, level 3 and 4 have extended to four grades, and weight coefficients are added for abnormal grades. However, only two grades are forecasted in climate operational forecast after PS method performs. Based on the examples of the annual precipitation extremes occur in Shaanxi Province, the random forecasts on level 2 and 6 are evaluated and compared. The results show that 2 level forecasts can score higher, while reducing the forecast capability. Another revision is to divide the grades based on the uniform anomalies of elements, which leads to the forecast grade distributions varying between the stations and months. The distribution of forecast grades of is the dominant factor of non technique forecasting scores. Moreover, the forecasting skill is actually determined by the differences between PS and non technique prediction scores. In the cases of different non technique forecasting scores, the foundation for comparisons becomes less stable to use PS in different months and stations. Some suggestions are introduced to the prevailing PS method to solve these problems.
Key words: monthly climate forecast     PS method     zero technique prediction     assessment scope of forecast accuracy     grade distribution    
引言

在气候预测业务中, 最常用的评分方法是PS, SS, ACC3个评分指标[1-5]。在我国, PS评分的位置相对重要。每年都由中国气象局对各省的短期气候预测结果进行PS评分, 并公布月降水量、月平均气温的年度排名及综合预测能力排名。

预报评分的目的是将不同区域 (测站) 或不同月份的预报结果放在同一个平台上, 对比预报技巧。在上述3个评分指标中, SS, ACC是技巧评分。技巧评分是指在评分时, 与某种无技巧预报做了比较, 或者无技巧预报的期望值为0时, 预报与实况的相似程度。技巧评分为来自于不同总体的预报结果的评估, 提供了一个公平比较的基础。PS评分是一种预报级别一致率评分, 由于在评分中没有与无技巧评分比较, 所以PS评分不是技巧评分。

1 理论PS评分

在对气候预测结果的评估中, PS评分可以简单地描述为[1]:

(1)

式 (1) 中, N为预测总次数, P为预测正确次数, PS为预报评分。在气候预测中, 往往将预报对象划分为若干个等级, 预报正确次数, 是指预报与实况级别完全一致的次数。

PS评分不是技巧评分。要利用PS评分判断预报技巧的高低, 就需要和某种无技巧预报进行比较。无技巧预报通常采用随机预报方法。随机预报是假设在做无技巧预报时, 预报各等级的概率与实况各等级的概率分布相同, 这时的评分称为随机预报评分PSN。通过对比, 如果PS评分高于随机预报的PSN评分, 才可以得出预报是有技巧的结论。

根据上述分析, 技巧评分PSS可以表述如下:

(2)

式 (2) 中, N为预测总次数, P为预测正确次数, C为随机 (无技巧) 预报正确次数, PSS为技巧PS评分。PSS评分由两项组成, 第1项为预报PS评分, 第2项为无技巧预报评分PSN。式 (2) 说明, 只有在无技巧预报评分相同时, 测站 (区域) 之间的PS评分才可以用于比较, 评分之差这时才代表了其预报技巧的差别。直接利用PS评分结果进行预报能力排名, 就是假定参与对比的预报对象之间, 无技巧预报评分相同而做的简化处理。

以三级PS评分制为例, 将预报对象分为偏少 (低)、偏多 (高) 和正常3个等级。假设各等级的概率分布分别为0.3, 0.3, 0.4。其随机预报准确率列于表 1

表 1 三级评分制下随机预报准确率 Table 1 The precision of random forecast in 3-degree PS scheme

由于随机预报与实况观测是相互独立的, 所以各等级的随机预报准确率, 等于预报该等级的概率与实况该等级出现的概率之积。将表 1中对角线上各等级的概率相加, 得出随机预报评分为34。也就是说, 在100次预报中, 正确的次数在34次之上, 才被认为有预报技巧。

表 1不难看出, 随机预报的PS评分随着等级分布的变化而变化。例如在表 1中, 如果三级的概率分布为0.1, 0.8和0.1, 则随机预报的PS评分就等于66。换句话说, 随机预报的PS评分依赖于各等级的概率分布。为了方便对来自不同总体的预报对象进行比较, 通常要求其等级分布遵循相同的概率分布。只有这样, 不同地区、不同月份之间, PS评分之差才代表了其预报技巧的差别。

通过上述分析可知:理论PS评分是在只有预报正确级别的情况下才算正确, 它表明其评分的性质是等级一致率评分; PS评分相互比较的基础, 是等级分布遵从相同的概率分布。

2 我国现行的PS评分标准

我国现行的PS评分, 是在理论PS评分的基础上, 做了某些修正的PS评分。评分主要针对降水量和气温, 规定月降水量按距平百分率划分等级, 月平均气温按距平划分等级。距平是指预报对象与30年气候均值的偏差。气候平均值每隔10年更换一次。

月平均气温分为六级。月降水量的分级为:当月平均降水量R≥50 mm时, 分为六级; 当月平均降水量为10.0~49.9 mm时, 分为四级, 当月平均降水量小于10mm时, 不评定。本文以六级评分制为例来说明。在六级评分制中, 趋势预报用语和分级标准见表 2

表 2 六级评分制趋势预报用语和分级标准 Table 2 The diction and grade of trend forecasting in the 6-degree PS scheme

表 2可以看出, 现行的PS评分标准对预报对象的分级设置做了修改。在理论PS评分中, 预报对象的分级设置是按照相同的概率分布设置, 而在现行PS评分标准中, 分级设置则按照预报对象与30年气候均值距平大小设置。

六级评分制单站得分见表 3。从理论PS评分与表 3的比较不难看出, 现行PS评分对预报正确性的判定标准做了修改。在理论PS评分中, 只有预报级别与实况级别完全一致时, 才算预报正确。而在现行PS评分中, 评分正确的等级延伸了。其中1级、2级、5级、6级延伸为3个等级; 3级和4级延伸为4个等级。对异常等级的预报, 还增加了预报成功的权重系数。

表 3 六级评分制单站得分表 Table 3 The score of single station in the 6-degree PS scheme

对于多个测站的预报, PS评分的计算公式为:

(3)

式 (3) 中, PS为预报评分, N为总站数, N0为预报与实况距平符号相同的站数或符号不同但相差只有1级的站数之和。N1为预报与实况同为2级、5级的站数, N2为预报与实况同为1级、6级的站数, P1=0.5为2级、5级预报成功加权系数, P2=1.0为1级、6级预报成功加权系数。

对上述两种PS评分进行对比, 可以看出, 现行PS评分在两个方面对理论PS评分做了修改, 一是扩大了预报正确性的判定范围; 二是在全国范围内, 使用统一的距平标准划分等级。在现行PS评分中, 对异常级别的预报还给予了一定的加分 (即更大的权重)。经过上述修改, 现行PS评分实际上成为一种加权的距平符号一致率。如果不考虑异常级的加分, 它就退化为距平符号一致率。

3 现行PS评分可能出现的问题

针对上述两个方面的修改, 下面结合预报业务中一种普遍现象的出现以及全国160个测站的统计数据, 分别分析在现行PS评分中可能出现的问题, 并进行相应的讨论。

3.1 扩大正确性判定范围

近年来, 在气候预测会商中, 出现了一种普遍现象, 就是各区域、省级的预报结论中, 只出现偏多或者偏少两个等级的预报, 其他级别则很少出现。下面通过对现行PS评分中, 两种预测策略引起的随机预报准确率的差异, 分析出现这种现象的原因。

为了比较在我国现行的PS评分中, 六级随机预报与六级分布下只做3级和4级预报时这两种预报策略的随机预报准确率的差异, 下面给定一个等级分布概率, 用于两种预测策略的比较。假设1~6级的分布概率分别为0.1, 0.2, 0.2, 0.2, 0.2, 0.1。参考六级评分制中单站得分表 (表 3), 在不考虑权重情况下, 将六级评分制随机预报的准确率列于表 4

表 4 六级评分制下的随机预报准确率 Table 4 The precision of random forecast in 6-degree scheme

表 3可知, 表 4中所列的概率, 均为预报判定为正确的概率 (表中省略了预报判定为错误的概率)。将表 4中的全部概率相加, 可以得出其随机预报评分为58%。

在实况等级分布与表 4相同的情况下, 只预报3级、4级两个等级 (概率均为0.5), 则随机预报准确率变化如表 5所示。

表 5 只做3级和4级预报时六级评分制下的随机预报准确率 Table 5 The precision of random forecast of the 3rd degree and the 4th degree in the 6-degree PS scheme

表 5可以算出, 在只预报3级和4级的情况下, 随机预报的PS评分为70, 它比六级随机预报PS评分高出12。也就是说, 仅仅利用评分规则, 无技巧预报评分就能高于目前全国气候预测的平均水平 (2007年全国降水PS评分平均为67.8, 2008年为66.0)。

在气候预测业务中, 是按六级预报还是按二级预报, 反映了预报员是侧重预报准确率还是侧重决策服务期望之间的矛盾心态。预报员所持的心态, 受PS评分的影响。下面以陕西省实际业务中的例子, 说明PS评分对预报员心态的影响。

2003年8月陕西省降水异常偏多, 结果导致了渭河流域大洪水的发生。降水实况是:在陕西省的10个气候区中, 1个区降水偏少3%, 属于略少级; 2个区偏多20%~50%, 属于偏多级; 其余7个区偏多90%以上, 属于特多级。对于上述实况, 如果给出两种预报策略:第1种是陕西全省降水特多 (侧重决策服务期望), 第2种是陕西全省降水正常略多 (侧重预报准确率), 要求评估两种预报结论的优劣。

如果分级仍以现行PS评分分级, 用理论PS评分 (只有报对级别才算正确) 评估预报技巧, 则第1种预报得分为70;第2种预报得分为0。显然第1种预报优于第2种预报。

利用现行PS评分的过程如下:对于第1种预报, 榆林站预报错误, 因此在式 (3) 中, N0=9;7站异常偏多, 加权系数为7×1.0。因此, PS=(9+7×1.0)÷(10+7×1.0)×100=94.1;而对于第2种预报, 虽然1个区的趋势预报不正确, 但由于其预报与实况只相差了1个等级, 仍然评定为正确; 在10个区中, 没有1个异常级别完全报对, 没有加权分。其评分PS=10÷10×100=100。评分结果显示, 第2种预报优于第1种预报。

上述分析说明, 对于两种不同预报策略的比较, 理论PS评分与现行PS评分给出的评估结论截然相反。

虽然以上两种预报策略是以假设为基础的, 但它至少说明, 在异常气候事件出现时, 利用现行PS评分标准评估, 二级预报 (侧重预报准确率) 往往能得到更高的PS评分。由此可以说明, 在气候预测会商中, 只预报两个等级这种现象的出现, 有可能是预报准确率与决策服务期望之间的矛盾所导致的结果。

3.2 预报对象的实际等级分布

本文第1章中指出, PS评分要作为一个预报技巧的比较平台, 就要求来自不同总体的预报对象, 等级遵循相同的概率分布。在现行PS评分中, 月降水量和月平均气温的等级划分, 是按照全国统一的距平标准划分的[6-16]。这就可能造成同一地区不同月份之间、同一月份不同测站之间, 等级分布存在差异。下面结合月降水量和平均气温资料, 对预报对象等级分布的差异进行统计分析。

3.2.1 同一地区不同月份之间等级分布的差异

对于全国160个测站, 利用1971—2000年30年的气候要素, 计算出气候均值。将1971—2009年 (包括9年使用期) 共40年, 各月的降水量和气温两个要素, 按现行PS评分规定的距平标准划分等级, 计算出各等级的频率分布。统计结果说明, 月平均气温等级的频率分布随月份变化而变化。对于不同月份, 等级分布频率存在明显差异。夏季3级、4级的频数多, 冬季1级、6级的频数多。最大差异出现在2月和8月 (表 6)。

表 6 全国160站月平均气温等级分布频数与频率比较 Table 6 The 6-degree frequency of monthly mean temperature on each level at 160 station

按现行PS评分, 将上述频率分布代入表 4(不考虑权重分), 就可以计算出相应月份随机预报准确率。2月和8月的随机预报准确率分别为0.523和0.589, 相差0.066。

在月降水量PS评分中, 各等级的频率分布也存在类似的现象。但由于各月4级、6级评分的样本数不固定, 无法给出表 4的结果。

从以上分析可以看出, 对全国160个站的PS评分, 由于等级的频率分布随着月份的变化而变化, 随机 (无技巧) 预报准确率也会发生相应的变化, 因此, 不同月份之间的PS评分便失去了对比的基础。

3.2.2 同一月份、不同测站之间各等级分布的差异

同样使用上述资料, 按现行PS评分的等级划分标准, 对同一月份、不同测站进行等级划分, 并统计各等级的频率分布。结果发现:同一个月, 无论是月降水量还是月平均气温, 对于不同的测站, 等级概率分布的差异也很大 (表 7)。

表 7 6月和7月不同测站间各等级的频率、概率分布 Table 7 The comparison of 6-degree frequency and probability between different stations in June and July

表 7中各站的频率分布数据分别代入表 4, 即可求出对应测站的随机预报准确率。对于7月气温, 杭州站的随机预报准确率为0.537, 而阳江站则达到0.815, 阳江站的随机预报准确率明显高于杭州站。对于6月降水量, 齐齐哈尔的随机预报准确率为0.521, 而康定站则达到0.676。康定站的随机预报准确率明显高于齐齐哈尔站。

以上分析说明, 在同一月份、不同测站之间, 随机预报准确率出现了较大差异, 因此, 同一月份、不同测站之间的PS评分也就失去了对比的基础。

分析也说明, 由于现行PS评分对分级设置的修改, 使同一区域不同月份、同一月份不同测站的等级分布存在差异, 由此导致随机预报PS评分存在差异, 因此, 直接利用PS评分比较预报技巧, 就有可能得出不客观结论。

4 对现行PS评分办法的修改建议

以上分析说明, 在现行PS评分办法中, 存在两个方面的问题。一是由于评分标准中, 扩大了正确性判定范围, 评分规则就能够被用于取得较高的成绩, 代价是降低了预报质量。二是另行规定了分级设置, 造成预报对象的等级分布随着月份、测站的变化而变化, 从而影响到利用PS评分比较预报技巧的客观性。

由于上述问题的存在, 现行PS评分办法便难以在业务中发挥其应有的作用。因此, 有必要改进评分办法。改进建议如下:

①将分级标准改回理论PS评分的分级标准, 按照样本值的大小顺序划分等级。将气象要素由小到大排列, 按规定的频率划分等级。这种分级方法, 能保证同一地区不同月份之间、同一月份不同测站之间等级分布频率相同, 这样PS评分便具有可比性。

②对评分表作适当变动:在表 2中, 将预报3级而实况为1级、预报4级而实况为6级时判定为错误; 在预报与实况只相差1个等级时, 得分应低于100;保留预报成功的加权系数。

以上只是根据气候预测业务中出现的问题和对实况数据分析的角度, 对现行评分办法的改进提出了一些建议, 仅供参考。至于究竟如何改进, 还有赖于组织有关专家考虑各种因素进行综合研究, 提出相应的改进方案。

5 小结

通过对理论PS评分与现行PS评分办法的对比, 发现现行PS评分办法对理论PS评分进行了两个方面的修改。一个方面的修改是扩大了预报正确的评定范围。由此却出现了在气候预测业务中, 只预报两个等级的现象。通过对六级随机预报与六级分布下二级随机预报评分的对比, 说明二级预报做法能够提高随机预报的准确率。结合陕西省降水异常偏多年的实例, 对两种预报策略进行了评估, 结果说明二级预报评分较高, 即二级预报往往能得到更高的PS评分, 代价却是降低了预报质量。另一方面的修改是按要素距平划分等级, 结果形成了等级分布随着测站、月份的变化而变化。预报技巧是由PS评分与随机预报评分之差决定的, 而随机预报评分是由预报对象等级的概率分布决定的。等级分布的差异导致随机预报准确率存在差异, 这种差异使得不同测站、不同月份之间的PS评分失去了直接对比的基础。

致谢 本文完成过程中承蒙国家气候中心赵振国研究员指正, 特此致谢。
参考文献
[1] 陈桂英, 赵振国. 短期气候预报评估方法和业务初估. 应用气象学报, 1998, (2): 178–185.
[2] 王绍武, 朱锦红. 短期气候预报的评估问题. 应用气象学报, 2000, 11, (增刊): 1–10.
[3] 王建国, 吴炜, 徐法彬. 一种定量预报评分方案研究. 气象, 2004, 30, (10): 27–29.
[4] 黄海洪, 郑凤琴, 孙崇智. 一种新型降水预报评分方法. 气象, 2004, 30, (9): 35–38.
[5] 王遂缠, 吉慧敏. 重要灾害性天气评分系统. 气象, 2004, 30, (8): 42–45.
[6] 王雨, 闫之辉. 降水检验方案变化对降水检验评估效果的影响分析. 气象, 2007, 33, (12): 53–61.
[7] 马振锋, 杨佑洪. 成都区域气象中心短期气候预测业务评估. 气象, 2001, 27, (12): 29–32.
[8] 李辑, 金巍, 赵连伟. 辽宁省近10年短期气候预测质量评估检验. 气象, 2007, 33, (4): 82–87.
[9] 吉庭艳. "八五"期间我省几种长期预报方法的评估检验. 贵州气象, 1999, 23, (3): 36–42.
[10] 陈桂英. 我国现有短期气候业务预报方法综述. 应用气象学报, 2000, 11, (增刊): 11–20.
[11] 陈丽娟, 李维京. 月动力延伸预报产品的评估和解释应用. 应用气象学报, 1999, 10, (4): 486–490.
[12] 王会军, 陈丽娟, 李维京. 中国区域月平均温度和降水的模式可预报性分析. 气象学报, 2007, 65, (5): 725–732.
[13] 陈丽娟, 李维京, 张培群. 降尺度技术在月降水预报中的应用. 应用气象学报, 2003, 14, (6): 648–655.
[14] 柳艳香, 王凌, 赵振国. 2006年中国夏季降水预测回顾. 气候变化研究进展, 2007, 3, (4): 243–245.
[15] 周家斌, 张海福. 一种汛期降水分布的客观集成预报方法. 应用气象学报, 2000, 11, (增刊): 93–97.
[16] 黄嘉佑, 黄茂怡. 主分量逐步筛选因子典型相关分析及其预报试验. 应用气象学报, 2000, 11, (增刊): 72–78.