上海台风研究所在“九五”期间承担了国家重点攻关课题“影响上海及华东地区热带气旋频数的短期气候预测研究”, 其目标是建立性能优于“九五”攻关前长期业务预报水平的客观预测方法。显然, 客观合理地评估热带气旋频数 (以下简记为TCF) 的预测水平具有重要意义。“我国短期气候预测系统的研究”项目统一了攻关前的年限为5~10年 (即1993~1997年或1988~1997年), 但并未定义TCF预测水平的评估参数[1]。作者[2]在1998年曾探讨过TCF预测水平的评估方法, 指出:平均绝对误差、预测准确率、预测效率、TS评分、技巧评分、一致系数、距平符号一致率及相关系数和解释方差等9个指标均可用于评估TCF的预测水平, 并对上海中心气象台1991~1997年的业务预测水平进行了初步的评估。然而, 这9个指标大多是评估预测方法在一段时间内的平均预测水平, 即需要一定数量的预测和相应实况的样本, 因此, 并不完全适合于评估每年的TCF预测水平。
本文在文献[2]的基础上, 分析了评估对象的特征, 探讨了TCF预测水平的评估方法, 并对攻关前10年的业务预测水平进行了再评估。
1 评估对象的特征由于以往没有开展影响华东地区TCF的短期气候预测工作, 为比较起见, 本文仅讨论评估影响上海地区TCF业务预测水平的方法。影响上海地区的TCF业务预测一直由上海中心气象台长期预报科制作, 并于每年4月12日前后发布本年汛期 (5~9月) 影响上海地区的TCF, 再在汛期 (5~9月) 的每月25日前后制作并发布下个月影响上海地区TCF的更正预报。
按项目专家评估组对“九五”攻关前5~10年业务预测水平进行评估的要求, 本文对业务预测水平的评估是对其攻关前10年 (1988~1997年) 的预测进行的。表 1列出了1988~1997年上海中心气象台长期预报科对汛期 (5~9月) 影响上海的TCF预测结果。
|
|
表 1 1988~1997年影响上海TCF的业务预测结果 |
由于该业务预测发布的汛期是指5~9月 (即降水的汛期), 而本课题中的汛期是指7~9月 (台汛期), 严格地讲两者是有差别的。从表 1的预测发生时段可以发现, 所有预测有影响的TC均发生在7~9月, 所以, 该业务预测实质上可以看成是对台汛期 (7~9月) 影响上海的TCF的预测。实际应用中, 还近似地将汛期TCF的预测用作全年TCF的预测。表 1还同时列出了影响上海TCF的历史实况[3]。
从表 1还可以看到, 业务预测仍带有相当的不确定性和模糊性 (或者说预测是具有相当的定性性质), 即预测的结果形如F个左右或F1~F2个, 如1988年的预测为2个左右、1989年的预测为2~3个……。其实质是一区间, 对于后者, F1、F2分别为区间的下、上界; 对于前者, F1、F2由下式计算[4]:
|
(1) |
综上所述, 我们要评估的是一预测区间与一整数 (实况) 的接近程度, 两者越接近, 即表明预测水平越高。文献[2]在预测区间内取两个整数值:其一与实况最接近 (简称为预测A, 下同)、其二与实况相差最大 (简称为预测B, 下同), 再分别考察A、B与实况的接近程度即可评估出预测 (区间) 准确性的上、下界限。
2 评估参数 2.1 d指数为评估预测方法对偏多、偏少、正常的趋势预测准确性, 我们定义d指数 (Determine Index):
|
(2) |
式中, i表示预测, j表示实况。且当预测为偏少时i的取值为1, 预测为正常时i=2, 预测为偏多时i=3;同理, 当实况为偏少、正常、偏多时, j分别取值为1、2、3。
当预测与实况一致 (均为偏少、正常或偏多) 时得1分, d指数的值为1;当预测与实况完全相反 (预测偏少而实况偏多、预测偏多而实况偏少) 时扣1分, d=-1;当预测与实况不一致但并不完全相反 (预测和实况两者之一为正常, 另一为偏多或偏少) 时不得分, d=0。可见, d在 (-1~1) 之间取值, 其值越大表明预测的定性趋势越准确。
对于影响上海地区的热带气旋, 其全年频数在2~4个之间为正常, 台汛期2~3个为正常, 7月和9月0~1个为正常, 8月1~2个为正常[3]。
2.2 绝对误差 (E)d指数能较好地评估TCF趋势预测的准确性, 但不能反映预测与实况量值上的差异。如:1989、1994年对台汛期TCF预测的结果完全一样, 均预测TCF正常 (i=2), 而实况分别为6个和4个, 均为偏多 (j=3)。于是这两年的d指数完全相等 (为零), 而无法反映出这两年实况的差别 (因而预测性能的差别)。为此, 我们采用绝对误差 (Absolute Error) 作为补充, 其计算公式如下:
|
(3) |
式中, xf、xo分别为预测和实况, E即为预测的绝对误差。显然, 绝对误差的值越小表明预测越好。
2.3 技巧水平 (S)d指数和绝对误差 (E) 己较好地评估了TCF趋势预测的准确性和预测与实况量值上的差异, 但并未能体现预测方法的技巧。所谓技巧, 是相对于某一特定预测方法而言的, 通常将该特定的预测方法看作是无技巧的, 该特定预测方法便简称为无技巧预测 (如:评定短期TC路径预测方法性能时的CLIPER方法)。技巧水平 (Skill Score) 是描述预测方法有无技巧的定量指标, 本文将其定义为:
|
(4) |
式中, S为技巧水平, d、d0分别为待评估预测和无技巧预测方法的d指数, E、E0分别为待评估预测和无技巧预测方法的绝对误差, Tb为预测对象的气候平均值, 本文取1949~1996年的平均[3], 即影响上海地区TCF的全年、台汛期、7月、8月、9月的气候平均 (Tb) 分别为2.90、2.48、0.67、1.08和0.73个。显然, S在 (-1, 1) 之间取值, S为正且越大表明相对于无技巧的预测越好, 反之亦然。
无技巧水平的预测是相对的, 可有很多种不同的取法, 本文的无技巧预测以TCF的气候分布概率为基础, 取为“最佳随机预测”———众多随机预测 (区间长度为1) 中历史拟合最好的一种随机预测。对于影响上海的TCF预测, 其无技巧的全年和汛期预测为1~2个, 7月、8月和9月均为0~1个[5]。
3 攻关前的业务预测水平利用以上定义的评估参数对“九五”攻关前10年 (1988~1997年) 的业务预测性能进行评估, 具体的计算步骤如下:
① 分别从业务预测和无技巧预测的区间中取两个整数, 其一与实况最接近 (简记为A、A0), 其二与实况相差最大 (简记为B、B0); ② 按方程式 (2)、(3) 求出A、B和A0、B0的d指数、绝对误差 (E); ③ 利用A、B0的d和E值按方程式 (4) 求出S (为S的上限, 记为S上), 利用A0、B的d和E值按方程式 (4) 求出S (为S的下限, 记为S下); ④ 求A、B的d、E及 (S上, S下) 的中位数。
计算结果表明, 1988~1997年业务预测的平均d指数值均为正, 即预测的总体趋势没有出现完全相反的情况。其中, 全年及台汛期预测的d指数均界于0.2~0.4之间, 7月为0.9, 8月的d最大 (A预测等于1, 即趋势预测完全准确) 界于0.4~1.0, 9月界于0.6~0.7之间。
1988~1997年, 对全年TCF预测的平均绝对误差为1.7~2.7个, 台汛期为1.2~2.2个, 其余均为1个左右 (0.5~1.3个), 其中, 8月预测A的绝对误差最小, 仅为0.2个。而且8月的预测技巧也较高, 其上限达0.51, 但下限仅-0.25, 其可能的变动区间范围达0.76, 表明其稳定性较差。技巧水平居其次的是对全年及台汛期的预测, 最高可达0.29;而7月的预测技巧水平最低, 其可能的取值区间为-0.28, 0.16。
为避免预测性能稳定性的差异给实际应用带来不便, 作为简化, 表 2列出了预测性能指标取值区间的中位数。
|
|
表 2 1988~1997年影响上海地区TCF业务预测的性能指标 |
由表 2可见, 全年及台汛期预测的d指数均为0.3 (相当于趋势预测的准确率为30%), 而汛期内各月 (7、8、9月) 的d指数高达0.65~0.9 (相当于趋势预测的准确率为65%~90%), 表明月趋势的业务预测较为准确, 全年及台汛期趋势的预测则较差。从表 2还可见, 各月预测的绝对误差均接近1个, 全年及台汛期预测则为2个左右。此外, 表 2还表明8月的预测技巧较高, 技巧水平达0.13, 其次是全年及台汛期预测均接近0.1左右 (0.06、0.07), 9月、7月的预测则较差, 其中7月为负技巧, 9月也接近零技巧。
4 小结TCF的实况是一确定的整数, 而预测仍具一定的不确定性, 其实质是一区间, 即待评估的问题是:预测区间与一确定整数的接近程度。据此, 本文定义了3个评估参数:d指数、绝对误差 (E) 和技巧水平 (S), 分别从趋势预测、定量预测、相对于气候概率预测的技巧等方面客观地标度待评估方法的预测性能。并对“九五”攻关前10年 (1988~1997年) 的业务预测水平进行了再评估, 结果表明:
(1) 全年, d指数为0.3 (界于0.2~0.4), 绝对误差为2.2个 (界于1.7~2.7个), 相对于气候概率预测 (每年均报1~2个) 的技巧水平为0.07 (界于-0.15~0.29);
(2) 汛期, d指数为0.3 (界于0.2~0.4), 绝对误差为1.7个 (界于1.2~2.2个), 相对于气候概率预测 (每年均报1~2个) 的技巧水平为0.06 (界于-0.16~0.29);
(3) 7月, d指数为0.9, 绝对误差为0.8个 (界于0.5~1.1个), 相对于气候概率预测 (每年均报0~1个) 的技巧水平为-0.06 (界于-0.28~0.16);
(4) 8月, d指数为0.7 (界于0.4~1.0), 绝对误差为0.75个 (界于0.2~1.3个), 相对于气候概率预测 (每年均报0~1个) 的技巧水平为0.13 (界于-0.25~0.51);
(5) 9月, d指数为0.65 (界于0.6~0.7), 绝对误差为0.9个 (界于0.5~1.3个), 相对于气候概率预测 (每年均报0~1个) 的技巧水平为0.01 (界于-0.21~0.24)。
本文所定义的3个评估参数不仅能用于评估具有一定历史样本的TCF预测方法的性能, 而且适用于仅有短样本 (如一个样本) 的TCF预测方法的性能评估。
| [1] | 王绍武, 朱锦红. 短期气候预测的评估问题. 应用气象学报, 2000, 11, (增刊): 1–9. |
| [2] | 雷小途. 热带气旋频数预测的研究进展和业务预测水平. 大气科学研究与应用, 1998, (14): 196–202. |
| [3] | 冯泾贤, 杨自植, 邓之瀛. 影响上海市及长江三角洲地区热带气旋气候规律的研究. 大气科学研究与应用, 1998, (14): 36–41. |
| [4] | 雷小途. 热带气旋短期气候趋势的预测量研究. 大气科学研究与应用, 2000, (18): 51–59. |
| [5] | 雷小途. 影响华东的热带气旋短期气候趋势的可预报性分析. 气候学研究-气候与环境, 1998, 212: 212–217. |
2001, 12 (4): 501-506

