随着数值计算能力的不断提高,数值模式已具备对较小尺度系统(台风降水及飑线等)的指导预报能力, 同时对人们更为关注的降水雨带形势及移动特征也可提供精确的预报信息[1-2]。然而,目前国内科研及业务人员针对降水预报的检验评估大多依然采用传统的基于目标命中率为核心的分类检验方法(TS评分等)[3-5],这些检验方法主要考虑点对点的降水强度比较,利用有无(0或1)判断,获得降水的总体评价[6]。对于高分辨率降水预报而言,即使降水的雨带结构及强度均与实况一致,但由于雨带位置的细微偏差,依然可能产生过大的空报率及漏报率而使得最终的预报评分偏低。Mass等[7]较早的针对这些检验方法进行了分析,认为传统的统计检验方法在高分辨率模式检验评估中使降水预报同时受到空间和时间微小差异所带来的“双重惩罚”,很难获得足够的评估信息,也无法客观的反映降水的真实预报能力[8-10]。
空间检验方法可弥补传统检验方法的不足,当前主要的空间检验方法包括邻域法[11] (Neighborhood)、尺度分解法[12-14] (Scale Decomposition)及针对对象属性的空间检验方法等[15-16]。针对对象属性的空间检验方法则主要关注分析对象的位置、形态、强度等属性信息,利用对象属性间的拟合程度作为评价预报优劣的判据,Ebert和McBride[17-18]最早提出基于对象属性的CRA(Contiguous Rainfall Area)空间检验方法,这种方法可以将降水预报的总体误差分解为位置差异、位相差异等误差分量,用以探讨模式的系统误差来源。近期,NCAR(National Center for Atmospheric Research)发展了一种基于对象属性的空间检验方法MODE[19] (Method for Object-based Diagnostic Evaluation),并将其应用于NCAR最新发展的模式评估工具MET(Model Evaluation Tools)中。MODE方法通过计算检验对象的相似度特征来判断对象间的匹配程度,将检验对象间的质心距离、面积比、方向夹角、重叠比例等属性作为单独因子,带入方程计算总体空间相似度特征,并最终获得每组对象的相似度评分MMI(Median of Maximum Interest)。但MODE方法受到平滑半径、滤波阈值等多种因素的影响,不同的平滑半径所获得的评估结论缺乏一致性,这将会引起一定的评估误导问题。
邻域空间检验方法即考虑相邻区域的空间特征的一种检验方法,该方法侧重于将较高分辨率的预报与观测信息采用升尺度的方法调整至较大尺度上,通过空间平滑或统计概率分布的方式减小高分辨率资料的偶然性信息,从而衡量预报与观测间的相似度特征。简单的升尺度(UPSCALING)方法虽可提供不同尺度下的降水技巧评分[20-22],但无法解决升尺度过程中降水场过度平滑问题。Roberts和Lean[23] 2008年提出了一种改进的邻域空间检验方法,其参照Murphy技巧评分(MSE skill score)通过比较不同尺度窗口内降水发生概率的方法获取综合评估信息,其宗旨是预报发生的概率与观测发生概率近似即为有效预报。该评分定名为FSS(Fraction Skill Score),由于该评分方法构造简单,不受复杂因素(滤波阈值、平滑半径等)影响,可获得一致的评估结论,因此当前已成为一种应用较为普遍的空间检验方法, ECMWF近年也将其作为标准的降水评估方法以替代传统的降水技巧评分。
FSS方法作为一种近年较为广泛应用的邻域空间检验方法,国际上开展过很多相关研究,主要是通过该方法考察降水"可用预报尺度"从而评估模式降水的可预报性,而如何将该方法与传统技巧评分(TS评分等)相结合,并分析两者的优劣,从而获取综合的评估思路,相关研究较少。国内在该方法的使用方面投入较少,降水评估依然主要停留在传统技巧评分的评估基础上,而传统评分在高分辨率,强降水检验中的"双重惩罚"问题无法回避的,因此在该领域(高分辨率,强降水)的有效评估能力较弱。
本文利用中国气象局数值预报中心开发运行的GRAPES_MESOV4.0区域预报模式业务产品,通过邻域空间检验方法获取不同尺度的降水评估信息,同时参照传统分类检验方法所获取的检验结果,考察邻域空间检验方法与传统检验方法的异同,寻找两类方法在降水检验中的结合点,借以提出结合空间检验方法与传统检验方法的降水诊断评估方案。
1 方法与资料 1.1 方法常规降水技巧评分关注于预报与观测间点对点的分析比较,如图 1所示,在9×9网格内,预报与观测的降水都分布于7个降水格点上,但位置均未能一一对应。采用如TS评分等二分类检验方法获取该区域的降水技巧评分均为0,即没有降水预报技巧。但从该分析区域内降水发生概率角度看,观测与预报的降水发生概率(降水面积与区域分析面积的比值)均为7/49,即其有相同的降水预报面积。
Roberts和Lean(2008)开发了一种重点考察不同预报尺度内降水发生概率的统计方法,称为FSS(Fraction Skill Score)方法,该方法在不同降水阈值条件下,对降水的网格单元进行重新定义,利用Brier评分及方差技巧评分(MSE skill score)方法的构建思路比较不同尺度下预报与观测发生概率的匹配关系,以最终获取降水预报的"可用预报尺度"。
该方法首先采用Brier评分的变形比较预报与观测的降水频率FBS (Fraction Brier Score),如公式1,其中Pfcst及Pobs分别为每个邻域尺度内预报与观测降水发生概率,其发生概率介于0到1之间,N为分析区域内的网格数量。
$ FBS = \frac{1}{N}\sum\limits_N {{{\left( {{P_{{\rm{fcst}}}} - {P_{{\rm{obs}}}}} \right)}^2}} $ | (1) |
利用方差技巧评分构建思路,获取正定的技巧评分(FSS),如公式2所示,FSS评分介于0到1之间,其中完全不匹配为0,完美匹配为1,一般来说,随着邻域尺度的增加,FSS技巧将逐渐增大,当Pfcst = bPobs,则FSS评分将向着2b/(b2+1)渐近。
$ FSS = 1 - \frac{{FBS}}{{\frac{1}{N}\left( {\sum\limits_N {P_{{\rm{fcst}}}^2} + \sum\limits_N {P_{{\rm{obs}}}^2} } \right)}} $ | (2) |
选取国家气象信息中心所开发的格点化降水三源融合产品[24]作为实况进行分析,其采用贝叶斯融合方法将区域性地面观测站点(中国区域30 000余站)、高分辨率雷达估测降水及卫星反演降水融合形成空间分辨率5 km,时间分辨率为1 h的格点化定量降水产品。
预报资料选取中国气象局数值预报中心开发运行的GRAPES_MESOV4.0区域预报模式业务产品,模式分辨率10 km, 预报范围覆盖中国及周边地区,与格点化融合降水产品覆盖区域基本吻合。
选取2016年7月1日—8月31日00 UTC起报,逐日累计降水预报产品作为分析对象,分析过程中将预报与观测均插值至10 km分辨率以满足在相同分辨率条件下进行检验。本文重点考察邻域空间检验方法在两个月时间尺度下的评估能力及与传统降水技巧评分方法的差异,以获取结合两种降水评估方法的有效分析方案。
2 中国区域评估效果选取中国区域(15°—65°N,70°—145°E范围内的中国陆面区域)为检验评估区域,利用GRAPES_MESOV4.0模式2016年7月1日—8月31日00 UTC起报的两月逐日累计降水量及格点实况数据考察空间检验方法在降水中的评估状况。邻域模糊尺度选择3、5、9、17、33倍网格空间,即30 km×30 km、50 km×50 km、90 km×90 km、170 km×170 km、330 km× 330 km。首先考察不同空间尺度下,模式降水预报能力。与形势场确定性预报指标相似,FSS也存在如ACC达到0.6即表示模式预报效果可用的标准,FSS可简单的定义不同降水阈值条件下,评分超过0.5的空间尺度即为降水预报的"可用预报尺度(useful and skillful scale)"。
图 2给出了2月平均的第一天(24 h)及第二天(48 h)预报的24 h累计降水FSS在不同邻域空间尺度及降水阈值条件下的分布特征。可以看到,随着邻域空间尺度的增大,降水预报向着较高技巧发展,其中小雨(0.1 mm)及中雨(10 mm)以上降水均可在较小的空间尺度(50 km)下呈现出较高的预报技巧,即中雨以上量级(10 mm以上)降水主要表现为成片降水(面降水),可在较小的"可用预报尺度"上显示出较好的降水预报能力。对于大雨以上(25 mm以上)降水而言,24 h预报的可用预报尺度为90 km,而随着预报时效的延长,"可用预报尺度"有所增加,48 h预报的可用预报尺度达到170 km。但对于暴雨(50 mm)以上量级降水而言,降水形势逐渐转化为以点降水为主,由于降水预报从面降水问题逐渐变为点降水问题,因此需要较大的空间尺度才可以完整的捕捉到该量级降水预报信息。从图 2中可以发现,对于暴雨以上量级降水,24 h预报的可用预报尺度已经达到170 km以上,而48 h则超过了330 km,也就是暴雨以上量级的降水需要从γ中尺度上升至α中尺度才能对整场降水预报具有较为完整的描述能力。与之相对应的,在此量级降水阈值条件下,由于传统二分类检验中典型的"双重惩罚"问题,TS评分等传统技巧评分将遇到严重的检验瓶颈。
为了有效地将FSS方法应用于日常的降水(特别是强降水)评估中,用于分析模式不同时段,不同阈值下的具体差异,可有效地获取与传统技巧评分相似的评估信息,又可改善传统技巧评分在强降水分析中明显的"短板和漏洞"。我们需要首先定义一个统一的分析尺度,在分析尺度的选择上,尺度过小很难满足"可用预报尺度"的要求,尺度过大则容易将其他降水系统并在一起考虑,会引起一些误导。本文中选取模式24 h预报的中等强度(大雨以上量级)降水的"可用预报尺度"(FSS=0.5)作为邻域空间检验的分析尺度,用以进一步考察邻域空间检验方法相对传统检验方法在降水评估,特别是强降水评估方面的"可用性及辨识度"上的优势。如图 2中所示,该分析尺度为90 km。图 3给出了不同降水阈值条件下,24 h及48 h预报的逐日降水FSS及TS评分的分布特征,可以看到,小雨以上量级降水的FSS及TS评分均表现出相对一致的变化趋势,62 d内技巧评分的振幅差异不大,出现这种情况的原因即在于小雨以上量级降水形势主要表现为面降水为主,降水发生概率的技巧评分与TS评分所代表的命中率技巧之间的差异并不明显。但随着降水阈值的增大,降水预报特征从面降水逐渐变为点降水为主,在较高分辨率条件下点对点的技巧评分难以做到预报与观测的一一对应,这样就出现明显的空报和漏报占主导而命中率过低的情况。从图 3中可以看到,暴雨以上量级降水技巧评分(TS)明显偏低,存在多时段评分为0的情况,这些时段的降水预报差异很难通过技巧评分加以区分。相对应的FSS评分在暴雨以上量级评分中显示出明显的差异性,即便在强降水预报较差的时段(TS评分近似为0)依然存在明显的差异,即可认为其具备将降水预报的细微差异呈现出来的能力。从不同降水阈值下综合评估特征可以看到,FSS评分的整体演变趋势在各阈值条件下保持较好的一致性,体现出明显的随着阈值增大而评分减弱的情况,而TS评分在较高量级降水阈值条件下评分特征已经不稳定。同时,通过不同尺度(30 km、50 km、90 km、170 km、330 km)下的FSS分布特征(图略)发现,FSS评分在不同邻域尺度下的评分演变趋势收敛,仅存在量值上的细微差异,在与TS评分比较上,在强降水评估中均可体现出明显的优势。
图 4给出了24 h和48 h逐日累计降水FSS及TS评分的散点分布,可以更好的呈现不同降水阈值条件下两种评分方法的分布状况,可以看到,FSS与TS评分虽然在量值上存在差异,但小雨以上量级降水技巧评分相对集中,体现出两种评分方法在该量级降水上存在的明显评分效果一致性。随着降水阈值的增大,特别是大雨及暴雨以上量级降水,散点跨度明显增大,方法间的差异性表现传统技巧评分对该量级降水的描述能力明显过弱,未能体现出逐日预报间的差异特征,这样就难以提供有效的归因分析。而采用邻域空间检验方法,即使对强降水预报较弱的时段,依然存在明显的评估差异,这样就易于通过此评估差异对逐日降水的综合性能做有效的统计分析。
为进一步分析FSS评分在强降水预报检验上的优势,选取降水阈值大于50 mm (暴雨以上量级)的3个实况与24 h预报个例,分别对应实况时间为2016年7月25日、8月9日、8月27日,三个个例中TS评分基本相当(分别为0.042、0.048、0.048),而FSS评分存在明显差异(分别为0.344、0.296、0.466),图 5给出了3个个例中实况及暴雨以上量级降水预报的分布形势。
由图 5可见,7月25日个例中,模式在内蒙中部及北京附近的强降水捕捉均较好,仅存在降水位置的微小差异,但传统技巧评分基本未反映出实际的预报效果,评分明显过低。与此相对应,8月9日模式与实况相比基本未能预报出明显的暴雨以上降水形势,空报明显,但TS评分反而相较7月25日个例更高。8月27日个例中,模式暴雨预报表现最佳,降水分布基本与实况吻合,但TS评分并未显示出应有的效果,其量值竟与8月9日个例相当。因此,显然从FSS评分演变角度看,其更能反映出模式强降水的实际预报效果。
3 分区评估效果在中国区域分析的基础上,进一步考察邻域空间检验方法在不同降水区域的评估效果。选取中国南部及北部两区域以代表明显的多雨及少雨区域进行分析,其中南部区域定义为:20°—30°N,110°—125°E;北部区域为:45°—55°N,120°—135°E。以24 h降水预报效果为例,分别统计不同降水阈值条件下2016年7—8月间邻域空间检验方法与传统TS评分方法的差异。
表 1给出了不同降水阈值条件下,两种检验方法的整体平均评分结果,可以看到,南部地区由于降水量较大,其降水评分均值也较高,其中TS评分在0.1 mm以上降水量上可达0.61,但随着降水阈值加大,降水技巧明显降低,大雨以上量级仅为0.15,而暴雨以上量级则仅为0.09,强降水技巧明显偏低。而FSS在小雨以上量级的降水评分可达0.84,大雨以上量级为0.44,即便是暴雨以上量级也可以达到0.26,强降水预报技巧的描述能力明显高于TS评分。对于降水量较少的区域(北部地区),TS在大雨以上量级即已达到0.09,其技巧最高的小雨以上降水也仅为0.47,相对应的FSS综合指标与南部区域差异并不明显,其大雨以上量级降水的评分依然可以达到0.27,暴雨以上量级可达到0.18。
均值技巧较大则逐日技巧较高的可能性就较大,就更加易于对逐日间降水预报的差异进行描述。图 6给出了南部及北部区域24 h降水预报的FSS及TS评分的散点分布,可以看到,南部区域的散点分布形势与中国区域的整体分布形势具有明显的一致性,低阈值降水技巧评分集中于较高量值上,随着降水阈值的增大,技巧离散度随之增大,TS评分在暴雨以上量级上技巧基本集中在0.1以下(67.2%),不同时段的暴雨预报效果通过TS评分难以区分(描述)技巧差异,而FSS在该量级分布较为分散,逐日特征显示出明显的差异性,易于获取逐日暴雨预报效果之间的差异。与之相比,北部地区由于降水量总体低于南部地区,大量级降水偶发性强且更为分散,因此,采用传统的TS评分,空报及漏报过高引起技巧相比南部更低,暴雨以上量级降水大部分时段为0(83.6 %),采用邻域方法虽然大部分时段也均保持在0.4以内的较低技巧范围内,但技巧分布较为分散,逐日差异较为明显,可有效地反映出模式实际降水预报效果的差异性特征。
传统二分类降水技巧评分强调点对点的统计评估,在高分辨率模式的强降水预报中会受到降水空间及时间微小差异所引起的"双重惩罚"问题,使得评估指标无法客观的反映实际的降水预报能力。降水空间检验方法是当前国际检验评估研究的热点,具有弥补传统技巧评分"核心瓶颈"的能力,邻域空间检验FSS评分方法考察不同降水预报尺度的预报能力,用以判断模式降水的可用预报尺度,从而获取模式降水的可用性信息。该方法不再考察点对点的降水预报强度差异,而是采用该尺度内的降水发生概率,用以比较预报和实况之间的发生概率的误差分布特征,从而确定最终的预报技巧。
本文利用GRAPES区域模式2016年7—8月预报产品及国家气象信息中心格点化降水融合产品首先考察FSS评分的"可用预报尺度",并以24 h大雨以上量级的降水预报可用预报尺度(90 km)作为分析尺度,综合评估了邻域空间检验方法与传统TS评分方法的差异,分析表明,在较小量级的降水阈值条件下,由于降水预报形势主要表现为面降水为主,TS评分尚可描述逐日预报差异,但随着降水阈值的增大,降水预报逐渐变为点降水占主导,传统技巧评分中空报及漏报问题逐渐显著,TS评分均仅可维持较低的预报技巧,难以区分逐日降水预报性能差异。FSS评分在低降水阈值条件下分布趋势虽然与TS评分具有明显的一致性,但其在暴雨以上量级体现出明显的逐日评估差异,在强降水评估方面具备明显的"可用性及辨识度"优势。同时,其整体演变趋势在各降水强度阈值条件下保持较好的一致性,体现出明显的随着阈值增大而评分减弱的情况。
进一步针对多雨区(南部)及少雨区(北部)的检验分析发现,TS评分受降水强度影响过大,无法有效地反映强降水预报性能差异,而邻域检验方法则有效地提高了强降水预报检验中差异性的评估能力。
基于本文的分析可以看到,邻域空间检验方法可作为传统降水技巧评分的有效补充,特别是在强降水预报检验中可以弥补技巧评分"点对点"检验中所存在的"核心瓶颈"问题,提供更为合理的评估结论。同时也需要看到,FSS评分受邻域尺度的影响,尺度过小难以满足"可用预报尺度"的要求,尺度过大则会将不同预报系统合并检验引起评估误导,因此选取有效的分析尺度是该方法首先需要考虑的问题,本文中简单采用24 h大雨以上量级降水预报的"可用预报尺度"作为检验分析尺度即是为了可以在较为统一的条件下进行分析,如何更为客观准确的选取分析尺度需要更为细致的检验分析作为基础,我们将在后期做进一步的工作中予以研究和完善。
[1] |
Atger F. Verification of intense precipitation forecasts from single models and ensemble prediction systems[J]. NonlinearProcesses Geophys, 2001, 8: 401-417. |
[2] |
Weisman M L, Davis C, Wang W, et al. Experiences with 0-36-h explicit convective forecasts with the WRF-ARW model[J]. Weather and Forecasting, 2008, 23: 407-437. DOI:10.1175/2007WAF2007005.1 |
[3] |
王在文, 梁旭东, 范水勇, 等. 数值模式降水评分对分辨率的敏感性初探[J]. 暴雨灾害, 2016, 35(1): 10-16. |
[4] |
李武阶, 刘桂枝, 闵爱荣. 模式范围对MAPS降水预报效果的影响[J]. 暴雨灾害, 1999, 18(3): 7-10. |
[5] |
陈敏, 郑祚芳, 王迎春, 等. 2006年汛期北京地区中尺度数值业务降水预报检验[J]. 暴雨灾害, 2007, 26(2): 109-117. |
[6] |
Murphy A H. A note on the ranked probability score[J]. J Appl Meteor, 1971, 10: 155-156. DOI:10.1175/1520-0450(1971)010<0155:ANOTRP>2.0.CO;2 |
[7] |
Mass C F, Ovens D, Westrick K, et al. Does increasing horizontal resolution produce more skillful forecasts?[J]. Bull Amer Meteor So, 2002, 83: 407-430. DOI:10.1175/1520-0477(2002)083<0407:DIHRPM>2.3.CO;2 |
[8] |
Ahijevych David, Eric Gilleland, Barbara G Brown, et al. Application of spatial verification methods to idealized and nwp-gridded precipitation forecasts[J]. Weather and Forecasting, 2009, 24: 1 485-1 497. DOI:10.1175/2009WAF2222298.1 |
[9] |
Brill K F, Mesinger F. Applying a general analytic, method for assessing bias sensitivity to bias-adjusted threat, and equitable threat scores[J]. Weather and Forecasting, 2009, 24: 1 748-1 754. DOI:10.1175/2009WAF2222272.1 |
[10] |
Baldwin M E, Kain J S. Sensitivity of several performance measures to displacement error, bias, and event frequency[J]. Weather and Forecasting, 2006, 21: 636-648. DOI:10.1175/WAF933.1 |
[11] |
Ebert Elizabeth E. Neighborhood verification: a strategy for rewarding close forecasts[J]. Weather and Forecasting, 2009, 24: 1 498-1 510. DOI:10.1175/2009WAF2222251.1 |
[12] |
Mittermaier Marion, Nigel Roberts. Intercomparison of spatial forecast verification methods: identifying skillful spatial scales using the fractions skill score[J]. Weather and Forecasting, 2010, 25: 343-354. DOI:10.1175/2009WAF2222260.1 |
[13] |
Casati B, Ross G, Stephenson D. A new intensity-scale approach for the verification of spatial precipitation forecasts[J]. Meteorol Appl, 2004, 11: 141-154. DOI:10.1017/S1350482704001239 |
[14] |
Casati B. New developments of the intensity-scale technique within the spatial verification methods intercomparison project[J]. Weather and Forecasting, 2010, 25: 113-143. DOI:10.1175/2009WAF2222257.1 |
[15] |
Baldwin M E, Lakshmivarahan S. Development of an events-oriented verification system using data mining andimage processing algorithms. Preprints[C]//Third Conf. on Artificial Intelligence, Long Beach, CA, Amer Meteor Soc, 2003: 4-6
|
[16] |
Casati B, Coauthors. Forecast verification: Current status and future directions[J]. Meteor Appl, 2008, 15: 3-18. DOI:10.1002/(ISSN)1469-8080 |
[17] |
Ebert E, McBride J L. Verification of precipitation in weather systems: Determination of systematic errors[J]. J Hydro, 2000, 239: 179-202. DOI:10.1016/S0022-1694(00)00343-7 |
[18] |
Ebert E E, Gallus Jr W A. Toward better understanding of the contiguous rain area (CRA) method for spatial forecast verification[J]. Weather and Forecasting, 2009, 24: 1 401-1 415. DOI:10.1175/2009WAF2222252.1 |
[19] |
Davis A, Brown B G, Bullock R, et al. The method for Object-based Diagnostic Evaluation (MODE) applied to numerical forecasts form the 2005 NSSL/SPC spring program[J]. Weather and Forecasting, 2009, 24: 1 252-1 267. DOI:10.1175/2009WAF2222241.1 |
[20] |
Yates E, Anquetin S, Ducrocq V, et al. Point and areal validation of forecast precipitation fields[J]. Meteorol Appl, 2006, 13: 1-20. |
[21] |
Weygandt S S, Loughe A F, Benjamin S G, et al. Scale sensitivities in model precipitation skill scores during IHOP[C]//22nd Conf Severe Local Storms, Amer Met Soc, 4-8 October 2004, Hyannis, MA
|
[22] |
Zepeda-Arce J, Foufoula-Georgiou E, Droegemeier K K. Space-time rainfall organization and its role in validating quantitative precipitation forecasts[J]. J Geophys Res, 2000, 105(D8): 10 129-10 146. DOI:10.1029/1999JD901087 |
[23] |
Roberts N M, Lean H W. Scale-selective verification of rainfall accumulations from high-resolution forecasts of convective events[J]. Mon Wea Rev, 2008, 136: 78-97. DOI:10.1175/2007MWR2123.1 |
[24] |
潘旸, 沈艳, 宇婧婧, 等. 基于贝叶斯融合方法的高分辨率地面-卫星-雷达三源降水融合试验[J]. 气象学报, 2015, 73(1): 177-186. DOI:10.11676/qxxb2015.010 |