2. 江苏省水利厅,南京 210029
极端降水易引发洪涝等极端水文事件,是我国最具毁灭性的自然灾害之一。近百年来,全球气候持续变暖,未来海陆热力差异将加剧大尺度环流结构的变化。极端降水事件对于气候系统的变化非常敏感,其强度和频率可能进一步增加,威胁性、突发性、异常性和不可预见性更加突出,这已成为我国当前和未来防洪减灾工作的重大风险和挑战[1-4]。
国内外学者围绕极端降水事件开展了广泛的研究,建立概率分布模型是目前研究降水极值统计规律的重要方法[5-6]。苏布达等[7]采用四大类20种分布拟合147个站点逐日观测降水数据的年最大值(AM)序列和超阈值峰量(POT)序列,研究长江流域极端降水并指出了降水极值拟合的不确定性,验证了广义极值分布(GEV)在拟合AM序列和广义帕累托分布(GPD)在拟合POT序列上的良好效果。此外,在全国不同地区(如华南地区[8]、东部地区[9]、江淮地区[10]等)和不同流域(如长江流域[11]、淮河流域[12]、黑河流域[13]等),降水极值概率分布统计模型的应用也已有一定的讨论,但是不同研究区域的最优分布模型以及极值序列的阈值选择标准各有不同,是否全国的降水极值序列都服从于GEV或GPD分布?在不同地区极值分布模型对降水极值序列的拟合效果有何不同?不同地区的降水极值序列的阈值标准又该如何确定?从全国的角度对各种降水极值分布模型适用性的讨论以及极值序列的阈值标准的研究目前还不多见。
本文研究全国日降水极值的统计规律及其空间分布特征,提出适用于不同地区极端日降水的极值分布模型与阈值选取标准。首先,分别采用AM及POT方法构建多组日降水极值序列,分析各序列的统计规律及其空间分布特征,对两种抽样方法进行对比,并对POT抽样中阈值选取标准对于不同地区降水极值序列统计规律的影响进行分析。然后,对AM序列建立基于GEV的降水极值统计模型,对各POT序列建立基于GPD的降水极值统计模型,运用K-S(Kolmogorov-Smirnov)检验方法评估模型拟合效果,根据检验统计量观测值ksstat及检验的p值,研究提出适用于中国不同地区的降水极值分布模型及阈值选取标准。
1 数据资料极端降水是指对特定地点而言发生概率小、致灾严重的降水事件,研究对象通常包括某一站点(点雨量)或某一区域(面雨量)的极端降水。目前,对于站点极端降水已有广泛的探讨研究,然而区域性极端降水事件更易造成河湖水位快速升高,进而引发较严重的洪涝灾害。因此本文从致灾的角度,以不同区域面雨量为研究对象,揭示区域极端降水的统计特点和规律。目前,已有学者尝试采用格点化降水数据进行区域极端降水事件的相关研究[4, 14-15],从而弥补观测站点空间分布不均匀、数据代表性不足的缺陷。
本文数据采用中国气象科学数据共享服务网①所提供的中国地面降水日值0.5°×0.5°格点数据集(V2.0)(1961—2015年)。有评估结果表明,该数据集的格点化降水数据与原始站点数据的相关程度很高、误差小[16],并且在区域尺度上具有较好的可信度,能够较好地反映区域降水的变化特征[15]。
① 数据来源于http://www.cdc.cma.gov.cn。
本文从全国的角度对各种降水极值分布模型适用性以及极值序列的阈值标准展开研究,考虑到各地降水时空分布的差异,各地区会在不同季节(时期)发生降水集中期和极端降水事件,所以选择全年的降水数据进行统计分析。
2 研究方法本文首先探讨降水极值序列的抽样选取方法,构建降水极值序列,建立降水极值统计模型,研究模型参数估计方法,并对模型拟合效果进行检验。
2.1 降水极值序列的选取方法年最大日降水量序列是采用AM法在逐日降水资料中抽样得到的样本序列,下文简称AM序列。AM法是每年选取一个日降水量的最大值,即在N年的逐日降水资料中选取N个最大值,逐年进行抽样选取。超阈值降水峰量序列采用POT法,首先确定阈值,然后从多年逐日降水量数据中筛选出达到或超过这一阈值的降水峰量,从而建立极值序列,下文简称POT序列。选取阈值所应用的方法[17]主要有:(1) 随着阈值的变化观察平均剩余函数图[18-19]、Hill图和参数估计量的变化情况确定合理阈值范围,或结合拟合优度法确定阈值;(2) 通过年平均交叉率法或百分位数法在原始序列中确定阈值。第一类方法需要根据图形判断函数近似线性或变量变化稳定性,难以统一评判标准,也不便进行大批量操作,相比之下第二类方法较为客观、可靠、操作性好。
在年平均交叉率法中,将一年中降水量达到或超过阈值的降水次数定义为年交叉率。根据该定义,阈值的确定及序列的抽样过程为:首先给定年交叉率的多年平均值λ,然后根据资料年份求得极值序列的样本量,以55年为例即样本量为55l,将资料数据按从大到小排序,如a1,a2,…,a55λ,a55λ+1,…,则阈值为a55λ,极值序列为a1,a2,…,a55λ。研究表明,在研究极端降水问题中年平均交叉率的值取1~2较为合适[7, 9, 13],按年平均交叉率为1选取的样本,记为POT-1序列。百分位数法即把多年逐日降水数据按从小到大排序,选取某一百分位数作为阈值,超过该阈值的数据被选作样本构成序列,一般可将降水量高于第90百分位的降水事件定义为极端降水事件[7, 13, 18, 20-22]。以第90百分位阈值方案为例,选取的序列可记为POT-90th序列。
2.2 降水极值统计模型根据经典极值理论,逐时段最大值的近似分布必属于Gumbel、Frèchet和Weibull这3种概率分布之一,而GEV分布[17]则是对这3种形式的统一描述,AM序列可以看作是将一年作为一个时段而选取的逐时段最大值,因此近似于GEV分布。而POT序列的分布应近似于GPD分布[17],该分布主要用于描述超过一定阈值μ的极值概率分布特征。
极值模型的参数估计[17]方法包括极大似然法、矩估计法、线性估计法等,其中极大似然法具有易适应性、渐近无偏性等优点,因此本文选用极大似然法[23]进行参数估计。
2.3 模型拟合效果检验模型拟合效果检验即考察样本是否服从指定理论分布。首先提出原假设,在本文即假设降水极值样本AM序列服从GEV分布(或POT序列服从GPD分布),然后通过K-S检验进行分析,即根据样本的经验分布函数Fn(x)和指定的分布函数G(x)构造检验统计量KS,同时根据其精确分布和极限分布得到检验统计量观测值ksstat及其对应的概率作为检验的p值[24],综合这两个参数考察模型拟合效果。检验统计量观测值ksstat反映了样本的经验分布函数Fn(x)和指定的分布函数G(x)的最大差异程度,故ksstat越小说明该方案建立的模型拟合效果越好,可作为方案优选的依据。检验的p值反映试验拟合的最大差异程度在原假设为真条件下的发生概率,即能够做出拒绝原假设推断的最小显著性水平。给定显著性水平α为0.05作为容许的最大显著性水平,则检验的p值小于α时可拒绝假设,认为AM序列不服从GEV分布(或POT序列不服从GPD分布),即该网格建立降水极值统计模型的方案未能通过K-S检验;相反,检验的p值大于α时不能拒绝原假设,则表示通过K-S检验。
3 方案分析及模型结果本文分别采用AM及POT方法构建多组日降水极值序列,对两种抽样方法进行对比,解析各序列的统计特征,分析POT抽样中不同阈值选取标准对于各地区降水极值序列统计特征的影响。建立基于GEV、GPD分布的降水极值统计模型,通过K-S检验评估模型拟合效果,研究提出适用于全国不同地区的降水极值统计模型和阈值选取标准。
3.1 降水极值序列统计分析 3.1.1 AM与POT-1序列的分析对比为比较AM与POT两种抽样方法,本文选择样本数量相同的AM序列和POT-1序列进行研究,计算对比不同序列的均值、样本差及其相对差值。
如图 1所示,AM与POT-1序列的均值都呈现东南多、西北少的空间分布特征。其中,西部地区序列均值大部分低于20 mm,而南方大部分高于60 mm,特别是东南诸河流域和珠江流域部分网格的序列均值超过120 mm,AM序列均值网格数据的最大值为152.4 mm,POT-1序列为177.6 mm。
![]() |
图 1 AM和POT-1序列均值空间分布图 Figure 1 The average of AM samples and POT-1 samples |
AM与POT-1序列的标准差与均值的分布特征相似,同样呈现出由东南向西北递减的特点,西部地区序列标准差普遍小于10 mm,其他地区除少量网格数值偏大外,全国范围序列标准差基本小于50 mm,结果如图 2所示。
![]() |
图 2 AM和POT-1序列标准差空间分布图 Figure 2 The standard deviation of AM samples and POT-1 samples |
以AM序列为基础,计算POT-1序列统计特征相对于AM序列的差值百分比,如图 3。在均值方面,全国范围的POT-1序列均值都大于AM序列均值,平均差值百分比为12.7%,西部部分地区差值百分比较高,最大值为38.3%。在标准差方面,全国范围POT-1序列标准差普遍小于AM序列,平均差值百分比为-22.3%,绝大部分网格的差值百分比都小于-15.0%。
![]() |
图 3 POT-1序列均值及标准差相对AM序列的差值百分比空间分布图 Figure 3 The percentage difference between AM samples and POT-1 samples |
造成以上现象的原因主要在于序列抽样方法不同,AM序列是将每年降水量的最大值作为样本,在丰水年选取的样本较大,枯水年则较小,当基础资料年份足够长时,该序列可以通过统计模型描述年最大值的分布,但也会有这样的情况:某丰水年年内第二大日降水量虽大于其他年的年最大日降水量,但因不能作为年最大值而被排除在序列之外,因此,有一定局限性;而POT-1序列是按年平均交叉率为1,即在55年逐日降水量中从大到小取前55个数据,故某些年份的年最大值偏小则不会被选作样本,相应的丰水年份降水平均水平高则会被选取多个数据作样本,因此POT-1序列样本均值水平高于AM序列,样本间差异小,标准差较小。
由此可见,在样本数量相同的情况下,采用POT法抽样选取的POT序列,相比AM序列能够更好地反映极端降水情况,更符合降水极值序列的要求,有助于提高建立的概率分布模型的拟合效果。
3.1.2 不同阈值方案POT序列的分析对比为分析阈值选取标准对于不同地区降水极值序列统计特征的影响,本文以99th、96th、93th、90th为例,计算不同百分位阈值水平下POT序列的均值和标准差相对于POT-1序列的变化情况,并对其空间分布特征进行分析,结果见图 4。
![]() |
图 4 不同阈值POT序列均值、标准差相对POT-1序列的差值百分比空间分布图 Figure 4 The percentage difference compared with POT-1 samples |
与POT-1序列相比,由百分位数法确定的不同POT序列的均值有所减小。其中,POT-99th序列平均降幅为31.0%,POT-96th序列平均降幅为59.9%,POT-93th序列平均降幅为69.8%,POT-90th序列平均降幅为75.5%,西北地区降幅较大,其他地区特别是青藏高原部分地区降幅相对较小。百分位最大的POT-99th序列的样本量大于POT-1序列,且百分位越低相应阈值越小,则抽样时从大到小选取的样本量越大,因而与POT-1序列相比,这些百分位法确定的POT序列随着百分位的降低,样本量逐步增大,均值逐步减小。
在序列标准差方面,全国范围不同地区变化情况不同,POT-99th变幅为-46.6%~51.3%,平均-1.8%,POT-96th变幅为-72.7%~78.2%,平均-9.8%,POT-93th的变幅为-79.2%~90.4%,平均-14.8%,POT-90th的变幅为-82.5%~99.6%,平均-18.7%。
标准差与均值的相对变化在地理分布特征上表现出良好相关性,均值、标准差的降幅在西北地区均较大,而在均值降幅较小的青藏高原地区,其标准差表现出相对较大的增幅。因此,研究多种阈值方案的POT序列不仅有助于尽可能充分地反映当地降水极值的统计特征,而且对于研究概率分布模型在全国不同地区的应用规律并提高模型在不同地区的拟合效果有重要意义。
3.2 模型拟合效果分析与模型方案优选对AM序列采用GEV分布,对各POT序列采用GPD分布,分别建立降水极值统计模型,通过K-S检验评估模型拟合效果并进行方案比选:(1) 通过K-S检验的p值分析模型拟合的通过情况,即判断极值序列是否符合原假设分布;(2) 通过反映最大差异程度的ksstat值,分析模型对各样本的拟合效果;(3) 在检验p值满足显著性水平a要求的基础上,以ksstat值最小作为准则进行方案优选,根据优选结果及其分布特征研究提出适用于全国不同区域的降水极值统计模型方案。
3.2.1 K-S检验通过情况分析根据K-S检验的p值,各序列的模型在0.05显著性水平下平均通过率为82%(表 1)。其中,AM、POT-1、POT-99th序列的检验通过率均为100%,百分位在95th以上(含95th)阈值方案的POT序列模型的检验通过率均超过80%。通过率随百分位减小而降低,最小的POT-90th序列模型检验通过率仅为52%。该结果表明,极值分布GEV拟合AM序列的实验方法适用于全国范围降水极值的概率统计分析,但对于POT序列而言,阈值百分位的减小会使相应建立的GPD降水极值统计模型在全国范围的通过率降低。
![]() |
表 1 AM序列和各POT序列的K-S检验通过率 Table 1 The passing rate of K-S test |
本文以AM、POT-1、POT-99th、POT-96th、POT-93th、POT-90th序列为例,研究不同地区的极值分布模型检验通过情况,检验的p值空间分布如图 5所示。AM、POT-1、POT-99th序列全国范围内p值均大于0.05,说明这些方案全部通过K-S检验;而模型检验不合格的网格在POT-96th序列的模型结果中主要集中在西部地区,在POT-93th序列中呈现向北部延伸的趋势,在POT-90th序列中全国近一半区域都未能满足K-S检验的要求,检验不合格即说明假设的分布模型不能应用于这些地区。
![]() |
图 5 各降水极值序列K-S检验的p值空间分布图 Figure 5 The p of K-S test |
本文通过K-S检验中直接反映模型假设分布与样本间最大差异程度的ksstat值,分析各方案模型的拟合效果。以AM、POT-1、POT-99th、POT-96th、POT-93th、POT-90th这6组序列为例,ksstat值空间分布情况见图 6。AM与POT-1序列的ksstat值整体明显高于其他POT序列,但分布较为均匀,异常值少,说明这两种方案的拟合效果一般但合格率高、稳定性好,对全局具有普遍较好的适用性。相比于AM与POT-1序列,其他POT序列ksstat值明显变小,并且阈值百分位水平越低,大部分地区的ksstat值越小,拟合效果显著改善。然而,在西部小范围地区呈现出相反的情况,ksstat值逐渐增大并且范围逐渐扩大,说明阈值选择较小百分位数有利于提高大部分区域(除西部部分地区外)的模型拟合效果,而我国西部部分地区在高分位数阈值方案POT序列的模型中拟合效果较好。
![]() |
图 6 不同极值序列检验的ksstat值空间分布图 Figure 6 The ksstat of K-S test |
根据以上分析,AM序列以及POT-1序列所建立的极值分布模型具有良好的全局适用性,但模型拟合效果一般;由百分位数法确定的POT序列模型拟合效果相对较好,但适用于不同地区的最优阈值选取标准各有不同。因此,本文以90th~99th作阈值,构建10个POT降水极值序列,分别建立基于GPD的统计模型对极值序列进行拟合,以ksstat值最小作为优选准则,研究提出适用于全国不同地区极端日降水的概率分布模型与阈值选取标准。
本文首先计算不同阈值标准下拟合效果最优网格数占总网格数的百分比,如图 7所示。在全国范围的方案优选中POT-90th序列具有非常明显的优势,其次是POT-95th序列,其他方案相对均衡。然后,分析确定各网格所对应的最优阈值标准,如图 8所示。从全国范围来看最优方案序列的阈值百分位水平呈现出由西北向东南逐渐减小的特点,在东南大部分地区最优方案序列为POT-90th,而在西部部分地区最优方案序列为高分位数的POT-99th、POT-98th、POT-97th序列。在此基础上,计算各网格在最优方案下对应的ksstat值,如图 9所示。ksstat值在空间上呈现出由西北向东南逐渐减小的特点,说明西北部地区各降水极值统计模型的拟合效果要劣于其他地区。
![]() |
图 7 不同阈值标准下拟合效果最优网格数占比 Figure 7 The percentage of the optimization grids for each scheme |
![]() |
图 8 推荐阈值标准的百分位水平空间分布图 Figure 8 The optimization results of percentile |
![]() |
图 9 推荐方案下ksstat值空间分布图 Figure 9 The ksstat in optimization results |
特别地,从东南地区往西部地区过渡,优选结果与中国干湿区域的划分具有一定的相似性,分析其原因表明,极值统计模型是基于极值分布理论对降水量序列进行拟合,选取的样本需满足一定极值特征,进行POT抽样时阈值的大小决定了样本的极值水平,雨水丰沛的地区极端降水事件发生频率相对较高,阈值可以选择较低的百分位数以增大样本量从而提高模型拟合效果,而全年缺少雨水的地区极端降水事件发生频率小,只有将阈值的百分位定得足够高才能符合降水极值的样本要求,否则模型拟合效果不佳,因此降水极值统计模型方案的优选结果与当地降水水平密切相关,而中国干湿区域的划分即按照降水、蒸发情况作为依据,因而两者分区情况在一定程度上是相近的。
最后,本文提出适用于全国不同地区的日降水极值统计模型与阈值选取方案。在全国降水极值统计模型中宜采用建立GPD分布模型拟合POT序列,由百分位数法确定POT序列的阈值,在湿润地区宜将90th~94th百分位数作为阈值,在半湿润和半干旱地区宜将94th~97th百分位数作为阈值,在干旱地区宜将97th~99th百分位数作为阈值。对于特定区域的研究,上述结果可以作为参考,同时根据区域降水的季节特点限定样本,比如仅对每年夏季降水进行极值研究,可以得到更优的模型结果。
4 结论本文研究1961—2015年全国日降水极值的统计规律及其空间分布特征,提出适用于不同地区极端日降水的极值分布模型与阈值选取标准。主要结论如下。
AM与POT-1序列均值的空间分布总体呈现东南多、西北少的格局,序列的标准差与均值表现出良好的相关性。全国范围POT-1序列均值都大于AM序列,POT-1序列标准差普遍小于AM序列。样本数量相同的情况下,POT序列能够更好地反映极端降水情况,更符合降水极值序列的要求。
与POT-1序列相比,百分位数法确定的序列随着百分位水平的降低,均值逐步减小,标准差的变幅在不同地区呈现不同规律,故研究多种阈值方案的POT序列对于提高不同地区极端日降水的拟合效果有重要意义。
采用GEV分布拟合AM序列的实验方法适用于全国范围日降水极值的统计分析。POT序列选取的阈值百分位越小,GPD模型在全国范围的通过率越低。AM序列和POT-1序列的模型拟合效果一般但合格率高、稳定性好,对全国具有较好的适用性;POT序列阈值百分位降低有利于提高全国大部分区域的模型拟合效果,而西部部分地区在高分位数作阈值的方案中模型拟合效果更好。
以ksstat值最小作为优选准则对不同方案进行优选,结果与中国干湿区域的划分有很好的相关性。为此,提出适用于全国范围的日降水极值统计模型及阈值推荐方案:在全国降水极值统计模型中宜采用GPD分布拟合POT序列的方法,由百分位数法确定POT抽样的阈值,在湿润地区宜将90th~94th百分位数作为阈值,在半湿润和半干旱地区宜将94th~97th百分位数作为阈值,在干旱地区则使用97th~99th百分位数较为合适。对于特定区域的研究,根据区域降水的季节特点限定样本可得到更优的模型结果。
[1] |
IPCC. Managing the risks of extreme events and disasters to advance climate change adaptation(SREX) [R]. Cambridge: Cambridge University Press, 2012
|
[2] |
秦大河. 气候变化科学与人类可持续发展[J]. 地理科学进展, 2014, 33(7): 874-883. DOI:10.11820/dlkxjz.2014.07.002 |
[3] |
秦大河, StockerT, 259名作者和TSU(驻伯尔尼和北京). IPCC第五次评估报告第一工作组报告的亮点结论[J]. 气候变化研究进展, 2014, 10(1): 1-6. |
[4] |
Wen X, Fang G H, Qi H S, et al. Changes of temperature and precipitation extremes in China: past and future[J]. Theoretical and Applied Climatology, 2016, 126(1-2): 369-383. DOI:10.1007/s00704-015-1584-x |
[5] |
丁裕国, 李佳耘, 江志红, 等. 极值统计理论的进展及其在气候变化研究中的应用[J]. 气候变化研究进展, 2011, 7(4): 248-252. |
[6] |
江志红, 丁裕国, 陈威霖. 21世纪中国极端降水事件预估[J]. 气候变化研究进展, 2007, 3(4): 202-207. |
[7] |
苏布达, 姜彤, 董文杰. 长江流域极端强降水分布特征的统计拟合[J]. 气象科学, 2008(6): 625-629. |
[8] |
张婷, 魏凤英. 华南地区汛期极端降水的概率分布特征[J]. 气象学报, 2009, 67(3): 442-451. DOI:10.11676/qxxb2009.044 |
[9] |
江志红, 丁裕国, 朱莲芳, 等. 利用广义帕雷托分布拟合中国东部日极端降水的试验[J]. 高原气象, 2009, 28(3): 573-580. |
[10] |
王静, 余锦华, 何俊琦. 江淮地区极端降水特征及其变化趋势的研究[J]. 气候与环境研究, 2015, 20(1): 80-88. DOI:10.3878/j.issn.1006-9585.2014.13222 |
[11] |
张利平, 杨艳蓉, 秦琳琳, 等. 未来情景下南水北调中线工程水源区极端降水分布特征[J]. 气候变化研究进展, 2013, 9(1): 29-34. |
[12] |
佘敦先, 夏军, 张永勇, 等. 近50年来淮河流域极端降水的时空变化及统计特征[J]. 地理学报, 2011, 66(9): 1200-1210. DOI:10.11821/xb201109005 |
[13] |
李占玲, 王武, 李占杰. 基于GPD分布的黑河流域极端降水频率特征分析[J]. 地理研究, 2014, 33(11): 2169-2179. |
[14] |
Wang S J, Zhang M J, Sun M P, et al. Changes in precipitation extremes in Alpine areas of the Chinese Tianshan Mountains, central Asia, 1961-2011[J]. Quaternary International, 2013, 311: 97-107. DOI:10.1016/j.quaint.2013.07.008 |
[15] |
任正果, 张明军, 王圣杰, 等. 1961—2011年中国南方地区极端降水事件变化[J]. 地理学报, 2014, 69(5): 640-649. DOI:10.11821/dlxb201405007 |
[16] |
国家气象信息中心. 中国地面降水0. 5°×0. 5°格点数据集(V2. 0) 评估报告[R]. 北京: 国家气象信息中心, 2012
|
[17] |
史道济. 实用极值统计方法[M]. 天津: 天津科学技术出版社, 2006, 8-81.
|
[18] |
杜鸿, 夏军, 曾思栋, 等. 淮河流域极端径流的时空变化规律及统计模拟[J]. 地理学报, 2012, 67(3): 398-409. DOI:10.11821/xb201203011 |
[19] |
张利平, 杜鸿, 夏军, 等. 气候变化下极端水文事件的研究进展[J]. 地理科学进展, 2011, 30(11): 1370-1379. DOI:10.11820/dlkxjz.2011.11.006 |
[20] |
翟盘茂, 潘晓华. 中国北方近50年温度和降水极端事件变化[J]. 地理学报, 2003, 58(S): 1-10. |
[21] |
黄琰, 封国林, 董文杰. 近50年中国气温、降水极值分区的时空变化特征[J]. 气象学报, 2011, 69(1): 125-136. DOI:10.11676/qxxb2011.011 |
[22] |
杨金虎, 江志红, 王鹏祥, 等. 中国年极端降水事件的时空分布特征[J]. 气候与环境研究, 2008, 13(1): 75-83. |
[23] |
Martins E S, Stedinger J R. Generalized maximum-likelihood generalized extreme-value quantile estimators for hydrologic data[J]. Water Resources Research, 2000, 36(3): 737-744. DOI:10.1029/1999WR900330 |
[24] |
何正风. MATLAB概率与数理统计分析[M]. 北京: 机械工业出版社, 2012, 135-153.
|
2. Water Resources Department of Jiangsu Province, Nanjing 210029, China