地球物理学报  2017, Vol. 60 Issue (3): 912-923   PDF    
基于空间观测差异的地面气温资料质量控制算法研究
熊雄1,2, 叶小岭1,2 , 张颖超1,2, 孙宁1, 邓华3, 姜忠宝4     
1. 南京信息工程大学信息与控制学院, 南京 210044;
2. 南京信息工程大学气象灾害预报预警与评估协同创新中心, 南京 210044;
3. 南京信息工程大学大气科学学院, 南京 210044;
4. 吉林省气候中心, 长春 130062
摘要: 本文提出一种基于空间观测差异的地面气温资料质量控制算法(SDF算法).SDF算法在分析目标区域内不同观测站空间观测差异的基础上,通过引入观测差异曲面函数构造质量控制方程.同时,为权衡质量控制中的两类统计错误,提出均方根检错率概念(MSR),结合均方根误差(RMSE)、平均绝对误差(MAE)和纳什效率系数(NSC)共同检测SDF算法的有效性.利用SDF算法对国家气象中心提供的14个地面观测站2005-2014年02:00、08:00、14:00、20:00定时气温观测资料进行质量控制分析,并与反距离加权法(IDW)和空间回归检测法(SRT)进行对比.试验结果表明:通过多组独立测试,SDF算法的质量控制效果均优于IDW算法和SRT算法,具有稳定性高、适应性强的特点,但三种方法均受观测台站密集度和地形地貌影响.
关键词: 大气探测      地面气温      质量控制      空间观测差异     
A quality control method for the surface temperature based on the spatial observation diversity
XIONG Xiong1,2, YE Xiao-Ling1,2, ZHANG Ying-Chao1,2, SUN Ning1, DENG Hua3, JIANG Zhong-Bao4     
1. School of Information and Control, Nanjing University of Information Science and Technology, Nanjing 210044, China;
2. Collaborative Innovation Center on Forecast and Evaluation of Meteorological Disasters, Nanjing University of Information Science and Technology, Nanjing 210044, China;
3. School of Atmospheric Science, Nanjing University of Information Science and Technology, Nanjing 210044, China;
4. Climate Center of Jilin Province, Changchun 130062, China
Abstract: This article aims to propose a new quality control method based on the spatial observation diversity for the surface temperature (SDF). In order to weight the two type errors, Mean Square Ratio (MSR) was employed to evaluate the new method with Root Mean Square Error (RMSE), Mean Absolute Error (MAE) and Nash-Sutcliffe Model Efficiency Coefficient (NSC). The examples indicate that the new method outperforms IDW and SRT for different stations at 02:00, 08:00, 14:00 and 20:00 during 2005-2014. The results of the comparison led to the recommendation that the SDF method is an effective quality control method in identifying the seeded errors for the surface temperature with the best robustness and adaptability, but all these three methods are affected by the topography and density of the stations.
Key words: Atmospheric sounding      Surface temperature      Quality control      Spatial observation diversity     
1 引言

在全球信息化背景下,数值天气预报已成为影响经济发展和社会进步的一种必要的天气预报手段 (Kalnay et al., 1990; Eischeid et al., 1995; 穆穆等, 2002).国内外学者通过大量观测实验和数值模拟表明资料同化技术的发展是保障数值天气预报准确性的前提 (闵锦忠等, 2000; Zhao et al., 2015).由于地面观测资料能够较为准确地提供大气近地面的动力、热力状况和湿度分布等大气特征 (Zhao et al., 2015),因此,地面资料同化技术的发展有助于提高数值天气预报水平,而对地面气象观测资料进行质量控制是同化前的必要环节 (Fiebrich and Crawford, 2001; Steinacker et al., 2011; 张卫民等, 2012; Xu et al., 2013; Juan et al., 2014; Lakshmanan et al., 2014).近年来,地面气象观测站的数量不断增加,随之产生庞大的观测数据,高质量的地面气象观测资料一方面是研究天气气候变化和数值天气预报模式必不可少的资料 (郑亦佳等,2016);另一方面,数值天气预报是一种典型的初值问题,而对地面气象观测资料的质量控制是提高模式初始场精度的有力保障 (朱红芳等,2007).气象观测资料的质量控制技术的快速发展是从20世纪下半叶开始的,特别是高性能计算机的出现使得复杂数值天气预报模式的计算成为可能;模式初始场的质量直接影响到模式的预报结果,传统的人工检测已远不能满足现代数值天气预报质量控制的需求 (李泽椿等,2014).随着计算能力的不断提高和社会对气象业务的要求越来越高,观测资料的质量控制会越来越重要.如今,质量控制不仅仅是观测数据采集、传输和处理中的一个重要环节,更是国际间气象业务交流的前提标准 (Feng and Crawford, 2004; Xu et al., 2013; 达朝究等, 2014; 张媛和任国玉, 2014).

通常而言,有关地面气象观测资料的质量控制的研究可以分为两种情况,一是对目标观测站进行单站质量控制,常见的质量控制方法有极值检验 (Baker, 1992; Reek et al., 1992; Meek and Hatfield, 1994; Kubecka, 2001)、时间一致性检验 (Shafer et al., 2000)、界限值检验 (Allen et al., 1998) 和时变检验 (Lanzante, 1996) 等;再者就是根据区域范围内邻近观测站信息对目标站观测值进行预测达到质量控制的目的,常用的方法有反距离加权法 (Inverse Distance Weighting, IDW)(Wade, 1987)、多项式内插控制法 (Polynomial Interpolation, PI)(Lorenc, 1981)、空间回归检验法 (Spatial Regression Test, SRT)(Hubbard and You, 2005) 等;其中,IDW方法和SRT方法在气象业务中使用比较广泛.IDW方法由Wade (1987)首次提出,主要通过邻近站与目标站的欧式距离来对邻站赋权进行回归预测,IDW方法算法简单、便于操作,在台站密集、地势平坦的区域具有很好的质量控制效果.Hubbard和You (2005)提出一种空间回归检验法用于地面资料质量控制 (SRT方法).不同于IDW方法,SRT方法根据邻站与目标站历史观测值之间的均方根误差 (Root Mean Square Error, RMSE) 对邻站赋权来实现对目标站的质量控制,同样SRT方法对台站分布密度具有较高的依赖性.在地形地貌简单情况下,IDW和SRT两种方法一定程度上能够满足气象业务对地面气象观测资料的质量控制要求,但在地形复杂、环境差异明显的区域常出现控制失灵的现象.此外,针对不同的应用背景国内外学者还提出一些更为复杂的质量控制算法.例如,Ingleby和Lorenc (1988)Lorenc和Hammon (1993)提出通过贝叶斯概率判别离群值的质量控制方法,该算法的优点在于通过计算离群值出现后验概率来进行地面气象观测资料的质量控制,反映了客观自然地选择一个观测值是否被接受或拒绝.Anderson和Järvinen (1999)Qin等 (2010)为提高数值天气预报的准确率将变分思想应用于地面气象观测资料的质量控制;此外,Antonilli等 (2004)Tobin等 (2007)利用经验正交函数分解技术实现对气象观测资料的质量控制.在研究地面资料质量控制时,复杂地形对质量控制效果的影响是不可回避的 (Ruggiero et al., 1996).徐枝芳 (2007)等通过对比分析Ruggiero同化方案 (Ruggiero et al., 1996) 和Guo等 (2002)同化方案的优缺点,指出在地面资料同化中考虑地形差异的必要性.Benjamin等 (2004)利用局地递减率将地面资料根据地形订正,并在NECP的RUC系统中运行.

我国国土辽阔,地形地貌复杂,必然导致地面气象观测信息的多样性、多层次性和非平稳性;同时由于历史、经济、气候等原因,不同地域的地面观测站分布情况也各不相同.大量的研究表明,我国地面气象观测资料的使用率还不高,除地面气压外,只有很少一部分资料同化进入业务运行的资料同化系统;究其根本原因是我国地面气象观测资料的质量还不高,难以与其他资料进行融合同化.本文根据区域内不同观测站的空间观测差异,构造观测差异曲面,提出一种基于空间观测差异的地面气温质量控制算法 (SDF算法).该算法的出发点是地面气象观测中的气温变量可被视为时空随机场的实现 (Eynon and Switzer, 1983; Schär, 2004),其在空间域的分布特征满足区域化变量的定义 (Matheron, 1963岳文泽等, 2005).地面气温作为典型的区域化变量在空间域上具有明显的相关性 (Hill et al., 2004Chollett et al., 2012Shi et al., 2015);Tobler (1970)认为这种相关性是一个关于距离的函数,距离越近的区域化变量相关性越强 (Tobler第一定律,TFL).Tobler的理论在地理学朝定量化的发展起到了指导性、方向性的作用,但TFL存在一定的局限性,其“距离”概念的含糊性要求具体问题具体分析,这就限制了其更广泛的应用 (李小文等, 2007).进入新世纪,Goodchild (2004)李小文等 (2007)分别从空间异质性和时空邻近度重新定义了“距离”的概念,延拓了Tobler的理论.地面气温变量在空间上的分布可以看成一个连续的光滑曲面,具有明显的空间异质性特征 (Pateman, 2012Lehner and Stocker, 2015).地面气温的空间异质性决定了地面气温曲面的差异性,也即是空间观测差异.本文通过地面气温的空间观测差异定义不同地面观测站间的“距离”,并以此得到SDF算法中权重系数,进而实现对目标站地面气温观测资料的回归预测,达到对其质量控制的效果.分别用SDF、IDW、SRT三种方法对全国14个地面观测站点2005-2014年02:00、08:00、14:00、20:00四个定时气温值进行质量控制和分析,以检验SDF算法的有效性和普适性.

2 数据和方法 2.1 数据

本文所用数据来源于国家气象中心,包括全国2000余个地面观测站2005-2014年地面定时 (02:00、08:00、14:00、20:00) 气温观测资料以及各台站地理信息.分别选取14个全国不同地域的观测站为研究对象,以目标站为中心,半径200 km范围内观测站为邻站,不同半径范围内邻站选取情况见表 1.从表 1可以看出,西、北地区台站密集度明显不及东、南地区,主要原因是我国的台站建设很大程度上依赖于地域经济的发展程度,观测网络呈明显两极化和不对称性.

2.2 基于空间观测差异的地面气温质量控制算法 (SDF算法)

Steinacker等 (2011)认为,当气象观测网络的密度足够大时,地面气温的分布在空间上是连续、平稳的,即一个连续而光滑的曲面.为了不失一般性,考虑一个理想区域L,地面气温TL为连续变量,令X是目标站的地面气温观测值,Xi, i=1, 2, 3, …, n是邻站的地面气温观测值.任一邻站相对于目标站空间位置可以通过它们之间的欧氏距离以及方位角 (相对于目标站,正北方向为0°,顺时针方向为正) 来描述,假定XXi之间的观测值存在差异Ψi(disi, angi),记Ψ是关于距离与方位角的空间观测差异曲面函数,XXi满足以下基本关系式:

(1)

表 1 全国14个地面观测站不同半径范围内邻近站数目分布情况 (单位:个) Table 1 The number of neighboring stations of 14 different target stations for different radius

地理信息在空间分布上互为相关,“距离”越近地理信息的相关性越强 (Tobler, 1970).但此处的“距离”是一种广义的说法,指的是空间上两个地理单元的某种度量 (Goodchild, 2004; 李小文等, 2007).本文认为区域L范围内的地面气温同样满足这一规律,并用空间观测差异来刻画不同观测站间的“距离”;邻近站与目标站的观测差异越小,它们之间的相关性就越强.因此,通过对邻近站加权平均来预测目标站观测值时,观测差异值越小的站点获取的权重越大.假设区域L内有n个目标站的邻站,则目标站的预测值可以表示为

(2)

(3)

其中,ωi表示为第i个邻站的权重,加权系数ωi可以通过指数模型公式 (3) 来确定,Ψi(disi, angi) 越大 (小) 的邻站对应的权重应越小 (大),kωi变化系数,在本文的研究中取k=2.

结合公式 (1) 中的空间观测差异曲面函数,公式 (2) 进化为

(4)

显然,公式 (4) 是一种局部估计的方法,其给出了目标观测站预测值的无偏估计.

基于上述,本文将公式 (4) 应用于地面气温观测资料的质量控制,其过程分为以下几个步骤:

第一步,选取目标观测站地面气温观测资料一段时间序列Xt, t=1, 2, 3, …T以及一定范围内邻站观测资料同时段序列Xit, i=1, 2, 3, …n.

第二步,计算邻站与目标站之间的欧式距离disi(0<disi≤dismax) 以及对应的方位角angt(0≤angt≤360),并计算每一时刻目标站与邻近站观测值的差git,构造目标站与邻近站观测值的空间观测差异矩阵:

(5)

其中,gitgit在时间维度上的平均值.

第三步,利用B样条曲面对矩阵A进行曲面拟合,得到关于disi和angi的空间观测差异曲面函数Ψi(disi, angi).B样条曲面是B样条曲线的延拓,假设存在一个m×n次B样条曲面片,其数学表达式为

(6)

式中,Pij(i=0, 1, 2, …, m; j=0, 1, 2, …, n) 是定义该曲面片定点位置的向量矩阵,则式中共有 (m+1)·(n+1) 个顶点;Fi, m(uFj, n(w) 为B样条基底函数;u,w是参数.一般情况下m≠n;若存在m=n,其相对应的B样条曲面片为双三次B样条曲面片.其中,

(7)

(8)

鉴于B样条曲面能够有效解决样条函数的局部控制问题以及参数连续问题,在本文中B样条曲面用于空间观测差异曲面的拟合.

第四步,利用公式 (3) 和公式 (4) 得到目标站观测数据预测模型,并得到预测值Xest.

第五步,将预测值与观测值进行比较,若其差值满足式 (9) 则认为数据通过检验,若不满足则认为数据可疑,对可疑数据进行标记:

(9)

其中,f为质量控制系数,σ为目标站观测序列标准误差.上述质量控制方法记为基于空间观测差异的地面气温质量控制算法 (简称:SDF算法).

2.3 质量控制中两类统计错误处理

在统计学检验问题 (H0, H1) 中,把样本空间Ω分成不相交的两部分DD=Ω-D,一旦有样本X,当XD时就否定H0;当XD,就接受H0.D称为拒绝域,D称为接受域.零假设H0本来是对的,由于样本的随机性,观察值落入否定域D,错误地将H0否定了,称为弃真,这称为第一类错误,将第一类错误的概率记为r1;零假设H0本来是不对的,由于样本的随机性,观察值落入接受域D,错误地将H0接受了,称为取伪,这称为第二类错误,将第二类错误的概率记为r2,两类统计错误逻辑关系如图 1所示.

图 1 两类统计错误概念简图 Fig. 1 The brief map of the two type errors

气象资料的质量控制研究中,同样存在这两类统计错误:第一类错误和第二类错误.从宏观角度来说,当第一类错误变大时,第二类错误将变小;反之,第一类错误变小时,第二类错误将变大.对这两类错误的权衡是气象资料质量控制研究不可避免的问题,Tu等 (2000)认为在控制第一类错误发生概率的前提下,应使第二类错误达到最小,根据这一准则以调整合适的质量控制系数.这种方法在一定程度权衡了两类错误的发生,但缺乏一个定量的标准.鉴于此,本文提出均方根检错率概念 (Mean Square Ratio, MSR) 来权衡两类错误,作为评价质量控制算法的考核指标,MSR数学表达如下:

(1)

其中,r1为第一类错误出现概率,r2为第二类错误出现概率,αr1权重.通常情况下,r1的数值为r2的10倍至100倍,从而导致r1r2对MSR的敏感性不在同一层面;α的设置调和了r1r2对MSR的影响,使得两者处于同等重要的位置.假设选取固定的质量控制系数f,对应的两类错误分别是.在公式 (9) 中,质量控制系数f增大,的值减小 (反比例关系);反之,f增大,的值增大 (正比例关系).则存在两常数ΓΔ,满足公式:

(11)

(12)

公式 (11) 和公式 (12) 代入公式 (10) 中,可得:

(13)

显然,公式 (13) 中满足条件时,MSR能够取得最大值,而此时对应的质量控制系数f为最理想系数,因而可以通过MSR值的大小来选取公式 (9) 中最佳质量控制系数.

3 结果与讨论

基于SDF算法,对全国14个不同地域地面观测站2005-2014年定时 (02:00、08:00、14:00、20:00) 地面气温观测资料进行质量控制分析,并与IDW方法、SRT方法进行比对.因为原始数据集已经过基本质量控制,已不存在明显离群值,为了检验质量控制方法的性能,本文采用Hubbard和You等 (2005)提出的在原始数据中随机位置植入随机误差的方法,对原始数据集人为植入随机误差,随机误差由公式 (14) 产生:

(14)

其中,Ex为待插入原始数据集的误差,sx为原始数据集的标准差,qx为-3.5, 3.5上均值为0的均匀分布,x为待插入误差原始数据集的位置.记r为质量控制算法的检错率 (检测出的错误数据个数与植入错误数据个数的比例),在本文中满足关系:r=1-r2.

模型的预测精度可以用均方根误差 (RMSE)、平均绝对误差 (MAE) 和纳什效率系数 (NSC) 结合MSR进行评估.其中,NSC的有效值介于0到1,数值越接近1,模型的吻合度越好;RMSE和MAE为大于0的数,越接近0,模型的性能越好,三种评价指标数学表达式分别为

(15)

(16)

(17)

其中,Xest为预测值,X为观测值,X平均值,n为采样总数.

本文选取南京站 (站号:58238) 为代表站进行实例分析,取其200 km范围内观测站为邻近站.根据表 1,南京站不同半径范围内邻站极坐标分布如图 2所示.

图 2 南京站不同半径范围内站点分布 (a) 25 km范围内站点分布;(b) 50 km范围内站点分布; (c) 75 km范围内站点分布; (d) 100 km范围内站点分布; (e) 125 km范围内站点分布; (f) 150 km范围内站点分布; (g) 175 km范围内站点分布; (h) 200 km范围内站点分布 Fig. 2 Distribution of the neighboring stations for different radius for Nanjing station (a) where the radius is 25 km; (b) where the radius is 50 km; (c) where the radius is 75 km; (d) where the radius is 100 km; (e) where the radius is 125 km; (f) where the radius is 150 km; (g) where the radius is 175 km; (h) where the radius is 200 km.

图 2(a-c)可以看出,半径范围在75 km时,邻站主要集中在南京站的西南方向,该方向上的邻站主要分布在安徽省马鞍山市附近;当半径范围扩大至100 km时,江苏省内邻站数目开始增加,特别是苏锡常一带邻站数量明显多于其他地区.从图 2(e-h)中可以看出,邻站的分布明显呈以城市为中心的集聚现象,这主要由我国地面气象观测站分布的特点决定,大多数观测站分布在行政城市的周围,并在经济越发达的地区站点分布越密集.根据图 2中邻站的分布情况,以南京站200 km为半径范围的14:00定时地面气温2005-2014年观测平均值为例,利用弯曲最小样条插值法构造空间观测差异曲面Ψ(dis, ang),曲面投影图如图 3所示.

图 3 南京站200 km范围内14:00定时地面气温2005-2014年观测平均值空间观测差异曲面投影 Fig. 3 Distribution of average spatial temperature diversity for Nanjing station within 200 km at 14:00 for 2005-2014

图 3中不同色阶物理量为邻近观测站与南京站的空间观测差异大小,波动范围在±3 ℃之间.从图 3中可以看到,邻站主要分布在南京站的东南方向 (苏锡常一带),通常情况下随着距离的增大,差异值呈变大趋势,越靠近临海,差异越明显.利用观测差异曲面Ψ(dis, ang),通过SDF算法实现对南京站2005-2014年02:00、08:00、14:00、20:00定时地面气温资料进行质量控制.图 4为SDF、SRT、IDW三种不同方法对南京站2005-2014年地面气温观测资料进行质量控制的效果图,从图 4中可以看到通过SDF法获得的2005-2014年MSR平均值在所有测试案例中都取得最大值.图 4(a, b, d) 显示当半径范围≥100 km时,三种方法的质量控制效果趋于平稳,波动不大,三种方法在不同半径时质量控制效果差异不大;但在图 4c中当半径范围≥100 km时,IDW和SRT对14:00地面气温资料质量控制效果呈明显下降趋势,但SDF表现平稳,依然表现良好的检错能力和稳健性.通过图 4我们可以得到:(1) SDF、SRT、IDW三种方法对于南京站2005-2014年02:00、08:00、14:00、20:00定时地面气温观测资料的质量控制效果在半径取值100 km时达到一个较理想的状态;(2) SDF比IDW、SRT能够更稳定有效地甄别出人工植入错误值.为了进一步考察SDF方法的质量控制效果,我们选取100 km为半径范围对三种质量控制方法进行对比 (见图 5),从图 5可以看出采用MAE、RMSE、NSC三种指标,SDF算法在不同时刻均明显优于IDW算法;SDF算法与SRT算法在MAE、RMSE上的表现差别不是很大 (SDF稍优于SRT),但采用NSC指标时SDF算法体现了明显的优势.因而,三种方法在对南京站2005-2014年定时地面气温的质量控制效果依次是SDF优于SRT,而SRT优于IDW.

图 4 IDW、SRT、SDF三种方法对南京站不同半径范围内2005-2014年02:00、08:00、14:00、20:00定时地面气温资料质量控制效果曲线图 (a) 02:00地面气温资料; (b) 08:00地面气温资料; (c) 14:00地面气温资料; (d) 20:00地面气温资料. Fig. 4 Examples of performance of three different methods (IDW, SRT, SDF) for Nanjing station for different radius for four different time between 2005-2014 (a)02:00; (b)08:00; (c)14:00; (d)20:00.
图 5 IDW、SRT、SDF三种方法对南京站100 km范围内2005-2014年02:00、08:00、14:00、20:00定时地面气温资料质量控制效果指标分析 (a) MAE; (b) RMSE; (c) NSC. Fig. 5 Examples of performance of three different methods (IDW, SRT, SDF) for Nanjing station with in 100 km for four different time between 2005-2014

为了考察SDF方法的普适性,利用IDW、SRT、SDF三种方法对全国不同气候区域的14个典型地面观测站2005-2014年14:00定时地面气温资料进行质量控制分析 (见图 6).从图 6中我们可以看到,西部、北部地区的质量控制效果普遍不理想,结合表 1分析,可能存在两个方面原因:一方面,西部、北部地区经济发展滞后,观测站密度设置不足;另一方面,西部、北部地区地形、地貌以及气候较为复杂不利于质量控制算法的运行.从图 6中MSR、NSC、MAE、RMSE四个指标看SDF方法在三种算法中表现最优,大部分情况下SRT方法和SDF方法效果差不多,但图 6c显示SDF方法比SRT方法具有更强的稳定性,对不同的地区适应性更好.拉萨站 (站号:55591)、乌鲁木齐站 (站号:51463) 以及漠河站 (站号:50136) 的质量控制效果与其他台站有着明显的差距,特别是在图 6b NSC指标上更是如此;从表 1可知,此三站的周围台站密度极低,在半径≥75 km时才有少许邻近观测站.邻站的不足直接导致了质量控制算法失灵,因此本文中质量控制方法的优劣依赖于邻站分布密度.同时,从图 6中可以看到地势平坦的地区 (如南京、成都) 比地势复杂的地区 (如太原、兰州) 质量控制效果要好,反映了地理环境对质量控制算法的影响.

图 6 IDW、SRT、SDF三种方法对全国14个地面观测站2005-2014年14:00定时地面气温资料质量控制效果指标分析 (a) MSR; (b) NSC; (c) MAE; (d) RMSE. Fig. 6 Examples of performance of three different methods (IDW, SRT, SDF) for 14 different stations at 14:00 for 2005-2014

为了进一步分析地形地貌差异对质量控制方法的影响,分别选取地形差异明显的6个不同地域观测站 (太原站、南京站、福州站、海口站、成都站、兰州站) 进行SDF法质量控制对比分析 (见图 7).结合表 1台站分布密度信息,通过对图 7中南京站与太原站 (站号:53772) 的对比,可以看到,太原周围的台站分布要比南京密集,但质量控制效果不及南京;原因是太原西、北、东三面环山,中、南部为河谷平原,整个地形北高南低呈簸箕形;而南京处于长江中下游平原地带,南面是低山、岗地、河谷平原、滨湖平原和沿江河地等地形单元构成的地貌综合体,从地形地貌上来看南京比太原要趋于平缓.而对比太原站与成都站 (站号:56294),虽然成都处于成都平原的腹心地带,地势平坦,但SDF方法应用于两站的质量控制效果相近,这是因为太原站邻站的分布密度比成都站要高,这点从另一个角度说明了密集的台站分布可以弥补地形地势的不足.同属于西部地区的兰州站 (站号:52889) 周围台站分布密度与成都站相当,但在考察的6个观测站中兰州站的质量控制效果最差,主要原因是兰州地势西部和南部高,东北部低,黄河自西南流向东北,横穿全境,形成峡谷与盆地相间的串珠形河谷的复杂地形.反观东南沿海的福州站 (站号:58847) 和海口站 (站号:59758),这两个站的台站分布密度相近 (略低于成都站);两站处于热带、亚热带交际处,受热带海洋性季风气候影响,极端天气发生概率较大,相对于内陆平坦地区,其质量控制效果要受一定影响,从图 7(a, c)中可以看到2005-2014年海口站MSR平均值偏向最大值,MAE平均值偏向最小值;这种不对称的分布说明SDF方法对海口站的质量控制存在波动性,这正是由海口容易受极端天气影响导致的.海口站所处地势平坦,相较于福州站典型的河口盆地有利于质量控制,故而在图 6中海口站的四项指标值要比福州站理想.

图 7 SDF方法对全国6个地面观测站点2005-2014年14:00定时地面气温资料质量控制效果指标分析 (a) MSR; (b) NSC; (c) MAE; (d) RMSE. Fig. 7 Examples of performance of the SDF method for 6 different stations at 14:00 for 2005-2014

利用SDF方法和SRT方法对全国2000多个地面气象观测站2005-2014年日最低气温和日最高气温地面观测资料进行质量控制,并通过对比SDF方法和SRT方法对观测资料质量控制的累计MSR统计结果来判定两种方法的优劣.图 8中黑色实心圆点表示SRT方法比SDF方法质量控制效果好的地面观测站点,黄色实心圆点表示SDF方法比SRT方法好的地面观测站点,棕色实心圆点表示SDF和SRT两种方法质量控制效果优劣相当的地面观测站点.图 8a中黄色实心圆点占全部圆点的76.5%,远大于黑色圆点所占的比例 (2.3%);图 8b中黄色实心圆点所占比例上升到84.8%.从图 8中可以发现,在我国东南部地区SDF方法普遍要比SRT方法好,在中西部地区SDF的优势有所下降但仍然比SRT方法要表现好.

图 8 SDF方法与SRT方法对全国地面观测站2005-2014年 (a) 日最低温、(b) 日最高温质量控制效果对比图 Fig. 8 Comparison of the quality control results between the SDF and SRT methods for all the surface weather stations for 2005-2014: (a) Daily minimum temperature; (b) Daily maximum temperature
4 结论

本文通过构造空间观测差异曲面函数提出一种地面气温观测资料质量控制算法 (SDF算法),并对全国14个地面观测站2005-2014年02:00、08:00、14:00、20:00定时地面气温资料进行质量控制检测.为了对新算法进行评估,本文提出均方根检错率 (MSR) 概念,与RMSE、MAE和NSC共同作为评价指标对质量控制效果进行分析,并与IDW方法、SRT方法进行比较.试验表明,SDF方法能够有效地检测出地面气温观测资料中的存疑数据,与IDW和SRT相比具有更好的控制效果、普适性和稳定性.通过多组独立试验可以得到以下结论:

(1) SDF算法满足我国地面气温观测资料质量控制要求,能够有效地甄别出可疑数据.SDF算法在全国不同地区均表现出了优于IDW算法和SRT算法的检错能力、适用性和稳定性,其主要原因是SDF算法中的空间观测差异曲面函数弱化了地形地貌差异对地面资料质量控制算法的影响,提高了SDF算法的准确率.

(2) SDF算法与IDW算法和SRT算法一样,受台站分布密度的影响,台站分布越密集越有利质量控制算法效率的提高.同时,SDF算法在平原、盆地的质量控制效果要比丘陵、峡谷等地理环境复杂的地方效果好.地理环境造成的近地面大气分布特征的差异是地面资料质量控制研究必须面对的难题,本文通过构造空间差异曲面函数初步尝试攻克这一难题,在今后的研究中我们拟考虑气候、植被、水体等更多影响因素对地面资料质量控制的影响.

(3) 试验结果表明,无论是SDF算法还是IWD算法或SRT算法对地形、台站分布密度都是敏感的.因而,国家在设置新的地面观测站时应该着重增加西部、北部地区以及地形复杂地区地面观测站密度,弥补地形差异的劣势.同时,在极端天气易出现的沿海地区也应适当增加台站数量,加强对近地面大气变化特征的观测.

致谢

感谢内布拉加斯大学Ken Hubbard教授和Jingsheng You教授在研究空间回归质量控制方法中给予的讨论与意见.非常感谢审稿专家,他们字斟句酌的评阅意见帮助论文质量得到极大提升.

参考文献
Allen R G, Pereira L S, Raes D, et al. 1998. Crop evapotranspiration-Guidelines for computing crop water requirements-FAO Irrigation and drainage paper 56. Rome:FAO.
Anderson E, Järvinen H. 1999. Variational quality control. Quarterly Journal of the Royal Meteorological Society, 125(554): 697-722. DOI:10.1002/(ISSN)1477-870X
Antonelli P, Revercomb H E, Sromovsky L A, et al. 2004. A principal component noise filter for high spectral resolution infrared measurements. Journal of Geophysical Research:Atmospheres, 109(D23). DOI:10.1029/2004JD004862
Baker N L. 1992. Quality control for the navy operational atmospheric database. Weather and Forecasting, 7(2): 250-261. DOI:10.1175/1520-0434(1992)007<0250:QCFTNO>2.0.CO;2
Benjamin S G, Dévényi D, Weygandt S S, et al. 2004. An hourly assimilation-forecast cycle:The RUC. Monthly Weather Review, 132(2): 495-518. DOI:10.1175/1520-0493(2004)132<0495:AHACTR>2.0.CO;2
Chollett I, Müller-Karger F E, Heron S F, et al. 2012. Seasonal and spatial heterogeneity of recent sea surface temperature trends in the Caribbean Sea and southeast Gulf of Mexico. Marine Pollution Bulletin, 64(5): 956-965. DOI:10.1016/j.marpolbul.2012.02.016
Coop A J, Hubbard K G, Shulski M D, et al. 2014. Spatial accuracy of climate networks:a case study in Nebraska. Journal of Applied Meteorology and Climatology, 53(8): 1932-1942. DOI:10.1175/JAMC-D-13-0296.1
Da C J, Mu S, Ma D S, et al. 2014. The theoretical study of the turning period in numerical weather prediction models based on the Lorenz equations. Acta Physica Sinica (in Chinese), 63(2): 029201. DOI:10.7498/aps.63.029201
Eischeid J K, Bruce Baker C, Karl T R, et al. 1995. The quality control of long-term climatological data using objective data analysis. Journal of Applied Meteorology, 34(12): 2787-2795. DOI:10.1175/1520-0450(1995)034<2787:TQCOLT>2.0.CO;2
Eynon B P, Switzer P. 1983. The variability of rainfall acidity. Canadian Journal of Statistics, 11(1): 11-23. DOI:10.2307/3314707
Feng S, Hu Q, Qian W H. 2004. Quality control of daily meteorological data in China, 1951-2000:a new dataset. International Journal of Climatology, 24(7): 853-870. DOI:10.1002/(ISSN)1097-0088
Fiebrich C A, Crawford K C. 2001. The impact of unique meteorological phenomena detected by the Oklahoma Mesonet and ARS Micronet on automated quality control. Bulletin of the American Meteorological Society, 82(10): 2173-2187. DOI:10.1175/1520-0477(2001)082<2173:TIOUMP>2.3.CO;2
Goodchild M F. 2004. GIScience, geography, form, and process. Annals of the Association of American Geographers, 94(4): 709-714.
Guo Y R, Shin D H, Lee J H, et al. 2002. Application of the MM5 3DVAR System for a Heavy Rain Case over the Korean Peninsula. Twelfth PSU/NCAR Mesoscale Model Users' Workshop NCAR.
Hill R, Schreiber U, Gademann R, et al. 2004. Spatial heterogeneity of photosynthesis and the effect of temperature-induced bleaching conditions in three species of corals. Marine Biology, 144(4): 633-640. DOI:10.1007/s00227-003-1226-1
Hu S J, Qiu C Y, Zhang L Y, et al. 2014. An approach to estimating and extrapolating model error based on inverse problem methods:towards accurate numerical weather prediction. Chinese Physics B, 23(8): 089201. DOI:10.1088/1674-1056/23/8/089201
Hubbard K G, You J S. 2005. Sensitivity analysis of quality assurance using the spatial regression approach-A case study of the maximum/minimum air temperature. Journal of Atmospheric and Oceanic Technology, 22(10): 1520-1530. DOI:10.1175/JTECH1790.1
Ingleby N B, Lorenc A C. 1993. Bayesian quality control using multivariate normal distributions. Quarterly Journal of the Royal Meteorological Society, 119(513): 1195-1225. DOI:10.1002/qj.49711951316
Kalnay E, Kanamitsu M, Baker W E. 1990. Global numerical weather prediction at the National Meteorological Center. Bulletin of the American Meteorological Society, 71(10): 1410-1428. DOI:10.1175/1520-0477(1990)071<1410:GNWPAT>2.0.CO;2
Kubecka P. 2001. A possible world record maximum natural ground surface temperature. Weather, 56(7): 218-221. DOI:10.1002/j.1477-8696.2001.tb06577.x
Lakshmanan V, Karstens C, Krause J, et al. 2014. Quality control of weather radar data using polarimetric variables. Journal of Atmospheric and Oceanic Technology, 31(6): 1234-1249. DOI:10.1175/JTECH-D-13-00073.1
Lanzante J R. 1996. Resistant, robust and non-parametric techniques for the analysis of climate data:Theory and examples, including applications to historical radiosonde station data. International Journal of Climatology, 16(11): 1197-1226. DOI:10.1002/(ISSN)1097-0088
Lehner F, Stocker T F. 2015. From local perception to global perspective. Nature Climate Change, 5(8): 731-734. DOI:10.1038/nclimate2660
Li X W, Cao C X, Chang C Y. 2007. The first law of geography and spatial-temporal proximity. Chinese Journal of Nature (in Chinese), 29(2): 69-71.
Li Z C, Bi B G, Jin R H, et al. 2014. The development and application of the modern weather forecast in China for the recent 10 years. Acta Meteorologica Sinica (in Chinese), 72(6): 1069-1078.
Lorenc A C. 1981. A global three-dimensional multivariate statistical interpolation scheme. Monthly Weather Review, 109(4): 701-721. DOI:10.1175/1520-0493(1981)109<0701:AGTDMS>2.0.CO;2
Lorenc A C, Hammon O. 1988. Objective quality control of observations using Bayesian methods. Theory, and a practical implementation. Quarterly Journal of the Royal Meteorological Society, 114(480): 515-543. DOI:10.1002/qj.49711448012
Matheron G. 1963. Principles of geostatistics. Economic Geology, 58(8): 1246-1266. DOI:10.2113/gsecongeo.58.8.1246
Meek D W, Hatfield J L. 1994. Data quality checking for single station meteorological databases. Agricultural and Forest Meteorology, 69(1-2): 85-109. DOI:10.1016/0168-1923(94)90083-3
Min J, Sheng T, Zhen H, et al. 2000. Numerical experiment on quality control and variational assimilation of satellite image retrieval. Quarterly Journal of Applied Meteorology (in Chinese), 11(4): 410-418.
Mu M, Duan W S, Wang J C. 2002. The predictability problems in numerical weather and climate prediction. Advances in Atmospheric Sciences (in Chinese), 19(2): 191-204. DOI:10.1007/s00376-002-0016-x
Pateman R M, Hill J K, Roy D B, et al. 2012. Temperature-dependent alterations in host use drive rapid range expansion in a butterfly. Science, 336(6084): 1028-1030. DOI:10.1126/science.1216980
Qin Z K, Zou X, Li G, et al. 2010. Quality control of surface station temperature data with non-Gaussian observation-minus-background distributions. Journal of Geophysical Research:Atmospheres, 115(D16): D16312. DOI:10.1029/2009JD013695
Reek T, Doty S R, Owen T W. 1992. A deterministic approach to the validation of historical daily temperature and precipitation data from the cooperative network. Bulletin of the American Meteorological Society, 73(6): 753-762. DOI:10.1175/1520-0477(1992)073<0753:ADATTV>2.0.CO;2
Ruggiero F H, Sashegyi K D, Madala R V, et al. 1996. The use of surface observations in four-dimensional data assimilation using a mesoscale model. Monthly Weather Review, 124(5): 1018-1033. DOI:10.1175/1520-0493(1996)124<1018:TUOSOI>2.0.CO;2
Schär C, Vidale P L, Lüthi D, et al. 2004. The role of increasing temperature variability in European summer heatwaves. Nature, 427(6972): 332-336. DOI:10.1038/nature02300
Shafer M A, Fiebrich C A, Arndt D S, et al. 2000. Quality assurance procedures in the Oklahoma Mesonetwork. Journal of Atmospheric and Oceanic Technology, 17(4): 474-494. DOI:10.1175/1520-0426(2000)017<0474:QAPITO>2.0.CO;2
Shi H J, Paull D, Rayburg S. 2016. Spatial heterogeneity of temperature across alpine boulder fields in New South Wales, Australia:multilevel modelling of drivers of microhabitat climate. International Journal of Biometeorology, 60(7): 965-976. DOI:10.1007/s00484-015-1089-4
Steinacker R, Mayer D, Steiner A. 2011. Data quality control based on self-consistency. Monthly Weather Review, 139(12): 3974-3991. DOI:10.1175/MWR-D-10-05024.1
Tobin D C, Antonelli P, Revercomb H E, et al. 2007. Hyperspectral data noise characterization using principle component analysis:application to the atmospheric infrared sounder. Journal of Applied Remote Sensing, 1(1): 013515. DOI:10.1117/1.2757707
Tobler W R. 1970. A computer movie simulating urban growth in the Detroit region. Economic Geography, 46: 234-240. DOI:10.2307/143141
Tu Q P, Deng Z W, Zhou X L. 2000. Studies on the regional characteristics of air temperature abnormal in China. Acta Meteorologica Sinica (in Chinese), 58(3): 288-296.
Wade C G. 1987. A quality control program for surface mesometeorological data. Journal of Atmospheric and Oceanic Technology, 4(3): 435-453. DOI:10.1175/1520-0426(1987)004<0435:AQCPFS>2.0.CO;2
Xu Z F, Gong J D, Wang J J, et al. 2007. A study of assimilation of surface observational data in complex terrain part I:influence of the elevation difference between model surface and observation site. Chinese Journal of Atmospheric Sciences (in Chinese), 31(2): 222-232.
Xu Z F, Wang Y, Fan G Z. 2013. A two-stage quality control method for 2-m temperature observations using biweight means and a progressive EOF analysis. Monthly Weather Review, 141(2): 798-808. DOI:10.1175/MWR-D-11-00308.1
Yue W Z, Xu J H, Xu L H. 2005. A study on spatial interpolation methods for climate variables based on geostatistics. Plateau Meteorology (in Chinese), 24(6): 974-980.
Zhang W M, Cao X Q, Song J Q. 2012. Design and implementation of four-dimensional variational data assimilation system constrained by the global spectral model. Acta Physica Sinica (in Chinese), 61(24): 249202.
Zhang Y, Ren G Y. 2014. Correcting urban bias for surface air temperature series of Beijing Station over time period 1915-2012. Chinese J. Geophys. (in Chinese), 57(7): 2197-2207. DOI:10.6038/cjg20140715
Zhao H, Zou X L, Qin Z K. 2015. Quality control of specific humidity from surface stations based on EOF and FFT-Case study. Frontiers of Earth Science, 9(3): 381-393. DOI:10.1007/s11707-014-0483-2
Zheng Y J, Liu S H, Miao Y C, et al. 2016. Effects of different topographic correction methods on the simulation of surface wind speed and temperature in parameterization scheme of the YSU boundary layer. Chinese J. Geophys. (in Chinese), 59(3): 803-815. DOI:10.6038/cjg20160304
Zhu H F, Wang D Y, Guan Z Y, et al. 2007. Effects of different initial fields on grapes numerical prediction. Acta Meteorologica Sinica (in Chinese), 65(4): 493-502.
达朝究, 穆帅, 马德山, 等. 2014. 基于Lorenz系统的数值天气转折期预报理论探索. 物理学报, 63(2): 029201. DOI:10.7498/aps.63.029201
李小文, 曹春香, 常超一. 2007. 地理学第一定律与时空邻近度的提出. 自然杂志, 29(2): 69–71.
李泽椿, 毕宝贵, 金荣花, 等. 2014. 近10年中国现代天气预报的发展与应用. 气象学报, 72(6): 1069–1078.
闵锦忠, 沈桐立, 陈海山, 等. 2000. 卫星云图资料反演的质量控制及变分同化数值试验. 应用气象学报, 11(4): 410–418.
穆穆, 段晚锁, 王家城. 2002. 数值天气预报和气候预测的可预报性问题. 大气科学进展, 19(2): 191–204.
屠其璞, 邓自旺, 周晓兰. 2000. 中国气温异常的区域特征研究. 气象学报, 58(3): 288–296.
徐枝芳, 龚建东, 王建捷, 等. 2007. 复杂地形下地面观测资料同化I. 模式地形与观测站地形高度差异对地面资料同化的影响研究.大气科学, 31(2): 222–232.
岳文泽, 徐建华, 徐丽华. 2005. 基于地统计方法的气候要素空间插值研究. 高原气象, 24(6): 974–980.
张卫民, 曹小群, 宋君强. 2012. 以全球谱模式为约束的四维变分资料同化系统YH4DVAR的设计和实现. 物理学报, 61(24): 249202.
张媛, 任国玉. 2014. 无参考序列条件下地面气温观测资料城市化偏差订正方法:以北京站为例. 地球物理学报, 57(7): 2197–2207. DOI:10.6038/cjg20140715
郑亦佳, 刘树华, 缪育聪, 等. 2016. YSU边界层参数化方案中不同地形订正方法对地面风速及温度模拟的影响. 地球物理学报, 59(3): 803–815. DOI:10.6038/cjg20160304
朱红芳, 王东勇, 管兆勇, 等. 2007. 不同初始场条件对GRAPES模式数值预报的影响. 气象学报, 65(4): 493–502.