2. 中国气象局北京城市气象研究所,北京 100089;
3. 兰州大学大气科学学院,兰州 730000
2. Institute of Urban Meteorology of Beijing, China Meteorological Administration, Beijing 100089;
3. College of Atmospheric Sciences, Lanzhou University, Lanzhou 730000
大量事实和研究证明,准确可靠的天气和气候信息对公众的生产、生活及社会各个领域具有非常广泛的影响,气象观测资料质量控制的重要性已经为使用气象资料的科技人员所公认[1-5]。20世纪90年代末,我国开始在台站布设地面自动气象观测系统,至2003年我国近700个基本基准气象站全部安装了自动气象站 (以下简称自动站),大部分台站开始了常规站和自动站对比观测或双轨运行[6-8]。北京市自1997年开始组建自动站观测网,经过多年的扩建和完善,自动站已经具备覆盖全市的观测能力。截至2009年,已建成二百多个观测站点。从目前利用自动站进行的研究看,自动站资料应用还远远不及常规站,主要制约原因是其数据质量存在问题。对大量数据的质量缺少系统分析,无法使自动站数据得到广泛、深入的应用,即使有一些应用也难以得到令人信服的研究结果[9-12]。
因此,对自动站运行情况及资料质量进行系统和科学评估是一项重要的基础性工作[13-14],评估和质量控制后自动站资料将得到更广泛的应用,从而扩大气象资料的时间密度和空间密度,为天气分析、气候规律研究、气象灾害决策服务等提供更加全面、及时和准确的信息。本文以气温为切入点,分析和评估北京地区自动站逐时气温资料的质量,进而为城市气候研究和区域气候研究提供客观、有效的信息资料基础,也可为其他地区自动站的质量评估提供参考。
1 资料与方法 1.1 资料和质量评估截至2009年,北京地区一共建有加密自动站261个,其中区域站240个,国家站21个,通过格式检查,识别出错误格式的数据并定为缺测,将气温数据整理成统一的易识别格式,去除无1年以上有效观测数据的自动站,最后选取187个自动站1998—2009年气温逐时观测资料进行质量评估。
本研究中,通过分析资料的缺测情况、错误情况和可疑情况,分别对完整性、准确性和可靠性这3个特征[15]进行评估检验。
1.2 缺测数据的评估缺测情况是反映观测资料完整性的重要指标之一,缺测量越少说明数据质量越好,其完整度相对越高。但仅用缺测数据的个数来反映缺测情况不够全面和有效,难以甄别出可用信息和真正缺测的资料。如当某一具有连续特性的定时观测数据 (如气温、气压等) 缺测时,用前、后两定时数据内插被证明是可行的[8],而连续多时的缺测则需要依赖同一时间段相邻站点的信息进行插值[1],若逐时缺测数据超过1个月以上,该数据资料的完整性值得商榷和斟酌。为客观评估北京地区自动站气温观测资料的缺测情况,根据数据缺测长度,对资料缺测情况进行了分类 (如表 1所示)。
|
|
表 1 缺测分类及其定义 Table 1 Classification and definication of data-lacking |
根据站点的缺测情况,定义自动站的年有效气温数据累计达到3个月以上为有效运行站,并用年缺测率 (年缺测数据总数与年数据总数之比) 表征站点该年的缺测情况,以便进行质量评估的检验。
1.3 错误数据的判识已有文献表明,对于错误数据的识别一般需要结合实际情况,应该加入适当的人工判断来识别[13],因此对可疑数据的判定标准相对较宽,其目的是为了尽量不丢失自动站数据提供的有效信息。本研究通过对北京地区自动站气温观测资料进行数值试验和人工判定验证,讨论了区分错误数据和可疑数据的判定标准,为错误数据的确定和可疑数据的排查提供参考。
1.3.1 极值型错误极值是指某个固定测站历史记录中气温资料出现过的最大 (小) 值,自动站气温资料超过极值的数据很可能是错误数据,明显大于 (小于) 极值的数据可判定为极值型错误。本文以北京地区20个常规站1979—2008年日最高 (低) 气温资料为参考标准,计算出30年间各月的极端最大 (小) 值,并给出±2℃的浮动误差 (上阈值提升2℃,下阈值降低2℃),得到自动站气温观测资料逐月的极大 (极小) 阈值 (逐月阈值结果略),超过该月上、下阈值的数据定义为极值型错误。
1.3.2 定常型错误气象要素随时间变化具有一定规律,如受太阳辐射等因素影响,气温资料具有较为明显的高斯型日变化特征[14]。若连续若干小时的数据保持一个定常值,此数据的准确性值得怀疑。对北京地区自动站数据的大量分析发现,这种数据是出现频率最高的错误类型之一,经过反复数值试验和对比分析,定义连续12个以上 (包括12) 非缺测数据保持定常值时,判定其为定常型错误。
1.3.3 跳跃型错误一般而言,相邻两小时的气温变温不超过8℃[15],对于北京地区而言,山区变温大,出现局部性降温、降水等天气事件有可能造成相邻两小时变温大于8℃,因此这一判据需要完善。由于气温具有较好的时间和空间连续性特征,可以假定:若某一时刻数据与其前后邻近时的数据变温均大于8℃且反位相变化,表明该数据变温大且不符合气温连续性的特征,本文将此情形定义为跳跃型错误。
1.4 可疑数据的评估 1.4.1 可疑数据的定义在识别出错误数据并将其更正为缺测的基础上,仍旧存在一些可能为错误的数据 (可疑数据),需要通过进一步的排查来确定其正确与否。参考定常型错误和跳跃型错误的判别标准,对可疑数据进行如下定义:① 定常型可疑:连续k个 (6≤k≤11) 非缺测数据保持定值时,判定其为定常型可疑。② 跳跃型可疑:相邻两小时的气温变温大于8℃,定义为跳跃型可疑。
1.4.2 可疑数据的判识结合多种方法进行质量分析,可以大大提高判定结果的准确性[16]。本研究中,对可疑数据进行空间一致性检查,利用邻近非缺测的5个测站的观测值通过梯度反距离平方空间插值方法计算出被检查数据的估计值,比较待检测数据与估计值的差值[8-9],绝对值大于3℃[14]未通过空间一致性检查,判定为错误数据,纳入缺测数据范畴,反之认定为正确数据,予以保留。
1.5 质量评估流程简介参考已有的关于自动站资料质量控制技术的业务流程系统[8],结合北京地区自动站气温资料的具体实况,本研究中关于气温资料的质量评估流程如图 1所示。
|
|
| 图 1. 气温资料质量评估流程图 Fig 1. Flow chart of quality evaluation about temperature | |
2 处理结果及相关分析 2.1 运行时长的统计和空间分布特征
北京地区各自动站运行时长不尽相同,了解北京地区自动站的运行长度及其在空间上的分布特征,可以在总体上把握北京地区自动站在时间和空间上的发展和建设情况,并可以根据各站点运行时长的具体结果,遴选出时间尺度较长的站点,为后续研究如自动站与常规站的对比分析等工作奠定基础。
图 2a为1998—2009年逐年有效运行站个数。结果表明:2003年以前运行的站点个数变化不大,维持在20个站左右,每年新投入运行的自动站数量不多;2003—2007年站点个数逐年递增,从2003年的二十多个站增加到2007年的近180个站点, 2008年以后站点的增加幅度不明显。图 2b中站点运行时长的空间分布表明,运行时长大的站点均集中在城区及城郊,西部山区也有部分运行9年的代表站点,这说明在2000年之前,北京地区正常运行的自动站主要集中在海淀、朝阳等主城区,除城区站外,运行时间长的站点主要集中在怀柔、密云、汤河口、上甸子等北部的远郊区域,此空间分布体现了北京地区自动站建设的特点。2006年大量增设的自动站主要集中在石景山、门头沟、丰台等城区西部近郊,以及怀柔、密云、上甸子等北部地区,2008年的大幅建站则以昌平、顺义、大兴等近郊,以及霞云岭、斋堂等南部山区为主。可以看到自动站的增建并不是均匀地分布于北京的各个地区,具有较为明显的区域性特征,同时,北京自动站建设初期重点兼顾城区和山区的布设策略,为北京区域气候的研究提供了较好的基础。
|
|
| 图 2. 北京地区自动站运行情况 (a) 自动站逐年运行站点个数, (b) 自动站运行时长的空间分布 (数字代表该站点的运行时长,单位:a;+:运行时长为10 a;E:运行时长为11 a;T:运行时长为12 a) Fig 2. Results of Beijing AWS's working length (a) the number of sites with first working year, (b) the distribution of AWS's working length (figures stand for the working length, unit:a; +:10 a, E:11 a, T:12 a) | |
2.2 缺测结果统计
基于缺测类型的定义,分别统计出自动站离散型、轻度连续型、中度连续型、重度连续型共4种类型的年平均缺测次 (过程) 数,并给出其空间分布的等值线图,具体结果如图 3所示。
|
|
| 图 3. 不同类型气温缺测年平均缺测过程的空间分布 (a) 离散型, (b) 轻度连续型, (c) 中度连续型, (d) 重度连续型 Fig 3. Spatial distribution of frequency of temperature data-lacking per year on different type (a) discrete, (b) mild continuous, (c) moderate continuous, (d) serious continuous | |
图 3中的阴影部分颜色深浅代表其缺测次数的大小,颜色越深站点的缺测情况相对越严重。从图 3可以看出,自动站气温资料缺测较为严重的类型集中于离散型和轻度连续型,且两者的空间分布具有非常好的一致性;高值区主要集中在怀柔以北及以西地区,平谷一带以及霞云岭的西南地区也存在较大高值区。中度和重度连续型缺测均非常少,中度连续型的相对高值区分布于北京西北山区,重度连续型的高值区则位于门头沟附近。以上分析表明:北京地区正常运行的自动站发生中度和重度连续缺测的站点相对较少,离散和轻度连续的缺测较集中,这对于北京自动站资料集的插补和缺测时段资料的重建非常有利。
2.3 错误和可疑结果的统计分析本节从年际变化和空间分布两个角度对错误和可疑数据的情况进行统计分析。首先统计出各年全部站点平均的错误数据个数的年际变化和可疑数据个数的年际变化;然后给出经过空间一致性检查后判定为错误的数据个数及其在对应年份中相对于可疑数据所占的比例;分析空间分布特征,给出有效运行期内错误数据、可疑数据以及判定为错误数据的可疑数据的多年平均个数的空间分布,通过对上述统计结果的描述和分析,得到定量化的北京地区气温资料准确性和可靠性程度。
2.3.1 年际变化的特征图 4给出了近12年极值型 (图 4a)、定常型 (图 4b) 和跳跃型 (图 4c)3种类型错误数据以及全部错误数据 (图 4d) 的年际变化特征。从图 4a可以看到,除2004年出现了67.6次/站的高值外,极值型错误的平均个数为0.97次/站,整体围绕1次/站的低值振荡。进一步展开2004年错误数据的细致分析,发现马坊 (A1502) 和顺义赛马场 (A1551) 均在11月1日—12月31日出现持续两个月 (共计1464时次) 的极值型错误,上述两站的数据异常是导致该年极值型错误的多站点平均值异常增大的主要原因;图 4b显示,定常型错误总体呈现振荡减小的趋势,其中1998—2005年的错误数据振荡减小的幅度较大,2006年以后,错误数据的多站点平均值均接近于0;图 4c显示出跳跃性错误是振荡幅度最小的类型,跳跃型错误的多站点平均值在[0,2.5]范围内振荡,和定常型错误类似均为递减趋势,2007年后稳定保持在0附近。3种类型错误累积后的定量化统计结果显示,年平均最高错误频次 (1998年) 为338次/站,占数据总数的3.8%,次高错误频次分别为165次/站 (2001年) 和155次/站 (2004年),所占比例不足2%,其余年份的错误发生率均在1%以下,可见自动站的错误发生率较低,数据可信度较高;此外,定常型错误是气温数据中发生频率最高的1种错误类型,3种类型错误累加后的统计结果 (图 4d),无论是逐年的定量化统计数据还是整体变化趋势均与定常型错误保持了非常好的相关性;定常型错误和跳跃型错误在近几年出现的频率明显降低,该结果可能和2007年4月开始北京地区更换为质量更高的自动站仪器以及加强管理有很大关系。
|
|
| 图 4. 错误数据的年际变化 (a) 极值型错误, (b) 定常型错误, (c) 跳跃型错误, (d) 全部错误 Fig 4. Interannual variation of error data (a) extreme value error, (b) unchangeable error, (c) jumping error, (d) entire error | |
图 5给出了近12年全部站点平均可疑数据个数的年际变化特征 (图 5a), 经过空间一致性检查后平均每一个站点从可疑数据中判定为错误数据的个数 (图 5b), 及其占当年可疑数据判定为错误数据的比例 (图 5c)。统计结果显示,可疑数据先减少后增加,至2002年达到峰值,之后呈现递减的趋势,2005年以后,可疑数据在低位振荡。图 5b显示出经空间一致性检查判定为错误数据与可疑数据的分布没有必然的联系。图中错误数据最多的年份出现在1999年,而后振荡减小,而可疑数据比较严重的1998年的诸多数据基本都通过空间一致性检查,可以认定为正确数据。对比两者比值 (图 5c) 可以发现,1999年甄别为错误数据的比例最高,2001—2004年甄别出的错误数据相对较少。2004年以后,判定为错误数据的比例均在20%以上,相对呈现振荡向上的趋势。结合图 5a发现,尽管2004年以后可疑数据处于在低值振荡的状态,但其中未通过空间一致性检查的数据占较大比例,这一方面说明了各年可疑数据的多寡与其判定为错误数据的多少没有必然联系,另一方面说明2004年后可疑数据实际多为错误数据,不确定数据的发生比例降低了。
|
|
| 图 5. 可疑数据的年际变化 (a) 全部站点平均可疑数据个数,(b) 全部站点判定为错误数据的平均个数,(c) 判定为错误数据的比例 Fig 5. Interannual variation of suspicious data (a) average suspicious numbers per station, (b) average determiated error numbers per station, (c) the ratio of determinated error data | |
2.3.2 数据特征的空间分布
图 6给出了有效运行期间错误数据多年平均值 (图 6a)、可疑数据多年平均值 (图 6b) 以及空间一致性检查后识别为错误数据的多年平均值 (图 6c) 的空间分布状况。图 6a显示,年平均错误次数为0的站点占一半以上,较为均匀地分布在北京各个区域,错误次数的大值区主要集中在城区及近郊,其中,顺义和马坊两站年平均错误值最大,这与图 4a结果相吻合。从图 6b可知,除个别站点可疑数据年平均为0外,大多数站点均有可疑数据,年平均大值区以城区和近郊为主,西部山区的大值站点也相对较多。图 6c为检验出的错误数据的年平均个数,从该图可以看到,北京南部区域的相当一部分站点的可疑数据均通过了空间一致性检查,判定为错误数据的年平均值为0,对照图 6b可以看到,城区站点可疑数据相对较大,但其检验出的错误数据相对较低,此外,检出数据中年平均值较大的错误数据主要以西北山区的站点居多。上述统计结果说明,从多年平均状况看,自动站错误情况总体不高,相当一部分站点为零错误,尽管可疑数据涉及的站点相对较多,但经空间一致性检查后,有相当多的数据可归并为正确数据。由此可见,北京地区自动站数据具有一定的准确性和可靠性,通过质量控制和后续的数据插补,具有较好的可靠性和较高的可应用价值。
|
|
| 图 6. 年平均错误数据个数的空间分布 (a) 错误检查,(b) 可疑检查,(c) 检查为错误的数据 Fig 6. The distribution of annual average error numbers (a) error check, (b) suspect check, (3) determinated error data | |
2.3.3 评估检验
通过缺测检查、错误检查和可疑检查,对北京自动站气温数据的完整性、准确性和可靠性进行3方面评估后,将所有判定为错误的数据修订为缺测,可得到经过质量评估的数据集。此数据集的缺测部分实际包括缺测检查中的固有缺测数据和被修订为缺测数据两个部分,可称为综合缺测情况,为更清晰地对比质量评估前后的有效数据状况,对质量评估后的数据进行了二次检验,基于年缺测率的定义,用综合年缺测率来表征逐年的缺测情况并与原有的年缺测率做对比 (图 7)。
|
|
| 图 7. 质量评估前后的年缺测率对比 Fig 7. Annual ratio of data-lacking before and after the assessment of quality | |
图 7给出了质量评估前后年缺测率的对比结果,可以看到,质量评估后的数据基本未改变原始数据缺测率的变化趋势,稍有变化的时段主要集中在2003年以前,如2001年综合年缺测率由原来的9.6%增加到11.2%,年缺测率上升了2.6%,2003年以后评估前后的差别非常小,年缺测率的差别均在0.2%以内。这说明在2003年之前,错误数据相对偏多,部分错误数据检验修订为缺测后,综合年缺测率上升,但同时也说明了北京地区自动站资料的准确性和可靠性在近5年时间得到了大幅提高,资料可用性增强。
3 小结本文从数据的完整性、准确性和可靠性3个方面对北京地区187个自动气象站1998—2009年自动站的逐时气温资料进行了质量评估,为进一步建立北京地区自动站数据集提供凭据和基础,具体结论如下:
1) 对相关质量评估标准进行了定义,确定了自动站数据质量评估的各项指标,并形成了自动站数据质量评估的流程图,可为其他地区自动站观测资料的评估工作提供参考。
2) 分析结果显示:北京自动站布设具有较好的规划性,自动站的增建并不是均匀地分布于北京的各个地区,而是具有较为明显的区域性特征,早期在山区也建设有代表性的自动站,城郊和山区不同区域特征的重点布局有利于北京地区自动站资料的比对研究、序列重构和区域气候的应用研究。
3) 对北京自动站资料的评估结果表明:自动站的气温观测数据较为完整,并没有出现大量重度缺测的站点,存在重度缺测问题的站点数相对较少,离散型缺测和轻度连续型缺测的空间分布相对集中。
4) 对自动站错误和可疑数据的统计发现,错误发生率最高的年份为3.8%,大多数年份错误发生率均在1%以下,可见自动站错误数据相对较少;可疑数据的发生概率比错误数据相对较大,尽管可疑数据涉及的站点相对较多,但经空间一致性检查后,均有50%以上的数据可归并为正确数据,此结果显示北京地区自动站数据具有较好的可靠性。2004年以后,判定为错误数据的比例均在20%以上,这一方面说明各年可疑数据的多寡与其判定为错误的多少没有必然的联系,另一方面说明2004年后数据正确与否的不确定性在降低。
| [1] | 中国气象局. 地面气象观测数据文件和记录薄表格. 北京: 气象出版社, 2005. |
| [2] | Lanzante J R. Resistant, robust and nonparametric techniques for the analysis of climate data: Theory and examples, including applications to historical radiosonde station data. Int J Climatol, 1996, 16: 1197–1226. DOI:10.1002/(ISSN)1097-0088 |
| [3] | 张强, 郭发辉, 许松. 全球地面天气爆资料质量控制和数据集特征分析. 应用气象学报, 2004, 15, (增刊): 121–127. |
| [4] | Eischeid J K, Baker C B, Karl T R. The quality control of longterm climatological data using objective data analysis. J Appl Meteor, 1995, 34: 2787–2795. DOI:10.1175/1520-0450(1995)034<2787:TQCOLT>2.0.CO;2 |
| [5] | Guttman R N B, Baker C B. Exploratory analysis off the difference between temperature observations recorded by ASOS andconventional methods. Bull Amer Meteor Soc, 1996, 77: 2865–2873. DOI:10.1175/1520-0477(1996)077<2865:EAOTDB>2.0.CO;2 |
| [6] |
周自江, 艾 |
| [7] | 刘小宁, 任芝花, 王颖. 自动观测和人工观测地面温度差异及其分析. 应用气象学报, 2008, 19, (5): 554–563. DOI:10.11898/1001-7313.20080506 |
| [8] | 任芝花, 熊安元. 地面自动站观测资料三级质量控制业务系统的研制. 气象, 2007, 33, (1): 19–24. DOI:10.7519/j.issn.1000-0526.2007.01.003 |
| [9] | 庄立伟, 王石立. 东北地区逐日气象要素的空间插值方法应用研究. 应用气象学报, 2003, 14, (5): 605–615. |
| [10] | 李庆祥, 刘小宁, 张洪政, 等. 定点观测气候序列的均一性研究. 气象科技, 2003, 31, (1): 3–10. |
| [11] | 方炳兴. 常规气象资料质量的综合控制. 气象, 1994, 20, (2): 33–36. DOI:10.7519/j.issn.1000-0526.1994.02.006 |
| [12] | 邹燕, 赵平. 几种台风资料的对比及台风年鉴数据的订正. 热带气象学报, 2009, 25, (3): 295–299. |
| [13] | 王伯民. 基本气象资料质量控制综合判别法的研究. 应用气象学报, 2004, 5, (增刊): 50–59. |
| [14] | 刘小宁, 鞠晓华, 范邵华. 空间回归检验方法在气象资料质量检验中的应用. 应用气象学报, 2006, 17, (1): 37–43. |
| [15] | 王颖, 刘小宁. 自动站与人工观测气温的对比分析. 应用气象学报, 2002, 13, (6): 741–748. |
| [16] | 封秀燕, 何志军, 王荷平, 等. 自动站实时资料质量控制开放式平台设计. 应用气象学报, 2010, 21, (4): 506–512. DOI:10.11898/1001-7313.20100415 |
2011, 22 (6): 706-715



