地面气象观测资料是研究区域乃至全球气候变化与预测、天气动力分析、数值天气预报模式研究、资料同化的基础, 是雷达与卫星定标、水文设计、农业决策的重要依据。气候趋势的研究与预测, 对气候资料中的错误值和奇异值非常敏感。错误资料为没有任何天气学意义的资料, 通常由观测失误、仪器故障、不正确的编码、抄录和资料传输错误等原因引起。这类错误虽然发生率不高, 但会影响实际数值预报与气候分析结果。在分析时间序列之前, 检查资料中的奇异值, 判别与处理错误资料, 对气候分析极其重要[1], 否则, 错误的数据点会产生不正确的分析。随着国际上对数值预报的重视以及全球气候与大气环境的深入研究, 对气象观测资料的质量要求也越来越高, 由此而发展了许多气象资料质量控制 (QC) 技术[1-13], 并制作了许多高质量的数据集产品。
一直以来, 查找资料中的奇异值并对奇异值进行辨别都是QC工作的重点[2]。中国地面历史气象资料曾进行过多次质量检查。运用传统的质量控制技术, 如气候极值检查、置信区间控制、内部一致性检查等措施, 中国基准基本站的信息化观测资料 (小时资料) 均作过质量检查。20世纪90年代初, 进行1961—1990年资料整编时, 对该时间段的年、月等地面统计资料进行过质量检查。2001—2002年进行1971—2000年资料整编时, 对1971—2000年的统计资料同样进行过质量检查。2004年, 在进行30年整编续建项目中, 对1971—2000年地面月气候资料再次进行质量检查时, 发现仍有许多错误数据没被指出来。许多气候数据问题没被检查出来是由于之前对资料序列的连续性、分布状态、序列中奇异值存在的形式认识不充分。从2003年开始, 在分析中国地面气象资料中可能存在的非均一性和错误性、研究月气候资料序列可能存在的分布状态的基础上, 根据气候资料序列的特点, 研究发展了中国地面月气候资料质量控制技术。在上述质量控制的基础上, 2004—2005年国家气象信息中心气象资料室制作了1971—2000年中国700多个基准基本站地面月统计气候资料数据集。
1 月气候资料与信息化观测资料的关系1951年以来, 中国有近1800个一般气象站, 700多个基准基本站的地面气象观测资料。2000年前的地面气象资料基本上为人工观测资料。随着计算机及网络技术的发展, 20世纪80年代初, 中国气象局开始对建国后的地面历史观测资料进行信息化处理。1980年前的地面观测资料全部人工录入补充, 1980年后的观测资料近实时录入并上传到各级气象资料部门。国家气象信息中心保存了全国所有基准基本站的地面月报表纸质资料和信息化资料。一般来说, 纸质报表观测资料中可能存在观测错误和抄录错误。而信息化观测资料来自于纸质报表, 它除了含有纸质报表观测资料中可能存在的错误外, 还可能存在录入错误和传输错误。一份比较好的信息化观测资料首先应与纸质报表观测资料一致。地面月统计气候资料起源于信息化观测资料, 因此月气候资料的质量与信息化观测资料质量息息相关。
2 中国地面月气候资料序列的特点分析与描述气候变化是缓慢的、连续的。虽然逐年的观测值并不一样, 但月气候序列点应在一个大致的水平上随机波动。许多气候序列, 如月平均气温、月平均气压序列等接近正态分布[14]。不过随着时间的推移、科学的进步以及各地经济的发展, 无论是台站观测人员, 还是台站位置、环境、观测仪器等台站信息和观测方法, 均发生了很大变化。这些因素都会影响气候资料序列的连续性、均一性。因此, 无论是进行气候研究与预测还是对气候资料序列进行质量控制, 首先对台站沿革信息进行详细的调查、了解是极其重要的。
中国许多气象台站有过迁址的记录, 一些台站还曾多次迁址。如北京观象台1951—2000年间曾迁移过6次。有的台站虽然一直没有迁移, 但随着中国经济的发展, 台站周围的环境发生了很大变化。吴增祥[15]统计表明, 中国70%~80%的基准基本站在1951年后曾进行过迁移。大部分迁移是因为台站周围环境改变, 影响气象观测记录的代表性而进行的。根据需要, 1949年后中国地面气象观测规范曾作过5次修改与变动。每次变动几乎都涉及到观测仪器的变化、仪器安装高度的变化、观测场地尺寸的变化, 甚至观测时制、每日观测时间、观测次数的变化。观测规范的变动, 对时间序列的连续性、均一性同样会有不同程度的影响。
由于台站迁移、环境变化、观测规范的频繁变动等客观原因, 使观测资料偏离序列的平均值, 这种偏离总是以正偏或负偏趋势的方式表现[16]。因此, 中国大多数站的气候资料序列不可能均一, 其分布状态也不可能接近正态分布。上述原因造成的气候资料不连续、不均一, 不属于质量控制研究的范畴, 但是对传统的质量控制效果有一定的影响。
图 1为各种各样的月气候资料序列时间变化曲线图。在实际所观测的气候资料序列中, 有可能存在类似于图中各种各样的质量问题。
![]() |
|
图 1. 月气候资料序列存在的4种时间变化曲线图 (图中与各序列曲线相交的水平直线均为相应序列的平均值线。曲线1为均一序列, 曲线2为仅存在个别奇异值的序列, 曲线3为无奇异值却有类似非均一性存在的序列, 曲线4为既有奇异值又有类似非均一性存在的序列) Fig 1. Four types of monthly climatic data series (The horizontal lines show respective averages of the series, line 1 is homogeneous time series, line 2 is time series with some outliers, line 3 is probable inhomogeneous time series without any outliers, line 4 is probable inhomogeneous time series with some outliers) |
①曲线1为真实反映气候变化的均一序列 (以月平均气压序列为例), 序列中既无奇异值也无非均一性存在, 这样的序列接近正态分布。
②曲线2为仅存在个别奇异值 (A1—A6) 的序列, 这些奇异值利用各种统计分布上的置信区间简单控制就可发现。奇异值既可能为错误值, 也可能为代表极端天气气候事件的异常值。这样的序列也接近正态分布。
③曲线3为虽无奇异值却有类似非均一性 (C1—C2段, C3—C4段) 存在的序列, 这样的序列一般远离正态分布。造成资料序列如此分布的原因有两种。一种为气候趋势或气候异常引起的, 反映天气气候真实状况的正确资料, 另一种是由于资料序列中存在非均一性而引起的。造成资料非均一性的原因分为两类:
其一为不可避免型, 由台站信息变化引起的, 如台站环境变化或迁站、仪器换型, 标定方法、观测方法、统计方法的改变等不可避免的客观原因, 在质量控制中对于此类非均一性资料不予理会; 其二为可避免型, 如长时间观测仪器出现问题或观测员操作不当, 仪器标定错误、仪器漂移、资料录入错误或误用其他站的资料当作本站资料传输等, 对于此类非均一性资料应予以纠正、订正或删除。
④曲线4是曲线2与曲线3的综合, 为既有奇异值又有类似非均一性存在的复杂序列。这样的序列非正态分布。曲线4中A1—A6为序列的奇异点, C1—C2段、C3—C4段为类似非均一性曲线段, C1, C2, C3, C4为间断点。
在实际的月气候资料序列中, 上述4种情况都有可能存在。质量控制的任务, 既要辨别单个数据点错误资料, 也要对由于第二类非均一的可避免型原因导致的连续性错误资料进行辨别。
3 中国地面月气候资料质量控制方法在对中国地面月气候资料进行质量控制前, 不可能一一了解每个气候资料序列的分布状态, 而是提前假定序列中可能存在单个数据点错误资料和连续性错误资料, 然后再去检验, 以证实这些错误资料是否存在。因此, 在QC前, 首先假定气候资料序列如曲线4所示, 既存在单个数据点错误资料, 又存在连续性错误资料。
3.1 连续性错误资料的检测观测中仪器出问题或观测员操作失误以及仪器标定错误、仪器有明显的漂移等问题, 若发现太晚甚至始终没注意到, 则有可能导致连续几个月甚至跨年的月气候资料错误。虽然这种错误资料相对于气候平均值来说, 有时表现得并不是很离奇, 但是对气候分析仍有一定的影响。对这种连续性错误资料的检测, 应把12个月的气候资料序列联合起来统一检查。以1971—2000年月气候资料为例, 具体检测方法如下:
①计算各月序列的平均值xj, j=1, 2, …, 12。
②计算1971—2000年间各月气候值距平
Δxi,j=xi,j--xj,i=1971, 1972, …, 2000;xi,j代表i年j月的月气候资料。
③建立历年各月距平序列:Δx1971, 1, Δx1971, 2, …, Δx1971,12, Δx1972,1, …, Δx1972,12, …, Δx2000,1, Δx2000,2, …, Δx2000,12。
④判断。在历年各月距平序列中, 当连续n个月距平为正距平, 或连续n个月距平为负距平时, 则把该时间段内的资料作为可疑的非均一资料。
考虑到可能存在的奇异值影响, 当连续m个月距平普遍大于等于0, 或连续m个月距平普遍小于等于0, 但其中有1~2个月距平为异号时, 则把该时间段内的资料仍作为可疑的非均一资料。
m与n是各自独立的, 其取值在对1971—2000年中国基准基本站地面月气候资料质量控制过程中, 做过反复试验, 质量控制人员可以根据允许的资料可疑率 (如:1%) 来取值。在对1971—2000年中国基准基本站地面月气候资料进行QC时, 取n≥4, m≥12。可疑的非均一资料首尾两个点, 为序列的不连续点, 或间断点。整个序列的第一个点和最后一个点也作为间断点。
⑤对可疑的非均一资料进行分析辨别。Metadata定义为关于数据的信息[17], 其对数据质量控制以及均一性订正起着至关重要的作用。为使数据将来能得到更好的应用, 在数据观测过程中, 观测时间、观测地点、台站状况与迁移、气候概况、仪器状况与撤换、观测状况以及传输等关于数据的信息, 即Metadata均应被认真地记录下来。中国地面观测数据的Metadata记录在地面气象数据文件中的封面、纪要、天气气候概况、备注以及现用仪器栏中。
在QC技术中, 使用Metadata是一项有效的人工辅助检验手段。中国气象台站有着长期稳定的Metadata记录, 是一项十分宝贵的背景资料。Metadata不仅记录了台站的经纬度、海拔高度、观测所用的仪器型号与状况、场地的周围环境, 还认真记录了观测中出现的各种影响观测质量的问题以及处理方法, 详细描述了当月的天气气候概况以及对当地农业、畜牧业等的影响。根据Metadata, 可以分析观测资料的可信性以及特殊事件发生的原因。利用Metadata, 对可疑的非均一资料进行如下分析辨别:
所谓资料可疑, 是指该资料通过一系列的质量控制后, 认为该资料可能为错误资料。但是, 为了谨慎起见, 只有找到错误原因的资料才作为错误资料处理。由于条件所限而无法找到错误原因的资料仍保留为可疑资料。对可疑的非均一资料, 在排除台站信息变化影响和气候趋势影响后, 若找到资料可疑的原因, 则资料判为错误, 无法找到资料可疑的原因, 资料仍为可疑。
在对1971—2000年中国700多个基准基本站地面月气候资料进行连续性检查时, 查出7个站8段连续性月平均风速资料错误, 2站2段连续性月平均地温资料错误, 其中存在跨年度连续性错误资料。检查中发现各气候资料序列中普遍存在不连续点, 但主要是由于台站信息变化造成的。因此, 在用中国气候资料进行气候研究与预测之前, 如果不了解中国气象台站的历史沿革信息, 就可能得出错误的结论, 甚至误认为资料中存在严重的质量问题。
3.2 单个数据点错误资料的检测 3.2.1 奇异值的时间域检测 3.2.1.1 近正态分布序列的建立一般情况下, 当数据越远离序列平均值时, 错误的可能性越高, 越接近平均值时, 则错误的可能性降低。在传统的质量控制技术中, 通常当距平超过临界值如3倍标准差时, 该数值被认为奇异值。但是, 由于中国台站信息和观测规范的变动, 许多时间序列普遍存在非均一性。某些时间段的奇异值有的由于离序列平均值比较近而检测不到。像曲线4中A1和A4点是最容易被检测到的奇异点, 而奇异点A2, A5由于非常接近序列的平均值, 用通常的方法是检测不到的。奇异点A3接近非均一性序列段C1—C2的平均值, A6接近非均一性序列段C3—C4的平均值, 也很难检测到。要想准确检测到各奇异值, 首先应排除非均一性资料蹬影响, 突出所有的奇异值, 然后对其进行检测。只要把曲线4中的序列变换成类似于曲线2分布的序列, 使其仅存在奇异值, 而无非均一性数据段, 变换后的序列比原序列接近正态分布。
假定序列X:x1, x2, ……, xi, ……, xn为某站某月的气候资料序列, n为序列长度。具体转换如下:
①计算序列X的平均值x, 给出距平序列:X-x。
②利用距平序列, 方法如上述连续性错误资料检测中的步骤④所示, 寻找序列的间断点。
③计算相邻两个间断点间数据段的平均值xj, 假定序列X中有L个不连续的数据段,
④计算各数据段平均值与序列平均值之差
⑤由序列X中的各序列值xi与其所在数据段的Δ
y1, y2, …, yi, …, yn, yi与xi一一对应。
其中, yi=xi-Δ
序列Y的特点:
转换后的序列Y类似于曲线2分布的序列, 使原序列X中各数据段上的奇异点在序列Y中均突出显示。利用序列Y很容易检测到如曲线4中的各个时间段的奇异点。下面奇异值的检测是针对序列Y而言。序列Y与序列X一一对应, 当序列Y中某个值yi被检测为奇异值时, 相应的序列X中xi也为奇异值。
3.2.1.2 奇异值的确定一个数据在时间域内要多离奇才会被认为是奇异值呢?常用的方法是用3倍标准差控制[2-3]。Lanzante[7]于1996年介绍过用Biweight法计算序列的平均值和标准差, 认为用Biweight法计算序列的平均值和标准差具有高效性和对奇异值的抵抗性。用Biweight法计算序列Y的平均值和标准差。
平均值
![]() |
(1) |
标准差
![]() |
(2) |
式 (1)~(2) 中, ui为权重因子, 其表达式为:ui=(yi-M)/(c×MAD), 当∣ui∣ > 1时, ui=1。M为序列Y的中值, MAD为序列∣yi-M∣的中值, c为权重调整参数, 取为7.5。
中值的计算公式如下:
![]() |
(3) |
通常在奇异值达到最极端时, 数据错误的可能性最高, 而当数据接近平均值时则降低。这意味有必要确定什么时候开始出现错误数据。Peterson tc等[13]曾讨论过临界值的选择, 在进行月平均气温数据QC中发现错误的数量基本上是从2.5sbi开始的。因此, 从纯粹的时间序列奇异值角度来看, 任何比2.5sbi更为极端的数据点都可以被看作是可疑的。但是还必须特别注意不要把碰巧极端的正确数据给扔掉了, 因为极端的正确数据代表着极端事件, 而极端事件也代表着气候非常重要的方面。在对1971—2000年中国地面700多个基准基本站月气候资料进行奇异值检测时, 普遍以2.5sbi作为控制界限, 即当距平绝对值
一个数据点从时间序列角度看可能是极端的, 但它也可能是完全有效的。所以, 要判断一个数据点的有效性, 简单地从时间序列角度标出它还不足够。如果一个站的气候在那个月异常的冷, 邻近站应该也如此。因此, 有必要把空间QC结合到整个检测中来, 用空间QC来判定时间域检测中被标出的奇异值正确性和错误性。空间QC有很多不同的方法。Eischeid等[1]曾介绍了6种不同的方法来预测或估计某个站的值, 通过分析观测值和估计值的差异来判断数据点是否通过空间QC, 并把这些方法用于1版全球历史气候网 (GHCN) 资料的QC中。2版GHCN资料采用距平比较法进行月平均气温的空间QC[13]。考虑到近区域内气候变化的一致性, 在对中国1971—2000年基准基本站的月气候资料进行QC时, 采用距平比较法进行空间QC。具体检测如下:当所选邻近站序列Y中至少有1个以上站的距平与被检站序列Y中奇异值的距平方向相同, 且距平绝对值不低于1.5倍标准差时, 即认为相应的序列X中的奇异值通过空间检测。反之, 则奇异值未通过空间检测, 需经人工进一步分析辨别。
空间检测中被检站与邻近站的距平和标准差均是在序列Y基础上用Biweight法统计的。考虑到中国地形的多样性与复杂性, 要求所选的邻近站符合下列条件:
![]() |
(4) |
式 (4) 中θ1, φ1为被检站的经度、纬度, θ2, φ2为被选站的经度、纬度。
d=3.15相当于被选站和被检站间最短的球面距离为350 km。
②当h0 < 2500 m时, |h-h0|≤200 m, 当h0≥2500 m时, |h-h0|≤500 m,
h, h0分别为被选站和被检站的海拔高度。
3.2.3 奇异值的人工分析辨别传统的质量控制技术中, 时间域和空间域检测均未通过的奇异值被认为错误值。考虑到质量控制技术的局限性以及极端天气气候和天气过程的局地性, 为谨慎起见, 规定只有通过人工分析判断, 才能确认错误资料。对下列2种情况的数据, 进行人工分析, 加以辨别:
①时间域和空间域检测均未通过的数据。
②无论空间域检测是否通过, 当|yi-ybi|≥5sbi时, 相应原序列X中的数值xi。
人工分析:
①参考纸制报表, 检查信息化资料是否录入、传输出错。
②参考Metadata。
③与相关要素间比较分析。
基于一个观测点内同一时间段所测得的要素之间相关的事实, 对与某些有物理特征关联的气象要素间是否一致进行检查。
4 错误资料分析用上述质量控制方法, 再次对1971—2000年中国地面700多个基准基本站约250000个月地面气温、气压、空气湿度、风速、各层地温、日照、小型蒸发、冻土深度与积雪深度等要素月统计资料进行上述检查后, 共发现136个月资料出现错误现象。反馈在原始资料 (地面信息化资料) 中, 主要错误原因为:①用其他站或其他月资料代替本站资料; ②资料扩大或缩小10倍录入以及其他录入错误; ③原始资料应为缺测或非“0”值, 而信息化资料为“0”; ④观测仪器有问题导致资料异常。
表 1为所查出的1971—2000年地面信息化资料错情以及错误原因。表中错误资料, 除了江西吉安站1971年1—8月40 cm地温资料, 由于观测时仪器出问题, 资料仅供参考外, 其他所有站的错误资料从信息化文件到整编统计结果, 全部做了改正。
![]() |
表 1 1971—2000年中国基准基本站地面信息化资料错情 Table 1 Information about surface meteorological data in error of base stations in China from 1971 to 2000 |
5 总结
通过分析中国地面气象资料中可能存在的非均一性和错误性、研究月气候资料序列可能存在的分布状态的基础上, 提出了用于检测中国地面月气候资料质量问题的方法:
1) 把被检站被检要素12个月距平序列看成一个整体, 进行长时间连续性错误资料检测;
2) 把时间序列变换为接近正态分布的均一序列, 以尽可能在时间域内检测到各个奇异值, 并对奇异值进行空间检测;
3) 对检测出的连续性可疑资料和单个数据点的奇异值进行人工分析辨别。考虑到极端资料可能代表极端天气气候事件, 对于质量控制检查出的连续性可疑资料或奇异值, 无论有多么离奇或不可思议, 均要经过人工分析, 比如与纸制报表对比、参考Metadata、邻近站比较、不同观测项目间的比较等措施, 做进一步的分析判断, 最后确定这些资料是否为错误资料。
运用上述质量控制方法, 再次对1971—2000年中国700多个基准基本站约250000个地面月气候资料进行上述检查后, 共发现136个月气候资料出现错误现象, 并对错误资料进行了改正。
[1] | Eischeid Jon C, Bruce Baker, Tom Karl, et al. The quality control of long-term climatological data using objective data analysis. J Appl Met, 1995, 34: 2787–2795. DOI:10.1175/1520-0450(1995)034<2787:TQCOLT>2.0.CO;2 |
[2] | Grant Eugene L, Richard S Leavenworth, Statistical Quality Control. New York: McGraw-Hill Book Company, 1972: 1-694. |
[3] | Lev S Gandin, Complex quality control of meteorological observations. Mon Wea Rev, 1988, 116, (5): 1137–1156. DOI:10.1175/1520-0493(1988)116<1137:CQCOMO>2.0.CO;2 |
[4] | 任芝花, 刘小宁, 杨文霞. 极端异常气象资料的综合性质量控制与分析. 气象学报, 2005, 63, (4): 526–533. |
[5] | Igor Zahumensk. Guidelines on Quality Control Procedures for Data from Automatic Weather Stations. Expert Team on Requirements for Data from Automatic Weather Stations, Third Session, WMO, 2004. |
[6] | Song Feng, Qi Hu, Qian Weihong, Quality control of daily meteorological data in China, 1951-2000: A new dataset. Int J Climatol, 2004, 24: 853–870. DOI:10.1002/(ISSN)1097-0088 |
[7] | Lanzante J R, Resistant, robust and nonparametric techniques for the analysis of climate data: Theory and examples, including applications to historical radiosonde station data. Int J Climatol, 1996, 16: 1197–1226. DOI:10.1002/(ISSN)1097-0088 |
[8] | 刘黎平, 张沛源, 梁海河, 等. 双多普勒雷达风场反演误差和资料的质量控制. 应用气象学报, 2003, 14, (1): 17–29. |
[9] | 周尚河. 全国高空资料质量控制和建库方法的研究. 应用气象学报, 2000, 11, (3): 364–370. |
[10] | 熊安元. 北欧气象观测资料的质量控制. 气象科技, 2003, 31, (5): 314–320. |
[11] | 刘小宁, 任芝花. 地面气象资料质量控制方法研究概述. 气象科技, 2005, 33, (3): 199–203. |
[12] | 王伯民. 基本气象资料质量控制综合判别法的研究. 应用气象学报, 2004, 15, (增刊): 50–59. |
[13] | Peterson T C, Vose R S, Schmoyer R, et al. Global historical climatology network (GHCN) quality control of monthly temperature data. Int J Climatol, 1998, 18: 1169–1179. DOI:10.1002/(ISSN)1097-0088 |
[14] | 屠其璞, 王俊德, 丁裕国, 等. 气象应用概率统计学. 北京: 气象出版社, 1984: 38-41. |
[15] | 吴增祥. 气象台站历史沿革信息及其对观测资料序列均一性影响的初步分析. 应用气象学报, 2005, 16, (4): 461–467. |
[16] | Easterling D R, Peterson T C, Karl T R, On the development and use of homogenized climate datasets. J Climate, 1996, 9: 1429–1434. DOI:10.1175/1520-0442(1996)009<1429:OTDAUO>2.0.CO;2 |
[17] | WMO. Guidelines on Climate Metadata and Homogenization. WMO/TD, 2003, 1186: 1-27. |