质量检查的主要目的是检测数据的有效性, 并做到对错误资料及时纠正[1]。在资料提供给用户前, 对资料进行质量检查, 是提高资料质量, 保证资料发挥高效益的关键环节。全球地面天气报资料是进行天气预报、研究全球气候变化的重要资料。资料的质量好坏直接影响到应用的效果。该资料提供给用户之前, 经历了仪器观测 (采集、读数)、记录、编码、GTS传输、解码等重要环节, 各个环节都有可能引起数据错误[2]。一些研究表明, 有8%~15%的天气报资料可疑或错误, 其中至少有50%的错误是由资料传输过程 (从编码开始后的各个环节) 造成的[3]。作为资料接收、保存和发布部门, 对资料进行质量检查是保障资料使用者正确研究分析天气、气候变化的基础。
国家气象信息中心保存了通过GTS接收的1980年以来的全球地面天气报历史资料。该资料被广泛应用于科研、业务及服务中, 是共享资料重要内容之一。2003年开始, 在前人工作基础上, 借鉴国内外先进技术[4-13], 研究制定了作为气候资料永久保存的全球地面天气报资料质量控制方案。2005年将该方案中的质量控制方法应用到了气候资料接收、处理的实时业务中。本文应用已用于业务的质量控制方法对全球地面天气报历史资料进行了全面的质量检查, 并对历史资料中存在的问题、质量情况作了分析。
1 资料全球地面天气报实时资料是从GTS接收来的全球地面天气报文, 经格式检测 (区站号检测、呼号检测、五码检测、码组检测、指示码检测、经纬度检测等) 处理、译码后形成的[14]。对于格式检测未通过的报文作为错误资料删除, 译码后的资料作为服务于天气预报的实时资料, 利用欧洲中心20世纪80年代的质量控制软件对部分要素做质量控制, 但对资料不做任何修改。作为气候资料实时接收、存储的全球地面天气报资料是在上述译码后的资料基础上, 重新设计标准化数据格式, 将要素的单位进行统一, 对错站进行处理后形成的[15], 但不采用原来的质量控制结果。全球地面天气报历史资料数据集来自于标准化格式处理后的资料, 自2002年开始建立。该数据集保存于国家气象信息中心气象资料室, 资料年代为1980年1月—2003年12月, 是目前国内作为气候资料永久保存的最完整的全球地面天气报历史资料。资料以1月多站为1个数据文件, 每个数据文件记录了该月全球地面发报台站45个气象要素每日4个时次 (00:00, 06:00, 12:00和18:00世界时, 下同) 的观测值, 单站每天1个时次为1个数据记录。数据集中各数据文件包含发报台站为4000~6000个左右, 累计出现的发报站1万个左右, 台站量随时间的推移呈增长趋势。
2 质量检查方法全球地面天气报资料质量检查包括气候界限值 (或要素允许值) 检查、台站气候极值检查、要素内部一致性检查和时间一致性检查, 在要素质量综合判断的基础之上, 再对上述检查可疑的要素值进行空间一致性检查。
2.1 气候界限值、要素允许值范围检查气候界限值检查是检查某要素是否在该要素的气候界限值、允许值范围之内。该过程检查出的错误资料均为在气候上或理论上不可能出现的值。对于资料源中未做任何数据转换的部分原始电码要素值, 其电码范围检查也遵循要素允许值范围检查。
全球地面天气报资料中的45个要素均进行了气候界限值检查。其中对气温、最高气温、最低气温、地面最低温度、风速、露点温度、本站气压、海平面气压、3 h气压变量9个常规要素按照台站的地理区域和冷暖季节做了气候界限值检查。日照时数气候上的界限值为被检站当日最大可能日照时数。其他要素气候界限值全球所有站统一。按区域和季节所取气候界限值来自文献[4]。
2.2 台站气候极值检查台站气候极值是指被检站某要素在历史上曾出现过的最大值和最小值。极值检查是检查要素值是否超过该要素历史上曾出现过的最大值和最小值。考虑到全球地面天气报历史资料中各站历史上出现过的要素最大值和最小值可能存在的质量问题, 在制定台站极值表时, 首先计算每个站各要素各月的平均值及标准差, 用平均值加减4倍的标准差作为各站各月不同的要素极值。在计算平均值及标准差时, 对于处于正负4倍标准差之外的要素值作为粗大值首先进行一次循环删除, 然后重新计算、确定平均值及标准差。
全球地面天气报资料中, 仅气温、最高气温、最低气温、地面最低温度、风速、露点温度、本站气压、海平面气压8个要素进行台站气候极值检查。
2.3 内部一致性检查内部一致性检查即要素间一致性检查, 它是基于一个观测点内同一时刻所测得的要素之间相关的事实, 对某些有物理特征关联的气象要素间是否一致进行检查。
全球地面天气报资料文件中的45个气象要素, 除降水量时间标志、过去天气现象、24 h气压变量、24 h气温变量、蒸发或蒸散、24 h净辐射量、日照时数、特殊天气现象等要素未涉及到内部一致性检查外, 其他35个要素均进行了内部一致性检查。
2.4 时间一致性检查时间一致性检查是检查一日之内, 6 h之间、12 h之间某要素记录差值是否在一定的取值范围之内。在全球地面天气报资料中涉及到时间一致性检查的要素有气温、露点温度、本站气压、海平面气压4项。
2.5 质量控制码综合判断 (综合质量判断CQC)根据气候界限值或要素允许值范围检查、气候极值检查、内部一致性检查、时间一致性检查的资料质量控制结果, 采用“气象资料质量控制综合判别法”[13]进行一次质量控制码的综合性质量判断。
2.6 空间一致性检查经过质量控制码综合判断后, 对可疑的要素值进行空间一致性检查, 未通过空间一致性检查的要素值最终判为错误, 通过空间一致性检查的要素值仍为可疑。
在全球地面天气报资料质量检查中, 对气温、最高气温、最低气温、地面最低温度、露点温度、相对湿度、本站气压、海平面气压8个要素做了空间一致性检查。
邻近站区站号按被选站与被检站之间的距离由近及远排列。由于全球台站密度分布不均, 按照邻近站的选择条件, 有的站邻近站超过100个 (最多143个), 而有的站仅几个甚至找不到邻近站。在进行空间检查时, 选4~30个站进行Madsen-Allerup[7]空间检查, 当邻近站为1~3个时, 进行被检站与邻近站平均值间的差值比较, 相对差值不能超过50%。
2.7 质量控制码的标注全球地面天气报历史资料质量检查是以一个数据记录为检查单位, 针对记录中的气象要素值进行逐个自动检查。检查结果采用质量控制码的方式表示, 质量控制码直接写入每条数据记录之后, 一个要素值对应一个质量控制码。二版全球地面天气报历史资料数据集中所采用的质量控制码及其含义如下:0:数据正确; 1:数据可疑; 2:数据错误; 8:数据缺测。
3 全球地面天气报历史资料质量检查结果与分析利用上面介绍的质量控制方法对全球地面天气报历史资料数据集进行了质量检查, 制作了具有质量控制码的新版全球地面天气报历史资料数据集 (二版)。在质量检查过程中, 发现原资料中存在如下明显问题, 并在二版数据集中作了相应处理:①原资料集中, 以符号“*”表示的字符, 均为超数据位的无意义的错误数据。新制作的数据集中, 均把“*”改为空格, 以缺测表示; ②从41区开始, 1980年1月—1981年12月的月资料, 有许多站全月3 h气压倾向均为错误数据“9”。导致1980年1月—1981年12月的月资料文件中, 3 h气压倾向资料的错误率达到20%左右。经检查, 这些站的3 h气压倾向资料应为缺测或不上报; ③ 2000—2001年的月资料文件中, 出现了相同站同日同一时次却连续出现两个内容不同的记录, 这种现象在每个文件中约发生800~1400次左右。经咨询有关业务技术人员后, 新资料集中采取了选择前一个记录, 后一个记录删除的措施; ④按照WMO编码规定[16], 云属高度、现在天气现象应为“00”~“99”中的两位字符, 但从2000年7月开始, 上述要素中出现1位字符, 由此引起的云属高度的错误率达到4%~15%左右, 现在天气现象的错误率为70%~80%左右。检查发现, 当文件中云属高度或现在天气现象为“00”~“09”时, 文件中仅以1位字符“0”~“9”表示; ⑤从2000年7月开始至今, 全球各站4个时次均存在24 h降水量资料, 经检查发现当24 h降水量为0或资料不发报、缺测时, 均用0表示, 没有区分。由此引起的6 h, 24 h和其他时间段间降水量的可疑率达到12%左右。该问题有待解码人员进行解决。
在2005年制作的二版全球地面天气报历史资料数据集中, 已对上述①~④中反映的错误资料进行了改正, 并对改正后的历史资料进行了质量检查, 标注质量控制码。二版数据集与原数据集相比, 在质量上有了进一步的提高。下文有关资料质量分析均是针对新制作的二版全球地面天气报历史资料数据集而言。
3.1 各项资料的实有率按照WMO出版的电码手册规定, 全球地面天气报资料中, 有的要素每日4个时次发报, 如气温、露点温度、海平面气压、风向和风速、3 h气压倾向和3 h气压变量、能见度、云量、云状、最低云底高度、现在天气现象和过去天气现象等, 最高气温和最低气温有的区域每日上报1次, 有的2次甚至4次均上报。根据1980年1月—2003年12月全球地面天气报历史资料的统计, 上述要素资料的实有率平均为85%左右, 气温、露点温度、风向和风速、能见度、总云量、最高气温和最低气温资料的实有率在90%以上, 而现在天气现象和过去天气现象的实有率比较低, 在50%左右。45个要素中, 有25个要素如积雪、云属、特殊天气现象等根据区域规定发报, 这些要素的资料量明显比较少, 资料的实有率为实有记录量的0.0%~24%左右。
3.2 各要素质量检查结果 3.2.1 质量检查过程中各要素累年质量检查结果表 1给出了全球地面天气报历史资料中每个要素1980—2003年间累年质量检查结果。表中不仅反映了质量控制过程中各个要素的检查结果, 也反映了各个要素的最终质量检查结果 (可疑率和错误率)。无数据的区域表示要素未做相应的质量检查与控制。从表中可看出, 资料实有率比较低的要素, 在质量检查的各个过程中, 资料的可疑率普遍比较高。资料可疑主要是由要素间内部一致性不匹配造成的。
|
|
表 1 1980—2003年全球地面天气报资料质量检查结果 |
对气温、最高气温、最低气温、露点温度、本站气压、海平面气压6个实有率比较高的要素, 进行了全过程质量检查。由气候界限值检查出的上述6要素资料错误率分别为:0.5‰, 0.3‰, 0.4‰, 1.0‰, 1.1‰和0.0‰, 通过一系列检查, 对可疑资料进行综合判断检查出的资料错误率分别为1.7‰, 0.9‰, 0.6‰, 1.6‰, 1.8‰和0.9‰, 对综合判断后的可疑资料再进行空间一致性检查, 检查出的资料错误率分别为2.4‰, 1.7‰, 2.1‰, 1.8‰, 0.4‰和0.2‰。综合质量判断前, 6要素资料可疑率分别为39.3‰, 13.7‰, 32.4‰, 24.9‰, 8.0‰和4.3‰, 经综合质量判断后可疑率分别降低了4.4‰, 1.4‰, 2.0‰, 4.4‰, 1.9‰和1.0‰, 经空间一致性检查, 可疑率分别降低了2.4‰, 1.7‰, 2.1‰, 1.8‰, 0.4‰和0.3‰。
对1980—2003年全球地面天气报所有要素质量检查后进行综合统计, 气候界限值检查出的资料错误率为0.4‰, 通过一系列检查, 对可疑资料进行综合判断检查出的资料错误率为1.3‰, 通过空间一致性检查出的资料错误率为0.3‰。经过全过程质量检查后, 资料的可疑率为20.3‰, 错误率为2.0‰。
3.2.2 单要素历年质量检查结果分析在全球地面天气报历史资料中, 累年实有率在80%以上的要素有气温、最高气温和最低气温、露点温度、海平面气压、风向和风速、3 h气压倾向和3 h气压变量、能见度、总云量、最低云底高度12个主要要素。图 1、图 2中给出了上述12个要素中的气温、最低气温、露点温度、海平面气压历年质量检查结果的可疑率和错误率变化图, 其他8个要素的历年可疑率和错误率变化情况与海平面气压的质量变化曲线类似。表 2为仅用气候学界限值或要素允许值对上述12个要素进行质量控制的历年检查结果, 表中未列出的要素, 其气候学界限值或要素允许值历年检查结果均为0.0‰。
|
|
| 图 1. 各要素历年可疑率变化 | |
|
|
| 图 2. 各要素历年错误率变化 | |
|
|
表 2 气候界限值检查的历年错误率 |
由图 1、图 2可知, 12个主要要素中, 除最低气温外, 其他要素1980—2003年间可疑率、错误率呈下降趋势, 说明这些要素的质量逐年上升。通过气候学界限值或要素允许值检查出的表 2中各要素的历年错误率基本上也呈下降的趋势。
最低气温的可疑率由2000年前的10‰左右上升到2000年后的130‰左右, 可疑率明显增大, 主要是由于最低气温与有积雪或有可测量冰覆盖时地面状况之间矛盾引起的, 后经人工检查发现, 造成上述现象的原因多为地面状况错误而引起两者间要素一致性不匹配。
表 2中, 1980年、1981年气温、露点温度由气候界限值检查出的错误率比其他年份偏高, 气温错误率约高5倍左右, 露点温度错误率约高20倍左右。经人工检查发现, 出现上述现象的主要原因为1980—1981年间, 气温、露点温度解码错误引起的。表现在冬季, 当气温或露点温度的观测值为-0.0 ℃时, 发报编码应为50, 解码后应为-0.0 ℃, 但很多情况解码后值为50.0 ℃。如图 2所示, 1980—1981年气温、露点温度经质量控制软件检查后, 错误率分别为14‰和19‰左右, 两者错误率均比其他年份明显偏高。除了上述气候界限值检查出的错误原因外, 1980—1981年间气温、露点温度资料可疑率比其他年份略高, 且经台站气候极值检查、要素内部一致性检查和时间一致性检查以及空间一致性检查的气温、露点温度的错误资料均为可疑资料的30%~35%, 而其他年份为10%~15%左右。上述两种原因是造成气温、露点温度的最终错误率比其他年份明显偏高的主要原因, 说明1980—1981年间气温、露点温度的资料质量比其他年份明显偏差。
3.3 二版全球地面天气报历史资料数据集历年质量检查结果通过用气候界限值检查、综合质量判断 (CQC)、空间一致性检查均可检查出一部分错误资料。CQC后的可疑资料, 经过空间一致性检查后, 部分资料变为错误资料。按照资料质量控制的先后顺序, 综合质量判断后的错误资料, 包含用气候界限值检查出的错误资料。作为质量控制流程的最后环节, 空间一致性检查后的资料错误率和可疑率即为资料的最终错误率和可疑率。质量控制过程中, 各个控制环节完成后资料的错误率和可疑率历年变化情况见图 3和图 4。从图 3可见, 气候界限值检查后与综合质量判断后、空间一致性检查后的资料错误率变化曲线的形状基本一致。图 4中综合质量判断后与空间一致性检查后的资料可疑率变化曲线的形状一致。
|
|
| 图 3. 各个过程检查后的错误率历年变化 | |
|
|
| 图 4. 各个过程检查后的错误率历年变化 | |
1980—1981年间气候界限值检查后的资料错误率、CQC后的错误率、空间一致性检查后的错误率均比其他年份高, 主要由上节介绍的气温、露点温度问题所引起。空间一致性检查后的资料错误率为3.5‰左右。
2000年后气候界限值检查出的资料的错误率也相对比较高, 原因为3种云属高度中出现了文献[16]中不允许的编码“55”。3种云属高度的资料实有率为实有记录量的2%~24%, 2000年前气候界限值检查出的资料错误率为0.2‰~1.0‰, 2000年后为20.0‰~34.0‰。由于3种云属高度的资料量在整个数据集中不可忽略, 且2000年前后气候界限值检查出的3种云属高度资料错误率显著增大, 因此2000年后气候界限值检查出的整个资料的错误率相对2000年前比较高。在全球地面天气报历史资料中, 相对湿度、24 h净辐射量、日照时数用气候界限值检查出的资料错误率相对比较高, 分别为140.8‰, 6.0‰, 8.3‰。但这3种要素的资料量较少, 实有率如表 1所示, 分别为0.2%, 0.0%, 2.1%。因此对整个资料集的质量统计结果影响不大。
CQC检查后、空间一致性检查后资料的可疑率分别由2000年前的18.5‰左右上升到2000年后的30.2‰左右, 前后相差约12.0‰。造成这种差别的主要原因:①2000年后, 当24 h降水量为0或资料不发报、缺测时均用0表示, 导致6 h, 24 h和其他时间段降水量间要素矛盾, 引起3种时间段降水资料可疑率较大, 可疑率分别为12.2%, 11.5%, 16.7%; ②由于有积雪或有可测量冰覆盖时地面状况资料错误而导致最低气温与其要素间不一致。2000年后有积雪或有可测量冰覆盖时地面状况资料实有率约为2000年前的5倍, 该地面状况的可疑率由2000年前的9.0%左右上升到2000年后的35.0%左右。同时最低气温与上述地面状况间的矛盾也在增加, 2000年前后, 最低气温的可疑率由原来的1.0%上升到13.5%。
除了上述提到的时间段外, 从图 3、图 4可见, 1982—1999年资料的质量比较稳定, 经气候界限值检查、CQC控制后、空间一致性检查后, 资料的错误率分别为0.3‰, 1.5‰, 1.8‰左右; CQC控制后、空间一致性检查后, 资料的可疑率分别为18.6‰, 18.3‰左右。
经过全过程质量检查后, 二版全球天气报历史资料数据集的可疑率为20.3‰, 错误率为2.0‰, 错误资料为可疑资料的10%左右。
4 总结与讨论全球地面天气报历史资料在进行质量检查前, 进行了报文格式检测处理和错误站处理, 降低了资料传输过程造成的错误, 其中约有6.0‰的资料作为错误站资料而删除[15]。二版全球地面天气报历史资料数据集在制作过程中, 对1980—1981年间、2000年后存在的明显批量错误资料进行了相应处理, 与原数据集相比, 新制作的数据集在质量上有了进一步的提高。通过报文格式检测处理、错误站处理和质量检查过程中发现的批量错误资料处理, 二版全球地面天气报历史资料数据集中, 资料的可疑率为20.3‰, 错误率为2.0‰。一些研究表明, 未经任何监测处理的天气报资料的疑误率在8%~15%左右[3]。与其相比, 二版全球地面天气报历史资料数据集的疑误率明显降低。
1980—2003年间实有率在80%以上的要素资料的可疑率、错误率呈下降趋势, 说明这些要素的质量逐年上升。通过质量控制与某些错误资料的处理, 1982—1999年资料的质量情况比较稳定, 可疑率为18.3‰左右, 资料的错误率为1.8‰左右。1980年和1981年由于气温和露点温度的解码问题, 使资料的错误率比较高, 为3.5‰左右。2000年后, 由于各时间段降水量之间、最低气温与 (有积雪或有可测量冰覆盖时) 地面状况之间的要素一致性矛盾, 导致资料的可疑率较高, 为30.2‰左右。
致谢 国家气象中心陶士伟、国家气象信息中心熊安元、刘小宁同志为本文提出了宝贵意见; 国家气象信息中心应显勋、高华云同志帮助提供资料接收、处理的有关信息, 作者在此深表感谢。| [1] | WMO. Manual on GDPS. WMO-No.485, 1992, 1:Ⅱ 1-4. |
| [2] | WMO. Guide on the GOS. WMO-No.488, 1989. |
| [3] | Fillipov V V. Quality Control of Meteorological Data. World Weather Watch Planning Report, WMO-No.26, 1968. |
| [4] | WMO. Guide on the GDPS. WMO-No.305, 1993. |
| [5] | Peterson T C, Vose R S, Schmoyer R, et al. Global historical climatology network (GHCN) quality control of monthly temperature data. Int J Climatol, 1998, 18: 1169–1179. DOI:10.1002/(ISSN)1097-0088 |
| [6] | Lanzante J R. Resistant, robust and nonparametric techniques for the analysis of climate data:theory and examples, including applications to historical radiosonde station data. Int J Climatol, 1996, 16: 1197–1226. DOI:10.1002/(ISSN)1097-0088 |
| [7] | Vejen F, Jacobsson C, Fredriksson U, et al. Quality Control of Meteorological Observations Automatic Methods Used in the Nordic Countries. Climate Report, No.8, 2002. |
| [8] | Eischeid Jon C, Bruce Baker, Tom Karl, et al. The quality control of long-term climatological data using objective data analysis. J Appl Met, 1995, 34: 2787–2795. DOI:10.1175/1520-0450(1995)034<2787:TQCOLT>2.0.CO;2 |
| [9] | 周尚河. 全国高空资料质量控制和建库方法的研究. 应用气象学报, 2000, 11, (3): 364–370. |
| [10] | 吴增祥. 气象台站历史沿革信息及其对观测资料序列均一性影响的初步分析. 应用气象学报, 2005, 16, (4): 461–467. |
| [11] | 刘小宁, 任芝花. 地面气象资料质量控制方法研究概述. 气象科技, 2005, 33, (3): 199–203. |
| [12] | 任芝花, 刘小宁, 杨文霞. 极端异常气象资料的综合性质量控制与分析. 气象学报, 2005, 63, (4): 526–533. |
| [13] | 王伯民. 基本气象资料质量控制综合判别法的研究. 应用气象学报, 2004, 15, (增刊): 50–59. |
| [14] | 应显勋, 赵昭忻, 陆志贤, 等. 国家、区域和省三级分布式实时气象资料数据库系统综合功能规格书. 北京: 气象出版社, 1993. |
| [15] | 许松. 全球地面天气报数据集错站情况分析及处理方法的研究. 应用气象学报, 2004, 15, (增刊): 128–133. |
| [16] | WMO. Manual on Codes. 1995. |
2006, 17 (4): 412-420

