21世纪是人类有史以来生产、传播、利用信息最广泛的时代, 作为地球系统科学数据重要组成部分的气象信息, 是国家重要的基础性、公益性信息资源, 在经济建设、国防安全、社会进步和科技创新中发挥着不可替代的作用。气象信息共享平台作为气象事业发展的“四大战略平台”之一[1], 是气象信息资源整合、规范管理和高效利用的核心业务系统, 同时, 也是国家重要的信息基础设施。
随着信息技术的不断发展和社会对于信息共享需求的日益迫切, 采用现代数据库技术和网络技术管理海量信息资源, 并面向各阶层用户提供信息获取服务的信息管理系统得到了快速发展。国内外各领域、各行业的信息共享平台建设日新月异。世界气象组织 (WMO) 在2003年提出了要构建新一代信息系统 (WIS) [2], 该系统主要以元数据技术来整合各类气象信息, 构建一个分层次的世界范围的气象信息共享系统, 以支持从世界天气计划 (WWW) 到WMO各个项目和计划对气象信息的快速获取与便捷应用。美国国家大气与海洋局 (NOAA) 也于2000年开始建设国家虚拟数据中心 (NNDC), 采用分布式数据库技术, 以统一的界面和订单为用户提供气候、海洋、地球物理信息资源的共享服务[3]。我国政府也正在大力推动信息化进程, 其中在电子政务领域重点是构建采用数据目录交换技术的跨部门、跨领域的信息交换与共享平台[4]。在科研领域, 科技部正在大力推进国家科学数据共享工程[5], 中国科学院的科学数据库系统也在管理分散异构数据方面取得了一些成果[6]。我国气象部门早在20世纪80年代初开始转变为应用计算机来存储和处理各类气象信息, 气象信息管理系统从单机文件系统、局域网络数据库系统逐步发展到了大规模分布式数据库系统阶段[7]。
气象信息共享平台作为新一代气象信息管理系统, 其体系结构和技术的复杂程度均是前所未有的, 需要在集约化和标准化原则下, 充分利用多种现代信息技术和大气科学技术加以构建。本文在分析气象信息共享平台的内涵和基本体系结构的基础上, 对构建气象信息共享平台的关键技术进行梳理和阐述, 进而简要介绍国家级系统开发的实例, 以期对气象信息共享平台的建设提供理论和实践参考。
1 气象信息共享平台的基本框架 1.1 气象信息共享平台概念与内涵一般认为, 气象信息包括各类观 (探) 测数据、统计加工资料和业务服务产品3部分, 如果不特指气象业务服务产品, 气象信息也可以用气象数据或气象资料概念来表述。随着当代大气科学的发展与气候系统概念的形成, 气象信息范畴已经不仅仅限于描述大气物理化学状态的诸要素, 也涵盖了陆地、海洋、冰雪、生态等相关圈层的资料, 即气候系统数据。
气象信息共享平台是新一代的气象信息管理系统, 有别于传统意义上的数据存储系统或数据库系统。气象信息共享平台是一个功能性的集约化系统, 功能性主要强调“信息共享”, 即“平台”的最重要功能是为多领域、各阶层用户提供气象信息的快捷方便的共享服务; 集约化是指“平台”用统一的数据标准与规范对各种不同来源, 不同特性的气候系统数据实施集约化管理, 另一层涵义是有效利用计算机等信息基础设施并在统一的顶层设计下高效配置。因此, 可以认为:气象信息共享平台是采用成熟、先进的IT技术与基础设施, 对气候系统的海量信息资源实施规范、高效管理, 并向行业内外多阶层用户提供共享服务的层次化、网络化、分布式信息管理系统。
气象信息共享平台存储和管理水圈、陆地圈、冰雪圈、生物圈、大气圈以及人类活动等多圈层的各种观 (探) 测资料及其分析加工信息产品, 从而构成完整的气候系统信息图谱; 综合采用元数据、海量存储、数据挖掘、网格和Web Service等多种技术构成“平台”的应用系统; 依托高速宽带通信网络和高性能计算机系统为多轨道气象业务和科研提供基础资料和信息产品服务, 同时通过用户友好的接口与界面向整个国家乃至世界范围的相关领域提供基础数据共享服务。
1.2 气象信息共享平台体系结构气象信息应用的广泛性及其构成的多源性决定了气象信息共享平台具有层次化的体系结构, 从不同角度, 可以理解为布局的层次化结构 (图 1)、功能逻辑的层次化结构 (图 2) 和存储管理的层次化结构。
|
|
| 图 1. 气象信息共享平台布局结构示意图 | |
|
|
| 图 2. 气象信息共享平台逻辑功能示意图 | |
在地域分布上, 气象信息共享平台由国家级共享平台、区域/省级共享平台和相关领域/行业共享平台3部分构成。其中国家级共享平台是气象信息共享平台的主节点, 具有汇集全球多领域信息资源, 为全国和全球用户提供信息共享服务的功能; 也是国家级信息存档中心和其他层次节点后援备份中心, 其核心是国家级业务基础数据库, 直接支持气象业务与科研。同时, 基于统一的系统架构与标准, 面向不同领域用户, 建立专业功能的共享系统, 包括:面向政府机构, 提供决策参考信息的“电子政务基础库”; 为科研教育界提供气象科学数据共享服务的“气象科学数据共享系统”; 为社会公众提供生活参考信息的“气象信息公共服务网站”; 为国际用户提供国际数据共享服务的“国际服务系统”等。区域/省级信息共享平台具有与国家级平台相类似的结构, 其与国家级共享平台通过专用的宽带网络连接, 遵循统一的元数据标准、数据分类标准、共享分级标准和用户授权规则, 与国家级平台形成“紧耦合”体系。相关领域/行业信息共享平台主要布设于水利、海洋、国土等地球系统的相关业务部门以及相关研究院所和大学等教育机构, 以吸纳和整合各圈层数据资源, 为用户提供完整的信息共享服务, 该层次平台与主节点采取统一的元数据标准和数据分类标准, 或者采用双方认可的数据交换规则与语义翻译表单, 但可以各自拟定用户授权规则, 以“松耦合”方式与气象部门的系统构成完整的气象信息共享平台。此外, 由于气候系统领域是全球热点研究领域之一, 国际上具有丰富的信息资源可以引进和利用, 同时我国也会对国际上重大科学问题解决提供基础数据资源支撑, 因此气象信息共享平台也是与世界气候系统领域的数据中心和网络服务系统相连接的, 在WMO, IPCC等相关国际组织中发挥区域信息交换与服务中心的作用。
气象信息共享平台是一个综合业务系统, 其中数据资源是核心, 计算机系统、网络系统是基础设施, 政策法规与标准规范是根本保障。气象信息共享平台的逻辑功能层次包括运行环境、数据资源、应用功能、用户服务和保障体系等层次, 其间的逻辑关系如下所示。
①运行环境层 气象信息共享平台需要在部门宽带网、国家基础骨干网组成的网络环境下运行, 并配以高性能服务器、大容量多级存储设备等实现海量信息的获取、更新、存储、检索、处理、交换、提取分析和传播服务。
②数据资源层 数据资源层是气象信息共享平台的核心, 其主体是国家级、区域/省级和相关领域分布式数据库/数据集, 所管理的数据资源有地基、空基、天基各类探测数据, 有在原始资料基础上经过统一分类编码、质量控制和统计加工形成的标准规范的数据集, 还有描述各类数据本身信息和使用信息的元数据。
③应用功能层 应用功能层是“平台”将系统逻辑转换成应用逻辑的软件组, 是气象信息共享平台应用体系的主要构成, 也可以理解为中间件或“应用服务器”。其主要功能是将繁杂的各类数据进行面向用户的整合集成, 将基于数据管理的各种业务逻辑进行封装, 为用户提供简洁、易于使用的界面和各种人性化数据获取途径。
④用户服务层 用户服务层是用户获取“平台”信息资源的窗口, 为用户提供信息资源定位、导航、发现和数据资源的获取。主要采用智能化的数据检索、可视化的信息展示以及网络化的产品分发实现气象信息充分共享。
⑤保障体系层 保障体系层为气象信息共享平台提供业务化持续稳定运行的根本支撑, 主要包括各种支持信息资源集约化管理和共享服务的政策法规与技术标准规范等等。
2 气象信息共享平台的关键技术气象信息共享平台管理着不同来源、不同属性的海量数据信息, 为科研、政府、公众等各阶层用户提供快捷方便的共享服务, 具有不同层次、地域分布的众多节点。同时, 所有元素和系统均需要集成在统一的平台框架内并为用户提供全局数据导航和获取接口。因此, 构建气象信息共享平台必须综合采用信息、大气科学和相关领域的多种技术。
2.1 元数据技术元数据 (metadata) 是关于数据的说明性信息, 是关于数据的数据。在信息管理领域, 元数据具有数据描述、信息发现、信息管理、目录交换、信息资源集成和知识产权保护等6方面作用。随着网络技术的发展和数字化资源的猛增, 元数据已经从简单的描述或索引发展成为用于管理信息、发现信息、使用信息的一种重要的工具与手段。在气象信息共享平台中, 元数据为分布的、由多种数字化资源有机构成的气象信息资源体系提供整合的工具与纽带。
元数据管理系统是可部署于气象信息共享平台各节点的分布式信息管理软件, 它主要由元数据网关、元数据服务器和元数据库组成 (图 3)。元数据网关是支持元数据服务的中心枢纽, 具有服务器代理、注册管理、网络客户管理等功能[8]。元数据服务器用于发布元数据, 各元数据服务器一方面通过申请注册, 把本节点元数据信息纳入到整个系统中, 另一方面又接受Web服务器对本节点的元数据和数据搜索指令, 这样用户通过该系统就可以透明访问任一节点上的元数据和数据信息。元数据库是元数据信息管理系统的核心内容, 各种元数据信息按照统一的元数据标准进行处理, 利用元数据编辑器或其他自动方式上载到元数据库中。
|
|
| 图 3. 元数据信息管理系统结构示意图 | |
2.2 数据网格技术
数据网格既不是一种全新的技术, 也不是一种全新的概念。早在20世纪末, 西方发达国家就提出了网格 (grid) 的概念并将之作为国家战略性信息基础设施来发展, 其目标是通过网络连接并整合地理上分散的计算资源与信息资源, 为同样是分散在不同地点的用户提供统一的高性能计算资源和信息资源服务。随后, 网格在高性能计算领域快速发展, 为建立国家超级计算中心提供了合适的体系结构与技术支持。近几年, 随着数据密集型大型科学研究的日趋活跃和信息量的快速增长, 在计算网格技术的基础上结合信息管理的元数据等技术, 数据网格 (data-grid) 作为一种有效集成分散异构数据资源, 帮助用户快速发现和访问信息的软件体系逐渐发展起来。
数据网格的主要目标是定义一组需求、组件和应用程序接口 (API), 实现命名的透明性、定位的透明性、协议的透明性和时间的透明性, 为用户提供目录服务、注册与发布、信息发现、存储资源代理服务、身份认证与访问控制和方法调度等功能[9]。
数据网格的核心功能是基于元数据的目录服务, 目录服务的信息基础是元数据目录, 数据网格体系中的元数据目录包括3个子集, 即描述数据集实体的应用元数据, 描述网格自身结构的系统元数据和描述数据文件与具体存储设备之间映射关系的副本元数据。目录服务将系统元数据、应用元数据和副本元数据无缝集成在统一的逻辑视图内, 并通过一组服务向用户/应用程序提供集成的元数据信息。可以认为, 目录服务为用户透明定位信息资源和存取信息资源提供支持。
数据网格的另一项重要功能是存储资源代理服务, 它是网格中的数据管理核心和中间件, 为高层应用访问分布的异构存储资源与数据副本提供统一接口。存储资源代理通过元数据目录为用户提供面向集合的逻辑数据视图, 用户利用存储资源代理提供的API提出数据访问请求, 存储资源代理将用户的逻辑请求利用元数据目录中的信息转换为物理数据请求, 并将转换后的数据访问请求发向分布在不同地域或不同结构的存储系统 (数据库、文件系统等), 然后将不同存储系统提取的信息进行集成, 以用户期望的形式传递给用户, 从而实现对异构存储资源的统一访问。
2.3 海量信息存储管理海量信息存储管理技术是依托大容量、高可靠的磁盘阵列和自动磁带库等海量存储设备, 按照实际使用需求和数据特性对高达PB (1 PB=106 GB) 级的海量数据实施有效存储管理, 综合集成分级存储管理 (HSM)、海量数据备份等技术方法而形成的现代数据管理技术。
2.3.1 分级存储管理根据各类数据不同的访问频次和重要性等指标将其分别存储在不同性能的存储设备上, 采取在线存储 (OnStore)、近线存储 (NearStore) 或离线存储 (OffStore) 等不同的存储方式即为分级存储[10]。在分级数据存储结构中, 通常以磁带库等成本较低的存储资源存放访问频率较低的信息, 以磁盘阵列等成本高、速度快的设备来存储经常访问的重要信息。
分级存储管理就是将离线存储、近线存储与在线存储融合的技术, 它将大容量的非在线存储设备作为在线设备的下一级数据存储后援, 然后将存于磁盘中的数据按指定的策略自动迁移到磁带库等大容量存储设备上, 当需要使用这些数据时, 系统会自动将这些数据从下一级存储设备调回到上一级磁盘上。对于用户来说, 上述数据迁移操作完全是透明的, 只是在访问数据的速度上略有延迟, 而可用的存储容量大大提高了。可以看出, 在分级存储管理中, 最重要的是制定并适时调整各级别数据存储策略, 对所有存储资源实施统一管理, 以提高每种存储设备的利用率。
2.3.2 海量数据备份技术海量数据备份一般采用自动化手段, 备份设备一般为自动磁带库, 备份操作通过自动备份管理软件予以实现。海量数据备份一般都具有时间窗口及备份资源相对有限的特点, 如何在不增加现有备份资源的前提下, 完成在窗口期限内的海量数据备份, 是一个技术性很强的难题, 这方面值得关注的是虚拟磁带库 (Virtual Tape Library, VTL) 技术。VTL就是仿真标准磁带库和磁带格式在磁盘上创建虚拟磁带库, 利用其做缓存。用户向虚拟磁带库中写入数据, 形成虚拟磁带卷, 然后根据预定的策略, 多个虚拟磁带卷经叠加后由系统自动写到物理磁带介质上, 从而提高系统应用的性能表现, 实现海量数据的快速备份与恢复。
2.4 数据挖掘为了确定或调整预报模式参数, 了解天气/气候系统发展演化趋势, 气象科技工作者常常需要从常规数据、卫星数据、雷达数据中提取大量原始数据, 从中“挖掘出”最具价值的信息, 这一过程就可称之为数据挖掘 (data mining)。数据挖掘技术是随着数据仓库的兴起而发展起来的, 是支持用户从浩如烟海的数据中提取有价值信息的一项数据管理与服务技术。
实施数据挖掘的基本设施是数据仓库, 数据仓库的主要功能是提供决策支持系统 (DSS) 或行政与信息系统 (EIS) 所需要的信息, 概括地说, 它把企业或单位日常工作中分散不一致的数据经归纳整理之后转换为集中统一的、可随时取用的深层信息, 这种信息虽然也是按关系数据库的存储结构存储起来的, 但与面向逐条记录的OLTP不同, 在数据仓库中的一条记录, 有可能是基础数据中若干个表、若干条记录的归纳和汇总。与通常的数据库相比较, 数据仓库具有面向主题、存储长序列数据、统一结构和编码、只读4个特征[11]。
数据挖掘的有效实施是发挥数据仓库作用最重要的考核指标, 因为只有通过它才能够将数据仓库中海量数据蕴涵的知识提取出来, 这种包括应用模式与发展趋势的信息仅通过检索数据仓库中的数据是无法得出的, 即当用户运用结构化查询语言 (SQL) 对数据仓库查询所需的信息时, 查询中的歧义性常常涉及到与答案集有关的一系列知识。相反地, 数据挖掘可以揭示出真正有价值的, 而且聚焦于用户问题的答案信息。因此, 数据挖掘技术对于提升气象信息共享平台的服务层次, 将数据服务转化成知识服务方面具有重要作用。
2.5 4种技术之间的关系及其在气象信息共享平台中的作用上述4种技术不是孤立的, 而是以各种内在联系组合成一种统一的、适用于气象信息共享平台建设的综合技术。其中, 元数据技术是信息管理、发现和交换的基础技术; 海量信息存储管理技术是高效组织、充分利用计算机与存储设备的支撑技术; 而数据网格技术则有机地将元数据技术、海量数据管理技术集成到统一的体系框架内, 同时对上述两种技术功能又做了相应的裁剪和扩充, 以更好地应对分散、异构、海量数据对“平台”的挑战。数据挖掘技术则是基于海量数据为用户提供具有针对性、有价值信息所采用的应用技术, 同时, 其提出的构建面向主题的数据仓库要求, 又有赖于前面的3种技术去具体实施。
在气象信息共享平台建设中, 元数据技术的应用贯穿于数据资源整合、数据存储管理和数据发布各个环节, 以保证信息的规范管理和统一发布; 而海量信息存储管理技术的应用无疑更侧重于数据存储管理环节, 以高效利用硬件存储设备; 数据挖掘技术的应用更侧重在“平台”的应用层面, 以提升数据资源的使用价值; 数据网格技术则为“平台”提供了合适的软件框架, 使其他3种技术在统一的框架内互相配合, 发挥最佳效益。
3 在业务系统建设中的初步实践 3.1 国家级气象资料存储检索系统国家级气象资料存储检索系统 (MDSS) 是国家“短期气候预测业务系统工程建设”的建设项目之一。该系统的建设目标是:构建国家级的气象资料存储检索系统, 在未来可预见的时间范围内, 基本满足国家级气象业务、科研工作对气象资料的使用和存储需求, 并为省级部门的内部用户提供一定程度的气象资料服务。系统主要具备资料收集处理、资料存储管理、资料检索、运行监控、用户管理、存储空间管理和资料备份等功能[7]。
MDSS系统在逻辑上由3个数据库组成, 分别是:实时数据库、综合数据库和对外共享数据库。其中, 实时数据库存储满足天气、气候基本业务系统运行所需的各种资料, 综合数据库存储MDSS所保存的所有资料, 对外共享数据库负责对向社会用户提供合法的气象资料, 并对其进行存储管理。
MDSS的物理构成主要有3部分:高性能服务器、数据存储设备和高速存域网 (图 4)。其中的数据存储设备包括磁盘阵列、自动磁带库和脱机磁带。磁盘阵列主要用于数据的在线存储; 自动磁带库用于数据的近线存储; 脱机磁带则用于数据的离线存储。
|
|
| 图 4. MDSS系统物理结构示意图 | |
MDSS系统有以下4个主要特点: ①它是我国气象系统第一个数据中心级的存储系统; ②它采用了商用数据库和文件系统有机结合的管理模式; ③它提供了“B/S结构”的数据调用接口, 可使实时业务用户不受平台的限制以程序调用方式获取所需数据; ④它以海量信息分级存储作为主要的数据存储管理策略。
3.2 气象科学数据共享系统
气象科学数据共享系统是科技部“科技基础条件平台”计划的重点科研项目, 旨在构建一个覆盖全国、网通行业、连接世界的基于Internet网络的气象科学数据共享服务平台, 为以科研教育界为主的各领域用户提供全方位、多层次、网络化和可视化的气象基础信息共享服务[12]。
中国气象科学数据共享服务网是气象科学数据共享服务的基础平台, 是以大气科学为主, 涵盖气候系统领域的分布式网络体系 (图 5)。它包括国家级、国际交换、区域专题和省级共享服务平台, 系统由一个主节点和若干个分节点组成。
|
|
| 图 5. 气象科学数据共享系统结构示意图 | |
目前, 已建成的中国气象科学数据共享服务网由1个主节点和9个分节点组成, 其主要的技术特点是: ①元数据的统一发布, 即通过元数据 (目录) 系统和根据统一元数据标准建立的元数据库, 系统实现了共享网中不同分节点的元数据统一发布和元数据搜索导航机制; ②一次登录, 全网访问, 建立了全网用户的统一认证和授权管理; ③主节点与各分节点之间的无缝衔接, 从而确保整个系统的完整性和较高的适用性, 满足全国异构系统之间在Web上信息交互的需要; ④全网数据的分级管理, 即采用统一的共享用户分级标准和共享数据分级分类标准, 实现了数据、用户的分级管理。
4 小结1) 气象信息共享平台作为新一代信息管理系统, 是功能性、集约化的国家信息基础设施, 具有面向广大用户提供信息资源共享应用和对于海量、异构、分散信息资源实施整合集成两个鲜明特征。总体上, 气象信息共享平台具有层次化分布和层次化功能的体系结构, 是综合性的核心业务系统。
2) 以数据网格技术为体系框架, 综合应用元数据技术、海量信息存储管理技术和数据挖掘技术, 是构建气象信息共享平台的主流技术路线。
3) 目前正在建设的国家级气象信息存储检索系统和气象科学数据共享系统在海量信息分级存储管理, 以元数据为基础的分布式共享节点整合等方面为建设气象信息共享平台提供了有益尝试。上述两个相关联系统最终的发展目标就是成为气象信息共享平台的主体系统与节点。
气象信息共享平台是一个综合业务系统, 对于气象信息共享平台建设的另外两个重要部分, 即数据资源的融合集成与技术保障体系, 尚有待于今后进一步研究分析。
| [1] | 秦大河, 孙鸿烈. 中国气象事业发展战略研究———总论卷. 北京: 气象出版社, 2005: 26-27. |
| [2] | WMO. The Future WMO Information System Concept. 2003: 2-6. |
| [3] | 孙九林, 施慧中. 科学数据管理与共享. 北京: 中国科学技术出版社, 2002: 369-371. |
| [4] | 王延章, 李强. 基于元数据的电子政务数据交换的研究. 计算机工程与应用, 2003, 39, (28): 4–6. |
| [5] | 李晓波, 祝孔强, 贾光宇, 等. 科学数据共享技术平台构想. 中国基础科学, 2003, (1): 52–54. |
| [6] | 马永征, 南凯, 阎保平. 基于MDS的数据网格信息服务体系结构. 微电子学与计算机, 2003, (8): 1–3. |
| [7] | 沈文海, 赵芳, 高华云, 等. 国家级气象资料存储检索系统的建立. 应用气象学报, 2004, 15, (6): 727–736. |
| [8] | 王国复, 李集明, 邓莉, 等. 中国气象科学数据共享服务网总体设计与建设. 应用气象学报, 2004, 15, (增刊): 10–16. |
| [9] | 王意洁, 肖侬, 任洁. 数据网格及其关键技术研究. 计算机研究与发展, 2002, 39, (8): 943–947. |
| [10] | 牛云, 徐庆, 辛阳, 等. 数据备份与灾难恢复. 北京: 机械工业出版社, 2004. |
| [11] | 刘秋生. 数据库技术及其应用. 南京: 东南大学出版社, 2003. |
| [12] | 李集明, 熊安元. 气象科学数据共享系统研究综述. 应用气象学报, 2004, 15, (增刊): 1–9. |
2006, 17 (5): 621-628

