应用气象学报  2010, 21 (5): 632-640   PDF    
国家气象计算网格的设计与建立
王彬, 宗翔, 田浩     
国家气象信息中心, 北京 100081
摘要: 气象部门内高性能计算资源与支持能力具有地域分布不均匀的特点,地方部门与国家级单位相比,在资源丰富程度和开发应用水平上都存在较大差距。针对气象部门国家级、地方单位的资源整合、共享和管理的需求,该文提出了一个国家气象计算网格的设计方案。设计方案采用国家级、区域、省级三级节点布局,通过跨广域范围的气象宽带网互联,基于整合的资源平台设置了资源管理、应用服务和用户接口等功能层模块。利用UNICORE等关键技术,开发实现了气象计算网格软件模块。建成了一个全国分布的6个网格节点,提供网格中间件和定制业务运行两种资源共享服务方式。业务运行以来,为资源匮乏地区的气象用户共享分发预报服务产品,为当地的减灾防灾工作做出了贡献。
关键词: 国家气象计算网格    资源整合    资源管理    资源共享    
Design and Establishment of a Nationwide Meteorological Computational Grid
Wang Bin, Zong Xiang, Tian Hao     
National Meteorological Information Center, Beijing 100081
Abstract: Weather forecast is one major application area of high performance computing technology. The running of meteorological numerical models demands strong high performance computing resource support to ensure the timeliness of numerical weather prediction systems. However, high performance computing resources and supporting capabilities are characterized by geographically contagious distribution in CMA. Local meteorological bureaus are well behind national institutions, whether in the possession of HPC resources or application development capabilities. High performance computing in meteorological field has some typical features in accordance with the requirements for grid computing, such as computational intensiveness, distributed and cooperative mass data access. Regarding the requirements of resource integration, sharing and management by local and national institutions in CMA, a design scheme of nationwide meteorological computational Grid is proposed. Grid technology is used to form abstract virtual resources on heterogeneous computing resources in meteorological department, so as to shield the heterogeneity of the underlying physical systems. Through orderly management and collaborative computing, the service platform implements effective aggregation and comprehensive utilization of resources. The design scheme employs a 3 level layout of national, regional and provincial nodes, constituting a distributed, tightly coupled network computing sharing system. The nodes are interconnected by WAN based meteorological broadband network. Upon the resource aggregation platform, function modules are intercalated for resource management, application services and user interfaces. With key technologies like UNICORE, function modules are developed and implemented. 6 geographically distributed nodes are established. UNICORE gateway services are deployed onto the meteorological broadband network, interacting with one another via grid communication protocols. 9 heterogeneous high performance computers in different places have been integrated and make up a meteorological computing resource pool. Two types of sharing services are provided, grid middleware and customized operations, on the nationwide meteorological computational Grid. By means of customized operations, three model application systems are set up. Since establishment and operational running, the meteorological computational Grid disseminates numerical weather prediction products to users in remote or resource poor areas, and thus provides strong support for disastrous weather prediction services and important events meteorological assurance, which plays an important role in local disaster prevention and mitigation efforts.
Key words: nationwide meteorological computational Grid     resource integration     resource management     resource sharing    
引言

气象预报一直是高性能计算技术的主要应用领域之一。气象数值模式的运行离不开强大的高性能计算资源的支持,以保障数值天气预报系统的时效性[1-2]。但我国气象部门高性能计算资源和配套支撑服务能力具有分布不均匀的特点,相当一部分地方气象部门缺乏足够的计算能力来支持当地的气象数值模式业务和科研,制约了当地防灾、减灾气象服务的能力。

网格计算技术出现于20世纪90年代,它利用高速互联网将分布于不同地理位置的计算机、数据库、存储器和软件等资源连成整体,就像一台超级计算机一样为用户提供一体化服务。网格计算最根本的特征就是资源共享和互操作性[3]。由于其先进的理念、强大的功能、多样的服务,很好地满足了信息时代各个领域对超级计算能力和特殊计算能力的需求,所以一经提出,就受到学术界及工业界的广泛关注,迅速兴起[4]

在国家科技基础条件平台计划等项目的支持下,国家气象信息中心联合多个国家级、区域级、省级气象单位及部门外研究机构,针对气象部门高性能计算业务现状,提出了国家气象计算网格的设计方案,经过四年多的研发,在部门内成功建立了一个全国范围的、分布的、跨广域网络的计算网格,整合了部门内多处高性能计算机资源,研发了平台软件系统和模式应用系统,通过共享机制提供气象计算服务。建设成果现已投入稳定业务运行,为资源匮乏地区的防灾减灾服务做出了贡献。

1 气象部门高性能计算现状

国家气象信息中心是我国气象部门的国家级信息技术业务中心,支撑国家级气象业务运行和科学研究活动。自20世纪80年代起,国家气象信息中心的高性能计算能力以每5年近1.5个数量级的速度高速增长,现总体峰值速度已达37 TFLOPS以上。国家气象信息中心建立了一支具有丰富经验的高性能计算机系统维护、应用支持开发和场地运行人才队伍[5]。国家级气象单位汇聚了国内高素质的数值模式和资料同化专家队伍,负责模式系统的改进、业务运行、产品释用以及各种新型探测资料 (雷达、卫星等) 同化技术的研究和应用。

近年来,全国多个地方气象部门在当地政府财政拨款和有关项目的支持下,购置了高性能计算机系统,计算能力迅速提高。从分布上来看,主要的计算能力均位于区域中心和经济发达地区气象局,但仍有近10个中西部省份没有购置任何高性能计算机系统。

地方气象部门的高性能计算能力近年来虽有较大提升,但与国家级气象单位相比,无论从计算资源的总量、系统维护管理水平,还是应用开发能力来看,都有较大差距。地方气象部门的高性能计算机系统设备使用存在以下一些主要问题:设备利用率不高、部分设备老化和故障率高,缺少必要的维持和升级的经费来源;计算能力不能满足当地需求,尤其是科研方面的大计算量需求;缺少必要的系统维护队伍和高性能计算、气象数值模式专业人才。从地方气象部门的业务应用来看,绝大部分购置高性能计算机的省份运行的一般是GRAPES和MM5模式。但能够对这些模式进行本地化改进 (本地地形、参数化方案、加密资料同化等) 的省份不多,需要得到国家级数值预报专家的指导以形成具有当地特色的中小尺度模式。从地方气象部门的计算需求来看,部分省市特别是各区域中心气象研究所开展了极端天气及气候特征的形成机理、预报方法等方面的科学研究,各区域中心拥有自己区域特色的气象数值模式,如武汉区域中心的暴雨模式、上海区域中心的台风模式等。随着当地经济发展和人民生活水平的提高,政府和公众对天气预报的要求不断提高,决定了这些气象数值模式的时空分辨率很高,一个共享的、功能强大的计算资源共享平台是迫切需要的。

因此,亟需构建一个气象部门范围跨地域的高性能计算资源共享与协同管理平台,以解决全国气象部门计算资源的地域分布不均匀的问题,优化资源配置,充分发挥国家级气象单位在数值天气预报方面的指导作用。

2 方案设计

气象高性能计算具有计算密集、海量分布数据访问和协同性等网格需求,国内外气象领域的网格研究与应用开发一直都很活跃。LEAD (Linked En-vironments for Atmospheric Discovery)[6]是由美国国家科学基金会支持的一个气象网格项目,目标是为美国的中尺度气象预报研究与业务提供一个综合的国家计算基础设施。LEAD采用了完全的面向服务的架构,努力从根本上解决底层IT支持基础设施的问题,创建一个可集成、可扩展、动态适应、按需响应的计算环境。地球系统网格ESG (Earth System Grid)[7],是美国能源部支持的一个数据网格应用研究项目。为应对全球地球系统模型分析和知识发现所面临的巨大挑战,通过将网格技术与气候模式耦合技术结合起来,将分布的超级计算机、大规模的数据和分析服务器联合起来,为下一代气候研究提供一个无缝、强大的虚拟协同环境。数值模拟开发过程产品数据网格SIMDAT是欧洲委员会支持的一个应用网格项目[8],以数据为核心,通过网格技术连接多样的数据源,目标是在气象部门机构之间构建一个虚拟的全球信息系统中心 (V-GISC):在分布于各参与气象机构的所有实时、归档数据库的气象数据基础上开发一个虚拟、一致的视图,并提供一个安全、可靠和高效的机制收集、交换和共享这些分布的数据,从而支持气象部门的研究和业务运行活动。

网格计算技术的不断发展和日趋成熟为问题的解决提供了可能[9-10],可以通过网格技术在气象部门各种不同厂商的计算机系统之上构建抽象虚拟资源,并提供核心的平台服务。虚拟资源屏蔽了底层物理系统的异构性,服务平台通过有序管理和协同计算,实现资源的有效整合和综合利用。考虑到气象部门计算资源相对集中于国家级和区域级、所有气象实时观测数据汇集在信息中心、应用模式趋同、计算范围和精细度不同等特点,提出了三级节点布局、广域网络互联的系统架构和软件模块设计方案,以支持平台资源的整合与共享、网格应用模式以及相应门户系统运行。

2.1 节点布局

国家气象计算网格的整体架构与全国高性能计算机业务布局相适应,分为国家级、区域级、省级 (地市) 等3级,由国家级网格主节点、分布在全国不同地区的8个区域级网格中心分节点和省市子节点组成,区域级、省级网格节点辐射本区域内、省级、地市内气象用户,从而构成了一个分布式的、紧耦合的网络计算共享系统 (图 1)。

图 1. 国家气象计算网格节点布局 Fig 1. Node distribution of nationwide meteorological computational Grid

·国家级主节点。依托国家气象信息中心搭建、开发,利用中国气象局主要国家级业务、科研单位的技术人才优势,采用成熟稳定的网格技术,聚合国家气象信息中心管理的计算资源、存储资源和数据资源,建设气象计算共享平台,向外提供资源共享、典型气象数值模式和产品数据分发服务。

·区域级分节点。依托中国气象局各区域中心建设,整合管理区域中心的计算资源、存储资源,完成该区域中心所覆盖的省级气象部门所需要的气象数据的后处理、特殊产品的加工和分发,研发基于数值预报产品的应用系统和释用系统。针对自身特点,建立和开发面向省级气象部门的数值预报产品应用系统。

·省级子节点。依托省级气象局建设。面向最终的气象用户,包括气象预报业务用户和科研用户。

2.2 网络互联

各级网格节点通过全国气象宽带网络连接起来,在国家级主节点和各区域级分节点设置、部署一个专用的网格中央节点,作为该级中心的中央管理节点和单一资源访问入口,管理该级节点内各高性能计算机系统,采用内部网络通信 (图 2)。

图 2. 国家气象计算网格节点互联 Fig 2. Interconnection of nodes in nationwide meteorological computational Grid

在中国气象局可靠的广域网环境内,由于应用模式趋同而采用的集中式网格架构强化了中央管理,易于推行统一的管理策略。依托国家气象信息中心搭建的国家级主节点通过园区骨干网互联,属于典型的本地域网格环境,其资源由国家气象信息中心统一管理维护运行,执行同一管理机构的资源管理使用政策。在此架构上部署配置网格接入软件,各级分节点向网格中央节点汇报交互,接受中央节点的查询和管理。中央节点汇总管理各个加入分节点的资源,并与之交互,负责资源、作业、用户和信息的管理。

2.3 系统架构

国家气象计算网格作为一个整体,系统架构设计如图 3所示。系统经广域网络面向气象领域用户提供服务。系统由底层资源、计算网格软件、用户接口服务等组成。底层资源包括了气象部门国家级、区域级、省级各级节点的高性能计算机资源,各种气象数值模式,资料数据、产品等。计算网格软件包括了各种软件模块,在解决资源整合的基础上实现资源的有效管理、应用支撑和共享协同用户接口服务即为提供服务的各种接口,如基于Web的门户系统,基于产品分发访问的数据服务,面向气象部门的计算资源网关服务等。

图 3. 气象计算网格整体系统架构设计 Fig 3. System architecture design of nationwide meteorological computational Grid

2.4 软件模块

气象计算网格软件系统可分为基础平台、资源管理、应用服务等层次 (图 4)

图 4. 气象计算网格软件系统模块结构 Fig 4. Software system module structure of nationwide meteorological computational Grid

·基础平台:由计算网格平台软件、数据库系统等构成。

·资源管理:包括资源调度、数据支持、资源监视、资源记账、用户安全管理、交互访问、网格作业管理、流程业务作业运行、关键作业监视控制、数据传输、资源分配等。在资源整合的基础上实现资源的有效管理和对外共享。

·应用服务:包括模式应用系统 (GRAPES,WRF,MM5等)、资源列表详查、资源地理视图、资源统计、调度策略管理等。

3 系统实现与服务 3.1 关键技术

按照设计方案,秉承“引进、消化吸收和再创新"的技术路线,在开源成熟网格平台软件技术和相关自由软件的基础上进行自主研发,构建了气象计算网格。

经充分调研试验,采用了世界知名的开源网格平台软件UNICORE[11-12]作为开发建设气象计算网格资源整合和应用服务的基础中间件技术,同时吸收应用了美国能源部太平洋西北国家实验室的GOLD、欧洲中期天气预报中心的SMS等技术。

3.2 技术实现

基于UNICORE等技术,开发实现气象计算网格的技术方案如图 5所示。

图 5. 气象计算网格技术实现方案 Fig 5. Technology implementation scheme of nationwide meteorological computational Grid

在UNICORE网格平台软件基础上,利用其强大的开发工具库接口和扩展插件、任务插件技术开发实现了设计方案中资源监视、作业监视、数据支持、资源调度、交互访问、用户安全、动态视图、模式应用插件等软件模块。

·资源信息插件:能够提供网络计算环境内各计算资源节点、作业等信息,为作业提交提供建议参考,运行界面如图 6所示。

图 6. 资源信息插件运行界面 Fig 6. Runtime interface of resource information plugin

·作业监视插件:能够列出计算网格上所有运行的作业,显示作业信息。

·资源动态调度:支持常见资源调度策略,实现各系统计算资源高效、均衡利用[13]

·用户安全:采用开放的CA证书机制,建立全国气象计算网格用户安全中心[14]

· SSH交互式访问插件:支持交互式远程访问,实现用户远程登录并执行各种命令功能。

·数据支持服务插件:能够根据气象计算网格平台数据和产品传送的需要,从数据服务器上获取或输送数据文件到计算资源上。

·资源地理视图:利用后台网格平台资源状态查询脚本在各个计算资源的返回结果,前台采用基于GIS信息的Flex视图技术开发,嵌入到门户系统中。实现平台内各计算资源状态和负载等信息的实时显示、监视[15]

·模式插件:利用UNICORE的任务插件技术实现了GRAPES,WRF模式应用插件。GRAPES模式插件的结果如图 7所示。

图 7. GRAPES模式插件结果输出 Fig 7. Result output of GRAPES plugin

利用GOLD资源管理技术作为气象计算网格整合各高性能计算机系统的资源管理工具,实现资源使用、共享的实时、精细化和统一的记账统计[16]

3.3 网格节点建设与资源整合

按照节点架构方案,国家气象计算网格陆续完成了国家级主节点、4个区域级分节点、1个省级子节点的建设工作:国家级网格主节点 (北京) 依托国家气象信息中心建设;区域级网格分节点包括华南 (广州)、华北 (北京)、东北 (沈阳)、西南 (成都) 区域中心分节点;省级网格子节点为安徽 (合肥) 省子节点。

通过在各级节点的高性能计算机系统上安装、配置UNICORE软件,屏蔽了各计算机系统的异构差异,提供一致、易用友好的作业提交工具。各节点的UNICORE网关服务部署在气象宽带网上,通过UNICORE网格协议通信交互,实现了资源整合。

气象计算网格平台整合了全国范围分布的9个异构高性能计算机系统,组成了气象计算资源池。聚合总计算能力达26.02TFLOPS,聚合的节点有435个,处理器有4065个,总存储能力150.58 TB (表 1)。

表 1 气象计算网格整合的高性能计算机系统 Table 1 High performance computer systems aggregated on the nationwide meteorological computational Grid

3.4 共享服务

国家气象计算网格针对不同类型用户需求,现主要提供了两种资源共享方式,网格中间件和定制业务运行 (表 2)。

表 2 资源共享服务方式 Table 2 Resource sharing service means

·网格中间件:通过UNICORE网格技术,经广域网络共享使用计算资源。气象计算网格提供部门计算资源网关服务,主要面向部门内科研型用户,通过气象全国宽带网实现。

·定制业务运行:气象计算资源使用方式具有很大的业务性与时效性需求,采用定制业务运行方式是解决此类用户需求的有效方案。定制方式是指对某些基本定型或已经定型的气象数值模式有二次开发需求并自己运行或需要直接运行获得结果的需求。气象计算网格开发团队进行定制性开发或创建运行环境、提供资源运行并自动发送结果的“交钥匙工程"。这种方式主要面向部门内业务用户,通过气象全国宽带网实现。这种方式是目前资源供需量最大、也是直接为业务一线提供资源的方式。

基于气象计算网格平台,通过定制业务运行的方式,开发建立了华中区域中心MM5、青海MM5[17]和云南GRAPES模式应用系统,实现区域范围内分区高分辨率运算,完成模式产品与气象信息综合处理系统 (MICAPS) 的对接。模式应用系统实现业务转化后,持续运行至今。

同时,在区域分节点上开发建立了国家级主节点模式系统的备份系统。例如,利用模式插件技术在华北区域分节点上建立了GRAPES模式备份系统,在东北区域分节点建立了WRF模式备份系统。

各区域级网格分节点在整合区域计算资源基础上向用户共享资源[18]。例如,西南区域分节点以重庆市气象局和云南省气象局作为异地资源共享用户,一方面将其典型气象数值模式,移植与应用到气象网格计算平台上,另一方面,对其数值模式以外的业务与科研计算系统提供高性能计算资源,提高西南区域网格分节点共享资源的数量、质量和效益。

国家气象计算网格系统建成运行以来,为气象部门内边远地区或资源匮乏地区的灾害天气预报服务和重大活动气象保障提供了有力支持,如2008年初南方低温雨雪冰冻气象服务、2008年云南“11.2"特大地质灾害预警、环青海湖自行车赛气象服务等。

截至2009年底,国家气象计算网格累计提供约7000次资源共享业务服务,提供了超过350000CPU小时计算资源共享服务,经广域网络下发了约500GB的数值预报产品。服务次数、共享机时、产品数量,运行稳定性等指标逐年提高。

4 结语

国家气象计算网格的成功建立和服务运行发挥了良好效益,为资源匮乏地区的防灾减灾工作做出了贡献。

未来将在资源整合、共享服务、应急联动调度、容灾备份等方面继续深入研究[19-20]。推广应用已有成果,继续计算分节点建设工作,整合区域中心及部分省局计算资源,形成气象部门计算资源池,统一监视管理。扩大用户服务范围,研究解决安全问题后,逐步对行业内的科学家和研究人员开放。参考学习国外有关研究工作,研究建立数据驱动、实时动态、交互式的新型灾害性天气预报网格环境,从部门计算资源池调度执行,启动精细模式网格作业,提供精细化预报。

致谢 感谢国家气象信息中心、国家气象中心数值预报室、国家并行中心及华中、西南、华南、东北、华北区域信息中心等单位对本文研究工作的支持!
参考文献
[1] 郑明典. 数值天气预报近期的发展趋势. 物理双月刊, 2001, 23, (3): 422–426.
[2] 洪文董. 高性能计算机的发展与气象的应用. 计算机工程与应用, 2004, 40, (5): 32–35.
[3] Foster I, Kesselman C, Tuecke S, The anatomy of the Grid:Enabling scalable virtual organizations. International Journal of Supercomputer Applications, 2001, 15, (3): 200–222. DOI:10.1177/109434200101500302
[4] 王彬, 许卓群. 基于网格计算技术的高性能计算解决方案及其实现. 计算机工程与应用, 2003, 39, (36): 1–4.
[5] 宗翔, 王彬. 国家级气象高性能计算机管理与应用网络平台设计. 应用气象学报, 2006, 17, (5): 629–634.
[6] Linked Environments for Atmospheric Discovery(LEAD).[2010-03-02]http://lead.ou.edu.
[7] Earth System Grid.[2010-03-03]http://www.earthsystemgrid.org.
[8] SIMDAT Website.http://www.ecmwf.int/services/grid/simdat/2010-03-03.
[9] 王彬, 许卓群. 面向服务的网格体系架构. 计算机应用研究, 2007, 24, (8): 13–16.
[10] 杨学胜, 张卫民, 陈德辉. 网格计算及其在气象中的应用. 气象, 2005, 31, (2): 79–82.
[11] UNICORE Project Homepage.[2008-09-15]http://www.unicore.eu.
[12] 王彬,宗翔.UNICORE技术调研分析报告//国家气象信息中心2007年度科技年会论文集,2008:91-97.
[13] 刘桂英, 李祖华, 王彬. CMAGrid中作业调度插件的设计与实现. 高性能计算技术, 2009, (2): 48–52.
[14] 曹燕,王彬,李娟.国家气象应用网格平台用户安全的设计和实现//国家气象信息中心2008年度科技年会论文集.2009:61-67.
[15] 王彬, 常飚, 朱江, 等. 气象计算网格平台资源监视模块的设计与实现. 应用气象学报, 2009, 20, (5): 642–648.
[16] 王彬, 宗翔, 魏敏. 一个精细粒度实时计算资源管理系统. 应用气象学报, 2008, 19, (4): 507–511.
[17] 谌芸, 田浩, 宗翔, 等. 青藏高原基于网格计算的MM5应用系统. 气象与环境科学, 2007, 30, (1): 4–9.
[18] 李永生,王彬,肖文名,等.广州区域中心气象计算网格节点的设计与实现//国家气象信息中心2008年度科技年会论文集.2009:30-36.
[19] 李集明, 沈文海, 王国复. 气象信息共享平台及其关键技术研究. 应用气象学报, 2006, 17, (5): 621–628.
[20] 周峥嵘, 王(王争), 何文春. 分布式气象元数据同步系统的探索研究. 应用气象学报, 2010, 21, (1): 121–128.