2. 区域数值天气预报重点实验室,广州 510080;
3. 广东省气象科技培训中心,广州 510080
2. Key Laboratory of Regional Numerical Weather Prediction, Guangzhou 510080;
3. Meteorological Science and Technology Training Center of Guangdong Province, Guangzhou 510080
省级气象宽带网络是由省、市、县气象部门承建、以内部局域网和运营商网络相结合的方式组建的,实现省-市-县3级系统的网络连接,负责气象相关业务数据的传输。
随着气象事业快速发展,气象观测和预报向着多样化与精细化方向发展,观测资料和预报产品数据量迅猛增长,传输时效性更强,这对省级气象宽带网络提出更高要求,不仅要求有足够的网络带宽、链路冗余,还要求能应对突发流量、业务分流、故障自动切换等,达到可靠性标准。因此,气象宽带网的可靠性研究成为迫切需求。
当前省级气象局的宽带网可靠性,大多通过降级备份方式实现[1-3]。该方式存在两个问题,首先备份链路的带宽比较窄,不能达到原链路的传输性能;其次,无法真正做到链路自动切换,需要人工干预。而利用链路检测技术及策略路由技术来实现广域宽带网可靠性的研究还较少。本文在阐述网络可靠性研究现状、气象宽带网可靠性分析的基础上,深入探讨常用网络可靠性设计技术及其评价方法,从网络备份、流量分担和自动切换3个方面论述省级气象宽带网的可靠性设计与实现。将整套方案在广东省气象宽带网中进行业务实现,通过测试,其运行效果良好,验证了该设计的正确性与可行性。
1 宽带网可靠性分析网络可靠性是指网络在规定条件下和规定时间内,能在用户期望的时间范围内将电子信息按用户需求完整、正确地在网络中传输的能力。网络可靠性指标[4]包括4个方面:抗毁性,指网络拓扑结构在遭受破坏的情况下保持连通的能力;生存性,指具有失效概率的网络节点和链路在随机性破坏作用下,保持连通的概率;可用性,是基于网络业务性能的可靠性指标,指在网络部件失效的情况下,满足业务性能要求的能力;完成性,一般是指开始时可用性一定的情况下,系统正常运行完成服务要求的能力。
省级气象宽带网络是一个24 h不间断的传输网络,对时效性、可靠性要求非常高。气象宽带网可靠性现状[4-6]:建有气象报文传输降级备份系统,即PSTN (public switched telephone network, 公共电话交换网络) 电话拨号备份系统;不同业务、不同资料对网络可靠性要求各异,应区别对待;某些省气象局已经建立了多链路备份系统,但在故障检测和自动切换方面手段有限。根据网络可靠性指标和气象宽带网络可靠性现状,将可用性和完成性作为气象宽带网络可靠性衡量标准。
2 宽带网可靠性技术及其评价方法 2.1 主要技术该气象宽带网络可靠性设计所用到的主要技术包括BFD技术、Track技术、VRRP技术和策略路由技术。
BFD技术 (bidirectional forwarding detection,双向转发检测)①是一套全网统一的、通用的、标准化的介质无关及协议无关的快速故障检测机制,用于快速检测、监控网络中链路连通状况。NQA (network quality analyzer) 是网络质量分析的简称②, NQA通过发送测试报文,对网络性能、网络提供的服务及服务质量进行分析,为用户提供网络性能和服务质量的参数。
① 杭州华三通信技术有限公司.BFD技术白皮书.2008:3-13.
② 杭州华三通信技术有限公司.NQA技术白皮书.2008:5-15.
Track技术③,实现联动功能,由应用模块、Track模块和监测模块3部分组成,通过建立联动项,实现不同模块之间的联动,由监测模块通过Track模块触发应用模块执行某种操作。
③ 杭州华三通信技术有限公司.Track技术白皮书.2008:1-2.
VRRP (virtual router redundancy protocol,虚拟路由器冗余协议) 技术④,是一种容错协议[7-8],在具有多播或广播能力的局域网中,借助VRRP能在某台路由器出现故障时,提供可靠性高的缺省链路,有效避免单一链路故障后网络中断的问题。
④ 杭州华三通信技术有限公司.VRRP技术白皮书.2008:4-7.
策略路由 (policy routing)[9]是在路由表已经存在的情况下,不按照现有的路由表进行转发,而是根据需要,某些通信流量选择其他路由的方式。主要在路由表复杂或者需要对路由进行控制的情况下应用,特别是当网络出口有两条,需要对不同服务、应用或者不同客户的路由进行控制时。
2.2 可靠性评价方法可靠性是确定某个网络在特定运行时间内有效运行的概率的一个标准。目前衡量网络可靠性指标的参数包括:MTBF (mean time between failures)[10],平均故障间隔时间,是一个系统的两个连续失败的预期时间,MTBF越长表示可靠性越高,正确工作能力越强。MTTR (mean time to repair),平均恢复时间,是从出现故障到恢复中间的这段时间,MTTR越短表示易恢复性越好。MTTF (mean time to failure),平均无故障时间,网络系统开始运行到出现第1个故障的时间,MTTF越长系统的可靠性越高。一般地,
|
(1) |
由此可知,要提高网络可靠性,就要减少平均恢复时间 (MTTR)。根据省级气象宽带网络的结构和业务特点,要减少MTTR,可以通过做网络备份和链路自动切换实现,故设定其可靠性指标包括:网络备份,在地市气象局至省级气象中心之间做到双链路备份,当其中一条链路发生故障时,另一条链路作为备份,承担网络通信、数据传输的责任,降低对单一网络运营商的依赖;自动切换,在实现网络链路备份的基础上,实现主备线路自动切换。当主链路出现故障时,通过网络设备的自动探测技术,自动切换使用备份链路,提高网络传输的可靠性。
另外,流量分担[11-12],能够提高网络服务质量,同时也能够使业务流量清晰化,便于网络故障的判断和恢复,从侧面提高网络的可靠性。目前气象网络流量可分为视频流、基本观测资料流、观测产品流和天气预报流等。一般情况下,视频会商时,视频流占用的网络带宽比例比较大,会影响其他业务流传输,这时通过策略路由技术,控制视频流通过备份线路传输,达到业务分流的目的,提高带宽利用率和网络质量。
3 宽带网可靠性设计与实现气象宽带网络可靠性设计与网络拓扑结构结合紧密,网络备份、自动切换、流量分担3个核心部分的实现都依赖具体的网络结构。鉴于各省气象网络结构的差异,本文主要依托于广东省气象宽带网进行可靠性设计,也为其他省级气象宽带网络的可靠性建设提供一种参考模式。
3.1 网络整体结构广东省现役气象网络基于MPLS-VPN (multiprotocol label switching-virtual private network, 多协议标记交换-虚拟专用网络)[6, 13-14]宽带网,图 1为广东省省-市气象宽带网络的整体结构,主要分为3段,省气象局局域网-网络运营商-地市气象局局域网。为达到宽带网链路备份、自动切换和流量分担,分别从这3个方面论述宽带网可靠性的设计思路与实现方法。
|
|
| 图 1. 省-市气象宽带网拓扑图 Fig 1. Meteorological broadband network topology of Province-City | |
3.2 链路备份
省-市气象宽带网采用双星形冗余网络架构设计,在盈通MPLS链路基础上,加租移动MSTP (multi-service transfer platform, 多业务传送平台) 链路作为冗余,采用双路由设备达到高可靠性链路备份。
将原省气象局路由器替换为双路由器,用于双运营商、骨干防火墙及路由器之间的连接,实现双线路的双路由器备份。市气象局原有路由器替换为高性能路由器,运用多端口功能。
3.3 自动切换气象宽带网中断时,能够在不影响业务情况下快速自动链路切换,实现无缝网络备份。在负载实时业务的线路故障时,自动将流量切换到另一条链路上,确保实时业务的流量优先于其他流量得以转发。在负载互联网流量以及视频流量的线路故障时,根据QoS (服务质量),将流量切换到另一条链路上或者允许该流量出现短暂的中断。
双设备、双链路是网络分流和冗余的必要前提,但要真正达到目的,还需要相邻设备做到快速故障检测和恢复,这样在出现网络故障时才能快速建立起替代通道或切换到其他链路。
链路自动切换主要包括3个步骤:故障检测、触发机制和故障链路切换。
故障检测,主要有OSPF (open shortest path first, 开放式最短路径优先) 路由协议的Hello机制和BFD双向转发检测两种技术,由于OSPF的Hello机制,检测时间较长 (1 s以上),难以满足实际业务需求。采用BFD和NQA协议进行链路故障快速检测及网络质量分析。
触发机制,建立Track关联,通过Track项的状态动态决定配置的可用性。事件发生时,Track项状态为positive或invalid,该配置项有效,指导数据转发,Track项状态为negative,该配置项无效,转发时忽略该配置项 (图 2)。
|
|
| 图 2. Track工作原理 Fig 2. Working principle of Track | |
故障链路切换,图 2中应用模块,包括VRRP、静态路由和策略路由3个部分。用VRRP监视Track项功能实现路由器优先级变化,达到链路自动恢复的效果。
图 3a是可靠性方案实施之前的网络拓扑,省级-市级气象宽带网只有1条盈通MPLS链路,用PSTN电话拨号进行网络备份,要完成链路之间的切换,必须人工干预,最熟练的技术人员完成一次切换也要5 min以上,一般技术人员需要20 min才能完成切换,而且网络带宽只有33.6 KB,只能应急传输报文,无法实现等效备份。网络流量没有进行区分控制,业务数据流、视频流和互联网流量在相同的链路和配置下传输。当视频会议和互联网流量较大时,会影响到业务数据的传输;反之,其他流量也会影响视频效果,影响网络的稳定运行。按照网络可靠性的计算公式,可以表述如下:
|
|
| 图 3. 省气象局-某市气象局可靠性设计前 (a)、可靠性设计后 (b) 的网络流量 Fig 3. Flow distribution and load balancing of Province-City before reliability design (a) and after reliability design (b) | |
|
(2) |
|
(3) |
网络故障时,需要进行人工切换,故
|
(4) |
由于PSTN拨号备份无法完成等效备份,要网络完全恢复正常,必须等待盈通公司排除故障,这成了网络可靠性的单点故障。
以某市气象局为例,阐述网络可靠性方案实施后链路切换的路由演绎 (图 3b)。
3.3.1 市气象局到省气象局正常情况下,视频流量经由市气象局MSR5040路由器,通过移动MSTP链路,经省气象局SR6608_2路由器、SR6608_1路由器、ISG2000_1防火墙、C6509_A和C6509_B核心交换机,到达省气象局业务内网。业务流量经由市局MSR5040路由器,通过盈通MPSL-VPN链路,经省气象局SR6608_1路由器、ISG2000_1防火墙、C6509_A和C6509_B核心交换机,到达省气象局业务内网。
链路故障时,当市气象局MSR5040和省气象局SR6608_2两台路由器之间的MSTP链路断掉情况下:视频流量和业务流量均经由市气象局MSR5040路由器,通过盈通MPSL-VPN链路,经省气象局SR6608_1路由器、ISG2000_1防火墙、C6509_A和C6509_B核心交换机,到达省局气象业务内网。
3.3.2 省气象局到市气象局正常情况下,视频流量经由省气象局C6509_B、C6509_A核心交换机、ISG2000_1防火墙、SR6608_1路由器和SR6608_2路由器,通过移动MSTP链路,经MSR5040路由器,到达市气象局业务内网。业务流量经由省气象局C6509_B和C6509_A核心交换机、ISG2000_1防火墙、SR6608_1路由器,通过盈通MPSL-VPN链路,经MSR5040路由器,到达市气象局业务内网。
链路故障时,当省气象局SR6608_1和市气象局MSR5040两台路由器之间的MPSL-VPN链路断掉情况下,视频流量和业务流量都经由省气象局C6509_B和C6509_A核心交换机、ISG2000_1防火墙、SR6608_1和SR6608_2路由器,通过移动MSTP链路,经MSR5040路由器,到达市气象局业务内网。
3.4 流量分担气象宽带网的流量从应用类型上可分为业务流量、互联网流量和视频流量。业务流量的实时性要求高,不可中断,视频流量对网络要求较高,互联网流量是指日常网上办公所承载的流量,对网络要求较低,在8 h工作时间之外可短暂中断。
气象宽带网的业务分流旨在确保省、市气象局业务良好运转,不同的业务流量对应不同的QoS。关键的核心业务 (实时报文转发、雷达数据传输及实时视频会商等),优先保证其时延和带宽,非关键业务 (办公自动化、浏览网页、邮件信息),其网络时延、带宽次之。QoS设计遵循4项原则:网络带宽不应成为瓶颈, 网络设备的性能不应成为瓶颈, 设定科学的QoS策略生效时机, 任何时候都优先保障关键实时气象业务。
采用策略路由和QoS相结合的方式确保关键业务的可靠传输。策略路由从宏观上保证关键业务优先采用高带宽线路传输,实现对广域网带宽的最大利用,QoS从微观上确保关键业务流量优先传输。
运用ACL (访问控制列表),区分业务流量类型;利用单播策略路由[15],为不同类型流量配置“出接口”、“下一跳IP地址”,使得不同类型流量分别在两条链路传输。
以视频流和其他业务流为例,视频终端、视频服务器都使用固定的IP地址通讯,采用ACL的匹配规则[16]来区分视频业务流和其他业务流,在核心汇聚设备接口上,基于策略路由选择“出接口”、“下一跳IP地址”来指定视频流和其他业务流在哪条链路上传输 (图 4)。
|
|
| 图 4. 某市局策略路由 (a) 和访问控制列表 (b) Fig 4. Policy routing (a) and ACL (b) of a city | |
4 宽带网可靠性测试 4.1 链路冗余测试
模拟某条链路故障,运用tracert技术检测另一条链路是否通达,确定链路冗余功能是否实现。模拟移动链路断开和恢复,检测链路状况,图 5a显示数据流向正常;模拟盈通链路断开和恢复,检测链路情况,图 5b显示数据流向正常;模拟链路切换时丢包状况,图 5c显示网络恢复迅速,丢包极少;图 5d显示正常情况下视频流传输路径。测试表明实现了双链路冗余备份。
|
|
| 图 5. 链路冗余、业务分流测试 (a) 移动链路断开和恢复模拟,(b) 盈通链路断开和恢复模拟,(c) 链路切换模拟,(d) 正常情况视频流传输路径 Fig 5. The test of link redundancy and business triage (a) the simulation of Yidong link disconnection and recovery, (b) the simulation of Yingtong link disconnection and recovery, (c) the simulation of link switch, (d) the path of video stream transmission in normal | |
4.2 链路自动切换测试
链路自动切换指盈通MPLS-VPN链路与移动MSTP链路的自动切换。当盈通链路正常时,FTP数据经盈通链路传输路由传输 (图 6a), FTP数据经盈通链路传输 (图 6b);当断开盈通链路,自动切换至移动链路,FTP数据正常续传 (图 6c);先断开盈通链路,再恢复盈通链路,FTP数据基本不受影响,正常传输 (图 6d)。测试表明实现了链路自动切换。
|
|
| 图 6. 业务分流、链路自动切换测试 (a) 正常情况FTP数据经盈通链路传输路由,(b) 正常情况FTP数据经盈通链路传输,(c) 链路自动切换时FTP数据传输模拟,(d) 盈通链路断开恢复时FTP数据传输模拟 Fig 6. The test of business triage and automatic link switch (a) route through Yingtong link in normal, (b) FTP data transmission through Yingtong link in normal, (c) the simulation of FTP data transmission when automatic link switching, (d) the simulation of FTP data transmission when Yingtong link disconnection and recovery | |
4.3 业务分流测试
业务分流主要指视频流和业务流通过不同链路传输,视频流由移动链路传输,业务流由盈通链路传输。视频流链路测试,在地市气象业务视频网段的PC机上,通过tracert省气象局视频网段的IP地址,图 5d所示数据通过移动链路传输;业务流链路测试,在地市气象业务网段的PC机上,通过tracert省气象局业务网段的IP地址,图 6a显示数据通过盈通链路传输。测试表明实现了业务分流。
综上,可靠性设计实施后,网络可靠性可表达如下:
|
(5) |
|
(6) |
绝大多数情况下,盈通和移动链路不会同时出现故障,局域网设备都做了冗余,故障也极少,故
|
(7) |
|
(8) |
|
(9) |
由此可知,网络可靠性有了大幅度提升,当然,盈通和移动链路同时故障或局域网中断也可能存在。
5 小结针对当前省级气象宽带网络存在的问题,本文通过对广东省气象宽带网络的可靠性的研究,提出一种能有效提高气象宽带网可靠性的设计方案,阐述该设计的实现思路及测试过程,验证了该设计的正确性和可行性。结论如下:
1) 实际业务运行效果表明,该设计不仅能满足业务需求,达到了链路备份、业务分流和链路自动切换的可靠性指标,还使省级气象宽带网总体水平上了一个新台阶。
2) 由于省级气象宽带网的普遍性和相似性,该可靠性设计对其他省级气象宽带网的设计具有积极的参考和应用价值。
该设计在实现过程中,虽然已经达到预期目的,但在QoS的细化设计上有待完善。
| [1] | 郎洪亮. 全国气象宽带网络系统体系结构研究. 气象科技, 2006, 34, (增刊): 1–4. |
| [2] | 宗翔, 王彬. 国家级气象高性能计算机管理与应用网络平台设计. 应用气象学报, 2006, 17, (5): 629–634. DOI:10.11898/1001-7313.20060506 |
| [3] | 王春虎. 国家级气象高速骨干网络的系统设计. 应用气象学报, 2002, 13, (5): 637–640. |
| [4] | 李崇东, 李德梅. 网络可靠性研究综述. 科技信息, 2009, 19: 449–450. DOI:10.3969/j.issn.1001-9960.2009.17.348 |
| [5] | 赵立成, 关彤. 网络编程实现气象卫星资料的传输. 应用气象学报, 2003, 14, (4): 396–401. |
| [6] | 陈宏尧, 张传样. 气象部门信息网络系统的骨干工程. 应用气象学报, 1995, 6, (增刊): 123–128. |
| [7] | Metz C. IP anycast point-to-(any) point communication. IEEE Internet Computing, 2002, 6, (2): 94–98. DOI:10.1109/4236.991450 |
| [8] | 喻辉, 杨柳. VRRP技术在气象网络中的应用. 沙漠与绿洲气象, 2009, 31, (3): 45–47. |
| [9] | 徐翔. 基于策略路由技术的网络应用. 中国科技信息, 2005, 14: 94–95. DOI:10.3969/j.issn.1001-8972.2005.01.080 |
| [10] | [2009-12-01].http://manoel.pesqueira.ifpe.edu.br/cefet/anterior/2009.1/manutencao/MTTFVersusMTBF.pdf. |
| [11] | Hui Chichung, Chanson S T. Improved strategies for dynamic load balancing. IEEE Concurrency, 1999, 7: 58–67. DOI:10.1109/4434.788780 |
| [12] | 雷英, 王成良. 基于VRRP的网络负载均衡研究. 科技资讯, 2009, 22: 33–35. DOI:10.3969/j.issn.1672-3791.2009.08.025 |
| [13] | 谢凤梅, 张建青. MPLS网络技术及应用. 电脑知识与技术, 2005, (21): 34. |
| [14] | 肖文名, 郎洪亮, 陈晓宇. NetFlow技术在广东气象网络流量监测分析中的应用. 应用气象学报, 2007, 18, (6): 870–876. DOI:10.11898/1001-7313.200706131 |
| [15] | 张前进, 齐美彬, 李莉. 基于应用层负载均衡策略的分析与研究. 计算机工程与应用, 2007, 43, (32): 138–142. DOI:10.3321/j.issn:1002-8331.2007.32.042 |
| [16] | Ohtake S, Inoue T, Fujiwara H.Sequential Test Generation Based on Circuit Pseudo-transformation.Proceedings of the 5th Asian Test Symposium.Institute of Electrical and Electronics Engineers, 1997:62-67. |
2013, 24 (6): 761-768



