应用气象学报  2012, 23 (1): 121-128   PDF    
广域网加速在FY-3气象卫星数据传输中的应用
卫兰, 林曼筠, 赵现纲, 张战云     
国家卫星气象中心,北京 100081
摘要: 风云三号 (FY-3) 极轨气象卫星数据传输系统需通过广域网链路,将海量卫星观测数据从卫星接收站快速传送到资料处理中心。该文研究广域网加速技术,解决广域网链路中传输气象卫星海量观测数据延迟高、带宽利用低等难题。文中针对FY-3气象卫星观测数据传输量大、时效要求高的特点,分别分析了数据压缩、数据缓存和协议优化3种不同加速技术对卫星数据的传输优化效果,并根据分析结果提出了一种适用于气象卫星数据的广域网传输加速架构。该架构结合3种不同加速技术设计了TCP代理模块、数据段索引模块和HS-TCP传输模块以及相应算法分别实现了数据压缩与缓存和协议优化等功能。通过测试和实际运行表明:在该加速架构下卫星数据广域网传输速率提高了50%~243%。
关键词: 广域网加速    极轨气象卫星    海量气象卫星数据    广域网传输    加速架构    
Application of the WAN Acceleration Technologies to FY-3 Satellite Data Transmission
Wei Lan, Lin Manyun, Zhao Xiangang, Zhang Zhanyun     
National Satellite Meteorological Center, Beijing 100081
Abstract: FY-3 series is a new generation of polar-orbiting meteorological satellite which is much more powerful than FY-1 series. As the first research and development satellite of FY-3 series, FY-3A meteorological satellite carries 11 kinds of instruments with more than 90 observation and probing channels, and it has the capabilities of global sounding, global imaging of the earth's surfaces and natural color imagery with a higher spatial resolution of 250 m. The size of the raw data files for one pass of FY-3 meteorological satellite is almost 100 times as FY-1. There are 4 domestic ground stations set up in China, and they are located in Beijing, Guangzhou, Urumqi and Jiamusi respectively. These 4 ground stations are responsible for receiving the FY-3 satellite observation data and transferring them to the data processing center which is located inside the building of National Satellite Meteorological Center in Beijing. It is really a big challenge for the data transmission system of the FY-3 satellite to transfer the massive meteorological satellite observation data efficiently and timely from the ground stations to the data processing center. The WAN acceleration technique is studied to solve the problems such as high delay in transmission of massive satellite observation data and little bandwidth utilization during WAN link. To deal with the data transfer characteristics of FY-3 properly, massive observation data and high-timeliness requirement for instance, the transmission optimization effects of three different acceleration techniques, including data compression, cache and TCP protocol optimization on meteorological satellite data are analyzed respectively. According to the analysis results, a WAN data transmission acceleration architecture which is suitable to FY-3 satellite observation data transmission is illustrated and presented to break the bottleneck of data transmission through WAN. This architecture combines TCP proxy module, segment index module and HS-TCP transfer module by integrating three different acceleration techniques to realize the key functions such as data compression, cache and protocol optimization. Experimental and operational practices show that this WAN data transmission acceleration architecture results in impressive acceleration, and FY-3 satellite data transmission rate through the WAN is accelerated up to 50%—243%.
Key words: WAN acceleration technology     polar orbit satellite     magnanimity meteorological satellite data     data transmission in WAN     acceleration architecture    
引言

风云三号 (FY-3) 气象卫星是我国新一代极轨气象卫星[1-2],它携带11种仪器可通过九十多种探测通道不分白天、黑夜对各种气象环境进行探测,为提高我国天气预报的时效、加强对自然灾害的监测能力发挥了重要作用。为了及时获得覆盖我国、我国周边以及覆盖全球的FY-3卫星观测资料,国家卫星气象中心建立了北京、广州、乌鲁木齐、佳木斯及北极5个极轨气象卫星数据接收站。这5个接收站每天将获取的大量数据通过地面网络实时传送到国家卫星气象中心。目前,该传输网络基于广域网链路构造,受广域网固有特性限制,传统方法传输数据带宽利用率不高,数据传输的时效性受影响。

FY-3气象卫星02批计划发射1颗降水测量试验星和6颗业务卫星,未来多颗极轨气象卫星将会同时在轨,海量观测数据的实时传输将给地面网络传输带来更大挑战。为了保证数据传输时效,突破传输性能瓶颈,充分利用目前传输网络的带宽,本文针对极轨气象卫星数据传输特点,分析各种广域网加速技术,提出了一种适用于极轨气象卫星数据的广域网传输架构。测试和运行结果表明:该架构提高了广域网数据传输效率,保证了数据传输时效。

1 广域网链路传输性能瓶颈分析

广域网传输广泛使用TCP/IP协议,TCP/IP协议最初是为局域网和带宽较小的广域网设计,它的很多机制并不适合在大带宽高延迟的广域网环境中应用,由此导致了广域网传输的性能瓶颈产生[3]

广域网的传输延迟是影响传输效率的一个重要因素。在TCP协议中,由于发送窗口大小的限制,收发双方能够通知对方的最大发送窗口为64 KB。无论带宽多大,每发送64 KB的数据之后,必须得到对方正确应答才能传送后续数据。设延迟时间为T,理想情况下,发送方每T时间内都可以发送64 KB数据并得到对方的正确应答,单一TCP连接所能使用的最大带宽为64 KB/T。在延迟很小的局域网链路上,这样的传输机制既不影响数据交互效率,同时又保证了数据的正确传输。然而在高延迟的广域网链路上,多次确认应答导致链路常常处于等待应答状态中,链路利用率因此下降。同理,如果应用层协议限制应用消息大小,并规定数据传送需要应答确认,该应用也会受链路延迟的影响,从而导致链路利用率下降。

除了高延迟之外,TCP协议的拥塞控制和慢启动机制也是导致广域网链路带宽利用率下降的重要原因之一。为了避免拥塞,它采用慢启动机制,使用基于滑动窗口和应答的机制进行流量控制,当丢包发生时,发送方会立即将窗口缩小一半同时速度减半,之后每正确接收到1个应答窗口加1,如此缓慢加速。

当前广域网链路的快速发展已经超出了TCP/IP协议设计之初的预期。较大的延迟和丢包率使得发送方无法全速发出数据,在通信双方等待应答的过程中,链路经常处于空闲状态,网络利用率无法提高。

风云一号极轨气象卫星数据传输系统[4]中使用10 Mbps的广域网链路,卫星资料基于TCP/IP协议直接传输,传输吞吐量大约为链路总带宽的60%~70%,网络带宽利用率不高。

2 广域网加速技术

广域网优化加速主要从减少数据传输量和协议优化两方面着手解决传输的瓶颈问题[5]。减少广域网数据传输量可以采用缓存、数据压缩[6]技术。协议优化包括传输协议优化和应用协议优化[7],RFC1323[8]给出了利用大窗口动态协商的方法来解决窗口大小对TCP传输的限制,RFC3742[9]和RFC3649[10]也分别给出了TCP改进慢启动和改进拥塞控制的方法。单一技术无法解决广域网传输的全部性能瓶颈,现行的广域网加速技术趋向于通过多种技术的组合来获得更高的广域网数据传输效果[11-14]

2.1 缓存和压缩技术

应用于广域网优化的缓存技术,将曾经被访问过或者预计将被访问的数据保存在距离请求端较近的位置来提高响应速度;同时,缓存代理通过终结用户应用的请求,尽可能以本地数据给出应答,从而避免大量重复数据在广域网上的传输,提高数据获取速度。

压缩减少了需要在广域网上传输的数据量,从而缩短传输时间。但是,压缩不是万能的解决方案,不同的压缩算法对各种类型数据有不同的压缩比;另外,压缩需要时间,对于带宽较大的广域网链路或实时应用,如果压缩算法不够高效或压缩设备资源配置不足,实时压缩的输出无法填满带宽,将因此造成链路闲置,反而降低数据传输效率。

2.2 传输协议优化/加速技术

针对广域网链路的特点,有多种技术可对TCP协议进行优化,从而充分发挥链路带宽效率。如采用IETF推荐的机制来优化TCP传输改进慢启动和拥塞控制机制;在广域网链路的传输中使用空间通信协议规范协议 (SCPS) 代替TCP协议等等。

2.3 应用协议优化/加速技术

应用协议优化/加速技术主要针对应用层特点进行优化,如流量预测和透明预传送技术[15]。针对网页浏览、邮件服务、文件共享服务等应用,当这些应用发起后,加速技术预测其后的协议行为,并提前完成其中的某些步骤以缩短应用的响应时间。

3 FY-3气象卫星数据传输架构 3.1 FY-3气象卫星数据传输需求

FY-3气象卫星国内站接收高分辨图像传输数据HRPT (High Resolution Picture Transmission)、中分辨图像传输数据MPT (Medium resolution spectral Picture Transmission) 和延时图像传输数据DPT (Delayed Picture Transmission)[16]。卫星下发HRPT数据、MPT数据和DPT数据的码速率分别为4.2 Mbps,18.7 Mbps和93 Mbps,单轨数据最大长度为14 min,最大数据量分别为440 MB,1.96 GB和9.76 GB。HRPT数据和MPT数据要求在接收结束后5 min内传到中心,DPT数据要求在接收结束后30 min内传到中心。卫星数据即来即发,应用对传输时效要求很高。

5 min内完成HRPT数据传输,链路吞吐量需要达到4.2 Mbps×14 min/5 min≈11.76 Mbps;5 min内完成MPT数据传输,链路吞吐量需要达到18.7 Mbps×14 min/5 min≈52.36 Mbps;30 min完成DPT数据传输,链路吞吐量需要达到93 Mbps×14 min/30 min≈43.4 Mbps。假设使用约8~10个逻辑链路同时进行数据传递能保证带宽使用率达到65%,5 min完成HRPT数据和MPT数据传输,带宽需求为 (11.76 Mbps+52.36 Mbps)/65%=98.65 Mbps,该带宽可以在后25 min内完成DPT数据传输。综上所述,如果不采用传输优化,满足传输时效要求最低带宽需求为98.65 Mbps。

3.2 气象卫星数据传输优化效果 3.2.1 缓存技术对气象卫星数据的优化效果

缓存技术对加速的效果依赖于缓存命中率。在气象卫星业务系统运行过程中,地面站将新接收的原始数据实时传送到中心。正常传输模式中,缓存命中率不高,缓存技术对数据传输的加速效果比较有限。但业务系统运行中有时会从地面站回放卫星数据进行卫星资料产品重处理,此时采用缓存技术能极大加快数据传输,提高资料重处理效率。

3.2.2 压缩技术对气象卫星数据的优化效果

气象卫星数据和产品格式多样,文件压缩比也有较大区别,其中以DAT格式、HDF格式、PDS格式、RAW格式为典型,这几种格式的卫星数据文件有不同的压缩比[17-18]。DAT格式的数据文件未经压缩,压缩比较高;HDF格式文件中多处包含辅助自解析的固定字段,压缩比高于DAT格式;PDS格式和RAW格式比较接近,是精炼的、已经压缩的文件格式,所以压缩比较为有限。

针对不同压缩比的文件格式,压缩技术的优化效果也不同,文件传输速度可以按压缩倍率得到相应提高。

3.2.3 传输协议优化对气象卫星数据的优化效果

传输协议优化技术是在TCP层进行优化,适应性广泛,对各种数据格式和传输方式,都有明显的加速效果。使用了滑动窗口,虚拟TCP窗口扩展等优化后,随着链路带宽增加,TCP/IP协议加速后,单个TCP链路的吞吐量也将同步增加。该方式对卫星数据传输优化有明显效果。

3.3 气象卫星传输广域网加速架构

针对气象卫星数据特点,提出了卫星数据广域网传输加速架构体系 (如图 1所示)。该架构主要依赖于压缩、缓存和协议优化技术,数据段索引模块实现压缩、缓存功能,TCP代理模块和HS-TCP[16]传输模块实现协议优化功能。TCP代理模块负责提供TCP代理;数据段索引模块对数据进行分段索引实现数据压缩和缓存;HS-TCP传输模块使用改进的TCP协议在广域网上高速传递数据。

图 1. 气象卫星传输广域网加速架构 Fig 1. The WAN acceleration architecture of meteorological satellite data transmission

TCP代理模块采用虚拟TCP窗口扩展技术,为应用提供TCP代理,终结数据传输的TCP会话,分别给会话双方快速应答,接收会话双方数据,提交给数据段索引模块处理数据。

数据段索引模块将TCP代理模块提交的数据拆分成数据段后进行分析辨识 (图 2),使用MD5算法对分段数据进行索引处理,采用数据压缩和缓存算法压缩新数据段,实现数据的压缩和缓存,算法输入为将要通过网络发送的数据段;算法输出为通过网络发送的实际数据及索引库同步信息。

图 2. 数据段索引模块 Fig 2. Segment index module

算法过程包括:① 使用MD5算法计算将要发送的数据段D的索引值ID;② 在本地索引库中检索ID,如果索引库中存在ID,转到③;如果索引库中不存在ID,转到④;③ 索引库存在ID说明数据段D已发送过并在对端存有缓存,发送ID给对方,接收方收到ID后通过索引在本地获取相应的数据;④ 索引库不存在ID,说明数据段D在对端没有缓存,此时发送方判断本地索引库剩余空间情况,如果索引库中剩余空间无法存放数据段D和索引值ID则转到⑤,如果剩余空间还可以存放数据段D和索引值ID则转到⑥;⑤ 删除最长时间未被使用的索引和相应的数据段释放空间后,转到⑥;⑥ 将数据段D使用LZ77算法[19]压缩后发送给对方,接收方收到数据段后解压数据,使用MD5算法求算该数据段D的索引值ID,将数据段D和索引值ID后加入本地索引库中。

发送端的HS-TCP传输模块使用RFC3649建议的HS-TCP传输协议将数据传送到对端。接收端的HS-TCP模块将载荷中的有效数据传递给数据段索引模块进行数据解压。HS-TCP提出了新的窗口控制方法,通过分阶段,不同的网络环境下使用不同的TCP窗口增长和降低参数,改进了标准TCP的拥塞控制方法,在网络存在丢包情况下可实现单连接的高吞吐;改变TCP的慢启动算法,在启动的时候就达到高吞吐;在发生丢包拥塞后能够快速恢复再次达到高吞吐。

为配合HS-TCP协议对窗口大小的控制,广域网传输缓冲区按链路容量的2倍配置,链路容量采用带宽时延乘积 (BDP,bandwidth-delay product) 衡量,计算链路带宽和链路延迟时间的乘积即可得到BDP值;局域网传输缓冲区配置不小于广域网的缓冲区大小。

该广域网加速体系架构通过以上3个模块共同工作,减少广域网数据流量,提高链路吞吐量,实现对应用透明的数据传输加速。

4 测试与业务运行结果 4.1 测试方案设计及结果 4.1.1 测试方案设计

为验证该广域网加速架构的有效性,模拟卫星数据传送,进行了数据传输测试。观察3类卫星数据文件在压缩缓存方式和协议优化方式以及综合两种加速方法下的数据传输表现,了解不同加速方式的具体效果以及不同类型卫星数据文件的加速效果。另外,观察加速架构在不同带宽条件下的效果,了解随着带宽变化该加速架构的效果变化,从而为设计极轨气象卫星数据传输系统提供数据参考。

测试链路带宽分别为10 Mbps,14 Mbps和20 Mbps,延迟时间为53 ms;卫星数据传输端和接收端分别使用1台IBM P570主机和1台IBM P595主机;测试文件从极轨气象卫星数据实时接收系统获取,连续15 d每天随机获取各1 GB的DAT文件、HDF文件和PDS文件;数据传输使用ftp方式模拟。

4.1.2 测试结果

采用气象卫星传输广域网加速架构对DAT格式,HDF格式,PDS格式文件的传输加速测试结果如图 3所示。广域网加速技术大幅提高了卫星数据的传输速率,相同链路状态下,受不同类型文件的压缩率影响,HDF格式文件加速传输效果最好,DAT格式文件次之,PDS格式文件加速传输效果相对最差。另外,由于每天随机获取的测试文件存在差异,文件压缩率也不同,在相同链路状态下加速传输效果也有相应差别。

图 3. 不同带宽和数据类型传输加速效果 Fig 3. Comparison of three categories of data transmission acceleration effects under different bandwidths

压缩和协议优化对链路带宽利用率起到了不同幅度的提升作用。压缩技术减少数据量,从而直接提高数据传送速度。经测试,10 Mbps链路环境下,压缩模块输出填满带宽的DAT格式,HDF格式和PDS格式数据分别需要约0.26 s,0.35 s和0.23 s,解压满带宽数据分别需要约0.24 s,0.33 s和0.21 s,压缩和解压共需要0.44~0.68 s左右的时间。在10 Mbps链路环境下,单次传输数据量达到2 MB,因传输数据量减少获得的时间收益可以抵消由压缩、解压产生的时间消耗,随着传输数据量的增长,该消耗可以被忽略。在14 Mbps和20 Mbps链路环境中,压缩有效性也得到测试数据的支持。协议优化技术提高链路吞吐量,在测试环境中,数据传输时,从监控链路结果可见单一的ftp连接就能将链路充满。图 4说明了使用协议优化、压缩缓存以及综合使用前两种加速方式对文件传输效果的影响。

图 4. 各优化方式数据传输速率 Fig 4. Comparison of the data transfer rate through each optimization method

链路带宽扩展对数据综合加速优化传输速率的影响如图 5所示。当链路带宽大幅扩展时,单个ftp连接吞吐量提升并不明显。而经过广域网传输加速,采用数据压缩、缓存以及TCP/IP协议优化后,DAT格式文件、HDF格式文件和PDS格式文件的传输速率提升幅度近似链路带宽扩展幅度。此数据和前文的分析结果相吻合,在延迟一定的情况下,受到TCP/IP协议限制,随着广域网带宽的增大,单一的TCP连接吞吐量很快达到极限,链路利用率反而会降低。通过综合加速技术,可以突破性能瓶颈,提高数据传送速度。对于带宽大、延迟大的网络 (LFN,long fat network) 而言,广域网加速技术效果更为显著。

图 5. 带宽扩展对数据传输速率的影响 Fig 5. The influences of bandwidth expansion on data transfer rate

4.2 实际业务系统运行结果

参照卫星数据广域网加速传输测试结果,按数据传输能力最少提高60%计算,65 Mbps左右带宽链路经加速后即可满足传输时效要求,3个逻辑链路并行传输就可确保链路充满数据流量。据此设计了图 6所示的国内三站一中心的极轨气象卫星数据广域网传输系统,其中广域网链路带宽为65 Mbps,延迟时间为40 ms。

图 6. FY-3气象卫星数据传输系统 Fig 6. The data transmission system of FY-3

图 7~图 8是卫星资料传输时链路实时监控效果图 (图中时间均为北京时)。经过传输加速后,广域网链路吞吐量达到满负荷状态,局域网接口监测到的数据吞吐量峰值达到112.5 Mbps,平均吞吐量达到72 Mbps。目前在业务实际运行中,经过广域网加速优化,HRPT资料接收后1 min内可以传送到中心;MPT资料接收后4 min内可以传送到中心;DPT资料接收后20 min内可以传送到中心。传输效率满足极轨气象卫星地面应用系统的要求。

图 7. 卫星数据实时传输广域网接口吞吐量 Fig 7. Optimized WAN throughput

图 8. 卫星数据实时传输局域网接口吞吐量 Fig 8. Optimized LAN throughput

表 1是满足数据传输时效前提下两种传输方式的各项需求与性能比较。采用广域网加速技术链路带宽成本可节约33.67%,应用复杂度被降低同时提高了数据传输时效,其中实时性要求最高的HRPT数据传输时间减少4倍耗时,有力地保障了地面应用系统业务运行。

表 1 直接传输和加速传输需求和性能对比 Table 1 Comparisons of requirements and performance between direct transmission and optimized transmission

5 小结

本文分析了FY-3卫星数据传输的需求,并针对FY-3卫星海量数据高时效、广域网传输的特点,提出了一种广域网传输加速架构。该架构通过同时采用压缩、缓存、TCP协议优化等技术来减少广域网数据流量,提高链路吞吐量,实现对应用透明的数据传输加速。实际业务运行结果表明,该架构充分利用了传输带宽,使FY-3气象卫星数据广域网传输速率提高了50%~243%,保证了广域网数据传输时效。

参考文献
[1] 杨军, 董超华, 卢乃锰, 等. 中国新一代极轨气象卫星——风云三号. 气象学报, 2009, 67, (4): 501–509. DOI:10.11676/qxxb2009.050
[2] 谷松岩, 王振占, 李靖, 等. 风云三号A星微波湿度计主探测通道辐射特效. 应用气象学报, 2010, 21, (3): 335–342. DOI:10.11898/1001-7313.20100309
[3] 丁伟. 广域网成为"云计算"发展的瓶颈所在. 通讯世界, 2009, (8): 32–33.
[4] 赵立成, 关彤. 网络编程实现气象卫星资料的传输. 应用气象学报, 2003, 14, (4): 395–401.
[5] 王建新, 彭娜. 广域网加速技术研究综述. 电信快报, 2009, (5): 11–14.
[6] 黄晨晖. 面向应用加速的两阶段数据压缩流程. 电脑开发与应用, 2010, (9): 15–17.
[7] Wirbel L. WAN optimizer also does app acceleration. Electronic Engineering Times, 2005, (1381): 32–36.
[8] [2010-8-6]. Jacobson V. RFC 1323, TCP Extensions for High Performance. http://datatracker.ietf.org/doc/rfc1323/.
[9] [2010-8-6]. Floyd S. RFC 3742, Limited Slow-Start for TCP with Large Congestion Windows. http://datatracker.ietf.org/doc/rfc3742/.
[10] [2010-8-6].Floyd S. RFC 3649, High Speed TCP for Large Congestion Windows. http://datatracker.ietf.org/doc/rfc3649/.
[11] 梅松. 一种新的采用TCP封装的IPSec广域网加速通信研究. 计算机工程与科学, 2010, (7): 4–7.
[12] Fowler D G. Application of Acceleration Technology to Military Sealift Command Afloat WAN Infrastructure//MILCOM 2006. Washington D C, United States, 2007: 1-7.
[13] 彭伟文, 王建新, 彭娜. 广域网中RPC应用加速网关的研究与实现. 计算技术与自动化, 2009, (4): 107–111.
[14] Wirbel L. New wrinkle rolls in WAN acceleration. Electronic Engineering Times, 2005, (1389): 36–42.
[15] 董燕, 孙恩昌, 孙艳华, 等. 基于傅里叶模型的最佳网络流量预测. 计算机应用研究, 2010, (4): 1419–1421.
[16] 朱爱军. 风云三号气象卫星数据传输体制分析. 应用气象学报, 2006, 17, (4): 494–501. DOI:10.11898/1001-7313.20060417
[17] 方翔, 王新. 小波变换在气象卫星云图压缩中的应用. 应用气象学报, 2010, 21, (4): 424–432.
[18] 吴乐南, 范天锡, 王大昌, 等. 气象卫星云图数据的高效无失真压缩. 应用气象学报, 1996, 7, (1): 103–107.
[19] 李煜晖, 朱山风, 段上为, 译. 多媒体数字压缩原理与标准. 北京: 电子工业出版社, 2000.