新疆天文台NSRT观测数据存储系统
张海龙1,2, 朱艳1,3, 聂俊1,2, 袁建平1, 吴刚1, 刘俊1, 王杰1, 王万琼1, 冶鑫晨1, 托乎提努尔1, 张萌1,3     
1. 中国科学院新疆天文台, 新疆 乌鲁木齐 830011;
2. 中国科学院射电天文重点实验室, 江苏 南京 210008;
3. 中国科学院大学, 北京 100049
摘要: 新疆天文台南山26 m射电望远镜经过多年观测积累了大量的科学数据。针对26 m射电望远镜天文观测数据的在线存储与备份问题,建设了远程、异地、容灾备份系统,在新疆天文台本部及南山观测站分别建设了可独立运行的存储系统,实现了两套存储系统间的远程、异地数据实时容灾备份。以基于对象的存储技术Lustre为基础实现了存储系统,并对存储的读写性能进行了详细测试。建设的容灾备份系统有效解决了新疆天文台观测数据及次生数据的在线存储与数据安全问题。
关键词: 观测数据     存储     备份     虚拟天文台     数据安全    
Xinjiang Astronomical Observatory NSRT Data Storage System
Zhang Hailong1,2, Zhu Yan1,3, Nie Jun1,2, Yuan Jianping1, Wu Gang1, Liu Jun1, Wang Jie1, Wang Wanqiong1, Ye Xinchen1, Tohtonur1, Zhang Meng1,3     
1. Xinjiang Astronomical Observatory, Chinese Academy of Sciences, Urumqi 830011, China;
2. Key Laboratory of Radio Astronomy, Chinese Academy of Sciences, Nanjing 210008, China;
3. University of Chinese Academy of Sciences, Beijing 100049, China
Abstract: After years of observation, Xinjiang Astronomical Observatory(XAO) Nanshan 26 meters radio telescope (NSRT) had accumulated massive scientific data. A remote backup system was established for the online data storage of NSRT, this redundant storage system contained two storage clusters, one cluster was in XAO headquarters and the other located in Nanshan station, the real-time synchronization of NSRT data could be realized between two storage clusters. Based on the object storage technology, centralized cluster storage system was created for storage clusters, and the I/O performance test of luster systems was finished. Redundant storage system solved the online archive and data safety issue for NSRT data.
Key words: Observational data     Storage     Backup     VO     Data safety    

SKA的先驱阵列望远镜MWA[1],由2048面低频阵列望远镜组成,相关后每秒归档数据在400MB左右,数据首先在线归档在MRO的数据存储中,然后通过10Gpbs专线将数据实时传输备份到位于MRO 700km以外的Pawsey数据中心,同时Pawsey数据中心数据按需求再通过1Gpbs线路备份到MIT,USA、VUW,New Zealand、RRI,India

http://www.mwatelescope.org/telescope/data-archive

中国科学院国家天文台数据中心是中国目前最大的天文数据库,包括国家天文台下属的各天文观测设备产生的数据,还有部分其它天文台站的观测数据,目前数据中心部分数据备份在中国科学院网络中心,部分数据备份在阿里云平台。

http://www.china-vo.org/

中国科学院紫金山天文台对外开放的数据库包括毫米波射电天文数据库、太阳射电频谱观测数据库、近地天体望远镜数据库、太阳光谱数据库等,各数据库已实现在线访问,并建立了相应的数据备份系统。

http://www.pmo.ac.cn/qt/twsjk/

斯特拉斯堡天文数据中心、欧洲南方天文台科学数据中心、CSIRO ATNF数据归档中心、中国科学院上海天文台、中国科学院云南天文台等天文研究机构都分别建设了数据管理系统。

http://cdsweb.u-strasbg.fr/

http://archive.eso.org/cms.html

http://www.atnf.csiro.au/observers/data/index.html

http://119.78.226.68/

http://fso.ynao.ac.cn/dataarchive_ql.aspx

1 26m射电望远镜数据情况

新疆25m射电望远镜建成于1993年12月并投入使用,经过升级改造后口径扩大到26m,新的26m南山射电望远镜(NanShan Radio Telescope, NSRT)承担着重要的国际合作及国内重大课题的天文观测任务,目前是欧洲甚长基线干涉网、国际动力测地网、俄罗斯低频VLBI网、东亚VLBI网4个国际合作组织的正式成员。NSRT参加了11项国际合作计划,承担着国家攀登计划、大科学工程、绕月工程、火星探测、国家自然科学基金课题、中国科学院基础研究重点项目以及多项单天线国际合作天文观测研究任务和项目。

http://www.xao.ac.cn/jgsz/ywtz/nsjd/25msd/

https://en.wikipedia.org/wiki/Very-long-baseline_interferometry

26m射电望远镜开展了脉冲星、分子谱线、IDV巡天和监测等多项课题,支持银道面磁场巡天、木星研究等观测。其设备运行有效观测时间连创国内同类射电望远镜新高,在国内外天文观测研究中发挥了积极的作用。随着观测数据的猛烈增长,如何永久保存这些珍贵的天文观测数据,如何合理有效地解决数据的在线存储管理问题,如何高效地实现远程、异地容灾备份是新疆天文台26m射电望远镜运行中面临的一个重要课题[2]

2000年1月至2002年6月,26m射电望远镜脉冲星观测系统由一个双通道室温接收机(带宽320MHz,中心频率1540MHz)组成,其消色散系统采用2×128×2.5MHz模拟滤波器组实现,得到的脉冲星数据格式为Timer[3]。2002年下半年低温接收机系统投入使用,制冷后的接收系统使天线灵敏度达到了0.5mJy[4]。2010年1月,数字滤波器系统投入使用,数字滤波器系统具有更高的时间分辨率,使得26m射电望远镜可以常规观测到大约280颗脉冲星,其中包括10颗毫秒脉冲星。数字滤波器系统的数据记录格式为Psrfit,psrchive程序可以读取和分析数据。通过十多年的观测,脉冲星相关观测积累了大量数据,目前已发布56000多条有效原始数据记录, 原始数据及处理后数据总量近20TB[5]

26m射电望远镜可开展分子谱线OH, H2CO, NH3, H2O等观测,自2010年,数字消色散系统应用后,产生的原始数据格式为RPFits,获得的分子谱线原始数据经过校准之后,可用来估算星际介质、分子云的物理化学性质[6],目前分子谱线相关已归档数据量在5TB左右。

自2004年起,利用26m射电望远镜的6cm连续谱观测系统开展了河外射电源的流量监测,包括北天Blazar天体的大样本快速光变巡天,以及Fermi AGN的长期射电流量监测等观测[7]。连续谱观测系统终端由马普射电所研发的便携式终端实现,工作的中心频率为4800MHz,带宽为600MHz。原始数据为FITS格式,观测数据需要进行指向、大气不透明度、增益以及时间依赖等校准,最终转换成射电源绝对流量后可应用于科学研究[8]。经过多年的观测和积累,连续谱观测获取了约800个射电源共计约250000条有效原始数据记录,数据量约10TB。

2 数据存储与备份系统设计

26m射电望远镜数据存储备份系统设计如图 1,共包含3部分,第1部分(Tier 0)实现观测数据获取与在线归档,第2部分(Tier 1)完成原始观测数据的异地备份,第3部分(Tier 2)负责数据发布共享。

图 1 新疆天文台26m射电望远镜数据存储备份系统设计 Figure 1 Data storage backup system design of NSRT, XAO

第1部分:数据获取与在线归档部分在南山观测基地完成,由26m望远镜、接收机系统、数字滤波器系统、数据暂存系统及归档系统组成。数据获取以脉冲星观测为例,脉冲星的数据采集和处理以及数据记录由望远镜接收系统完成,数据采集程序实时完成数据采集、数据预处理、脉冲星周期计算和周期叠加、数据存盘、消色散数据显示、观测纲要查询、图形输出、天线姿态控制等多个任务。观测中典型的采样速率为1ms,每次观测时间由脉冲星在该观测频段的流量强度决定,一般为2~16min。数据经过预处理后写入暂存服务器,经过科学家确认有效后数据将实现永久归档。

第2部分:原始观测数据的异地备份(新疆天文台本部位于南山观测基地以北约100km)通过南山观测基地到新疆天文台本部间的专线实现,专线速度300Mbps,数据由南山的归档系统同步到新疆天文台本部长期存储,同步起始时间每天零点开始,目前采用NGAS传输原始观测数据。用户可以登陆新疆台Taurus高性能计算系统,下载并处理数据,Taurus与长期存储间采用56Gbps交换设备互连,用户处理后数据可根据需要进行归档、发布。GAVO主要用于数据发布及处理后数据存储,原始观测数据元数据信息提取后,被导入相应的数据库,为数据发布做准备。数据存储、Taurus与GAVO服务器间采用NFS方式实现数据互操作。针对数据库数据,在新疆天文台本部及南山观测基地均有备份。目前新疆天文台奇台观测基地与台本部间已经建成100Mbps多业务传输专线,为满足奇台前期建设及多种设备数据采集需要,已在奇台基地部署了一套20TB存储,这套存储同时也可以满足数据库备份的需要。

https://www.eso.org/sci/publications/messenger/archive/no.106-dec01/messenger-no106-11-13.pdf

http://taurus.xao.ac.cn/

http://www.g-vo.org/

第3部分:数据发布共享由分别位于南山及奇台观测站的数据备份系统及数据发布平台组成。两套数据备份系统利用专线网络分别实现本部重要数据的远程、异地容灾,数据发布系统以新疆天文台数据中心为基础实现观测数据基于虚拟天文台标准的发布、高效数据检索与数据获取[9]

3 存储系统实现 3.1 存储技术介绍

存储系统根据服务器类型可分为封闭系统存储和开放系统存储,封闭系统主要应用于大型机,开放系统指应用于Windows 、UNIX 、Linux 等操作系统的服务器。开放系统存储又分为内置存储和外挂存储;外挂存储根据连接的方式分为直连式存储(Direct-Attached Storage,DAS )和网络存储(Fabric-Attached Storage,FAS );网络化存储根据传输协议又分为网络接入存储(Network-Attached Storage,NAS )和存储区域网络(Storage Area Network,SAN ),具体如图 2

https://www.microsoft.com/zh-cn/

http://www.unix.org/

https://www.linux.org/

https://en.wikipedia.org/wiki/Direct-attached_storage

https://en.wikipedia.org/wiki/NetApp_filer

https://en.wikipedia.org/wiki/Network-attached_storage

https://en.wikipedia.org/wiki/Storage_area_network

图 2 存储系统分类 Figure 2 Classification of storage system

直连式存储为当前最主要的应用模式,存储系统被直连到服务器,依赖服务器主机操作系统进行数据的输入输出和存储维护管理,数据备份和恢复占用服务器主机中央处理器、系统IO 等资源,数据流需要回流主机再到服务器存储,数据备份等操作约占用服务器主机资源的20%~30%,直连式存储性能依赖于所接入的服务器设备。

https://en.wikipedia.org/wiki/Central_processing_unit

https://en.wikipedia.org/wiki/Input/output

网络接入存储也称网络附加存储,存储设备通过标准的网络拓扑结构添加到单台计算机或高性能计算系统。网络接入存储是文件级的存储方案,可以满足迅速增加存储容量的需求。支持即插即用、支持多计算平台,适用于Unix/Windows局域网,同时部署应用非常灵活,但在备份过程中的带宽消耗较大。网络接入存储使用网络带宽进行备份和恢复,网络除了必须处理正常的最终用户数据传输外,还必须处理包括备份操作的存储磁盘输入输出请求。

存储区域网络通过光纤通道交换设备连接存储阵列和服务器主机,构建专用的存储网络,通过同一物理通道支持SCSI 和IP 协议,允许任何服务器连接到任何存储阵列,FCSAN 采用光纤接口具有更高的带宽,光纤接口支持超过10km线路长度,使得物理上分离的、不在同一机房的备份存储变得容易实现。

https://en.wikipedia.org/wiki/SCSI

https://en.wikipedia.org/wiki/IP_address

https://en.wikipedia.org/wiki/Fibre_Channel

基于对象的存储(Object-Based Storage,OBS ),其核心是将数据通路(数据读、写)和控制通路(元数据)分离。基于目标对象的存储(Object-based Storage Target, OST)构建系统,每个对象存储设备能够自动管理自身存储的数据分布,且具备一定智能。对象存储结构由对象、对象存储设备、元数据服务器、对象存储系统的客户端4部分组成。基于对象存储的网络带宽、IO吞吐量、文件系统容量以及处理能力随着存储节点的增加而同步线性增长,因而具有很好的性能和扩展性,存储节点可扩展,存储对象数可扩展,存储对象空间也具有可扩展性。可以实现大规模的海量数据访问的高度并行,采用文件数据与元数据分离存储的机制,通过条带化技术将传统文件的数据分解存储到存储对象中;文件元数据则保存在元数据对象中,并具有一个全局唯一的对象标识以及一些文件属性信息。

https://en.wikipedia.org/wiki/Object_storage

存储局域网和网络附加存储是目前两种主流网络存储架构,而对象存储是一种新的网络存储架构,它综合了网络附加存储和存储局域网的优点,同时具有存储局域网的高速直接访问和网络附加存储的分布式数据共享等优势,提供了具有高性能、高可靠性、跨平台以及安全的数据共享存储体系结构。

3.2 存储系统实现

综合考虑直连式存储、网络附加存储、存储局域网、基于对象存储技术的优缺点及目前新疆天文台观测数据的存储需要,最终采用基于对象的存储技术实现存储系统。系统以Linux下的Lustre 为基础,Lustre是基于对象存储的高性能分布式文件系统,源代码开放,使用基于对象的磁盘存储数据,元数据服务器为整个文件系统提供元数据服务。系统结构如图 3,系统采用两套网络系统互连,56Gb Infiniband 交换主要负责存储系统各服务器间链路,提供高速数据交换能力,千兆以太网实现管理。整个系统由两个元数据服务器(MDS)组成,两个元数据服务器采用主备模式,数据实时同步,当主服务器故障时,备用服务器将接替工作,主备模式降低了系统故障率,保障了元数据信息正常访问。采用3台基于对象的存储设备作为目标存储节点,实现了100TB的可用存储空间。

图 3 存储系统原理图 Figure 3 Principle of storage system

http://www.lustre.org/

https://en.wikipedia.org/wiki/InfiniBand

所建设的集中式Lustre存储系统最终被连接到两台I/O服务器,I/O服务器也采用主备模式,一台在线为客户提供服务,一台备份。对于Linux用户,需要安装相应的Lustre客户端软件,完成挂载后可以看到100TB存储空间。数据访问示意如图 4,Linux虚拟文件系统通过同一套文件I/O系统实现Linux中的任意文件操作,无需考虑其所在的具体文件系统格式,为能够支持各种实际文件系统,虚拟文件系统定义了所有文件系统均支持的基本的、概念上的接口和数据结构,Lustre FS(文件系统)提供虚拟文件系统所期望的抽象接口和数据结构,将自身的文件、目录等概念在形式上与虚拟文件系统的定义保持一致,实现两套系统间数据传递。逻辑存储卷(Logical Object Volume, LOV)负责收集OST设备信息到单一卷中,用户的读写通过对象存储客户端(OSC)实现,对OSC得到用户的读写请求后,经过元数据客户端(MDC)查找元数据服务器中对应的数据所在OST中位置并返回地址信息,OSC得到OST的具体信息后实现并行数据读写。

图 4 Linux客户端并行读写示意图 Figure 4 arallel Read/Write on Linux terminal

https://en.wikipedia.org/wiki/Virtual_file_system

3.3 存储性能测试

利用专业的存储性能测试工具IOZONE对所建设的系统读、写性能分别以单节点、多节点测试得到了相应结果。

https://en.wikipedia.org/wiki/IOzone

(1) 单节点性能

测试命令:./iozone -a -g 64G -i 0 -i 1 -i 2 -f /home/iozone -Rb single.xls

参数说明:使用全自动模式,生成包括所有测试报告,使用的块大小从4KB到16MB,最大测试文件64GB,测试节点来自文件/home/iozone,结果输出到文件single.xls。

最终测试结果,分块大小为8MB、文件大小为8G,16G左右取得最好的性能,单点写入420MB/S,单点读取2.2GB/S。

(2) 多节点性能

测试命令:./iozone -a -g 64G -i 0 -i 1 -i 2 -f/home/nodes -Rb multi.xls

参数说明:使用全自动模式,生成所有测试报告,使用的块大小从4KB到16MB,最大测试文件64GB,测试节点来自文件/home/nodes,nodes文件中含有8个节点,结果输出到文件multi.xls。

最终测试结果显示,当分块大小为8192KB、文件大小为65MB左右取得最好的性能,多节点写入960MB/S左右, 多节点读5.1GB/S左右,具体见图 5图 6

图 5 存储系统写速度(单位KB) Figure 5 Write speed of storage system (in KB)
图 6 存储系统读速度(单位KB) Figure 6 Read speed of storage system (in KB)
4 结论

以新疆天文台的实际需求为基础设计并实现了26m射电望远镜观测数据的在线存储与备份系统,两套存储系统分别建设于新疆天文台本部与南山观测站,实现了远程、异地、容灾备份。对存储系统进行了读写性能测试,单节点、多节点读写速度目前可以满足26m射电望远镜数据管理的需要。采用了基于对象的存储技术,所建设的存储系统具有良好的性能和可扩展性。

致谢:

26m射电望远镜存储系统建设过程中的测试部分在新疆天文台数据中心及Taurus高性能计算系统上完成。

参考文献
[1] Tingay S J, Goeke R, Bowman J D, et al. The murchison widefield array:the square kilometre array precursor at low radio frequencies[J]. Publications of the Astronomical Society of Australia, 2013, 30(30): 109–121.
[2] 张海龙, 王杰, 王万琼, 等. 新疆天文台数据中心建设与应用[J]. 天文研究与技术, 2017, 14(1): 94–102
Zhang Hailong, Wang Jie, Wang Wanqiong, et al. Construction and application of the data center in Xinjiang Astronomical Observatory[J]. Astronomy Research & Technology, 2017, 14(1): 94–102.
[3] Wang N, Manchester R N, Zhang J, et al. Pulsar timing at urumqi astronomical observatory:observing system and results[J]. Monthly Notices of the Royal Astronomical Society, 2001, 328(3): 855–866. DOI: 10.1046/j.1365-8711.2001.04926.x
[4] Yuan J P, Manchester R N, Wang N, et al. Pulse profiles and timing of PSR J1757-2421[J]. Monthly Notices of the Royal Astronomical Society, 2017, 466(1): 1234–1241. DOI: 10.1093/mnras/stw3203
[5] Zhang H L, Demleitner M, Wang N, et al. Data retrieval from Xinjiang Astronomical Observatory's pulsar data archive[J]. Astronomy Research & Technology, 2016, 13(4): 473–480.
[6] Shirley Y L. The critical density and the effective excitation density of commonly observed molecular dense gas tracers[J]. Publications of the Astronomical Society of the Pacific, 2015, 127(949): 299–310. DOI: 10.1086/680342
[7] Liu B R, Liu X, Marchili N, et al. Two-year monitoring of intra-day variability of quasar 1156+295 at.8GHz[J]. Astronomy & Astrophysics, 2013, 555(4): 334–345.
[8] Liu X, Mi L G, Liu J, et al. Intra-day variability observations and the VLBI structure analysis of quasar S40917+624[J]. Astronomy & Astrophysics, 2015, 578: A34–A42.
[9] 张海龙, 冶鑫晨, 李慧娟, 等. 天文数据检索与发布综述[J]. 天文研究与技术, 2017, 14(2): 212–228
Zhang Hailong, Ye Xincheng, Li Huijuan, et al. Astronomical data query and release review[J]. Astronomy Research & Technology, 2017, 14(2): 212–228.
由中国科学院国家天文台主办。
0

文章信息

张海龙, 朱艳, 聂俊, 袁建平, 吴刚, 刘俊, 王杰, 王万琼, 冶鑫晨, 托乎提努尔, 张萌
Zhang Hailong, Zhu Yan, Nie Jun, Yuan Jianping, Wu Gang, Liu Jun, Wang Jie, Wang Wanqiong, Ye Xinchen, Tohtonur, Zhang Meng
新疆天文台NSRT观测数据存储系统
Xinjiang Astronomical Observatory NSRT Data Storage System
天文研究与技术, 2018, 15(2): 181-187.
Astronomical Research and Technology, 2018, 15(2): 181-187.
收稿日期: 2017-09-06
修订日期: 2017-09-28

工作空间