由于历史天文观测技术的限制,观测资料记录在胶片、照相干板、纸质等易损介质上,随着时间的推移,这些存储介质本身发生变化,如胶片上溴化银脱落,致使图像失去原有的完整内容,无法使用;纸质介质则会变黄发霉,使图像无法分辨,致使资料无法使用。我国太阳物理观测最早起源于山东青岛观测站,进行太阳黑子观测并手描记录太阳黑子参数,此项观测至今已有90年的历史,达7个太阳活动周。国内开展联合黑子观测的还有紫金山天文台的紫金山观测站、云南天文台的凤凰山观测站。我国历史太阳观测资料还有太阳横向磁场、纵向磁场、Halpha、光谱、射电、日食等,种类达30种之多。历史观测资料的提供部门还包括位于北京国家天文台的怀柔太阳观测基地、天文台总部的太阳活动预报部门及南京大学空间科学院。目前资料前期处理工作共在7个部门、分布在5个地理位置开展。存储量从几TB至几十TB不等,呈现出资料分散、品种多的特点。
上述这些部门是我国太阳活动监测与预报的主要部门。我国太阳物理观测资料具有地域优势,不仅具有国际先进水平的观测设备产出了一流的资料,而且这些资料在国际上具有稀缺性、唯一性、互补性,是不可再生的珍贵资源,可为科学研究提供系统或个案资料,包括弥补资料的欠缺,研究案例的证认,并可服务于太阳活动预报研究。因此我国太阳物理观测资料数字化、标准化工作得到科技部基础性工作专项资助,从而使这些珍贵资料得到保留,并最终为中国及世界太阳物理研究、太阳活动预报服务。
在资料完成数字化、规范化、标准化等处理后,系统最终要在中国太阳物理门户网站按照一定规则形成可供用户查询的资料,且有相应的处理软件可供使用。按计划前期各类资料经过处理后要逐渐上传至门户网站的服务器,后续,在存储系统完成后,各部门可直接在这个系统中处理各自的资料,资料处理完成后,由系统自动将其继续上传到门户网站的服务器。这些历史资料可与当前其它每日观测资料融合在一起,形成太阳活动周期上更完整的我国太阳物理观测资料,供用户查询使用。由于资料珍贵,需要考虑资料的备份及灾备,在系统设计中体现了数据备份与灾备方案。
数据提供方专长自方数据处理,简单数据存盘性质的保存也容易做到,但一方面对于大多数数据提供部门做好大数据量的存储、维护及数据服务,在技术力量、时间上成本较高,另一方面,数据使用上需形成多波段、多种类数据的门户网站,对于查询分析更有价值,对于用户查找资料更便利。
2 存储方法与规范 2.1 云存储简介云存储[1-2]是以数据存储和数据管理为核心的云计算系统,云存储是在云计算概念基础上延展而出的新概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中多种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的系统。它避免了传统存储技术需要知道存储设备具体型号、接口和传输协议等具体存储信息才能实现存储的繁琐问题。存储架构由存储层、基础管理层、应用接口层和访问层组成。存储层是云存储系统中最基础也是最重要的部分。存储设备可以是光纤通道,也可以是其它硬件。在本系统中为多个存储阵列的组合。一套存储设备管理系统对这些存储设备进行存储集中管理,即逻辑虚拟化管理、存储状态监控及存储维护升级等的管理服务。基础管理层是云存储实现最困难的部分,也是云存储最核心的部分。基础管理层具有分布式文件系统、网络计算以及集群等技术,完全能够实现异构存储设备间的协同工作,使得整个云存储系统能够协调工作,为用户提供优质、统一的服务。基础管理层还具备数据内容的分发、数据的压缩、数据备份等其他服务。由于这些服务是用户直接感受到的,所以基础管理层的成功决定着云存储系统能否成功地服务于用户。应用接口层作为云存储和应用交流的部分,是最灵活的部分。开发人员可以根据不同的用户需求开发不同的程序接口,这一层的灵活性完全体现在开发不同的程序接口是由用户决定的;同时,该层负责网络接入、用户认证、权限管理等功能。访问层直接面向用户服务,用户根据不同的需求,可以访问云存储系统,获得不同的服务,提供多种服务类型和访问形式服务于多种用户的需求。
2.2 采用云存储的考虑因素比较之前的存储,更看重云存储具有的如下特点:(1)使用的便利性。使用同一套存储系统为包括服务器与个人计算机在内的各种终端提供存储服务。具体而言,存储系统采用挂载方式,在挂载之后,各个数据提供方的服务器或PC将像使用本地存储那样使用云存储系统的空间;(2)减少数据提供方的开发与维护成本。各个数据提供方不必考虑更多自身存储方面的构建设计,数据提供方将更多精力放在善长的数据处理上;(3)维护的便利性。集中管理(自动收集相关内容、统一内容结构、相关范围内文件搜索、快速发现知识);对于数据提供方提供存储与计算资源使用、调配、自动计算资源,这种服务在安全控制方式下进行(如VLAN、防火墙规则、负载均衡等);协同工作(自动同步共享文件、网盘文件分享、快速发布给客户、严格完善的权限控制、便捷安全);(4)数据的安全性。文件备份无需操作,自动同步备份系统数据,云存储技术,保留文件修改历史版本,随时恢复误修改、误删除文件;(5)存储扩展优势。由于采用元数据与数据分离技术,云存储系统具有几乎无限扩展的特点。集群存储方法与传统存储方法的不同在于不是一个已经被划分好的相互独立的数据空间,而仅仅是一个目录,通过聚合各个存储节点的存储空间实现用户空间的可扩展性,使得每个终端挂载的空间都可以自适应地伸缩;(6)共享性。因为各个终端挂载的仅仅是目录,用户可以指定将目录下某一文件共享给某一个或几个用户,这样这些用户就可以对这一文件进行操作,实现了数据文件的共享性;(7)文件检索速度优势。由于采用元数据与数据分离技术,可以将其I/O性能进行聚合,由此带来的带宽提升在大文件读取上的优势非常明显。在面对海量文件时,用户的检索速度可以比传统架构提高数倍。从长远发展角度,构建云存储系统无论从数据源提供方使用的便利性、系统维护的便利性、数据安全性维护方面,还是存储设备利用、扩展、数据应用发展及数据检索速度,都是当前的最佳选择。这样全方位的发展趋势将使未来产生结构更简单、功能更强大、价格更低廉的云存储产品。
总之,云存储系统面向多种类型的网络在线存储服务,数据的安全、可靠、效率,即它的高质量存储服务,以及数据管理能力,可满足后续多波段分析对大规模数据存储计算的需求[3-5]。
2.3 云存储方案设计根据上述具体目标,设计云存储架构,其架构图如图 1。
|
| 图 1 太阳物理历史观测资料存储服务云架构图 Figure 1 Cloud store service chart of solar physics historical observation data |
为实现云存储架构,进行如图 1网络规划,云存储架构分为4种类型网络,皆以不同颜色表示。(1)公共网络。在虚拟路由外侧,供数据提供部门(指定账户)使用的共享网络,一般接入公共网络使用;(2)管理网络。管理服务器与系统虚拟机管理地址之间通讯的网络;(3)客户(数据提供部门)网络,直接分配给虚拟机使用的虚拟局域网络,分为分离和共享;(4)存储网络。管理网络、数据提供者网络、领域门户网站与存储之间的通讯,或存储虚拟机与存储之间的通讯。
按照功能分为6个网段:管理段、数据提供者段及太阳物理门户段,每一段分别有内网与外网段。
考虑(1)有数据提供方位于公网端;(2)使用更多网络服务;(3)安全因素,如VLAN;(4)内外网交流,将采用高级资源域网络部署模式。
云存储服务端,将云存储的服务端部署在国家天文台总部,服务端的维护与管理可以由国家天文台怀柔太阳观测基地信息技术团队进行。
客户端:客户端是指观测资料产出部门,如国家天文台怀柔太阳光学、射电、太阳活动预报、紫金山天文台、云南天文台与南京大学等相关的多个部门。其主要工作是根据自身特长处理原始产出资料。在项目执行前期,具有较多专业知识人员维护资料网站,资料产出量大的部门,可设置专门存储服务器。若不具备有较多专业知识人员的部门,根据数据量大小对一般的台式机增加硬盘数量,即可满足资料的数字化及标准化处理。当云存储系统实施完毕,则所有工作在此系统进行。
太阳物理领域业务包括:数据库、实时/历史数据分析、资料备份、资料灾备、网络服务。数据提供方业务包括:数据处理、数据备份、数据库等。特别需求包括:各种类型的数据库都在一起,对数据库的要求较高,已存在一个MySQL数据库。对于通过同步盘(参见第3节)上传的新数据,通过自动处理机制及时增加到数据库,使用户通过网络服务检索。
保留原有物理设备3种,其一是数据提供方网中即原数据提供方之一的怀柔基地团组的数据处理服务器。考虑现阶段此服务器更多只用于怀柔基地的数据处理,单机可满足资料处理需求,未来可继续将其用于分布式计算的集群;其二是怀柔基地团组的网络服务器;其三为原有存储阵列。
拟新建2种设备,分别用于扩展的计算集群及扩展的存储集群。未来的数据扩展都基于这个存储集群进行。
图 1中的虚拟路由对于每一个客户账号及每一种网络提供地址转换、域名转换、端口转换、防火墙、虚拟局域网络分配(VLAN)、虚拟专用网络设置(VPN)、负载平衡等功能。虚拟监管服务器通常指如XenServer、KVM,完成虚拟化功能。主存提供分布式计算簇的共享,二级存储提供单个网段的使用。在云架构中主存与二级存储配合使用以获得最大的效益与弹性。
图 1中的具体配置命令参考标注①,中间件配置参考标注②-③。
①www.cloudstack.com/cloudStack implement.pdf
②Fernando Harald Barreiro Meginoα, Doug Benjaminβ, openstack.org/projects/storage
③docs.openstack.org/developer/swift/
3 备份、灾备方法与规范数据的存盘规范:不同数据类型在主目录下分别建立子目录,目录名应为资料种类,如手描黑子。资料存放应按照种类,然后年月日的形式进行;相应的处理软件在主目录下以软件为名建立目录,处理软件命名应体现相应的资料类型。
各个数据生产部门应将全部资料至少备份2份,一份在云端保存,另一份则在本地以存储介质形式妥善保存。同时指定专人负责定期进行新一代存储介质更换,以免日后无法找到原有存储介质的接口。对于灾备而言,将在北京怀柔观测基地建立灾备服务器,根据数据更新频率决定定期传输时间周期,定期远程启动灾备服务器,将不断更新的资料传输至此服务器,传输完成后关闭服务器。同样需指定专人负责定期进行新一代存储介质更换。
各个数据生产方与云端数据的一致性:通过登录同步盘实现。数据源提供方变动会影响另一边,在云端留下的是最后变动结果。即在同步盘中的数据是需提供备份的最终数据。客户端和服务器端在后台自动同步.对于用户(各个数据生产部)而言,文件和文件夹的操作跟本地资源管理器的操作完全一致,不受网络影响。
各个数据提供方根据数据处理特点可分别采用日、周或月的固定备份规则进行,建立备份记录表格,根据此表格,为了减少工作量,只对数据做增量备份。对备份数据将访问权限全部设置为只读,不能增删、修改。为了落实责任到人,备份记录表格中需设置执行备份的责任人一项。
4 结束语本系统采用云存储架构,为数据提供、管理、安全及共享提供了最佳方式。为未来太阳物理观测数据集成打下良好的基础。此云存储系统可以进一步应用到我国现代太阳物理观测资料的存储及集成服务。
| [1] | 张继平. 云存储解析[M]. 北京: 人民邮电出版社. 2013, 1-10. |
| [2] | 刘鹏. 中国云存储发展报告[M]. 北京: 电子工业出版社. 2013, 1-5. |
| [3] | Liu Bingwei, Chen Yu, Shen Dan, et al. An adaptive process-based cloud infrastructure for space situational awareness applications[C]//Proceedings of SPIE. 2014:5450-5453. |
| [4] | Taylor R P, Megino F H B, Benjamin D, et al. Exploiting virtualization and cloud computing in ATLAS[J]. Journal of Physics Conference Series , 2012 , 396 (3) : 32011 –32022. DOI: 10.1088/1742-6596/396/3/032011 |
| [5] | Serfon C. Data management tools and operational procedures in ATLAS:example of the German cloud[J]. Journal of Physics Conference Series , 2010 , 219 (4) : 42053 –42057. DOI: 10.1088/1742-6596/219/4/042053 |

