«上一篇
文章快速检索     高级检索
下一篇»
  应用科技  2018, Vol. 45 Issue (2): 86-89,95  DOI: 10.11991/yykj.201802006
0

引用本文  

曲英涛. 高校大数据平台建设与研究[J]. 应用科技, 2018, 45(2), 86-89,95. DOI: 10.11991/yykj.201802006.
QU Yingtao. Construction and research of big data platform in Colleges and Universities[J]. Applied Science and Technology, 2018, 45(2), 86-89,95. DOI: 10.11991/yykj.201802006.

通信作者

曲英涛,E-mail:quyingtao@hrbeu.edu.cn

作者简介

曲英涛(1980−),男,助理工程师

文章历史

收稿日期:2018-02-12
网络出版日期:2018-03-28
高校大数据平台建设与研究
曲英涛    
哈尔滨工程大学 信息化处,黑龙江 哈尔滨 150001
摘要:数据资源建设是高校信息化建设的重要组成部分,构建大数据管理服务平台将为高校大数据应用分析场景建设,提供数据、管理、服务、技术等多层面的有效支撑。以DAMA数据管理服务体系方法论作为理论依据,以教育部发布的《JYT1002_教育管理基础信息》、《JYT1003_教育行政管理信息》、《JYT1006_高等学校管理信息》等标准文件内容作为参考,结合高校数据特点,在传统高校数据共享平台相关技术的基础上将Hadoop框架体系、Spark技术、Elasticsearch数据引擎技术等大数据技术进行深度融合,提出一种数据统一存储、统一管理、统一处理、统一服务的一站式的大数据服务平台的建设思路,为高校大数据平台建设提供一个参考依据。
关键词数据管理    数据中心    数据标准体系    数据服务    大数据技术    数据平台建设    高校数据治理    高校数据安全    
Construction and research of big data platform in Colleges and Universities
QU Yingtao    
Information Office, Harbin Engineering University, Harbin 150001, China
Abstract: Data resource construction is an important part of information construction in Colleges and universities.The construction of big data management and service platform will provide effective support for data analysis, construction, data, management, service and technology. Based on the DAMA data management service system methodology, with the contents of standard documents including JYT1002 Basic Information on Education Management, JYT1003 Information on Administrative Management of Education and JYT1006_Information on Higher Education Management issued by the Ministry of Education as a reference, in combination with the characteristics of university data, this paper deeply integrated Hadoop framework system, Spark technology, Elasticsearch data engine technology and other big data technologies on basis of the related technologies of traditional university data sharing platform, proposed a train of thoughts for building a one-stop big data service platform integrating data storage, unified management, unified processing and unified service, providing a reference for the construction of big data platform in universities.
Key words: data management    data center    data standard system    data service    big data technology    construction of data platform    data governance of university    data security of university    

随着高校信息化建设不断深入,信息化建设方向已经从以业务系统建设的驱动导向,逐渐过渡到以数据和平台的建设内容的新的目标和需求,如何将高校几十年积累的数据利用当前成熟的大数据技术和传统数据库技术融合,并将多种类数据进行统一的存储、整合、计算分析、快速查询和调用,充分挖掘高校数据价值,为未来高校智慧校园提提供准确全面的决策分析将是未来高校大数据平台建设的重要目标[1],本文将传统关系性数据库和HDFS分布式文件系统进行技术融合,提出一种高校大数据平台建设的方法论。

1 高校数据现状分析

随着高校信息化建设的逐步完善和深入应用,信息化的内容建设逐渐丰富,高校已完成了校园网主页、各院部处网站的建设,开发或购置了部分业务管理信息系统、人事管理系统、教务系统、科研系统等,但由于这些系统都是非校级架构,设计及技术架构不统一,数据标准不一致,造成信息共享难度大,造成了多个信息孤岛,影响了部门间的协作[2]。因此,还有部分业务部处急需相应的信息系统解决目前的问题。此外,随着大量机器设备的应用,产生了海量的日志类数据,记录了校内群体详细的行为数据,这些数据中蕴含了巨大的价值,而现有的数据基础架构无法对这些数据进行存储、处理和分析。

因此,未来智慧校园建设方向将由原来为单一部门建设业务系统,逐渐转变成以数据为基础、以数据应用为驱动的平台类系统为主要建设目标,因此,为更好地支撑未来新建设,高校需要构建一个统一的数据管理平台,在架构上能满足将学校现有的多源异构数据进行统一存储,通过一套统一的数据标准对这些数据进行治理和规范化处理,纳入到数据平台的管理体系中,统一对外提供数据服务,为将来的数据应用和数据挖掘分析提供稳固的基础。

2 高校大数据平台建设思路

高校是一个独立而复杂的社会生态系统,由于涉及业务面广泛,高校大数据平台建设更是一个庞大而复杂的系统工程。由于高校产生的数据存在种类繁多、结构复杂、涉及到业务面广等特点,如何满足高校统一的数据管理、数据存储、数据服务、数据应用、数据安全等当前高校对数据相关业务建设的需求,成了高校大数据平台设计者重要解决方向[3]。因此我们认为应该从实际出发,科学规划、统一设计、逐步推进才能确保平台建设的成功,高校大数据平台建设主要秉承以下建设思路:

1)统一规划设计。鉴于高校数据结构复杂性、多样性等特点,高校大数据平台建设工作必须依据学校未来信息化建设需求[4],对总体架构进行统一且具备前瞻性的科学规划,形成大数据平台总体架构蓝图,为后续平台建设提供总体建设依据和目标。

2)逐步拓展规模。由于大数据平台是一个通过多种技术集成的大型复杂系统、涉及的业务广、数据多而复杂。故平台建设不能一蹴而就,需依据总体架构设计,利用分期的方式,逐步拓展平台规模,最终形成统一的高校大数据平台。

3)注重基础建设。好的地基是建设高楼大厦的关键,平台若想功能完善、生命周期长且稳定,基础建设是必不可少的,因此建设方案的内容应注重基础软硬件选型和建设、基础数据资源的治理和规范、平台功能设计、相关管理规范制定等几个重要因素,且不可脱离基础和现实需求,更不能脱离实用。

3 高校大数据平台总体架构设计

平台总体设计分为3部分:技术支撑平台、数据规范平台、数据服务平台。其中技术支撑平台是底层软硬件资源组件,数据规范平台是为数据管理者进行系统配置、统计分析等操作功能组件,数据服务平台为普通用户提供数据操作及服务。

3.1 技术支撑平台

技术支撑平台是大数据平台所有数据服务的基础支撑。平台提供了多种数据查询及处理技术、数据存储技术、数据计算处理技术,具备可扩展和分布式的能力,提供包括硬件资源、操作系统、数据存储、数据检索、数据计算、数据采集等种技术组件[5]。技术支撑平台架构如图1所示。

Download:
图 1 技术支撑平台总体架构
3.2 数据规范平台

数据规范平台为大数据平台中提供全面数据管理支撑的系统,用户可通过在前台页面是操作就可以实现对数据标准、数据模型、数据接口进行在线的检测和管理维护,并且还对数据使用申请进行管理和审批[6]。数据规范平台架构如图2所示。

Download:
图 2 数据规范平台功能架构
3.3 数据服务平台

数据服务平台功能分为用户提供数据权限管理、身份验证、数据安全设置等功能,数据服务管理则为用户提供的数据共享服务、数据查询服务、数据分析服务、数据展现服务的数据服务功能[7],其架构如图3所示。

Download:
图 3 数据服务平台功能架构
4 高校大数据平台建设内容 4.1 数据标准体系

数据标准体系包括数据编码规范、数据标准、数据代码标准等相关规范,是保障学校数据标准化建设、数据交换和共享、发挥数据资源价值不可或缺的基础支撑。

主数据编码是为了方便信息的存储、检索和使用,在进行信息处理时,赋予信息元素的代码。科学、全面的信息编码规范是信息化标准体系的重要组成部分,是信息共享共用的前提,是保障数据共享和交换、发挥数据资源价值的不可或缺的基础支撑。依据高校核心业务的主数据种类,可分为组织机构编码、教职工工号编码、学生学号编码、临时人员编码、专业编码、课程编码、班级编码、校区编码、项目编码、资产编码、建筑物编码、图书期刊编码等12大类编码规则[8]

数据标准是覆盖学校概况、学生(本科生、研究生)、人事、科研、财务、资产、办公、外事、档案、图书等学校全部业务类信息的数据标准,是指导学校数据建设的重要指导依据和基础。学校设计数据标准依据应该以2012年教育部发布的《JYT1002_教育管理基础信息》、《JYT1003_教育行政管理信息》、《JYT1006_高等学校管理信息》为基础,结合学校具体业务管理情况来进行编制[9],如图4所示。

Download:
图 4 元数据标准分类

标准代码是以国家标准代码、教育行业标准代码为基础,结合学校具体情况,按照元数据集分类规范,编制高校代码集标准,完成学校概况、人事、学生培养、科研、党政办公、合作交流、财务资产、公共服务等八大类代码标准编制工作。其中引用国家通用标准代码51种、引用教育部标准代码148种、制定学校代码标准31种。

1)国家标准。高校数据代码标准中包括性别、证件类型、血型、政治面貌等51类公共数据代码标准,均采用国家统一数据代码标准即GB/T2260、GB/T2261.1-GB/T2261.7等,详细内容请参见JYT0001_教育管理基础代码。

2)教育行业标准。高校中关于高校教育行业的代码,包括学位类别、导师类别、教职工类别等,均采用教育行业同意数据代码,详细内容请参见JYT0001_教育管理基础代码。

3)学校标准。高校标准是基于国家标准的扩展和修改,一般使用学校标准的原因是国家提供的编码类型无法涵盖学校的需求,或者并没有相关代码种类例如高校聘用合同类型、一卡通类型以及后勤类大多数代码,此类学校标准代码需要根据学校具体情况,自行制定。

4.2 数据资源中心

数据资源中心是高校大数据平台的集中统一存储全校各类数据的存储单元,主要用于存储传统的业务系统产生的结构化数据、线下的非结构化文档数据(主要是EXCEL文档、图片、WORD文档等)、网络设备或者系统产生的日志类数据,地理信息类数据、物联网类数据等。是全校大数据应用服务核心的基础支撑。

4.2.1 数据存储

从技术上数据结构种类复杂繁多,所以数据资源中心是一个多种类数据存储技术集成的复杂存储模块。传统业务系统数据应采用传统关系型数据库进行存储,其他类半结构化、非结构化数据应采用HDFS进行存储。从逻辑上数据资源中心需要数据采集和存储数据进行存储管理,故此无论哪类数据都应按照数据存储策略规划到不同逻辑存储区中,便于后续的管理和调用。

4.2.2 数据清洗转换规范

统一数据存储是保证数据资源利用的基础,数据质量才是大数据平台是否能发挥数据价值的重要保障。异构数据清洗、数据整合、多类型数据转换是保证数据质量的前提,定期对数据进行数据及时性、数据完整性、数据准确性、数据规范性等内容检查是保证数据质量基础[10]。为提升数据质量,需依据数据标准体系的相关内容,结合高校数据实际情况制定一套数据清洗转换规范。

4.3 数据服务中心

高校早期数据交换平台仅仅是为校内各单位提供数据交换共享的服务平台,从技术上大部分都采用的是由信息部门通过ETL等接口工具进行按需推送[11]。数据服务中心是对原有数据交换平台的全面升级,除了保留原有数据交换功能外,还更要从服务范围、支撑技术、服务功能等多个方面进行功能拓展。其中服务范围上从原有的仅针对业务部门的数据共享扩展到可以通过线上申请的方式实现学生或教师等个人数据申请服务;技术上在有单一的ETL技术基础上,新增API的接口调用[12]、SQL视图调用等功能,且所有数据接口调用统一在一个单一系统界面实现,使得数据接口使用者只操作前台应用层,而无需了解后台数据是如何产生的;服务功能上除数据共享功能外,还提供在线数据计算功能、数据BI展示功能以及数据查询检索功能[13]。使得的数据使用活跃度更加高,最大限度地发掘数据价值。

4.4 数据安全体系 4.4.1 身份验证及审计

1)身份验证。对用户身份认证包括通过密码、指纹、安全密钥等技术手段实现对数据使用者的认证,防止他人冒用身份访问相关数据[14]

2)访问控制。对访问IP地址、访问窗口进行访问控制,一般采用IP地址限制访问或者堡垒机访问的方式。

3)安全审计。对数据访问中所有操作进行记录,实现事前防范、事中预警、事后审计。

4)隐私管理。数据隐私管理是针对一般数据个体或者某一个群体的敏感数据实现安全管理,具体包括数据发布防泄漏、用户群体划分等要求。

5)数据发布防泄漏。数据在发布时要注意安全,不要在发布过程中或发布后出现数据泄漏的情况,具体可采用数据发布前征得数据拥有方同意、将敏感且不重要数据进行加密处理等方式。

6)用户群体划分。按照数据敏感等级及数据所拥有的权限将用户划分成多个群体,不得出现跨群体数据混用的情况。

4.4.2 数据存储安全

数据存储安全是通过数据存储安全技术实现数据安全存储,一般数据数据加密的方式实现,通常数据加密可采用明文加密或者算法加密两种。

4.4.3 数据接入安全

数据接入安全是通过保证终端安全以保障数据安全接入。数据接入采用的服务器终端应进行安全扫描检查,并通过审计系统进行安全审计,防止数据在接入时由于终端被植入木马或者病毒等恶意软件工具出现数据泄露情况。

5 平台建设原则

大数据平台架构调整设计应遵循以下基本原则。

1)实用性原则。大数据平台首先要坚持实用性原则,在实用的基础上考虑先进性和前瞻性,切实满足学校大数据应用业务实际工作需求。2)安全性原则。大数据平台支撑系统遵循学校信息安全体系的相关要求,采用相关安全机制和技术手段保障系统的应用安全、数据安全、服务器安全、网络安全、物理安全。3)可靠性原则。大数据数平台应满足业务应用7 d×24 h可靠运行的要求,系统关键环节软硬件资源设计采用高可用性方案,保证系统运行的高度可靠。4)可扩展性原则。大数据平台应采用柔性设计,拥有良好的可扩展性,具备业务处理的灵活配置能力[15]

6 结论

  综上所述高校大数据平台的应用具备以下几个核心内容:1)高校大数据平台一定是集中存储全校各类数据信息存储平台,为高校数据综合应用分析提供坚实的基础数据支撑。2)大数据平台相关数据建设必须要有一套符合学校实际情况的数据标准体系作为统一的指导标准。3)高校大数据平台技术架构应同时具备处理传统共享数据能力和处理非结构数据的能力,同时还需具有一套完善切合实际的数据管理服务规范支撑其管理、运行、维护。4)高校大数据平台在建设和运行过程中应在用户身份验证、数据存储、数据接入等几个方面进行安全防护。

本文提出的高校大数据平台建设思路,既继承了传统数据库技术解决高校数据共享业务优点,又解决了非结构化数据存储与处理问题,为高校建设集中存储、统一管理、开放服务的综合性数据应用平台提供切实可行的建设思路。

参考文献
[1] 刘凤娟. 大数据的教育应用研究综述[J]. 现代教育技术, 2018(8): 13-19. (0)
[2] 王露 庄青. 基于大数据技术的数据中心建设规划[J]. 信息化研究, 2017(42): 5-11, 60. (0)
[3] 解林超, 石佳, 王仲锋, 等. 大数据时代对传统数据中心的影响及思考[J]. 中国新通信, 2014(2): 38-39. (0)
[4] 王金祥. 落实大数据战略 科学推进数据中心建设[J]. 中国建设信息化, 2016(1): 10-13. (0)
[5] 王玮, 刘荫, 于展鹏, 等. 电力大数据环境下大数据中心架构体系设计[J]. 电力信息与通信技术, 2016(1): 1-6. (0)
[6] 查永军. 大数据与高校院系治理[J]. 中国电化教育, 2018(1): 59-63. (0)
[7] 俞春, 袁芳, 刘乃嘉, 等. 高校数据数据共享与交换技术的应用研究[J]. 实验技术与管理, 2012, 29(11): 109-112. DOI:10.3969/j.issn.1002-4956.2012.11.032 (0)
[8] 杨春节, 简少明. 高校基础信息编码的规范化研究与实践[J]. 管理观察, 2009(32): 122-123. DOI:10.3969/j.issn.1674-2877.2009.32.079 (0)
[9] 张群, 吴东亚, 赵菁华. 大数据标准体系[J]. 大数据, 2017(4): 11-19. (0)
[10] 刘凡华. 基于大数据背景下" 互联网+信网”的信息化应用服务-以南京市公共信用信息服务为例[J]. 改革与开放, 2017(21): 46-48. (0)
[11] 陈熙. 基于ODI的高校数据交换与共享平台的设计与实现[J]. 计算机光盘软件与应用, 2014(2): 259-259. (0)
[12] 张玉杰, 于双元. 大数据查询综述[J]. 计算机与现代化, 2017(4): 82-88. (0)
[13] 杨彬. 大数据分析技术的研究[J]. 电子测试, 2017(21): 123-124, 128. DOI:10.3969/j.issn.1000-8519.2017.21.064 (0)
[14] 陈兴蜀, 杨露, 罗永刚, 等. 大数据安全保护技术[J]. 四川大学学报: 工程科学版, 2017(5): 1-12. (0)
[15] 王艳亭, 陈强, 刘艳军, 等. 电力企业运营监测(控)信息系统应用架构设计[J]. 成组技术与生产现代化, 2013(2): 32-38. (0)