文章信息
- 韩珍辉, 陈兴蜀, 邵国林, 曾雪梅, 朱毅
- HAN Zhenhui, CHEN Xingshu, SHAO Guolin, ZENG Xuemei, ZHU Yi
- 面向高校校园网的OTM问题检测
- Detection of OTM Problem for Campus Network in Colleges and Universities
- 武汉大学学报(理学版), 2018, 64(3): 231-236
- Journal of Wuhan University(Natural Science Edition), 2018, 64(3): 231-236
- http://dx.doi.org/10.14188/j.1671-8836.2018.03.005
-
文章历史
- 收稿日期:2017-08-02
2. 四川大学 计算机学院,四川 成都610065
2. College of Computer Science, Sichuan University, Chengdu 610065, Sichuan, China
随着信息化进程的不断推进,高校校园网得到了迅速的发展,与此同时,大量用户通过路由器、免费WI-FI等接入到校园网络中,造成用户身份信息的不明确,增加了网络安全管理的难度,尤其对网络安全事件的责任落实带来了挑战[1].为了保护校园网络安全,国内高校逐渐开始推行实名制上网.大多数学校采用基于远程用户拨号认证(RADIUS)协议的认证系统,每个用户绑定一个惟一的认证账号进行上网,实现上网的实名认证[2]或建立实名认证计费系统[3],记录用户上网行为,实时监控用户的网络状态[4].但仍有用户通过破解认证客户端、路由器等手段实现一个账号同时多人上网[5],这对校园网实名制管理提出了新的要求.
校园网的一个账号同时被多人使用,会产生网络异常,因此对它进行检测一般采用网络流量异常分析方法.文献[6]提出基于关联规则的网络行为分析方法,提出了关联规则技术的方法,总体上进行了思路介绍,但未提出一种详细的关联方法;文献[7]提出基于流量检测的网络行为分析技术研究,依据用户通信产生的流量进行网络行为的检测,但只是通过流量对通信的行为进行分析,并未应用至网络异常的检测;文献[8]提出了基于行为分析的通信网络流量异常检测与关联分析,将网络流量进行关联并依据一定规则进行异常检测,但是关联算法不适用于本文.综上,本文将采用基于属性相似度的关联算法对网络流量进行检测分析,以对校园网络中出现的账号同时被多人使用的违规问题进行检测分析.
本文将一个校园网身份认证账号同时被多人使用的问题定义为OTM(One-to-Many)问题.针对此问题,以作者所在学校的大数据分析平台为数据采集、处理与分析平台,通过采集校园网络链路流量,分析一个账号多人使用的流量特征,将网络身份认证系统产生的认证数据与网络流量中用户HTTP通信流量进行关联,建立校园网络的OTM问题的检测分析模型,实现对校园网络中的OTM问题的检测.然后在检测基础上进行数据分析,得到该状况在校园网中发生的占比、性别比例、年级比例、校区比例、学院比例等,为校园网安全管理提供数据支撑.
1 OTM问题数据源分析本节通过在真实环境下对校园网内的与OTM问题相关的实际流量数据进行观测,研究OTM问题涉及的网络流量数据.
1.1 Radiuslog数据源OTM问题在用户认证登录上网过程中产生,故需要涉及认证登录产生的流量,本文将认证流量称为Radiuslog流量.表 1所示是校园网用户在认证登录上网产生的Radiuslog流量的相关属性,是radius数据包的流量还原.
字段 | 类型 | 描述 |
Time | Bigint | 认证开始时间戳 |
UserID | String | 用户的标识码 |
UserIP | String | 用户的IP |
UserMac | String | 用户的mac地址 |
Acctsessiontime | Int | 会话时长 |
Http(hypertext transfer protocol)是Web通信的主要协议,是一个无状态的协议[9],为维护用户状态,采用了session(会话)跟踪技术,目前最常用的是HttpSession对象进行会话跟踪,产生的流量包含Http通信的各项信息,本文称之为HttpSession流量.表 2所示是HttpSession流量的相关属性,是校园网用户在认证登录之后上网行为产生的流量信息.
字段 | 类型 | 描述 |
SrcIP | String | 源IP |
DstIP | String | 目的IP |
SrcPort | Int | 源端口 |
DstPort | Int | 目的端口 |
UserAgent | String | 用户代理信息 |
Time | BigInt | 时间戳 |
表 2中,UserAgent属性(下文简称UA)是用户代理字符串,是浏览器用来标识自身信息的一串字符,包含浏览器品牌、版本、内核和所在操作系统环境等信息.其标准格式为:浏览器标识(操作系统;加密等级;浏览器语言),渲染引擎标识,版本信息.
2 OTM问题检测模型的分析与设计通过对Radiuslog流量和HttpSession流量属性的分析,确定根据一个校园网账号在一次认证登录会话时长内不同UA的数目来确定OTM问题的发生.本节将通过属性提取、流量关联、基于用户代理数的规则筛选等步骤对OTM问题进行检测,具体流程如图 1所示.
![]() |
图 1 OTM问题检测模型图 Figure 1 OTM problem detection model diagram |
OTM问题检测模型具体流程如下:
1) 属性提取,提取校园网用户的标识信息和上网行为的设备信息;
2) 数据关联,基于属性相似度对两类流量数据进行关联;
3) 在数据关联结果之上通过规则筛选进行OTM问题检测.
2.1 属性提取属性提取部分从两类流量中提取用户的标识信息和上网行为的设备信息.用户的标识信息存在Radiuslog中,代表用户的惟一标识码,以方便将OTM问题落实到具体;上网行为的设备信息存在HttpSession中,代表用户上网终端的具体信息.
依据Radiuslog流量的相关属性,其中UserID是认证用户的惟一标识码,UserIP代表用户的IP信息,可以对校园网用户进行身份的标识,故直接提取UserID, UserIP等信息作为用户的标识信息.
关于用户上网行为的设备信息,需要获取HttpSession流量中的UA字符串中的操作系统(OS)环境信息,因UA字符串是直接以明文形式记录在报文中,故采用基于关键字的完全匹配方法对字符串进行分割处理:
设S为UA字符串,集合O是操作系统关键字集合,S[i, j]表示S中第i到j个字符组成的子串,从S中的第一个字符开始遍历,对任意S[i, j]∈O即判定为该UA字符串中的操作系统关键字,并进行抓取.
图 2是对2016年6月份的HttpSession数据进行UA解析的实验结果,可以发现针对UA属性进行解析分割时平均成功率在90%以上.经过分析,发现解析为空的情况95%是因为原本流量采集时UA字符串为空或者采集信息不全,由此证明该解析方法有效可行.
![]() |
图 2 UA解析实验数据图 Figure 2 UA analytical experimental data |
通过上述操作,针对两类流量均获得了必需的属性,其中Radiuslog表现为[Time, UserID, UserIP, Acctsessiontime],HttpSession表现为[Time, SrcIP, OS],下文将在提取到的上述属性基础上进行流量数据的关联.
2.2 数据关联Radiuslog流量是用户在认证登录时产生的流量,代表一个会话时长的行为,而抓取流量数据本身并未体现会话时长这一特性,所以首先针对Radiuslog流量进行时序化处理,将它的时间属性转换为[开始时间,结束时间]的形式.根据两类流量的属性特点以及流量数据量的大小,最终决定选择基于属性相似度的关联分析算法进行两类流量的关联.
基于属性相似度的关联分析算法:基于聚类的思想,对满足一定相似度的流量数据进行合并分析.每一类流量都具有一系列的属性,要比较两条流量数据之间的相似度从而去判定是否可以关联,只需要对他们重要的属性进行比较,计算属性之间的相似度,相似度值区间为[0, 1],值越大,代表两个属性越相似.每个属性比较之后,通过整体相似度函数计算两条数据之间的相似度,进而去判断是否满足关联条件,满足关联条件的数据即按照设定的关联规则进行关联检测.具体的算法流程如图 3所示.
![]() |
图 3 基于属性相似度的流量关联分析算法流程图 Figure 3 Traffic correlation analysis algorithm based on attribute similarity |
通过上文对两类流量的属性提取,发现两类流量均具有IP地址和时间属性这两个比较重要的属性,所以选定IP地址和时间属性作为比较的属性,针对这两个属性,定义各自的相似度计算函数如下:
1) IP地址相似度函数定义:IP地址由4部分构成,将每一个构成部分表示为对应的二进制数,通过比较对应部分的相似度,然后计算整体IP地址的相似度.具体计算如下
![]() |
(1) |
![]() |
(2) |
S(ai)为IP地址中每一部分的相近度,S(IP)为IP地址总的相近度,i=1, 2, …, m,m代表IP地址的组成部分,本文取4.bi为对应部分的权值,经试验验证,分别取为0.1, 0.2, 0.3, 0.4.
2) 时间相似度函数定义:HttpSession流量与Radiuslog流量在时间上有一定的包含关系,时间相似度函数定义如下:
![]() |
(3) |
在(3)式中,Yt是一条HttpSession流量数据发生的时间,Xt1, t2是一条Radiuslog流量的发生时长,t1代表认证开始时间,t2代表认证结束时间.
3) 两类流量间整体相似度函数定义如下:
![]() |
(4) |
在(4)式中,w(f)表示属性f对应的权值,n为属性的个数,本文取值为2,f是指IP地址和时间这两个用相似度比较的属性,Sxy(f)代表两类流量对应属性f的相似度.经过实验验证,将IP属性和时间属性权值均设定为0.5.
经过上述运算,最终得到了两类流量数据之间的相似度,设定阈值为1,整体相似度为1的数据进行以Radiuslog数据为基准的关联,否则舍弃.
在具体实验过程中,针对一个月的流量数据进行关联,以天为单位,每天需要进行关联的流量数据平均在八万条,通过上述步骤进行关联平均得到的结果为七万条,成功率在90%左右,证明此数据关联方法是有效的.
如图 4所示,选取6月1号至30号的数据,每天需要进行关联的数据量平均为8.0×104万条, 每天的数据关联成功率均在0.9以上.
![]() |
图 4 流量关联实验数据图 Figure 4 Traffic correlation experimental data chart |
综上,针对两类流量进行了时序化基础上的IP主键关联,最终得到了校园网用户在一次会话时长内的上网设备操作系统信息,为OTM结果的最终检测提供了数据支撑.
2.3 规则检测依据校园网认证系统的设定,规定一个校园网账号同时只能在一台设备上进行登录认证,多台设备同时登录将会提醒用户账号登录设备已达上限,并强制多余的设备下线.所以确定校园网用户在一次认证登录时长内上网设备操作系统个数大于1即判定为OTM问题发生.
上节针对OTM问题的两类流量进行了基于属性相似度的流量关联分析,得到了该问题的基础流量数据集Result=[t1, t2, UserID, UserIP, OS],接下来进行最终的检测.
首先,设count为OS个数,从0开始遍历Result,针对t1、t2和UserID相同而OS不同的数据进行count计数得到Dst=[t1, t2, UserID, UserIP, count],实验发现count数据在0~10之间波动.
其次,根据校园网的特性,设定count>1为最终的筛选规则,进行OTM问题的最终判定.
3 实验与数据分析 3.1 实验本文依据上述建立的检测模型,以作者所在学校的校园网的流量为实验数据,针对OTM问题进行了具体的实验验证.校园网流量基本每天均保持稳定的状态,为分析OTM问题在校园网内的发生状况,本文采集了2016年5月至12月的校园网流量数据进行实验验证,选取2016年6月的流量数据为分析对象,针对OTM问题进行了检测.
根据对两类流量的数据分析,发现在校园网流量中的认证流量Radiuslog每天的数据在10 GB至20 GB之间波动,平均为15 GB,具体数据信息在一百万至两百万条之间波动,去除重复数据以及抓取错误的数据,真实实验数据每天在六十万至七十万条之间.因一个用户在进行锐捷认证登录时会产生5~10条流量数据,所以最终具体到用户群体的流量数据在六万至七万条之间波动.本文针对1个月内每天的用户认证登录以及之后的通讯流量进行OTM问题的检测并进行了分析,最终的结果展示,连续1个月时间内OTM问题的检测结果数在6 000左右波动,占每天用户群体流量数据的10%左右,由此可见OTM问题的不容忽视性.图 5是1个月内OTM检测结果的波动曲线.
![]() |
图 5 OTM问题检测结果波动图 Figure 5 OTM problem detect results fluctuations |
针对2016年6月1日起1个月内的流量数据进行了提取并对OTM问题进行了检测.为了针对OTM问题向校园网络安全管理提供数据支撑和管理方向,对发生OTM问题的用户群体特征进行了分析,包括用户地域分布、年级分布和学院分布,具体的分析步骤如下:
步骤1 检测结果IP信息抽取:针对校园网的区域IP差异,提取OTM检测结果中的IP信息形成IP数据流.
步骤2 检测结果用户标识信息抽取:针对检测结果中的用户信息,提取用户ID等相关标识信息.
步骤3 信息匹配:抽取结果中IP信息比对校园网内的IP分布差异得到用户群体区域特征;用户标识信息匹配得到年级分布和学院分布.
如图 6所示,针对作者所在校园网的三个校区A, B, C的OTM问题检测,可以看出校园网内不同区域该问题的发生比例存在很大的差异.根据OTM问题的区域差异,高校可以针对校园网在不同地域实行不同的管理方案,因地制宜.对于OTM问题发生比例最大的B校区,可采用限制带宽的方法进行管理.一旦出现OTM问题的用户达到一定访问流量(如2 000 MB等)则限制带宽和网速.
![]() |
图 6 OTM问题区域分布饼状图 Figure 6 OTM problem area distribution |
OTM问题的用户群体存在一定的特征,针对用户群体的年级分析,发现OTM问题大多发生于长期使用校园网的高年级学生用户中(图 7).针对用户群体的学院分析,发现OTM问题大多发生于理工科学院,尤其表现为学院A(图 8).
![]() |
图 7 OTM问题用户群体年级分布饼状图 Figure 7 OTM problem user population grade distribution |
![]() |
图 8 OTM问题用户群体学院分布图 Figure 8 OTM problem user groups college distribution |
根据OTM问题用户群体的特征,本文认为校园网络管理工作应侧重于具体的用户群体,而不是全面对等管理,以此提高校园网络管理的效率性.如针对OTM问题占比最大的高年级同学和学院A的同学进行带宽的限制或者每月上网流量的限制.
4 结论本文以作者所在学校校园网为背景平台,抓取校园网流量中的Radiuslog流量和HttpSession流量,采用基于属性相似度的流量关联分析方法进行流量关联,基于关联结果根据用户代理数大于1的规则进行OTM问题的检测,根据检测结果分析发生该问题的用户群体的特征,得到了用户群体的区域分布、年级分布和学院分布特征,为高校校园网的网络安全管理提供了数据支撑.
基于上述的研究成果,针对高校校园网络中出现的OTM问题进行了检测和分析,由于特征提取单一和数据流量问题,导致针对OTM问题的检测需要进一步的完善.在今后的研究中,将从OTM问题不同的行为特征进行提取和检测,以期得到更为准确的检测结果,并且进行多设备分时段共享一个账号的研究的扩展.
[1] |
贺甲宁. 校园网环境下统一身份认证系统的研究与实现[D]. 西安: 西安电子科技大学, 2015. HE J N. Campus Network Environment Unified Identity Authentication System Research and Implementation [D]. Xi'an: Xidian University, 2015(Ch). http://cdmd.cnki.com.cn/Article/CDMD-10701-1016006516.htm |
[2] |
郑彬. 高校校园网统一身份认证系统研究与设计[D]. 济南: 山东大学, 2011. ZHENG B. Research and Design of Unified Identity Authentication System in University Campus Network [D]. Jinan: Shandong University, 2011(Ch). http://cdmd.cnki.com.cn/Article/CDMD-10422-1011222980.htm |
[3] |
刘杰. 基于Radius协议的用户网络行为分析[D]. 北京: 北京邮电大学, 2013. LIU J. User Network Behavior Analysis Based on Radius Protocol [D]. Beijing: Beijing University of Posts and Telecommunications, 2013(Ch). http://www.wanfangdata.com.cn/details/detail.do?_type=degree&id=Y2287161 |
[4] |
彭海云, 杨剑, 周近. 校园网中实名制管理的必要性[J]. 江苏教育学院学报(自然科学版), 2009, 26(3): 34-37. PENG H Y, YANG J, ZHOU J. Necessity of management of real name system in campus network[J]. Jiangsu Institute of Education (Natural Science Edition), 2009, 26(3): 34-37. |
[5] |
冯文健, 谢永盛. 网络实名认证在校园网中的应用[J]. 电子技术与软件工程, 2014(15): 52. FENG W J, XIE Y S. Network real-name authentication in campus network[J]. Electronic Technology and Software Engineering, 2014(15): 52. |
[6] |
刘宗成, 张忠林, 田苗凤. 基于关联规则的网络行为分析[J]. 电子科技, 2015(09): 16-18. LIU Z C, ZHONG Z L, TIAN M F. Analysis of network behavior based on association rules[J]. Journal of Electronics, 2015(9): 16-18. |
[7] |
张春飞. 基于流量检测的网络行为分析技术研究[D]. 北京: 北方工业大学, 2013. ZHANG C F. Research on Network Behavior Analysis Based on Traf fic Detection [D]. Beijing: North China University of Technology, 2013(Ch). http://cdmd.cnki.com.cn/Article/CDMD-10009-1013197292.htm |
[8] |
周颖杰. 基于行为分析的通信网络流量异常检测与关联分析[D]. 成都: 电子科技大学, 2013. ZHOU Y J. Communication Network Traffic Anomaly Detection and Correlation Analysis Based on Behavioral Analysis [D]. Chengdu: University of Electronic Science and Technology of China, 2013(Ch). http://cdmd.cnki.com.cn/Article/CDMD-10614-1013335706.htm |
[9] |
祝瑞, 车敏. 基于HTTP协议的服务器程序分析[J]. 现代电子技术, 2012(04): 117-119+122. ZHU R, CHE M. Server analysis based on HTTP protocol[J]. Chinese Journal of Modern Electronics, 2012(4): 117-119+122. |