郑州大学学报(理学版)  2025, Vol. 57 Issue (6): 65-73,82  DOI: 10.13705/j.issn.1671-6841.2024077

引用本文  

王世谦, 白宏坤, 贾一博, 等. 基于长短周期特征的用户异常行为检测[J]. 郑州大学学报(理学版), 2025, 57(6): 65-73,82.
WANG Shiqian, BAI Hongkun, JIA Yibo, et al. Abnormal User Behavior Detection Based on Long-term and Short-term Characteristics[J]. Journal of Zhengzhou University(Natural Science Edition), 2025, 57(6): 65-73,82.

基金项目

国网河南省电力公司2023年度科技项目(5217L022001A)

通信作者

贾一博(1993—),男,工程师,主要从事能源电力大数据研究,E-mail: 745241748@qq.com

作者简介

王世谦(1988—),男,高级工程师,主要从事能源大数据及能源电力规划研究,E-mail: wangshiqian@ha.sgcc.com.cn

文章历史

收稿日期:2024-04-08
基于长短周期特征的用户异常行为检测
王世谦1,2, 白宏坤2, 贾一博2, 卜飞飞2, 黄勇1    
1. 郑州大学 网络空间安全学院 河南 郑州 450002;
2. 国网河南省电力公司经济技术研究院 河南 郑州 450052
摘要:随着能源大数据平台用户数量与类型的不断增多,其面临的内部安全威胁也愈加突出。用户异常行为检测是抵御内部安全威胁的一种有效手段。当前主流的检测方法没有考虑同一平台内不同类型用户的行为差异以及访问行为的长短周期特征,检测性能较低。为此,利用不同类别用户的行为特点,提出长短期孤立森林模型和多时间窗口并列门循环神经网络,分别构建用户长、短周期内的访问行为特征,最后融合两种模型的结果构建一个基于用户类别的异常行为检测框架。结合某省能源大数据平台系统对所提框架进行了验证,实验结果表明,所提框架能够有效刻画平台用户的访问规律,并具有较高的异常行为识别准确率与异常处理效率。
关键词用户行为    异常行为检测    长周期特征    短周期特征    
Abnormal User Behavior Detection Based on Long-term and Short-term Characteristics
WANG Shiqian1,2, BAI Hongkun2, JIA Yibo2, BU Feifei2, HUANG Yong1    
1. School of Cyber Science and Engineering, Zhengzhou University, Zhengzhou 450002, China;
2. State Grid Henan Economic Research Institute, Zhengzhou 450052, China
Abstract: With the increasing number and types of users, the energy big data platform is now facing prominent internal security threats. User abnormal behavior detection is an effective technique to resist such security threats. However, current mainstream detection approaches did not take behavior pattern of different types of users in the same platform and their long-term and short-term behavior characteristics into consideration, therefore leading to low user abnormal behavior detection performance. To solve these challenges, a method was proposed to extract the long-term and short-term behavior characteristics of different users in the energy big data platform. Specifically, the long short periods isolated forest model and the multiple time windows gate recurrent neural network were proposed to construct the long-term and short-term user behavior patterns respectively, and then the results of two models were effectively integrated for better detection ability. Moreover, an abnormal behavior detection framework was constructed with the consideration of different platform user types. Finally, the proposed framework was verified in a provincial energy big data platform, and the experimental results showed that our framework effectively characterized different user behavior patterns in this platform and achieved a high accuracy of abnormal user behavior detection as well as high processing efficiency.
Key words: user behavior    abnormal behavior detection    long-term characteristics    short-term characteristics    
0 引言

随着大数据技术在能源领域的不断深入,电力、燃气、石油等能源数据对国民经济发展的重要性日益凸显,因此能源大数据平台的建设受到了各级政府的高度关注。能源大数据平台不仅有助于能源企业更好地了解市场需求和资源供应情况,还能为政府部门提供决策支持和政策制定参考[1]。然而,随着能源大数据平台的快速发展,平台用户数量不断增多、用户类型日益多样,使得平台面临的外部攻击与内部安全威胁问题愈加严峻。但现有研究主要侧重于针对外部攻击的网络防护技术,如入侵检测、防火墙等领域,对内部安全威胁防御研究[2-3]相对不足。在系统内部,攻击者通过非常手段,如社会工程学等方法,获得内部用户权限从而假冒合法用户,进而对平台资产进行信息搜集甚至破坏,对系统的安全运行带来了巨大的威胁。因此,作为国家的关键信息基础设施,能源大数据平台亟须基于零信任思想对用户进行持续的认证[4-5],加强自身应对内部安全威胁的能力。

在内部威胁防御应用中,若用户的当前访问行为与历史行为特征存在较大差异,则可能意味着用户异常行为的产生。基于以上原理,国内外学者在这些领域进行了大量研究。Nasir等[6]提出了基于深度学习的内部威胁检测技术,对任何偏离正常基线的行为进行检测。周娅等[7]提出了一种基于分层欠采样和双向门控循环单元(gate recurrent unit,GRU)的恶意行为检测模型,提高了恶意评论的检测率。周建国等[8]使用并列门循环单元模型发现用户产生的日志异常。近年来,数字画像[9-12]技术在内部安全威胁防御领域的应用愈加广泛。郭渊博等[13]提出一种自动提取特征构建全细节行为画像,并采用隐马尔科夫模型预测业务流程转移概率的方法,较全面地刻画了用户行为模式。钟雅等[14]则从人物性格等多方着手对人物进行标签画像。但是上述方法大多脱离具体的业务背景,没有考虑实际应用系统中用户的多样性和业务的差异性。

为此,本文提出一种面向能源大数据平台的用户异常行为检测方法。针对每一类型的平台用户,该方法从长周期与短周期两个时间尺度对用户的平台访问行为进行特征建模。对于长周期特征,提出长短期孤立森林(long and short periods isolated forest,LSPIF)模型。对于短周期特征,提出多时间窗口GRU(multiple time windows GRU,MTWG)模型。最后,对LSPIF与MTWG两种模型的异常检测结果进行加权求和,并形成融合模型LMIM(LSPIF and MTWG integrated model),从而提升用户异常行为的整体识别率。最后结合某省能源大数据平台,建立一个异常检测框架并进行测试。实验表明,公众类LMIM的F1值为96.57%,内部类LMIM的F1值为97.51%,表明本文提出的框架具有较高的异常行为检测准确率,并能对异常行为进行分类。

1 内部威胁模型 1.1 能源大数据平台构架及安全威胁分析

本文基于某省能源大数据平台构架开展研究。该平台采用浏览器/服务器架构,在公开的互联网环境中对外提供能源数据相关服务。如图 1所示,平台基本构架包含服务层和业务层,两者主要为能源大数据业务的正常开展提供基本软硬件支撑。另外,该能源大数据平台有一套完善的日志系统,包括用户日志、访问日志、审计日志、系统日志、安全日志和数据库日志。此外,平台的访问主体主要分为外部访问主体和内部访问主体。外部访问主体可以划分为政府、企业、公众三大类;内部访问主体可以划分为平台运维人员和管理人员。在平台中,不同类型的用户具有不同的访问与操作权限。

图 1 能源大数据平台架构及潜在攻击威胁 Fig. 1 Architecture of the energy big data platform and potential threats

为保障平台安全运行,系统按等级保护二级标准建设[15],建有WAF(web application firewall)等边界防护措施,能够较好地抵御来自外部的攻击。然而针对内部攻击,平台现有的边界安全设备无法起到防护作用。特别地,在内部威胁中,攻击者通过非常手段获得内部用户权限从而假冒内部合法用户进行非法活动,是较难防范的。

1.2 内部攻击模式分析

针对内部攻击,本文梳理了以下几种可能存在的攻击模式。

模式一:信息搜集模式一。外部攻击者通过非法手段,如欺骗、木马等,获得平台的访问权限后,在平台内进行资产摸排,信息搜集[16]

模式二:信息搜集模式二。获取平台访问权限后,攻击者利用自身的黑客技术,构造欺骗数据包,从平台获取信息。

模式三:内网渗透模式。获取平台访问权限后,攻击者利用自身的黑客技术,试图上传文件、执行跨站脚本、上传木马获取系统权限等。

模式四:信息泄漏模式。恶意合法用户在平台内进行资产摸排、信息搜集,泄漏平台信息。

模式五:基于APT[17](advanced persistent threat) 的信息窃取模式。恶意用户刻意隐藏自己的异常行为特征,刻意模仿其他正常用户的行为,试图绕过态势监测系统、行为监测系统等,以达到搜集信息的目的。

2 异常行为检测系统总体设计 2.1 设计原理

传统的异常行为检测方案仅从单一时间周期衡量用户行为特征的变化,无法适应能源大数据平台中内部攻击模式在时间跨度上的多变特性。为此,本文观察到,平台用户的访问行为可以表现为长周期行为与短周期行为。长周期行为反映用户经常性的平台访问状态,这些状态包括工作时间和地点、工作条件等,具有在较长时间内保持不变的特性。短周期行为代表了当前访问活动的动作、资源请求等情况,反映了用户在临近一段时间内的行为特征,与用户的平台权限、业务范围具有极强的关联。因此,为进行有效的异常行为检测,需要从长周期与短周期两个时间维度构建用户访问平台的行为模式。

此外,现有异常行为检测方案大都面向单类型的系统用户。然而,能源大数据平台包含政府、企业、公众、运维人员与管理员等多种类型的访问主体。由于不同类型用户所需要的业务不同,不同用户之间的正常行为也存在较大的区别。举例来说,在长周期上,管理员用户的工作时间与地点与公众用户的访问时间与地点存在明显差异。而在短周期上,管理员用户操作系统管理接口的行为序列与公众用户访问一般资源接口时的行为序列也存在显著不同。因此,针对不同类型的平台用户,需要建立各自的正常行为模型与判决机制。

2.2 系统结构

基于以上原理,本文提出一种基于多模型融合的用户异常行为检测系统,能够准确鉴别平台用户的访问行为,并有效适应能源大数据平台用户类型多样性的特征。如图 2所示,所提系统包含用户行为特征提取和用户异常行为检测两个主要模块。本系统作为平台的一个子系统,通过日志系统获取用户的历史行为数据。系统将平台用户分为政府、企业、公众和内部四大类,分别构建不同类型用户的正常行为模型,从而建立对应的安全基线。在运行阶段,系统从日志系统中获得实时用户访问行为数据,并建立当前时刻用户的长短周期行为序列,并根据用户的类型,将行为特征序列输入对应的检测模型,从而实现对异常行为的快速准确检测。

图 2 用户异常行为检测系统 Fig. 2 System architecture of abnormal user behavior detection
3 用户行为特征提取

图 2所示,所提系统的输入数据来源于能源大数据平台的日志系统,基于获取的日志数据,对相关属性进行筛选,分别构建用户的长周期行为特征和短周期行为特征。

3.1 长周期行为特征构建

长周期行为特征反映了用户在访问平台时的经常性状态,这些状态包括Time,Week,Source IP等。为此,本文为用户的每一次访问构建一个长周期行为特征序列 X =(x1, x2, …, xI),其中I表示属性的数量。本文选取了10个用户访问属性构成长周期行为特征,具体如表 1所示。

表 1 用户长周期行为特征属性表 Tab. 1 User long-term characteristics
3.2 短周期行为特征构建

短周期行为特征刻画了当前时刻用户在平台上的一系列操作行为,涵盖访问活动的Hostname,Path,Method等特征。为此,本文为某一固定时间窗口内的用户访问行为构建一个短周期行为特征序列 Y =(y1, y2, …, yJ),其中:Y为当前访问序列;yj为第j次访问行为特征向量;J为行为序列长度。此外,用户的第j次访问记为 yj=(z1, z2, …, zK),它由K个属性构成。当检测到某一用户开始进行某一个业务时,则开始记录对应的属性序列。检测到业务停止时,则终止记录行为序列。对记录的序列按照不同的时间窗口进行分割。在一个时间窗口内,若访问行为次数小于J,对相应特征序列进行填充处理。若访问次数大于J,则对相应特征序列进行截取处理。本文选取了六种访问属性作为用户的短周期行为特征,具体属性如表 2所示。

表 2 用户短周期行为特征属性表 Tab. 2 User short-term characteristics
4 用户异常行为检测

进一步,本文提出一种多模型融合的用户异常行为检测方法。一方面,利用LSPIF模型对用户长周期行为模式建模,模型对比了日周期变化与周周期变化,符合用户长周期特征变化慢的特点;另一方面,采用MTWG模型对用户短周期行为特征建模,充分对比不同时间窗口下的用户操作变化。最后,将两种模型的判决结果进行融合形成LMIM模型。

4.1 长周期特征检测模型

针对长周期行为特征,提出LSPIF模型构建用户的正常行为基线。LSPIF模型以一个用户的长周期行为特征 X为输入,并输出X的异常得分sLSPIF。如图 3所示,LSPIF包含M个孤立森林模型,而每个孤立森林又由若干决策树构成。其中,第m个孤立森林模型同样以X为输入,并输出自己的异常评分sm。样本X的异常评分sm与其在第m个孤立森林中的判决路径长度有关,计算公式为

$ s_m=2^{-\frac{E\left[h_m(X)\right]}{c(U)}}, $ (1)
图 3 基于LSPIF的长周期特征检测模型 Fig. 3 Abnormal behavior detection of long-term characteristics based on LSPIF

式中:E[hm(X)]表示X在第m个孤立森林模型中的平均路径长度;U表示训练数据集中长周期行为特征样本的个数;c(U)代表数据集中所有实例的平均路径长度,其计算公式为

$ c(U)=2 H(U-1)-2(U-1) / U $ (2)

式中:H(·)是调和函数,并且H(U)=ln(U)+ β,其中β=0.577 215 664 9,为欧拉常数。根据sm可判断长周期行为特征X的异常程度。当E[hm(X)]的值接近U-1时,sm的值接近0,X越可能是正常样本。当E[hm(X)]的值接近c(U)时,sm的值接近0.5,表明X没有明显的异常现象。当E[hm(X)]的值接近0时,sm的值接近1,X越可能是异常情况。

当LSPIF进行异常行为检测时,每个孤立森林模型都会给出一个异常评分结果[18-20],将所有子模型的异常评分的平均值作为LSPIF模型的最终结果,即

$ s_{\mathrm{LSPIF}}=\frac{1}{M} \times \sum\limits_{m=1}^M s_m \text { 。} $ (3)

最后取一个接近1的bLSPIF值作为判断的阈值,当LSPIF模型的最终得分大于阈值时,定义为异常。

图 3所示,在模型训练阶段,为了使LSPIF模型学习用户的长周期行为的周期性规律,将日志系统中的用户历史访问数据以一周为单位进行划分,并用每一周的数据构建一个长周期特征数据子集。随后选取M个不同子集,同时采用iForest算法训练各自的孤立森林模型,从而可以得到M个孤立森林子模型。通过以上训练方式,可以使LSPIF模型对比用户的日周期变化与周周期变化规律,更好地学习同一类用户的长周期访问规律。

4.2 短周期特征检测模型

针对短周期行为特征,本文提出MTWG模型。具体地,若以min为单位记平台当前时刻为t,构造三种不同大小的滑动时间窗口T1T2T3,它们所覆盖的时间范围分别为区间[t1, t],[t2, t]和[t3, t]。其中,Δ1,Δ2和Δ3分别为三种时间窗口的长度,而它们对应的滑动步长均为τ。因此,可以分别从T1T2T3中提取当前时刻t对应的短周期特征序列为 Y1tY2tY3t。不失一般性,记当前时刻某一滑动时间窗口内的短周期特征序列为 Yit∈[Y1t, Y2t, Y3t]。针对短周期特征序列 Yit的异常检测,将滑动窗口在t-τ时刻的特征序列 Yit-τ输入对应的GRU模型[21],并对 Yit进行预测,得到预测序列$\hat{\boldsymbol{Y}}_i^t $。接着,计算预测特征序列与真实序列的误差,即该窗口下用户短周期行为的异常评分为eit,

$ e_i^t=\frac{1}{J_i} \sum\limits_{j=1}^{J_i}\left(\boldsymbol{Y}_i^t-\hat{\boldsymbol{Y}}_i^t\right)^2, $ (4)

式中:Ji为第i种时间窗口下的访问序列长度。接着,需要计算判决阈值bi。若记Ni为从日志数据中提取的短周期特征序列的总数量,则判决阈值bi的计算方法为

$ b_i=\bar{e}_i+\alpha_i \times \sqrt{\frac{1}{N_i-1} \sum\limits_{n=0}^{N_i-1}\left(e_i^{t-n \tau}-\bar{e}_i\right)^2}, $ (5)

式中:系数αi用于调整阈值的变化速率; ei是所有Ni个短周期特征的平均误差。基于上述方法,将三种滑动时间窗口内的短周期特征序列输入到三个不同的GRU模型,可获得三个异常评分e1te2te3t,以及对应的判决阈值b1b2b3。最后,MTWG获得最终的异常评分为

$ s_{\mathrm{MTWG}}=\frac{\left(e_1^t+e_2^t+e_3^t\right)}{3}, $ (6)

此外,最终的判决阈值为

$ b_{\mathrm{MTWG}}=\frac{\left(b_1+b_2+b_3\right)}{3}, $ (7)

如果sMTWG>bMTWG,则可判定该序列是异常的。

图 4所示,为了对MTWG模型进行有效训练,本文将日志系统中的用户行为数据按照三种不同的窗口大小进行划分。具体地,本文分别以5 min、10 min、15 min时间窗口大小对用户访问行为序列进行划分,得到不同窗口大小下的用户访问行为序列形成对应的特征序列数据集。接着,在同一数据集中,利用相邻的特征序列训练对应的GRU模型。其中,前一时刻的序列作为GRU模型的输入,而后一时刻的序列作为模型的预测标签。最后采用最小均方误差(least mean square error,LMSE)损失函数对GRU模型的参数进行训练。

图 4 基于MTWG的短周期特征检测模型 Fig. 4 Abnormal behavior detection of short-term characteristics based on MTWG
4.3 多模型融合

最后,本文提出LMIM模型,对LSPIF和MTWG的输出结果进行有效融合。具体地,将两种模型对用户行为给出的异常得分采用加权平均的方式计算得到总的异常得分。首先对两种模型计算的异常评分进行归一化处理,使两个模型的计算结果的取值范围都在[0, 1]区间。依据两个模型异常行为检测的准确率对异常评分进行加权,得到LMIM模型最终的异常评分SLMIM

$ S_{\mathrm{LMIM}}=S_{\mathrm{LSPIF}} \times \frac{P_{\mathrm{L}}}{P_{\mathrm{L}}+P_{\mathrm{S}}}+S_{\mathrm{MTWG}} \times \frac{P_{\mathrm{S}}}{P_{\mathrm{L}}+P_{\mathrm{S}}}, $ (8)

式中:PL是长周期特征检测模型LSPIF异常行为检测的准确率;而PS是短周期特征检测模型MTWG异常行为检测的准确率。另外,判决阈值也需要同样的加权处理。

5 实验验证 5.1 实验环境

为了验证本文提出的LSPIF模型、MTWG模型、LMIM模型在异常行为检测任务中的性能,本文采用Python语言,使用sklearn.ensemble库中的IsolationForest模块实现LSPIF模型,并使用torch库中的GRU模块实现MTWG模型。实验运行的操作系统为Windows10,CPU为Intel(R) Core(TM) i5-10500 CPU@3.10 GHz,内存为16.0 GB,硬盘为1 TB固态硬盘。

5.2 实验数据集

根据能源大数据平台的运行情况,对日志数据进行清理,剔除明显无关的数据,并对日志数据进行整理,依据隐私保护的要求对敏感数据进行脱敏,根据用户类别对数据进行标签处理,最终得到数据集共21 600条。通过对数据集的分析,数据集中基本没有异常数据,故将所有数据标为正常数据。这也符合异常样本高度不平衡的预期。为了测试所提模型性能,将数据集中三分之二的数据作为训练数据集,其余数据作为测试数据集。

一方面,为训练LSPIF模型,将训练数据集中的数据按周分割后,分别训练对应的孤立森林模型;另一方面,为实现MTWG模型的训练,设定训练次数为1 500次,优化器学习率/步长因子为0.000 1。此外,将训练数据集中的数据按5 min、10 min、15 min进行序列划分,并对模型进行训练。

5.3 LSPIF模型性能

首先需要确定LSPIF模型中M值的大小。因为没有异常数据进行测试,选取公众类与内部类用户数据中的10%,随机扰动生成该类用户的异常数据。在其他实验参数固定的情况下,分别采用1~6周长周期特征为公众类与内部类用户构建LSPIF模型并进行性能测试。在训练时,采用正常样本进行模型训练。在测试时,采用全部样本进行测试。实验结果如图 5所示。指标为准确率(precision,P),召回率(recall,R),综合评价指标F值(F1-score,F1)与精度(accuracy,ACC)。

图 5 公众类LSPIF模型在不同周数下的性能对比 Fig. 5 Performance comparison of LSPIF models on public clients using different weeks of long-term characteristics

从图中可以看出,当选取4周的长周期特征时,模型就能达到较好的效果。同时,实验结果表明,能源大数据平台用户一个月的使用数据可以有效表达用户的行为习惯,从侧面说明了用户的使用习惯的改变,一般都与工作日有关。当长周期特征数量为4周以上时,效果并没有很大的提升。因此,在后续实验中,本文选择4周作为最佳的长周期特征数量。

5.4 MTWG模型性能

为了验证MTWG的性能,本文分别对公众用户数据与内部用户数据用基于5 min、10 min、15 min时间窗口内的短周期特征序列数据训练各自的通用GRU模型,然后用全部数据训练本文提出的MTWG模型,并对相关结果进行对比。图 6展示了内部用户数据的对比结果,可以看出MTWG在各项评价指标上相比通用模型有较大优势,体现了基于多时间窗口融合判决更能体现用户在业务行为上的特点。

图 6 内部用户数据在不同时间间隔指标下MTWG模型与通用GRU模型对比 Fig. 6 Comparison of MTWG model and general GRU models for internal user data with different time intervals
5.5 用户类别对LMIM模型的影响

LMIM模型考虑了能源大数据平台用户类型多样的特性,对不同类型的平台用户进行分类建模。而传统的异常检测框架是不区分用户类别的。为检验专用LMIM模型的优势,本文建立了一个通用LMIM模型作为基线模型。具体地,将平台中公众与内部两类用户的所有数据混合在一起,并以此训练通用LMIM模型。

图 7图 8展示了公众与内部两类用户数据在LSPIF与MTWG测试的结果,图 9展示了公众与内部两类用户数据在LMIM测试的结果,对应数据如表 3所示。测试结果表明,所提专用模型在各项评价指标上均优于通用模型。公众类LMIM的F1为96.57%,内部类LMIM的F1为97.15%,而对比的通用LMIM的F1为87.19%,说明了本文基于能源大数据平台用户分类的先验知识构建的专用检测模型对异常行为有较好的准确率和精度。

图 7 通用LSPIF模型和专用LSPIF模型对比 Fig. 7 Comparison between general LSPIF models and dedicated LSPIF models

图 8 通用MTWG模型和专用MTWG模型对比 Fig. 8 Comparison between general MTWG models and dedicated MTWG models

图 9 通用LMIM模型和专用LMIM模型对比 Fig. 9 Comparison between general LMIM models and dedicated LMIM models

表 3 不同LMIM模型对比 Tab. 3 Comparison of different LMIM models  
5.6 模拟演练测试

结合攻防演练的实际经验,以1.2节的各种攻击模式对平台进行模拟攻击,在一周内,利用合法用户身份进入平台,对平台进行了多次测试,测试结果如下。

测试一:进入平台后,在平台内随机访问目标。共模拟了三个正常用户,在平台内进行随机点击,每次点击时长不定,次数不定,共形成32条数据,测试结果均能发现异常。

测试二:更换上机环境,进入平台,在平台内随机访问目标。模拟了两个用户,一个用户在家中完成正常的业务工作,形成两条数据;一个用户在网吧,随机访问平台内容形成三条数据。测试结果均能发现异常。

测试三:进入平台后,利用采集工具下载平台数据,形成数据11条,测试结果均能发现异常。

测试四:进入平台后,在平台内选择非该用户经常关心的数据。共模拟了五个用户,以三个公众用户的角色,多次访问光伏、煤炭与行业报告等主题数据;以一个政府用户,多次访问充电桩数据等;以一个企业用户,多次访问公司数据,共形成数据15条,测试结果均能发现异常。

测试五:以管理员角色进入平台,在平台内下载数据,改普通用户的用户密码、权限,形成数据两条,测试发现异常。

本文所提检测框架均能顺利发现异常。说明本文所提检测框架不仅可用于平时的用户异常行为发现,亦对异常行为的发现有效。

5.7 检测框架测试实验

通过以上实验结果分析,本文检测框架能够检测出用户长周期特征的异常与短周期特征的异常。为了增强对异常的细节判断,设计综合决策器。即将监测到的数据,由分发器同时输给训练好的专用LMIM模型,由综合决策器对四类用户输出的四种异常检测结果进行综合决策,以判定该类别用户是否关心了其他用户的数据。

对一个公众用户数据的部分判断过程示例如表 4所示。如果一个公众用户数据被公众LMIM输出为正常,而被其他LMIM输出为异常,表明这是一个正常的公众用户;如果一个公众用户数据被公众LMIM输出为异常,且被其他LMIM也输出为异常,表明该公众用户有异常行为但威胁等级低;如果一个公众用户数据被公众LMIM输出为异常,而被某个其他LMIM输出为正常,表明有可能是假冒行为且威胁等级为中;如果一个公众用户数据被公众LMIM输出为异常,而被内部LMIM输出为正常,表明有假冒行为且威胁等级高;如果一个内部用户出现异常,则将会判定为高威胁等级,具体不再示例分析。

表 4 公众用户行为异常检测判断示例 Tab. 4 Example of detecting abnormal public user behaviors

由于每个专用LMIM模型输出有三个结果可供分析,分别是LSPIF检测结果、MTWG检测结果与LMIM检测结果。当判断一个用户的行为异常后,可以读取LSPIF、MTWG的检测结果对异常进行进一步细分类。因为LSPIF和MTWG分别对长周期特征和短周期特征进行异常行为检测。例如一个用户行为异常,同时LSPIF异常,而MTWG正常,则有可能是由于更换工作环境而产生的异常。

6 结语

本文提出一种面向能源大数据平台的多模型融合的用户异常行为检测方法,采用LSPIF对用户长周期特征建模,采用MTWG对短周期特征建模,最后融合LSPIF模型与MTWG模型的检测结果,形成LMIM模型。本文构建了一个基于用户类别的异常行为检测框架,细化了对异常行为的分类,提升了对异常行为的处理效率。利用能源大数据平台的数据与生成的测试数据对方法的有效性进行验证,公众类LMIM和内部类LMIM异常行为检测的精度分别为97.43%、97.87%,基于用户类别的异常行为检测框架对仿冒用户的识别率可以达到95%以上,提高了异常处理效率,证明了本文方法的有效性。未来会对模型效率进行优化,对用户异常数据进行连续分析,实现对在线数据的异常行为检测。

参考文献
[1]
王圆圆, 白宏坤, 李文峰, 等. 能源大数据应用中心功能体系及应用场景设计[J]. 智慧电力, 2020, 48(3): 15-21.
WANG Y Y, BAI H K, LI W F, et al. Function system and application scenario design of energy big data application center[J]. Smart power, 2020, 48(3): 15-21. (0)
[2]
陈清清, 苏盛, 畅广辉, 等. 电力信息物理系统内部威胁研究综述[J]. 南方电网技术, 2022, 16(6): 1-13.
CHEN Q Q, SU S, CHANG G H, et al. Review on the research of insider threat of cyber physical power system[J]. Southern power system technology, 2022, 16(6): 1-13. (0)
[3]
郭世泽, 张磊, 潘雨, 等. 内部威胁发现检测方法研究综述[J]. 数据采集与处理, 2022, 37(3): 488-501.
GUO S Z, ZHANG L, PAN Y, et al. Survey on insider threat detection method[J]. Journal of data acquisition and processing, 2022, 37(3): 488-501. (0)
[4]
郭军利, 许明洋, 原浩宇, 等. 引入内生安全的零信任模型[J]. 郑州大学学报(理学版), 2022, 54(6): 51-58.
GUO J L, XU M Y, YUAN H Y, et al. Introduction of endogenous security of zero trust model[J]. Journal of Zhengzhou university (natural science edition), 2022, 54(6): 51-58. DOI:10.13705/j.issn.1671-6841.2022085 (0)
[5]
李益发, 孔雪曼, 耿宇, 等. 零信任体系架构的可跨域连续身份认证[J/OL]. 郑州大学学报(理学版): 1-7[2024-04-07]. https://doi.org/10.13705/j.issn.1671-6841.2023035.
LI Y F, KONG X M, GENG Y, et al. Cross-domain continuous identity authentication of zero trust architecture[J/OL]. Journal of Zhengzhou university(natural science edition): 1-7[2024-04-07]. https://doi.org/10.13705/j.issn.1671-6841.2023035. (0)
[6]
NASIR R, AFZAL M, LATIF R, et al. Behavioral based insider threat detection using deep learning[J]. IEEE access, 2021, 9: 143266-143274. (0)
[7]
周娅, 李赛. 基于分层欠采样和Bi-GRU的恶意行为检测模型[J]. 计算机工程与设计, 2022, 43(2): 413-419.
ZHOU Y, LI S. Toxic behavior detection based on hierarchical undersampling and Bi-GRU network[J]. Computer engineering and design, 2022, 43(2): 413-419. (0)
[8]
周建国, 戴华, 杨庚, 等. 基于并列GRU分类模型的日志异常检测方法[J]. 南京理工大学学报, 2022, 46(2): 198-204.
ZHOU J G, DAI H, YANG G, et al. Log anomaly detection method based on parallel GRU classification model[J]. Journal of Nanjing university of science and technology, 2022, 46(2): 198-204. (0)
[9]
GUAN W L, ZHANG D L, YU H, et al. Customer load forecasting method based on the industry electricity consumption behavior portrait[J]. Frontiers in energy research, 2021, 9: 742993. (0)
[10]
LIANG J F, LI T C, FAN H, et al. Construction of operation portraits based on a cloud model for power distribution networks[J]. Frontiers in energy research, 2022, 10: 872028. (0)
[11]
CIUŁKOWICZ M, MISIAK B, SZCZEŚNIAK D, et al. The portrait of cyberchondria-a cross-sectional online study on factors related to health anxiety and cyberchondria in Polish population during SARS-CoV-2 pandemic[J]. International journal of environmental research and public health, 2022, 19(7): 4347. (0)
[12]
MIAO R M, LI B Q. A user-portraits-based recommendation algorithm for traditional short video industry and security management of user privacy in social networks[J]. Technological forecasting and social change, 2022, 185: 122103. (0)
[13]
郭渊博, 刘春辉, 孔菁, 等. 内部威胁检测中用户行为模式画像方法研究[J]. 通信学报, 2018, 39(12): 141-150.
GUO Y B, LIU C H, KONG J, et al. Study on user behavior profiling in insider threat detection[J]. Journal on communications, 2018, 39(12): 141-150. (0)
[14]
钟雅, 郭渊博, 刘春辉, 等. 内部威胁检测中用户属性画像方法与应用[J]. 计算机科学, 2020, 47(3): 292-297.
ZHONG Y, GUO Y B, LIU C H, et al. User attributes profiling method and application in insider threat detection[J]. Computer science, 2020, 47(3): 292-297. (0)
[15]
中国国家标准化管理委员会. 信息安全技术网络安全等级保护基本要求: GB/T 22239-2019[S]. 北京: 中国标准出版社, 2019.
National Standardization Administration Information security technology baseline for classified protection of cybersecurity: GB/T 22239-2019[S]. Beijing: Standards Press of China, 2019. (0)
[16]
徐焱, 贾晓璐. 内网安全攻防: 渗透测试实战指南[M]. 北京: 电子工业出版社, 2020: 33-90.
XU Y, JIA X L. Intranet security attack and defense: a practical guide to penetration testing[M]. Beijing: Publishing House of Electronics Industry, 2020: 33-90. (0)
[17]
CHEN W X, HELU X H, JIN C J, et al. Advanced persistent threat organization identification based on software gene of malware[J]. Transactions on emerging telecommunications technologies, 2020, 31(12): e3884. (0)
[18]
杨晓晖, 张圣昌. 基于多粒度级联孤立森林算法的异常检测模型[J]. 通信学报, 2019, 40(8): 133-142.
YANG X H, ZHANG S C. Anomaly detection model based on multi-grained cascade isolation forest algorithm[J]. Journal on communications, 2019, 40(8): 133-142. (0)
[19]
李新鹏, 高欣, 阎博, 等. 基于孤立森林算法的电力调度流数据异常检测方法[J]. 电网技术, 2019, 43(4): 1447-1456.
LI X P, GAO X, YAN B, et al. An approach of data anomaly detection in power dispatching streaming data based on isolation forest algorithm[J]. Power system technology, 2019, 43(4): 1447-1456. (0)
[20]
姬莉霞, 赵耀, 马郑祎, 等. 基于iForest-BiLSTM-Attention的数据库负载预测方法[J]. 郑州大学学报(理学版), 2022, 54(6): 66-73.
JI L X, ZHAO Y, MA Z Y, et al. Database workload prediction method based on iForest-BiLSTM-Attention[J]. Journal of Zhengzhou university (natural science edition), 2022, 54(6): 66-73. DOI:10.13705/j.issn.1671-6841.2022111 (0)
[21]
AL-KAHTANI M S, MEHMOOD Z, SADAD T, et al. Intrusion automation in the Internet of Things using fusion of GRU-LSTM deep learning model[J]. Intelligent automation & soft computing, 2023, 37(2): 2279-2290. (0)