2. 青海师范大学 计算机学院, 西宁 810008
针对Web用户信息的安全问题,提出了一种主客观相结合的用户行为信任评估模型.通过熵权法确定客观权重,通过层次分析法确定主观权重,进一步得到优化的集成权重.通过引入基于滑动窗口的长期量化评估机制和对不同类型证据的无量纲化处理,最终计算出用户行为的信任评估值.实际应用和理论分析结果表明,该模型在满足主、客观相对平衡的优化条件下,可以更准确地得出单次和长期用户行为的信任评估值,对诸如电子商务、网络金融等关键网络应用用户行为的高可靠性判断奠定了坚实的理论和实践基础.
2. School of Computer Science and Technology, Qinghai Normal University, Xining 810008, China
Aiming at the safety problem of the web user information, proposed a subjective and objective method of user behavior trust evaluation model. Using the entropy-weight-method to calculate the objective weight and analytic-hierarchy-process to determine the subjective weight, then combining the previous two results to further calculate the integrated weights with optimal balance, also introduced long-term quantitative evaluation mechanism based on the Sliding Window. Finally, through the dimensionless treatment of various type evidences and get the final user-behavior trust evaluation value. The theoretical analysis and practical application show that the model can meet the subjective and objective relative balance optimization conditions, and can get more accurate user behavior trust evaluation value for each-time and long-time interaction. It lays the solid foundation of theory and practice for high reliable analysis of user behavior in key network application such as e-commerce and online bank.
信息技术的迅猛发展对网络安全提出了更高的挑战,原有的静态的用户身份认证出现诸如账号被盗、丢失等问题,需要对用户行为进行信任分析.林闯等[1]提出了可信网络的概念,但并没有提出具体高效的用户行为分析方法.冀铁果等[2]和马军煜等[3]分别提出了基于层次分析法(AHP, analytic hierarchy process) 的用户行为评估方法和基于模糊决策分析的用户行为评估方法,但是这两种方法并没有考虑到真实证据的实际变化规律,可靠性能较低.郭树凯等[4]提出了基于三角模糊数的模糊AHP,但该评估方法仅仅使用了一次的用户行为证据,用户行为评估的安全性能低.文献[5-9]建立了动态评估的用户行为模型,但是该类模型的运算性能不高导致推广价值不高.
笔者借鉴上述相关研究成果提出了熵权法和AHP最优化结合的动态滑动窗口模型.该模型可以有效地弱化人的主观因素的影响,使得用户行为的信任评估能够满足主客观的相对平衡.
1 用户行为信任评估架构目前在评估用户行为信任值时,大部分仅使用用户最近一次的行为所产生的数据来进行评价,这种方法所得出的结果不完全合理、不完全可信.
笔者对用户行为信任的评估是基于长期用户访问的信任评估结果的动态更新与综合,把用户行为信任评估过程看成是一个滑动窗口模型,一次用户行为信任评估所包含的行为次数即为整个窗口的大小,分为最新用户行为和有价值的历史用户行为;总的行为次数N由系统管理员设定,当一次用户行为信任评估完成后,整个窗口向前滑动一个单位.
2 用户行为证据用户行为证据是指用户行为的具体表现形式.如何获得合理的、可靠的以及大量的用户行为证据值是用户行为信任评估中最基础的部分,文献[10-11]中给出了常用的证据获取方法,如Bandwidthd、RealSecur、Web日志文件等.
用户行为证据在采集的时候,每项用户行为证据的单位都不同.为了能正确地反映这些用户行为证据代表的客观规律,必须让每一项用户行为证据的量纲一致,采用文献[2]中给出的求用户行为证据无量纲的方法.
3 AHP和熵权法最优化结合算法 3.1 使用熵权法求客观权重1) 先取滑动窗口中第j次行为的第i项用户行为证据对应的无量纲化证据δij,然后计算滑动窗口总共N次行为的第i项用户行为证据所对应的无量纲化证据的总和
$ {P_{ij}} = \frac{{{\delta _{ij}}}}{{\sum\limits_{j = 1}^n {} }}{\delta _{ij}}, i = 1, 2, \cdots, M, j = 1, 2, \cdots, N $ | (1) |
2) 计算滑动窗口中第i项行为证据的熵值ei:
$ {e_i} =-K\sum\limits_{j = 1}^n {{P_{ij}}} {\rm{In}}{P_{ij}}, K = 1/{\rm{In}}\;N, j = 1, 2, \cdots, N $ | (2) |
3) 通过熵值计算每一项行为证据的熵权ci:
$ {c_i} = \frac{{1-{e_i}}}{{M-\sum\limits_{i = 1}^M {{e_i}} }} $ | (3) |
通过式(3) 可以进一步将熵权归一化,这样可以求得用户行为信任评估中的客观权重集合为
1) 建立用户行为AHP模型,模型分为目标层、属性层和证据层3个层次,其中目标层指用户行为,属性层包括基础属性、活动属性和安全属性等,证据层指属性下的若干具体行为证据.
2) 先针对不同属性下的用户行为证据使用9级分制的方法进行两两因素的比较来构造判断矩阵,然后对获得的判断矩阵进行列规范化.
3) 所有用户行为证据在用户行为信任评估中的主观权重集合为
定理1 设主观权重集合为
证明 取集成权重集合为
$ \min \;z = \sum\limits_{i = 1}^M {[\alpha } {({\omega _{{\rm{IN}}i}}-{\omega _{{\rm{OB}}i}})^2} + \beta {({\omega _{{\rm{IN}}i}}-{\omega _{{\rm{SU}}i}})^2}] $ | (4) |
其中α、β≥0均为给定的常数.因为对于用户行为的信任评估应该尽可能的严格,则用户行为的整体用户行为信任评估值应该最小.又因为用户行为的整体用户行为信任评估值为
$ \sum\limits_{j = 1}^N {{u_j}} = \sum\limits_{j = 1}^N {\sum\limits_{i = 1}^M {{\delta _{ij}}} } {\omega _{{\rm{IN}}i}} $ | (5) |
根据式(4)、式(5) 和拉格朗日乘数法构造拉格朗日函数:
$ \begin{array}{l} F({\omega _{{\rm{IN}}1}}, {\omega _{{\rm{IN2}}}}, \cdots, {\omega _{{\rm{IN}}m}}, \lambda ) = \\ \sum\limits_{i = 1}^M {[\alpha } {({\omega _{{\rm{IN}}i}}-{\omega _{{\rm{OB}}i}})^2} + \beta {({\omega _{{\rm{IN}}i}}-{\omega _{{\rm{SU}}i}})^2}] + \\ \sum\limits_{j = 1}^N {\sum\limits_{i = 1}^M {{b_{ij}}} } {\omega _{{\rm{IN}}i}} -2\lambda \left( {\sum\limits_{i = 1}^M {{\omega _{{\rm{IN}}i}} -1} } \right) \end{array} $ |
其中λ为拉格朗日因子.令
$ \left\{ \begin{array}{l} (\alpha + \beta ){\omega _{{\rm{IN}}i}}-\lambda = \alpha {\omega _{{\rm{OB}}i}} + \beta {\omega _{{\rm{SU}}i}}-\frac{1}{2}\sum\limits_{j = 1}^N {{b_{ij}}}, \\ i = 1, 2, \cdots, M\\ \sum\limits_{i = 1}^M {{\omega _{{\rm{IN}}i}}} = 1 \end{array} \right. $ |
解这个方程组,得
$ \begin{array}{l} {\omega _{{\rm{IN}}i}} = \frac{\alpha }{{\alpha + \beta }}{\omega _{{\rm{OB}}i}} + \frac{\alpha }{{\alpha + \beta }}{\omega _{{\rm{SU}}i}} + \\ \frac{1}{{2(\alpha + \beta )}}\left( {\frac{1}{M}\sum\limits_{j = 1}^N {\sum\limits_{i = 1}^M {{b_{ij}}} }-\sum\limits_{j = 1}^N {{b_{ij}}} } \right) \end{array} $ |
记
$ {b_i} = \frac{1}{M}\frac{1}{M}\sum\limits_{j = 1}^N {\sum\limits_{i = 1}^M {{b_{ij}}} }-\sum\limits_{j = 1}^N {{b_{ij}}} $ | (6) |
则
$ {\omega _{{\rm{IN}}i}} = \frac{1}{{\alpha + \beta }}\left( {\alpha {\omega _{{\rm{OB}}i}} + \beta {\omega _{{\rm{SU}}i}} + \frac{1}{2}{b_i}} \right) $ | (7) |
由式(6) 和式(7),可以得到
$ \begin{array}{l} \sum\limits_{i = 1}^M {{\omega _{{\rm{IN}}i}}} = \frac{1}{{\alpha + \beta }}\left( {\sum\limits_{i = 1}^M {{\omega _{{\rm{OB}}i}}} + \sum\limits_{i = 1}^M {{\omega _{{\rm{SU}}i}}} + \frac{1}{2}\sum\limits_{i = 1}^M {{b_i}} } \right) = \\ \frac{1}{{\alpha + \beta }}(\sum\limits_{i = 1}^M {{\omega _{{\rm{OB}}i}}} + \sum\limits_{i = 1}^M {{\omega _{{\rm{SU}}i}}} + \\ \frac{1}{2}(M\frac{1}{M}\sum\limits_{j = 1}^M {\sum\limits_{i = 1}^M {{b_{ij}}} }-\sum\limits_{i = 1}^M {\sum\limits_{j = 1}^M {{b_{ij}}} } )) = \\ \frac{\alpha }{{\alpha + \beta }} + \frac{\beta }{{\alpha + \beta }} = 1 \end{array} $ |
现在判断ωINi值的大小,首先取α+β=1,因为在信任评估中主客观权重一样重要,所以α和β的值都为0.5.通过熵权法和AHP分别得到主、客观权重后,将α、β、ωOBi、ωSUi、bi代入式(7) 求得集成权重集合,如果ωINi≥0,那么结论正确;如果有ωINi < 0,那么应该进行进一步处理:由于ωOBi、ωSUi、bi都是常数,如果按一样的比例慢慢扩大α和β,即α*=xαβ*=xβ(x为扩展因子),并且α*+β*>1,那么αωOBi+βωSUi的值会越来越大,而bi的值保持不变,则肯定会有一个扩展因子x使得ωINi≥0,但使用这种方法对那些ωINi < 0的集合元素都进行处理,可以得到一个扩展因子集x∈{x1, x2, …xt},取其中的最大值xmax,得到α*=xmaxα,β*=xmaxβ,将新获得的α*和β*代入式(7) 中,可以重新得到所有ωINi≥0的集成权重集合.
综上所述,存在客观偏离度α和主观偏离度β使得集成权重既充分考虑了主观和客观的相对平衡,又能够让每一项用户行为证据的权重大于0,且权重和为1,证毕.
定理2 当某用户的一次危险用户行为中导致该行为异常的第k项非安全型证据的权重为ωDINk时,设该用户的可信行为中的第k项非安全型证据的权重为ωTINk,则ωTINk < ωDINk.
证明 为了证明方便,首先解释安全型证据和非安全型证据,当用户行为的某项用户行为证据值越大时,如果经过无量纲化之后的无量纲化证据越小,那么该证据称为非安全型证据,反之称为安全型证据.取用户某次被评估为可信的行为和这次行为的前N-1次历史行为,从数据库中删除这次可信行为的用户行为证据记录,重新在这次可信行为的前N-1次历史用户行为的基础上,模拟一次异常用户行为,即第N次用户行为变为危险用户行为,该异常用户行为的第k项非安全型证据出现异常,这样就可以得到2种不同的情况.通过式(7),当第N次用户行为是可信行为时,第k项非安全型证据的权重为
$ {\omega _{{\rm{TIK}}k}} = \frac{1}{{\alpha + \beta }}\left( {\alpha {\omega _{{\rm{OB}}k}} + \beta {\omega _{{\rm{SU}}k}} + \frac{1}{2}{b_k}} \right) $ | (8) |
当第N次用户行为是危险用户行为时,第k项非安全型证据的权重为
$ {\omega _{{\rm{DIN}}k}} = \frac{1}{{\alpha + \beta }}\left( {\alpha \omega {'_{{\rm{OB}}k}} + \beta {\omega _{{\rm{SU}}k}} + \frac{1}{2}b{'_k}} \right) $ | (9) |
主观权重不会改变,即ωSUk的值不变,因此只需要关注其余2个变量的改变,则式(8) 和式(9) 相减等号右边可以简化为ωOBk-ω′OBk+bk-b′k,假设第N次用户行为是可信行为时,第N次用户行为的第k项用户行为证据的无量纲化证据为ak,可以知道当第N次用户行为是危险用户行为时,第k项用户行为证据的无量纲化证据变为a′k=ak-Δμ, 0 < Δμ < ak.先分析ωOBk-ω′OBk,当用户行为可信时,表明这次用户行为符合行为习惯,用户第N次用户行为的第k项用户行为证据的无量纲化证据和N-1次历史用户行为的第k项用户行为证据的无量纲化证据的值基本一样,那么所有用户行为的第k项用户行为证据的比重
$ \begin{array}{l} {b_k}-b{'_k} = \frac{1}{M}\left( {\sum\limits_{j = 1}^N {\sum\limits_{i = 1}^M {{b_{ij}}} }-\sum\limits_{j = 1}^N {\sum\limits_{i = 1}^M {{b_{ij}}} } + \Delta \mu } \right) + \\ \left( {\sum\limits_{j = 1}^N {{b_{ij}}} + \Delta \mu } \right)-\sum\limits_{j = 1}^M {{b_{ij}}} = - \frac{{M - 1}}{M}\Delta \mu \end{array} $ |
综上所述,ωOBk-ω′OBk+bk-b′k < 0即ωTINk < ωDINk,证毕.
该定理表明当用户行为趋于危险时,导致该异常的非安全型证据的权重会在用户行为信任评估中占据主导作用.
3.3 计算集成权重当主观权重集合为
$ \begin{array}{l} {\omega _{{\rm{IN}}i}} = \frac{\alpha }{{\alpha + \beta }}{\omega _{{\rm{OB}}i}} + \frac{\beta }{{\alpha + \beta }}{\omega _{{\rm{SU}}i}} + \\ \frac{1}{{2(\alpha + \beta )}}\left( {\frac{1}{M}\sum\limits_{j = 1}^N {\sum\limits_{i = 1}^M {{b_{ij}}} }-\sum\limits_{j = 1}^N {{b_{ij}}} } \right) \end{array} $ | (10) |
通过上述过程可以获得用户最新一次需评估用户行为的无量纲化证据和本次用户行为信任评估的各用户行为证据的集成权重集合,令无量纲化证据集合为D={d1, d2, …dM},集成权重集合为ωINi={ωIN1, ωIN2, …ωINM},则按照式(11) 可以获得最终用户行为信任评估值.
$ E = {d_1}{\omega _{{\rm{IN1}}}} + {d_2}{\omega _{{\rm{IN2}}}} + \cdots + {d_M}{\omega _{{\rm{IN}}M}} $ | (11) |
实验通过自己开发的集购买、下载、查询等于一体的图书类电子商务网站,获取真实数据,其中获得的用户行为证据总共有17种:1) 计算机系统版本历史出现率用XTBB表示;2) 计算机系统类型历史出现率用XTLX表示;3) 浏览器类型历史出现率用LLQ表示;4) IP历史出现率用IPLS表示;5) 地理位置历史出现率用DLWZ表示;6) 用户计算机屏幕分辨率历史出现率用DNPM表示;7) 输入用户名和密码的退格数用TGS表示;8) 输入密码的错误次数用MMCS表示;9) 输入用户名错误次数用YHM表示;10) 银行账号历史出现率用YHZH表示;11) 购物总值信任值用GWZZ表示;12) 购买图书次数用TSCS表示;13) 下载图书次数用XZCS表示;14) 下载图书流量用XZLL表示;15) 访问敏感服务次数用MGCS表示;16) 用户退出信任值用YHTC表示;17) 登录时间信任值用DLSJ表示.其中安全型证据包括1)~6)、10)~12)、16)~17),其他是非安全型证据.
在本实例分析中,设N=8,S=500,即滑动窗口的大小为8次用户行为,总实验量为500次.另外,用户行为信任阈值设定为0.9、0.4,用户行为信任评估值E表示,当0.9 < E≤1时为可信行为,0.4 < E≤0.9时为危险行为,0≤E≤0.4时为恶意行为.根据3.2节可得本次主观权重ωSUi={0.012,0.009,0.025,0.097,0.097,0.057,0.059,0.123,0.176,0.028,0.085,0.014,0.014,0.041,0.102,0.039,0.022}.另外,系统在每次用户退出后产生一个无量纲化矩阵,如表 1所示.
通过该矩阵以及熵权法,可以求得客观权重ωOB={0,0,0,0.05,0.05,0,0.053,0.074,0.098,0.067,0.156,0.066,0.143,0.089,0.055,0,0.1},然后按照集成算法可以得到集成权重ωIN={0.001 53,0.000 03,0.008 03,0.077 22,0.077 22,0.024 03,0.055 41,0.099 91,0.138 41,0.051 21,0.123 14,0.042 11,0.080 96,0.065 53,0.079 44,0.015 03,0.061 27},最后再结合式(11) 可以得到本次用户行为信任评估值E≈0.398 5.因为在最新行为中用户有较多的危险行为,所以该信任评估值符合实际情况.
4.2 用户行为信任评估的算法对比分析本算法的中心思想是综合主观权重和客观权重来更好地反映用户行为的变化,现在将4.1节所述过程中获得的300次证据集的结果平均值进行集成权重和主观权重对比,结果如图 1所示.
当用户下载了过多次数的书籍、登录时间也不在习惯登录时间内且其无量纲化证据的值都相当小时,代表着用户行为已经比较异常.而从图 1中可以发现,在点13和点17处2个算法的权重值变化相差较大(点13代表下载次数,点17代表登录时间信任值),再结合3.2节的分析和算法的性质,则集成算法的变化更加准确;另外,这2个算法在其他点的趋势以及权重值差别变化不大,表明了集成算法依旧符合AHP的主观性.
5 结束语通过最优化模型将主客观权重有机结合在一起,并引入了基于长期用户访问的滑动窗口,使得信任评估结果既符合人的主观经验又体现了用户行为证据的实际变化规律,可以准确地、有效地分辨恶意和危险的用户行为.同时,通过与AHP的比较,该集成算法可以在符合主观经验的基础上进一步反映用户行为证据的客观变化,结果更加合理和可靠.
[1] |
林闯, 田立勤, 王元卓. 可信网络中用户行为可信的研究[J]. 计算机研究与发展, 2008, 45(12): 2033–2043.
Lin Chuang, Tian Liqin, Wang Yuanzhuo. Research on trustworthiness of user behavior in trusted networks[J]. Computer Research and Development, 2008, 45(12): 2033–2043. |
[2] |
冀铁果, 田立勤, 胡志兴, 等. 可信网络中一种基于AHP的用户行为评估方法[J]. 计算机工程与应用, 2007, 43(19): 123–127.
Ji Tieguo, Tian Liqin, Hu Zhixing, et al. A user behavior assessment method based on AHP in trusted network[J]. Computer Engineering and Applications, 2007, 43(19): 123–127. |
[3] |
马军煜, 赵知劲, 叶学义. 基于模糊决策分析的可信网络用户行为评估[J]. 计算机工程, 2011, 37(13): 125–128.
Ma Junyu, Zhao Zhijin, Ye Xueyi. Evaluation of user behavior in trusted networks based on fuzzy decision analysis[J]. Computer Engineering, 2011, 37(13): 125–128. |
[4] |
郭树凯, 田立勤, 沈学利. FAHP在用户行为信任评价中的研究[J]. 计算机工程与应用, 2011, 4(12): 59–61.
Guo Shukai, Tian Liqin, Shen Xueli. Research on FAHP in user behavior trust evaluation[J]. Computer Engineering and Applications, 2011, 4(12): 59–61. |
[5] | Li Wen, Ping Lingdi, Lu Kuijun, et al. Trust model of users behavior in trustworthy internet[C]//Proc of 2009 WASE Int Conf on Information Engineering. Piscataway, NJ:IEEE, 2009:403-406. |
[6] | Liu Wu, Ren Ping, Liu Ke, et al. User cooperation trust model and its application in network security management[C]//Proc of 2011 Eighth Int Conf on Fuzzy Systems and Knowledge Discovery (FSKD). Piscataway, NJ:IEEE, 2011:2335-2339. |
[7] | Brosso I, La Neve A, Bressan G, et al. A continuous authentication system based on user behavior analysis[C]//Proc of 2010 Int Conf on Availability, Reliability, and Security. Piscataway, NJ:IEEE, 2010:380-385. |
[8] | Tzu-Yu Chuang. Trust with social network learning in E-commerce[C]//Proc of 2010 IEEE International Conference on Communications Workshops.[S.l.]:[s.n.], 2010:1-6. |
[9] | Noor T H, Sheng Q Z, Alfazi A. Reputation attacks detection for effective trust assessment among cloud services[C]//Proc of 201312th IEEE International Conference on Trust, Security and Privacy in Computing and Communications.[S. l.]:[s. n.], 2013:469-476. |
[10] | http://cn.bing.com/academic/profile?id=28e99f96f2e1edaf68d9b236373359aa&encoded=0&v=paper_preview&mkt=zh-cn |
[11] |
田俊峰, 曹迅. 基于多部图的云用户行为认定模型[J]. 计算机研究与发展, 2014, 51(10): 2308–2317.
Tian Junfeng, Cao Xun. Multi-Partition-based cloud user behavior recognition model[J]. Computer Research and Development, 2014, 51(10): 2308–2317. |