2. 南京邮电大学 通信与网络技术国家工程研究中心, 南京 210003;
3. 苏州大学 江苏省计算机信息处理技术重点实验室, 江苏 苏州 215006
提出了一种基于移动社交环境的用户行为多重分析与最优预测算法.首先,针对目标用户所属的各个社交群组,分别建立基于代表度的最优化模型,选择出任一社交群组内最具代表的关联用户,以分析目标用户在不同社会属性下的业务行为;特别地,代表度由基于Kendall系数的相似度和基于交互统计的交互度联合构成;其次,借助Apriori理论分别对目标用户和各最具代表的关联用户进行关联分析,并提出基于最小二乘模型的加权融合方法,以最优地融合上述关联分析结果且实现用户行为的精准预测.仿真结果验证了该算法的有效性.
2. National Engineering Research Center of Communications and Networking, Nanjing University of Posts and Telecommunications, Nanjing 210003, China;
3. Provincial Key Laboratory for Computer Information Processing Technology, Soochow University, Suzhou 215006, China
A multiple analysis and optimal prediction algorithm of user behaviors based on mobile social environment is proposed. First, for each social group of a target user, an optimization model based on representativeness degree is formulated to select the most representative correlated user from this social group for analyzing the service behaviors of target user caused by the corresponding social attribute; particularly, the representativeness degree consists of Kendall coefficient based similarity degree and interaction statistics based interaction degree. Second, by using Apriori theory, the correlation analyses for target user and its most representative correlated users are performed respectively, and then a least-square model based weighted fusion method is presented to integrate the above correlation analysis results optimally and predict user next behaviors accurately. Extensive simulation results verify the effectiveness of proposed algorithm.
在实际生活中,个人的行为均是复杂而动态的,其背后动机源于个人的社会属性.从唯物论观点看,人的本质在于其社会性,即人是一切社会关系的总和.故个人的行为规律受到其所属各社会属性的联合支配,可视作各社会属性下行为规律以某种方式的综合.举个简单例子,设某用户为青年男性白领,以年龄、性别和职业而言,该用户分属于青年群体、男性群体和白领群体.若工作日在公司,该用户受限于环境与身份,其行为很大程度趋同于白领群体的行为规律,如浏览网页查询资料;若周末在家,用户身心得到放松,其行为很大程度趋同于青年群体或男性群体的行为规律,如在线游戏或视频点播.
然而,个人的社会属性均是多层次,且多维度的,如何获取和如何分析都是非常困难的.用户的移动社交环境[1-2]提供了非常便捷的突破口,每个用户均加入了不同的社交群组,如不同的微信群.这些社交群组往往代表了用户的某个社会属性(同学群、工作群、娱乐群等),能够独立地反映出用户行为的某个侧面.故应对不同用户群体展开研究,分析各群体的属性特征及行为规律,进而为目标用户的行为预测提供依据,从而推动基于用户行为预测的个性化业务推荐系统的发展.
当前,用户行为分析和预测研究可分为用户群体研究[3-5]和用户个体研究[6-8].然而,上述研究均未从用户所在群体考虑其社会属性,更未从不同社会属性联合考虑单个用户的行为规律.因此,提出了一种基于移动社交环境的用户行为多重分析和最优预测算法,通过分析各个群体的业务行为规律来预测目标用户的业务行为.首先,针对目标用户所属的各个社交群组,分别建立基于代表度的最优化模型,选择出任一社交群组内最具代表的关联用户,以分析目标用户在不同社会属性下的业务行为;特别地,代表度由基于Kendall系数的相似度和基于交互统计的交互度联合构成.其次,借助Apriori理论,分别对目标用户和各最具代表性的关联用户进行关联分析,并提出基于最小二乘模型的加权融合方法,以最优地融合上述关联分析结果,且实现用户行为的精准预测.
1 网络场景与系统假设用户个体均具有多个社会属性,如职业、宗教、爱好、学历等,可看作上述社会属性的综合体.移动社交环境下,不同用户因具有某个或某些相同的社会属性,组成同一社交群组,群组内各成员会产生相似的业务行为.如图 1所示,目标用户根据不同社会属性加入相应的社交群组.任一群组的用户均可视为目标用户的关联用户,其行为规律反映出目标用户在仅遵循相应社会属性下的行为规律.因此,研究各群组中关联用户的行为即可实现对目标用户在不同社会属性下行为的研究.
![]() |
图 1 场景图 |
将综合利用目标用户自身的行为样本和各群组最优关联用户的行为样本用于目标用户的行为预测.首先,选出任一群组的最优关联用户以分析目标用户在相应社会属性下的业务行为.接着,分别基于各群组最优关联用户的行为历史做关联分析,各关联结果代表了目标用户仅遵循相应社会属性而产生的行为.由此,将各群组最优关联用户的关联结果综合起来即可实现目标用户行为的全面分析与精准预测.
在此场景下,假定目标用户的各社交群组事先给定,相互正交且互不重叠(无相同的关联用户).设目标用户
移动社交环境下,目标用户基于不同社会属性,加入相互独立的社交群组
假设
$\begin{eqnarray} &τ(\boldsymbol{\varGamma}_{o},\boldsymbol{\varGamma}_{me})=\\ &\frac{C-D}{\sqrt{\left(\frac{1}{2}Y(Y-1)-Y_{1}\right)\left(\frac{1}{2}Y(Y-1)-Y_{2}\right)}} \end{eqnarray}$ | (1) |
其中:
$\begin{eqnarray} Y_{1}=∑\limits^{t}_{i=1}\frac{1}{2}X_{i}(X_{i}-1) \end{eqnarray}$ | (2) |
其中:
基于Kendall系数的相似度反映出目标用户与关联用户之间历史行为的相似性,从目标用户行为固有规律的角度衡量关联用户的代表性.然而,用户在遵循其固有行为规律的基础上可能会受到外在影响与引导,使得下一业务行为产生随机变化.因此,即便目标用户与某关联用户的历史行为并不相似(行为固有规律不同),但因相互频繁交互,可能使得目标用户的业务行为受其影响而与其趋同.因此,需要构建目标用户与关联用户之间的交互度指标,从而反映出两者交互频繁程度,并从目标用户行为随机变化的角度衡量关联用户的代表性.
移动社交环境下,用户交互类型大致包括聊天、浏览、转发、点赞、评论等.笔者重点关注3种典型的交互类型:聊天、转发以及评论.由此,用户
$\begin{eqnarray} \bar{R}_{(o,me)}=γ_{1}ℓ^{1}_{(o,me)}+γ_{2}ℓ^{2}_{(o,me)}+γ_{3}ℓ^{3}_{(o,me)} \end{eqnarray}$ | (3) |
其中:
$\begin{eqnarray} ℓ^{1}_{(o,me)}=\frac{κ^{1}_{(o,me)}}{∑κ^{1}_{(o,me)}}\\ ℓ^{2}_{(o,me)}=\frac{κ^{2}_{(o,me)}}{∑κ^{2}_{(o,me)}}\\ ℓ^{3}_{(o,me)}=\frac{κ^{3}_{(o,me)}}{∑κ^{3}_{(o,me)}} \end{eqnarray}$ | (4) |
其中:
综合考虑相似度和交互度,利用式(5)建立代表度指标,以全面地衡量各关联用户对目标用户业务行为的代表性.由此可得用户
$\begin{eqnarray} G_{(o,me)}=τ(\boldsymbol{\varGamma}_{o},\boldsymbol{\varGamma}_{me})×\text{lb}_{2}(1+\bar{R}_{(o,me)}) \end{eqnarray}$ | (5) |
在此基础上,构建群组
$\begin{eqnarray} Q^{*}_{m}=\text{arg} \text{max}G_{(o,me)},∀Q_{me}∈\bar{Q}_{m} \end{eqnarray}$ | (6) |
其中:
在前述基础上,采用基于编码的二维Apriori方法[10]分析用户业务行为.在每个预测周期:一方面,目标用户基于当前自身行为,进行关联规则挖掘,得到所有以当前行为为起点的2项频繁关联规则;另一方面,各社交群组的最优关联用户分别基于自身行为进行关联规则挖掘,得到所有以目标用户当前行为为起点的2项频繁关联规则.这里,2项关联规则的关联项对应于先后发生的业务行为.假设目标用户的业务行为样本如表 1所示.通过支持度计算,先得到频繁1项集,进而得到频繁2项集.若目标用户的当前行为是
![]() |
表 1 目标用户的业务行为样本表 |
已知社交群集
$\begin{eqnarray} \bar{\boldsymbol{C}}(\boldsymbol{n})=\{\bar{C}_{0}(n),\bar{C}_{1}(n),…,\bar{C}_{M}(n)\} \end{eqnarray}$ | (7) |
采用加权融合方法,即可得到面向目标用户的最终预测结果:
$\begin{eqnarray} \bar{C}^{\text{F}}(n)=\{\bar{C}^{\text{F}}(n,1),\bar{C}^{\text{F}}(n,2),…,\bar{C}^{\text{F}}(n,L)\}′ \end{eqnarray}$ | (8) |
其中
$\begin{eqnarray} &\bar{C}^{\text{F}}(n,l)=ω_{0}\bar{C}_{0}(n,l)+ω_{1}\bar{C}_{1}(n,l)+…+\\ &ω_{M}\bar{C}_{M}(n,l) \end{eqnarray}$ | (9) |
其中
$\begin{eqnarray} P(n)=\{P(n,1),P(n,2),…,P(n,L)\}′ \end{eqnarray}$ | (10) |
其中状态
$\begin{eqnarray} &\varLambda(n)=\bar{C}^{\text{F}}(n)-P(n)=\\ &\sqrt{((\bar{C}^{\text{F}}(n,1)-P(n,1))^{2}+…+(\bar{C}^{\text{F}}(n,L)-P(n,L))^{2})} \end{eqnarray}$ | (11) |
显然,
$\begin{eqnarray} &[ω^{*}_{0},…,ω^{*}_{M}]=\text{argmin}(\varLambda^{2}(1)+\varLambda^{2}(2)+…+\varLambda^{2}(N))\\ &\text{s}.\text{t}. ω_{0}+ω_{1}+…+ω_{M}=1\\ &∀ω_{m}≥0 \end{eqnarray}$ | (12) |
求解上述模型,即可得到相应最优权值.具体求解过程如下:
1) 证明该模型为凸优化模型.其目标函数为
$\begin{eqnarray} &∑\limits^{N}_{n=1}\varLambda^{2}(n)=∑\limits^{N}_{n=1}∑\limits^{L}_{i=1}\left(∑\limits^{M}_{m=0}ω_{m}\bar{C}_{m}(n,i)-P(n,i)\right)^{2}=\\ &∑\limits^{N}_{n=1}∑\limits^{L}_{i=1}F_{n,i}(ω_{0},ω_{1},…,ω_{M}) \end{eqnarray}$ | (13) |
仅需考察
$\begin{eqnarray} &\frac{∂F_{n,i}}{∂ω_{0}}=2\left(∑\limits^{M}_{m=0}ω_{m}\bar{C}_{m}(n,i)-P(n,i)\right)\bar{C}_{0}(n,i)\\ &\frac{∂F_{n,i}}{∂ω_{1}}=2\left(∑\limits^{M}_{m=0}ω_{m}\bar{C}_{m}(n,i)-P(n,i)\right)\bar{C}_{1}(n,i)\\ &\frac{∂^{2}F_{n,i}}{∂ω_{0}∂ω_{1}}=2\bar{C}_{0}(n,i)\bar{C}_{1}(n,i)≥0\\ &\frac{∂^{2}F_{n,i}}{∂ω^{2}_{0}}=2\bar{C}^{2}_{0}(n,i)≥0 \end{eqnarray}$ | (14) |
以此类推,可知
2) 对于(等式约束的)凸优化模型,可用拉格朗日乘子法(KKT条件特例)求解其全局最优解.首先,松弛约束到目标函数,得
$\begin{eqnarray} &H=∑\limits_{∀n}∑\limits_{∀i}F_{n,i}(ω_{0},…,ω_{M})+α\left(-∑\limits^{M}_{m=1}ω_{m}+1\right)\\ &\text{s}.\text{t}. ∀ω_{m}≥0 \end{eqnarray}$ | (15) |
其中,
$\begin{eqnarray} \left. \frac{∂H}{∂ω_{0}}=0⇒∑\limits_{∀n}∑\limits_{∀i}2\left(∑\limits^{M}_{m=0}ω_{m}\bar{C}_{m}(n,i)-P(n,i)\right)×\\ \bar{C}_{0}(n,i)-α=0\\ \frac{∂Η}{∂ω_{1}}=0⇒∑\limits_{∀n}∑\limits_{∀i}2\left(∑\limits^{M}_{m=0}ω_{m}\bar{C}_{m}(n,i)-P(n,i)\right)×\\ \bar{C}_{1}(n,i)-α=0\\ ⋮\\ \frac{∂Η}{∂ω_{M}}=0⇒∑\limits_{∀n}∑\limits_{∀i}2\left(∑\limits^{M}_{m=0}ω_{m}\bar{C}_{m}(n,i)-P(n,i)\right)×\\ \bar{C}_{M}(n,i)-α=0\\ \frac{∂Η}{∂α}=0⇒ω_{0}+ω_{1}+ω_{2}+…+ω_{M}=1 \right. \end{eqnarray}$ | (16) |
那么,求解式(16),即应得到模型最优解.
$\begin{eqnarray} &\left[\begin{array}{c}ω_{0}\\⋮\\ω_{M}\end{array}\right]′=\left[\begin{array}{c} ∑\limits_{∀n}∑\limits_{∀i}P(n,i)A_{0}(n,i)\\ ⋮\\ ∑\limits_{∀n}∑\limits_{∀i}P(n,i)A_{M-1}(n,i)\\ 1\end{array}\right]′×\\ &\left[\begin{array}{c} ∑\limits_{∀n}∑\limits_{∀i}\bar{C}_{0}(n,i)A_{0}(n,i)&…&∑\limits_{∀n}∑\limits_{∀i}\bar{C}_{0}(n,i)A_{M-1}(n,i)&1\\ ⋮&&⋮&⋮\\ ∑\limits_{∀n}∑\limits_{∀i}\bar{C}_{M}(n,i)A_{0}(n,i)&…&∑\limits_{∀n}∑\limits_{∀i}\bar{C}_{M}(n,i)A_{M-1}(n,i)&1\end{array}\right]^{-1} \end{eqnarray}$ | (17) |
$\begin{eqnarray} \left\{ \begin{array}{l} A_{0}(n,i)=M\bar{C}_{0}(n,i)-\bar{C}_{1}(n,i)-…-\bar{C}_{M}(n,i)\\ A_{1}(n,i)=M\bar{C}_{1}(n,i)-\bar{C}_{0}(n,i)-…-\bar{C}_{M}(n,i)\\ ⋮\\ A_{M-1}(n,i)=M\bar{C}_{M-1}(n,i)-\bar{C}_{0}(n,i)-…-\bar{C}_{M}(n,i) \end{array} \right., \end{eqnarray}$ |
[·]′表示求向量转置,[·]
为验证提出的用户行为预测算法(PUBPA, proposed user behavior prediction algorithm),选取基于传统Apriori的用户行为预测算法(TAUBPA, traditional Apriori user behavior prediction algorithm)[12]和基于编码的二维Apriori用户行为预测算法(ATABUBPA, a two-dimensional Apriori based user behavior prediction algorithm)[10]用于性能比较.其中,TAUBPA从各社交群组分别选择1个关联用户,进而采用传统Apriori算法对其做关联分析,最后以平均加权方法融合各关联分析结果. ATABUBPA不考虑社交群组划分,从整个朋友圈中选择影响力最大的若干用户,进而采用基于编码的二维Apriori方法对其做关联分析,最后以基于影响力因子的加权方法融合各关联分析结果.在现实世界中以众包方式随机地选取目标用户,进而选择其微信朋友圈中
![]() |
图 2 PUBPA的预测准确性随 |
为验证PUBPA的预测性能,分别在
![]() |
图 3 3种算法随不同 |
为分析PUBPA的运行效率,给定
![]() |
图 4 3种算法在不同 |
提出了基于移动社交环境的用户行为多重分析和最优预测算法.首先,针对目标用户所属的各个社交群组,分别建立基于代表度的最优化模型,选择出任一社交群组内最具代表的关联用户,以分析目标用户在不同社会属性下的业务行为;特别地,代表度由基于Kendall系数的相似度和基于交互统计的交互度联合构成.其次,借助Apriori理论,分别对目标用户和最具代表的关联用户进行关联分析,并提出基于最小二乘模型的加权融合方法,以最优地融合上述关联分析结果,且实现用户行为的精准预测.仿真结果验证了提出算法的有效性.
[1] | Yang K, Cheng X Q, Hu L, et al. Mobile social networks:state-of-the-art and a new vision[J]. International Journal of Communication Systems, 2012, 25(10): 1245–1259. doi: 10.1002/dac.v25.10 |
[2] | Chan S Y, Hui P, Xu K. Community detection of time-varying mobile social networks[J]. Lecture Notes of the Institute for Computer Sciences, Social Informatics and Telecommunications Engineering, 2009(4): 1154–1159. |
[3] | Tan Ling, Zhang Shunyi, Wang Haoyun. A group trust mechanism based on user behaviors and policy trust in trustworthy routing systems[C]//2008 IEEE Pacific-Asia Workshop on Computational Intelligence and Industry Application. Wuhan:IEEE Press, 2008:548-552. |
[4] | Chis T, Harrison P G. Modeling multi-user behavior in social networks[C]//2014 IEEE 22nd International Symposium on Modeling, Analysis & Simulation of Computer and Telecommunication Systems. Paris:IEEE Press, 2014:168-173. |
[5] | Tang Fuxi, Liu Kejian, Feng Ling, et al. Research on the integration strategy of group recommendation based on user's interactive behaviors[C]//2016 IEEE International Conference on Cloud Computing and Big Data Analysis. Chengdu:IEEE Press, 2016:367-372. |
[6] | Song Yang, Hu Zheng, Leng Xiaoming, et al. Friendship influence on mobile behavior of location based social network users[J]. Journal of Communications and Networks, 2015, 17(2): 126–132. doi: 10.1109/JCN.2015.000026 |
[7] |
蔡国永, 张东, 林煜明, 等. 面向推荐多样性改进的概率传播模型[J]. 北京邮电大学学报, 2016, 39(3): 34–38.
Cai Guoyong, Zhang Dong, Lin Yuming, et al. Probabilistic spreading models for improving recommendation diversity[J]. Journal of Beijing University of Posts and Telecommunications, 2016, 39(3): 34–38. |
[8] | Awad M A, Khalil I. Prediction of user's web-browsing behavior:application of Markov model[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B:Cybernetics, 2012, 42(4): 1131–1142. doi: 10.1109/TSMCB.2012.2187441 |
[9] | Yin Jihao, Yu Wanke, Gu Z T, et al. Segmentation and classification of hyperspectral images using Kendall concordant coefficient[C]//2014 IEEE International Geoscience and Remote Sensing Symposium. Quebec City:IEEE Press, 2014:2894-2897. |
[10] | Wang Min, Zhang Hui, Yang Longxiang, et al. A two-dimensional Apriori based user prediction algorithm in mobile social environment[C]//2015 International Conference on Wireless Communications & Signal Processing (WCSP). Nanjing:IEEE Press, 2015:1-5. |
[11] | Xu Yang, Wu Zebin, Xiao Fu, et al. A target detection method based on low-rank regularized least squares model for hyperspectral images[J]. IEEE Geoscience and Remote Sensing Letters, 2016, 13(8): 1129–1133. doi: 10.1109/LGRS.2016.2572090 |
[12] | Meng Jianliang, Zhang Na. Research on the user behavior analysis based on improved Apriori[C]//IEEE International Conference on Mechatronic Sciences, Electric Engineering and Computer (MEC). Shenyang:IEEE Press, 2013:1812-1815. |