基于移动社交环境的用户行为最优关联预测
张晖1,2,3, 王敏1     
1. 南京邮电大学 江苏省无线通信重点实验室, 南京 210003;
2. 南京邮电大学 通信与网络技术国家工程研究中心, 南京 210003;
3. 苏州大学 江苏省计算机信息处理技术重点实验室, 江苏 苏州 215006
摘要

提出了一种基于移动社交环境的用户行为多重分析与最优预测算法.首先,针对目标用户所属的各个社交群组,分别建立基于代表度的最优化模型,选择出任一社交群组内最具代表的关联用户,以分析目标用户在不同社会属性下的业务行为;特别地,代表度由基于Kendall系数的相似度和基于交互统计的交互度联合构成;其次,借助Apriori理论分别对目标用户和各最具代表的关联用户进行关联分析,并提出基于最小二乘模型的加权融合方法,以最优地融合上述关联分析结果且实现用户行为的精准预测.仿真结果验证了该算法的有效性.

关键词: 移动社交环境     行为分析     行为预测     关联分析     最小二乘模型    
中图分类号:TP181 文献标志码:A 文章编号:1007-5321(2017)06-0050-07 DOI:10.13190/j.jbupt.2017-141
Optimal Correlation Prediction of User Behaviors Based on Mobile Social Environment
ZHANG Hui1,2,3, WANG Min1     
1. Jiangsu Key Laboratory of Wireless Communications, Nanjing University of Posts and Telecommunications, Nanjing 210003, China;
2. National Engineering Research Center of Communications and Networking, Nanjing University of Posts and Telecommunications, Nanjing 210003, China;
3. Provincial Key Laboratory for Computer Information Processing Technology, Soochow University, Suzhou 215006, China
Abstract

A multiple analysis and optimal prediction algorithm of user behaviors based on mobile social environment is proposed. First, for each social group of a target user, an optimization model based on representativeness degree is formulated to select the most representative correlated user from this social group for analyzing the service behaviors of target user caused by the corresponding social attribute; particularly, the representativeness degree consists of Kendall coefficient based similarity degree and interaction statistics based interaction degree. Second, by using Apriori theory, the correlation analyses for target user and its most representative correlated users are performed respectively, and then a least-square model based weighted fusion method is presented to integrate the above correlation analysis results optimally and predict user next behaviors accurately. Extensive simulation results verify the effectiveness of proposed algorithm.

Key words: mobile social environment     behavior analysis     behavior prediction     correlation analysis     least square model    

在实际生活中,个人的行为均是复杂而动态的,其背后动机源于个人的社会属性.从唯物论观点看,人的本质在于其社会性,即人是一切社会关系的总和.故个人的行为规律受到其所属各社会属性的联合支配,可视作各社会属性下行为规律以某种方式的综合.举个简单例子,设某用户为青年男性白领,以年龄、性别和职业而言,该用户分属于青年群体、男性群体和白领群体.若工作日在公司,该用户受限于环境与身份,其行为很大程度趋同于白领群体的行为规律,如浏览网页查询资料;若周末在家,用户身心得到放松,其行为很大程度趋同于青年群体或男性群体的行为规律,如在线游戏或视频点播.

然而,个人的社会属性均是多层次,且多维度的,如何获取和如何分析都是非常困难的.用户的移动社交环境[1-2]提供了非常便捷的突破口,每个用户均加入了不同的社交群组,如不同的微信群.这些社交群组往往代表了用户的某个社会属性(同学群、工作群、娱乐群等),能够独立地反映出用户行为的某个侧面.故应对不同用户群体展开研究,分析各群体的属性特征及行为规律,进而为目标用户的行为预测提供依据,从而推动基于用户行为预测的个性化业务推荐系统的发展.

当前,用户行为分析和预测研究可分为用户群体研究[3-5]和用户个体研究[6-8].然而,上述研究均未从用户所在群体考虑其社会属性,更未从不同社会属性联合考虑单个用户的行为规律.因此,提出了一种基于移动社交环境的用户行为多重分析和最优预测算法,通过分析各个群体的业务行为规律来预测目标用户的业务行为.首先,针对目标用户所属的各个社交群组,分别建立基于代表度的最优化模型,选择出任一社交群组内最具代表的关联用户,以分析目标用户在不同社会属性下的业务行为;特别地,代表度由基于Kendall系数的相似度和基于交互统计的交互度联合构成.其次,借助Apriori理论,分别对目标用户和各最具代表性的关联用户进行关联分析,并提出基于最小二乘模型的加权融合方法,以最优地融合上述关联分析结果,且实现用户行为的精准预测.

1 网络场景与系统假设

用户个体均具有多个社会属性,如职业、宗教、爱好、学历等,可看作上述社会属性的综合体.移动社交环境下,不同用户因具有某个或某些相同的社会属性,组成同一社交群组,群组内各成员会产生相似的业务行为.如图 1所示,目标用户根据不同社会属性加入相应的社交群组.任一群组的用户均可视为目标用户的关联用户,其行为规律反映出目标用户在仅遵循相应社会属性下的行为规律.因此,研究各群组中关联用户的行为即可实现对目标用户在不同社会属性下行为的研究.

图 1 场景图

将综合利用目标用户自身的行为样本和各群组最优关联用户的行为样本用于目标用户的行为预测.首先,选出任一群组的最优关联用户以分析目标用户在相应社会属性下的业务行为.接着,分别基于各群组最优关联用户的行为历史做关联分析,各关联结果代表了目标用户仅遵循相应社会属性而产生的行为.由此,将各群组最优关联用户的关联结果综合起来即可实现目标用户行为的全面分析与精准预测.

在此场景下,假定目标用户的各社交群组事先给定,相互正交且互不重叠(无相同的关联用户).设目标用户$o$的社交群集为$\bar{Z}$={$Z_{1}$, $Z_{2}$, …, $Z_{M}$},则某个社交群组为$Z_{m}$,那么社交群组$Z_{m}$的关联用户集为$\bar{Q}$$_{m}$={$Q_{m1}$, $Q_{m2}$, …, $Q_{mE}$}.设业务类型集为$\varOmega$={$\varOmega_{1}$, $\varOmega_{2}$, …, $\varOmega_{L}$},共有$L$类业务供各用户接入.此外,假设用户终端具有充裕的存储能力及计算能力,可对数据实时分析处理,并能存储和维护自身的样本库.

2 算法描述 2.1 基于Kendall系数的相似度

移动社交环境下,目标用户基于不同社会属性,加入相互独立的社交群组$\bar{Z}$={$Z_{1}$, $Z_{2}$, …, $Z_{M}$}.由于同一社交群组中不同关联用户的行为规律相比于目标用户的程度差异显著,故需从各群组中分别选择出最能代表目标用户的最优关联用户. Kendall系数可以较好地描述2个随机序列的顺序相关性(一致性)[9],故被用于度量目标用户与关联用户的行为相似性.

假设$N_{1}$×$T$时间段内,目标用户$o$接入的业务类型序列为$\boldsymbol{\varGamma}_{o}$;社交群组$Z_{m}$的关联用户$Q_{me}$接入的业务类型序列为$\boldsymbol{\varGamma}_{me}$. $\boldsymbol{\varGamma}_{o}$$\boldsymbol{\varGamma}_{me}$均按时序对齐排列,并通过序列截取使得两者业务类型个数相同,记为$Y$.鉴于用户接入的业务类型序列均为随机序列,通过计算目标用户与关联用户的两个业务类型序列的Kendall系数以度量两者之间的行为相似性.由此,用户$o$与用户$Q_{me}$之间基于Kendall系数的相似度为

$\begin{eqnarray} &τ(\boldsymbol{\varGamma}_{o},\boldsymbol{\varGamma}_{me})=\\ &\frac{C-D}{\sqrt{\left(\frac{1}{2}Y(Y-1)-Y_{1}\right)\left(\frac{1}{2}Y(Y-1)-Y_{2}\right)}} \end{eqnarray}$ (1)

其中:$C$表示2个随机序列中同序对个数;$D$表示2个随机序列中异序对个数.这里,若2个序列中对应的业务类型二元有序对完全一致,则为同序对;完全相反则为异序对. $\frac{1}{2}$$Y$($Y$-1)即为有序对的总数.然而,当某一行为样本被重复统计,将导致同一业务类型连续出现,使得有序对个数重复计算. $Y_{1}$表示$\boldsymbol{\varGamma}_{o}$重复计算的有序对个数,

$\begin{eqnarray} Y_{1}=∑\limits^{t}_{i=1}\frac{1}{2}X_{i}(X_{i}-1) \end{eqnarray}$ (2)

其中:$t$表示任一业务类型连续出现的次数,$X_{i}$表示第$i$次所对应的业务连续数目. $Y_{2}$表示$\boldsymbol{\varGamma}_{me}$重复计算的有序对个数,计算方法同$Y_{1}$.故式(1)的分母表示实际有效的有序对总数.显然,$τ$($\boldsymbol{\varGamma}_{o}$, $\boldsymbol{\varGamma}_{me}$)∈[-1, 1]:当用户$o$和用户$Q_{me}$的业务类型序列完全一致时,$τ$($\boldsymbol{\varGamma}_{o}$, $\boldsymbol{\varGamma}_{me}$)=1;当用户$o$和用户$Q_{me}$的业务类型序列完全相反时,$τ$($\boldsymbol{\varGamma}_{o}$, $\boldsymbol{\varGamma}_{me}$)=-1;当用户$o$和用户$Q_{me}$的业务类型序列相互独立时(2个序列的一致性与相反性大致相当),$τ$($\boldsymbol{\varGamma}_{o}$, $\boldsymbol{\varGamma}_{me}$)=0.

2.2 基于交互统计的交互度

基于Kendall系数的相似度反映出目标用户与关联用户之间历史行为的相似性,从目标用户行为固有规律的角度衡量关联用户的代表性.然而,用户在遵循其固有行为规律的基础上可能会受到外在影响与引导,使得下一业务行为产生随机变化.因此,即便目标用户与某关联用户的历史行为并不相似(行为固有规律不同),但因相互频繁交互,可能使得目标用户的业务行为受其影响而与其趋同.因此,需要构建目标用户与关联用户之间的交互度指标,从而反映出两者交互频繁程度,并从目标用户行为随机变化的角度衡量关联用户的代表性.

移动社交环境下,用户交互类型大致包括聊天、浏览、转发、点赞、评论等.笔者重点关注3种典型的交互类型:聊天、转发以及评论.由此,用户$o$与用户$Q_{me}$之间基于交互统计的交互度为

$\begin{eqnarray} \bar{R}_{(o,me)}=γ_{1}ℓ^{1}_{(o,me)}+γ_{2}ℓ^{2}_{(o,me)}+γ_{3}ℓ^{3}_{(o,me)} \end{eqnarray}$ (3)

其中:$ℓ^{1}_{(o,me)}$$ℓ^{2}_{(o,me)}$$ℓ^{3}_{(o,me)}$分别是用户$o$与用户$Q_{me}$之间聊天、转发以及评论的频繁程度,$γ_{1}$$γ_{2}$$γ_{3}$表示相应权重.显然,3种交互类型的重要程度不尽相同.一般而言,聊天类型是最为直接且耗时最多的交互,受影响程度最大,应设置最大权重;评论类型是相对直接且耗时一般的交互,受影响程度中等,应设置中等权重;转发类型是最为间接且耗时最少的交互,受影响程度最小,应设置最小权重. 3种交互类型的频繁程度为

$\begin{eqnarray} ℓ^{1}_{(o,me)}=\frac{κ^{1}_{(o,me)}}{∑κ^{1}_{(o,me)}}\\ ℓ^{2}_{(o,me)}=\frac{κ^{2}_{(o,me)}}{∑κ^{2}_{(o,me)}}\\ ℓ^{3}_{(o,me)}=\frac{κ^{3}_{(o,me)}}{∑κ^{3}_{(o,me)}} \end{eqnarray}$ (4)

其中:$κ^{1}_{(o,me)}$表示用户$o$和用户$Q_{me}$之间的聊天次数;$κ^{2}_{(o,me)}$表示用户$o$转发用户$Q_{me}$言论的次数;$κ^{3}_{(o,me)}$表示用户$o$评论用户$Q_{me}$言论的次数;$∑$·表示用户$o$与群组$Z_{m}$所有关联用户发生相应类型交互的总数,以归一化上述指标.需要说明的是,上述数据均在$N_{1}$×$T$时间段内统计得到.

2.3 基于代表度的用户行为分析

综合考虑相似度和交互度,利用式(5)建立代表度指标,以全面地衡量各关联用户对目标用户业务行为的代表性.由此可得用户$Q_{me}$对用户$o$的代表度为

$\begin{eqnarray} G_{(o,me)}=τ(\boldsymbol{\varGamma}_{o},\boldsymbol{\varGamma}_{me})×\text{lb}_{2}(1+\bar{R}_{(o,me)}) \end{eqnarray}$ (5)

在此基础上,构建群组$Z_{m}$的最优关联用户选择模型:

$\begin{eqnarray} Q^{*}_{m}=\text{arg} \text{max}G_{(o,me)},∀Q_{me}∈\bar{Q}_{m} \end{eqnarray}$ (6)

其中:$Q^{*}_{m}$为群组$Z_{m}$的最优关联用户(最具代表性的关联用户).那么,利用式(6)分别从目标用户的各社交群组选择出相应的最优关联用户,即可分析目标用户在不同社会属性下的业务行为.

2.4 基于Apriori理论的关联分析

在前述基础上,采用基于编码的二维Apriori方法[10]分析用户业务行为.在每个预测周期:一方面,目标用户基于当前自身行为,进行关联规则挖掘,得到所有以当前行为为起点的2项频繁关联规则;另一方面,各社交群组的最优关联用户分别基于自身行为进行关联规则挖掘,得到所有以目标用户当前行为为起点的2项频繁关联规则.这里,2项关联规则的关联项对应于先后发生的业务行为.假设目标用户的业务行为样本如表 1所示.通过支持度计算,先得到频繁1项集,进而得到频繁2项集.若目标用户的当前行为是$\varOmega_{1}$,则可得到以$\varOmega_{1}$为起点的频繁2项关联规则为$\varOmega_{1}$$\varOmega_{2}$.相应地,可得该2项关联规则的置信度,即条件概率为66.7%.详细的挖掘方法和挖掘过程见文献[10].

表 1 目标用户的业务行为样本表
2.5 基于最小二乘模型的最优加权预测方法

已知社交群集$\bar{Z}$={$Z_{1}$, $Z_{2}$, …, $Z_{M}$},其中在第$n$个预测周期从群组$Z_{m}$选择的最优关联用户为$Q^{*}_{m}$($n$).对用户$Q^{*}_{m}$($n$)的行为历史做关联分析可得,以目标用户当前行为(第$n$个预测周期的业务行为)为起点,以任一行为状态$x$为终点的2项关联规则的置信度$\bar{C}$$_{m}$($n$, $x$).特别地,若某个关联规则不属于频繁2项集,则对应的置信度为0.因此,对用户$Q^{*}_{m}$($n$)关联分析得到的所有关联规则的置信度集合为$\bar{C}$$_{m}$($n$)={$\bar{C}$$_{m}$($n$, 1), $\bar{C}$$_{m}$($n$, 2), …, $\bar{C}$$_{m}$($n$, $L$)}′,即基于用户$Q^{*}_{m}$($n$)行为历史的预测结果.特别地,当$m$=0时,$\bar{C}$$_{0}$($n$)对应于基于目标用户行为历史的预测结果.故在预测周期$n$,所有用户(目标用户及各最优关联用户)的预测结果矩阵可表示为

$\begin{eqnarray} \bar{\boldsymbol{C}}(\boldsymbol{n})=\{\bar{C}_{0}(n),\bar{C}_{1}(n),…,\bar{C}_{M}(n)\} \end{eqnarray}$ (7)

采用加权融合方法,即可得到面向目标用户的最终预测结果:

$\begin{eqnarray} \bar{C}^{\text{F}}(n)=\{\bar{C}^{\text{F}}(n,1),\bar{C}^{\text{F}}(n,2),…,\bar{C}^{\text{F}}(n,L)\}′ \end{eqnarray}$ (8)

其中

$\begin{eqnarray} &\bar{C}^{\text{F}}(n,l)=ω_{0}\bar{C}_{0}(n,l)+ω_{1}\bar{C}_{1}(n,l)+…+\\ &ω_{M}\bar{C}_{M}(n,l) \end{eqnarray}$ (9)

其中$ω_{0}$, $ω_{1}$, …, $ω_{M}$为相应权值.设在预测周期$n$,目标用户下一行为状态为$J$,那么实际发生结果(最佳预测结果)可定义为

$\begin{eqnarray} P(n)=\{P(n,1),P(n,2),…,P(n,L)\}′ \end{eqnarray}$ (10)

其中状态$J$的出现概率$P$($n$, $J$)=1,而其他状态的出现概率$P$($n$, $i$)=0, $i$$J$.计算最终预测结果和实际发生结果之间的欧式距离为

$\begin{eqnarray} &\varLambda(n)=\bar{C}^{\text{F}}(n)-P(n)=\\ &\sqrt{((\bar{C}^{\text{F}}(n,1)-P(n,1))^{2}+…+(\bar{C}^{\text{F}}(n,L)-P(n,L))^{2})} \end{eqnarray}$ (11)

显然,$N$个预测周期对应$N$个欧式距离值.将所有欧式距离值取平方求和,以度量$N$个周期预测结果的总体准确性.进而,建立最小二乘优化模型[11]

$\begin{eqnarray} &[ω^{*}_{0},…,ω^{*}_{M}]=\text{argmin}(\varLambda^{2}(1)+\varLambda^{2}(2)+…+\varLambda^{2}(N))\\ &\text{s}.\text{t}. ω_{0}+ω_{1}+…+ω_{M}=1\\ &∀ω_{m}≥0 \end{eqnarray}$ (12)

求解上述模型,即可得到相应最优权值.具体求解过程如下:

1) 证明该模型为凸优化模型.其目标函数为

$\begin{eqnarray} &∑\limits^{N}_{n=1}\varLambda^{2}(n)=∑\limits^{N}_{n=1}∑\limits^{L}_{i=1}\left(∑\limits^{M}_{m=0}ω_{m}\bar{C}_{m}(n,i)-P(n,i)\right)^{2}=\\ &∑\limits^{N}_{n=1}∑\limits^{L}_{i=1}F_{n,i}(ω_{0},ω_{1},…,ω_{M}) \end{eqnarray}$ (13)

仅需考察$F_{n,i}$($ω_{0}$, $ω_{1}$, …,$ω_{M}$)(∀$n$, ∀$i$),对部分变量求偏导可得

$\begin{eqnarray} &\frac{∂F_{n,i}}{∂ω_{0}}=2\left(∑\limits^{M}_{m=0}ω_{m}\bar{C}_{m}(n,i)-P(n,i)\right)\bar{C}_{0}(n,i)\\ &\frac{∂F_{n,i}}{∂ω_{1}}=2\left(∑\limits^{M}_{m=0}ω_{m}\bar{C}_{m}(n,i)-P(n,i)\right)\bar{C}_{1}(n,i)\\ &\frac{∂^{2}F_{n,i}}{∂ω_{0}∂ω_{1}}=2\bar{C}_{0}(n,i)\bar{C}_{1}(n,i)≥0\\ &\frac{∂^{2}F_{n,i}}{∂ω^{2}_{0}}=2\bar{C}^{2}_{0}(n,i)≥0 \end{eqnarray}$ (14)

以此类推,可知$F_{n,i}$(·)的任意二阶偏导数均不小于0,故$F_{n,i}$(·)为($ω_{0}$, $ω_{1}$, …, $ω_{M}$)的凸函数.由求和凸性不变可知,目标函数$∑\limits_{∀n}∑\limits_{∀i}$$F_{n,i}$(·)仍为($ω_{0}$, $ω_{1}$, …, $ω_{M}$)的凸函数.此外,约束条件$∑\limits^{M}_{m=0}$$ω_{m}$=1和∀$ω_{m}$≥0,满足仿射变换的条件,可行解空间必为凸集.因此,问题得证.

2) 对于(等式约束的)凸优化模型,可用拉格朗日乘子法(KKT条件特例)求解其全局最优解.首先,松弛约束到目标函数,得

$\begin{eqnarray} &H=∑\limits_{∀n}∑\limits_{∀i}F_{n,i}(ω_{0},…,ω_{M})+α\left(-∑\limits^{M}_{m=1}ω_{m}+1\right)\\ &\text{s}.\text{t}. ∀ω_{m}≥0 \end{eqnarray}$ (15)

其中,$α$为拉格朗日乘子.由此,构建方程组如下:

$\begin{eqnarray} \left. \frac{∂H}{∂ω_{0}}=0⇒∑\limits_{∀n}∑\limits_{∀i}2\left(∑\limits^{M}_{m=0}ω_{m}\bar{C}_{m}(n,i)-P(n,i)\right)×\\ \bar{C}_{0}(n,i)-α=0\\ \frac{∂Η}{∂ω_{1}}=0⇒∑\limits_{∀n}∑\limits_{∀i}2\left(∑\limits^{M}_{m=0}ω_{m}\bar{C}_{m}(n,i)-P(n,i)\right)×\\ \bar{C}_{1}(n,i)-α=0\\ ⋮\\ \frac{∂Η}{∂ω_{M}}=0⇒∑\limits_{∀n}∑\limits_{∀i}2\left(∑\limits^{M}_{m=0}ω_{m}\bar{C}_{m}(n,i)-P(n,i)\right)×\\ \bar{C}_{M}(n,i)-α=0\\ \frac{∂Η}{∂α}=0⇒ω_{0}+ω_{1}+ω_{2}+…+ω_{M}=1 \right. \end{eqnarray}$ (16)

那么,求解式(16),即应得到模型最优解.

$\begin{eqnarray} &\left[\begin{array}{c}ω_{0}\\⋮\\ω_{M}\end{array}\right]′=\left[\begin{array}{c} ∑\limits_{∀n}∑\limits_{∀i}P(n,i)A_{0}(n,i)\\ ⋮\\ ∑\limits_{∀n}∑\limits_{∀i}P(n,i)A_{M-1}(n,i)\\ 1\end{array}\right]′×\\ &\left[\begin{array}{c} ∑\limits_{∀n}∑\limits_{∀i}\bar{C}_{0}(n,i)A_{0}(n,i)&…&∑\limits_{∀n}∑\limits_{∀i}\bar{C}_{0}(n,i)A_{M-1}(n,i)&1\\ ⋮&&⋮&⋮\\ ∑\limits_{∀n}∑\limits_{∀i}\bar{C}_{M}(n,i)A_{0}(n,i)&…&∑\limits_{∀n}∑\limits_{∀i}\bar{C}_{M}(n,i)A_{M-1}(n,i)&1\end{array}\right]^{-1} \end{eqnarray}$ (17)
$\begin{eqnarray} \left\{ \begin{array}{l} A_{0}(n,i)=M\bar{C}_{0}(n,i)-\bar{C}_{1}(n,i)-…-\bar{C}_{M}(n,i)\\ A_{1}(n,i)=M\bar{C}_{1}(n,i)-\bar{C}_{0}(n,i)-…-\bar{C}_{M}(n,i)\\ ⋮\\ A_{M-1}(n,i)=M\bar{C}_{M-1}(n,i)-\bar{C}_{0}(n,i)-…-\bar{C}_{M}(n,i) \end{array} \right., \end{eqnarray}$

[·]′表示求向量转置,[·]$^{-1}$表示矩阵求逆.若求得的∀$ω_{m}$≥0,则为最优解$ω^{*}_{m}$(0≤$m$$M$);若至少一个求得的$ω_{m}$<0,则令相应$ω_{m}$=0,然后再次代入式(16)求解,直到求得的∀$ω_{m}$≥0为止,则最终得到模型最优解$ω^{*}_{m}$(0≤$m$$M$).将该最优解代入式(9)可得到以目标用户当前行为为起点的所有关联规则的置信度.由此,选择具有最大置信度的关联规则,即可预测出目标用户的下一业务行为.

3 仿真验证

为验证提出的用户行为预测算法(PUBPA, proposed user behavior prediction algorithm),选取基于传统Apriori的用户行为预测算法(TAUBPA, traditional Apriori user behavior prediction algorithm)[12]和基于编码的二维Apriori用户行为预测算法(ATABUBPA, a two-dimensional Apriori based user behavior prediction algorithm)[10]用于性能比较.其中,TAUBPA从各社交群组分别选择1个关联用户,进而采用传统Apriori算法对其做关联分析,最后以平均加权方法融合各关联分析结果. ATABUBPA不考虑社交群组划分,从整个朋友圈中选择影响力最大的若干用户,进而采用基于编码的二维Apriori方法对其做关联分析,最后以基于影响力因子的加权方法融合各关联分析结果.在现实世界中以众包方式随机地选取目标用户,进而选择其微信朋友圈中$M$=4个主要社交群组,采集统计相应关联用户及目标用户自身在20 d的交互行为与业务行为,从而得到仿真测试数据集.而且选择的各社交群组中关联用户个数均超过20.仿真中,设置$T$=1 h、$L$=6,业务类型包括:语音聊天、视频点播、网页浏览、在线游戏、在线音乐和电子邮件.采用预测准确性和运行时间评估各算法性能.其中,某个算法的预测准确性指该算法成功预测次数与总预测次数的比值;某个算法的运行时间指其关联分析与行为预测部分的时间.利用VC++对上述仿真代码实现.

$N_{1}$×$T$是选择最优关联用户的统计时间间隔.显然,$N_{1}$越大,统计样本越多,故越能准确地选择出相应的最优关联用户.另外,从目标用户的各社交群组中随机选择$U$个关联用户用于每次仿真.显然,$U$越大,可供选择的关联用户越多,越有可能选择出相应的最优关联用户. 图 2给出了在不同$U$下PUBPA的预测准确性随$N_{1}$的变化曲线.如图 2所示,给定$U$,随着$N_{1}$的增加,PUBPA的预测准确性先上升而后变得平缓;给定$N_{1}$$U$越大,PUBPA的预测准确性相应越高.

图 2 PUBPA的预测准确性随$N_{1}$的变化

为验证PUBPA的预测性能,分别在$U$=10和$U$=20的情况下,比较PUBPA、TAUBPA和ATABUBPA在不同$N_{1}$下的预测准确性,如图 3所示.需要说明的是,ATABUBPA从整个朋友圈随机选择$U$个关联用户,进而从中选择影响力最大的4个关联用户.由图 3可知,给定$U$,随着$N_{1}$的增加,所有算法的预测准确性均是先上升而后变得平缓;给定$N_{1}$$U$越大,所有算法的预测准确性均相应越高.而且,因PUBPA从不同社会属性全面分析目标用户的业务行为并采用最优加权方法融合各行为分析结果,故PUBPA的预测准确性明显优于其他算法,具有更好的预测性能.

图 3 3种算法随不同$N_{1}$变化的预测准确性比较

为分析PUBPA的运行效率,给定$U$=10和$N_{1}$=360,比较PUBPA、TAUBPA和ATABUBPA在不同最小支持度$θ$(即支持度阈值)下的运行时间.如图 4所示,所有算法的运行时间均随着$θ$的增大而减小.这是因为频繁项集数目随着$θ$的增大而减小.特别地,PUBPA的运行效率略低于ATABUBPA.这是因为ATABUBPA的最优关联用户选择过程需时更短.随着用户终端计算能力的快速提升,不同算法运行效率的差距将日益缩小,故从预测性能和运行效率两方面考量,PUBPA的综合性能最优.

图 4 3种算法在不同$θ$下的运行时间比较
4 结束语

提出了基于移动社交环境的用户行为多重分析和最优预测算法.首先,针对目标用户所属的各个社交群组,分别建立基于代表度的最优化模型,选择出任一社交群组内最具代表的关联用户,以分析目标用户在不同社会属性下的业务行为;特别地,代表度由基于Kendall系数的相似度和基于交互统计的交互度联合构成.其次,借助Apriori理论,分别对目标用户和最具代表的关联用户进行关联分析,并提出基于最小二乘模型的加权融合方法,以最优地融合上述关联分析结果,且实现用户行为的精准预测.仿真结果验证了提出算法的有效性.

参考文献
[1] Yang K, Cheng X Q, Hu L, et al. Mobile social networks:state-of-the-art and a new vision[J]. International Journal of Communication Systems, 2012, 25(10): 1245–1259. doi: 10.1002/dac.v25.10
[2] Chan S Y, Hui P, Xu K. Community detection of time-varying mobile social networks[J]. Lecture Notes of the Institute for Computer Sciences, Social Informatics and Telecommunications Engineering, 2009(4): 1154–1159.
[3] Tan Ling, Zhang Shunyi, Wang Haoyun. A group trust mechanism based on user behaviors and policy trust in trustworthy routing systems[C]//2008 IEEE Pacific-Asia Workshop on Computational Intelligence and Industry Application. Wuhan:IEEE Press, 2008:548-552.
[4] Chis T, Harrison P G. Modeling multi-user behavior in social networks[C]//2014 IEEE 22nd International Symposium on Modeling, Analysis & Simulation of Computer and Telecommunication Systems. Paris:IEEE Press, 2014:168-173.
[5] Tang Fuxi, Liu Kejian, Feng Ling, et al. Research on the integration strategy of group recommendation based on user's interactive behaviors[C]//2016 IEEE International Conference on Cloud Computing and Big Data Analysis. Chengdu:IEEE Press, 2016:367-372.
[6] Song Yang, Hu Zheng, Leng Xiaoming, et al. Friendship influence on mobile behavior of location based social network users[J]. Journal of Communications and Networks, 2015, 17(2): 126–132. doi: 10.1109/JCN.2015.000026
[7] 蔡国永, 张东, 林煜明, 等. 面向推荐多样性改进的概率传播模型[J]. 北京邮电大学学报, 2016, 39(3): 34–38.
Cai Guoyong, Zhang Dong, Lin Yuming, et al. Probabilistic spreading models for improving recommendation diversity[J]. Journal of Beijing University of Posts and Telecommunications, 2016, 39(3): 34–38.
[8] Awad M A, Khalil I. Prediction of user's web-browsing behavior:application of Markov model[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B:Cybernetics, 2012, 42(4): 1131–1142. doi: 10.1109/TSMCB.2012.2187441
[9] Yin Jihao, Yu Wanke, Gu Z T, et al. Segmentation and classification of hyperspectral images using Kendall concordant coefficient[C]//2014 IEEE International Geoscience and Remote Sensing Symposium. Quebec City:IEEE Press, 2014:2894-2897.
[10] Wang Min, Zhang Hui, Yang Longxiang, et al. A two-dimensional Apriori based user prediction algorithm in mobile social environment[C]//2015 International Conference on Wireless Communications & Signal Processing (WCSP). Nanjing:IEEE Press, 2015:1-5.
[11] Xu Yang, Wu Zebin, Xiao Fu, et al. A target detection method based on low-rank regularized least squares model for hyperspectral images[J]. IEEE Geoscience and Remote Sensing Letters, 2016, 13(8): 1129–1133. doi: 10.1109/LGRS.2016.2572090
[12] Meng Jianliang, Zhang Na. Research on the user behavior analysis based on improved Apriori[C]//IEEE International Conference on Mechatronic Sciences, Electric Engineering and Computer (MEC). Shenyang:IEEE Press, 2013:1812-1815.
基于移动社交环境的用户行为最优关联预测
张晖, 王敏