广东工业大学学报  2020, Vol. 37Issue (3): 1-8.  DOI: 10.12052/gdutxb.190147.
0

引用本文 

郝志峰, 黎伊婷, 蔡瑞初, 曾艳, 乔杰. 基于因果模型的社交网络用户购物行为研究[J]. 广东工业大学学报, 2020, 37(3): 1-8. DOI: 10.12052/gdutxb.190147.
Hao Zhi-feng, Li Yi-ting, Cai Rui-chu, Zeng Yan, Qiao Jie. A Research on Users’ Shopping Behaviors in Social Network Based on Causal Model[J]. JOURNAL OF GUANGDONG UNIVERSITY OF TECHNOLOGY, 2020, 37(3): 1-8. DOI: 10.12052/gdutxb.190147.

基金项目:

国家自然科学基金资助项目(61876043);广东省自然科学基金资助项目(2014A030306004,2014A030308008);NSFC-广东联合基金资助项目(U1501254);广东特支计划资助项目(2015TQ01X140);广州市珠江科技新星资助项目(201610010101);广州市科技计划项目(201902010058)

作者简介:

郝志峰(1968–),男,教授,博士生导师,主要研究方向为机器学习、人工智能。

文章历史

收稿日期:2019-11-29
基于因果模型的社交网络用户购物行为研究
郝志峰1,2, 黎伊婷1, 蔡瑞初1, 曾艳1, 乔杰1    
1. 广东工业大学 计算机学院,广东 广州 510006;
2. 佛山科学技术学院 数学与大数据学院,广东 佛山 528000
摘要: 社交网络用户的购物行为体现用户在社交影响下自身物质需求和社交需求的意愿, 是社交网络营销的重要研究内容。传统的网络购物行为分析仅关注用户行为间的相似度, 忽略了用户的社交需求及同伴行为的影响。对此, 结合反从众理论和社交需求特性, 对用户购物行为进行特征构建; 其次, 针对社交网络用户数据不完全观察特性, 提出了基于快速因果推断(Fast Causal Inference, FCI)的用户行为因果机制发现算法; 最后, 基于模型的实验分析和实证分析验证了模型因果机制的合理性。
关键词: 网络购物    社交行为    反从众    FCI算法    因果网络    
A Research on Users’ Shopping Behaviors in Social Network Based on Causal Model
Hao Zhi-feng1,2, Li Yi-ting1, Cai Rui-chu1, Zeng Yan1, Qiao Jie1    
1. School of Computers, Guangdong University of Technology, Guangzhou 510006, China;
2. College of Mathematics and Big Data, Foshan University, Foshan 528000, China
Abstract: Shopping behaviors in the social network can reflect users’ willingness to meet their material needs and social needs under the influence of social interaction, which is an important research in social network marketing. The traditional analysis of online shopping behavior only focuses on the similarity between users’ behaviors while ignoring the influence of users’ social needs and peer behaviors. For that, the features of users’ shopping behavior are constructed by combining anti-conformity theory and social needs. Secondly, aiming at the incomplete observation of user data in social network, a causal mechanism discovery algorithm for users’ behaviors based on Fast Causal Inference (FCI) is proposed. Finally, the rationality of the causal mechanism of our model is verified based on the experimental analysis and empirical analysis.
Key words: online shopping    social behavior    anti-conformity    FCI algorithm    causal network    

通过了解用户的实际需求和兴趣爱好,以及购物行为动机和模式,从而调整营销策略,迎合用户行为意向,提升营销效果。然而,用户的网络购物行为受到物质需求和社交需求等多方面因素影响,这使得仅考虑购物行为数据的方法失效,比如协同过滤算法,仅根据商品属性和用户行为间的相似度,分析用户的消费行为[1-2],忽略了用户间的社交关系和社交行为对网络购物行为的影响。社交网络的发展,使得用户间的社交关系更加复杂,用户间的信息也依托社交网络结构快速传播流动,也极大地影响着用户的购物意愿。在社交网络平台中,用户可以轻易观测到其他用户对商品的行为态度,从而在权衡自身物质需求和社交需求的驱动下产生特定的消费行为。

然而,怎么利用社交网络平台中的用户信息来挖掘出用户的购物行为动机和意向是一个十分复杂的问题[3-4]。一方面,兴趣偏好和购物行为容易受同伴或群体的影响而发生改变;另一方面,购物行为产生的原因在社交网络背景下更加错综复杂,可能的影响因素繁多。因此,本文研究了需要重点解决的两个问题:(1) 如何考虑同伴或群体的影响;(2) 如何从众多可能因素中找到对购物行为产生内在影响的因素,剔除无关或影响力甚微的因素的干扰。

为了找到影响购物行为产生的内在因素,受从众理论的启发[5],认为人们的购物行为会在社交中受到周围人的影响:为了降低风险和保持群体性,人们会倾向于与同伴或所在群体的行为保持一致,该现象也被称为从众行为[6]。然而,现有研究表明[7-8],仅利用从众理论难以解释个体的某些消费行为。有些消费目的不仅仅是商品本身,而是想借此来凸显自身的与众不同,从而呈现出反从众行为。Levy[9]指出,反从众行为是指个体否认公众的观点或建议,做出相反的行为。考虑到普遍存在的反从众动机[8],本文结合反从众理论,利用用户的社交数据和购物数据,构建特征分析网络购物行为。由于影响用户购物行为的因素繁多且关系复杂,可能存在某些未观测到的潜在因素。为了探究存在潜在因素时,网络购物行为的动机和因果机制,本文利用Fast Causal Inference (FCI)算法学习用户购物行为数据中特征间的因果网络结构,发现各特征与购物行为之间的因果关系,剔除对购物行为没有显著影响的冗余特征,同时进一步理解用户购物行为产生的内在机制。特别地,本文研究从模型实验分析和实证分析两方面验证了本文方法的有效性。本文研究主要贡献包括:(1) 融合用户社交关系和社交行为数据研究网络用户购物行为;(2) 结合反从众理论解释用户的心理需求和消费动机;(3) 基于FCI因果网络模型建模,并挖掘网络购物行为的影响因素及其内在的影响机制;(4) 从模型实验分析和实证分析两个方面验证了本研究方法的有效性。

1 相关研究 1.1 网络用户购物行为研究

早期的网络用户购物行为分析通常从用户个体属性和物品属性等方面展开研究[10-11]。随着网络购物平台互动性的提升,网络用户可以观察到其他用户对商品的评价并依此进行决策,其购物行为受到他人的意见态度影响,网络购物的社交性初步呈现。莫赞[12]和Alavijeh等[13]结合在线评论研究网络用户购物行为模式,结果表明其他用户态度对用户满意度和用户行为决策具有正向影响。但是,上述研究忽略了用户间社交关系与社交影响力的差异。

针对冷启动和数据稀疏问题,结合社交关系和用户生成标签对用户偏好进行预测的效果更为显著[14]。为挖掘隐藏的社交影响信号,Qiu等[15]将深度学习框架应用于社交影响分析,利用神经网络预测用户的行为状态并取得了成效。Tang等[6]基于社交心理学理论,结合社交关系和社交从众需求,提出Confluence模型预测社交网络用户行为,其优点在于区分了不同社交关系对用户行为的影响程度。

社交关系和社交信息的引入,为网络用户购物行为分析提供了新的思路,但同时也带来了许多挑战。其中一个关键的问题就是,如何找到对网络用户购物行为产生内在影响的因素。显然,融合社交关系和社交信息的同时,引入了更多无关或影响力甚微的因素。如果不剔除这些因素的干扰,分析预测的性能和效率都会受到影响,所以对干扰因素的识别和剔除显得至关重要。为解决上述问题,本文提出结合因果网络模型分析网络用户购物行为,利用因果网络结构消除冗余特征因素的干扰。

1.2 因果网络结构学习

贝叶斯网络能够刻画数据中各变量间的依赖关系,用于因果关系表达以及知识推理,是目前有效处理不确定性的理想模型。因果结构的学习可以根据条件独立性检验推断节点间边的存在性以及方向。Spirtes等先后提出了以条件独立性检验(Condition Independence tests,CI tests)确定拓扑结构SGS(Spirtes,Glymour,and Scheines)算法[16]和改进了搜索策略的PC(Peter Spirtes and Clark Glymour)算法[16]。PC算法在处理高维稀疏的数据集的因果发现问题时效果较好[17],但其基于因果充分性假设,即要求变量集中任意两个变量的直接原因变量都在该集合中,在现实生活中变量的因果充分性假设难以满足。于是Spirtes等放松了因果充分性假设,引入隐变量,提出了FCI算法[16]。FCI算法返回的图形是局部祖先图(Partial Ancestral Graph,PAG),可以表明两个相连变量是否存在隐藏的共同原因。

由于社交网络用户购物行为的影响因素繁多且关系复杂,在实际购物场景中,无法确保所有影响因素都囊括其中且可以测量,难以满足因果充分性假设,PC算法不适用于该场景。通过相关研究分析,本文利用引入隐变量的FCI算法学习网络用户购物行为数据中变量间的因果网络结构,提出基于FCI的购物行为因果发现算法,挖掘特征与购物行为间的因果关系,融合用户购物行为和用户社交关系两方面进行网络用户消费动机的研究分析。

2 基于FCI的购物行为因果发现算法 2.1 问题建模

本研究用有向图 $G = \left( {U,R} \right)$ 表示社交网络,节点 ${u_i} \in U$ 表示网络中的第 $i$ 个用户,边 ${r_{ij}} \in R$ 表示用户 ${u_i}$ 和用户 ${u_j}$ 之间存在关注关系,用户 ${u_j}$ 关注了用户 ${u_i}$ ,即 ${u_i}$ 的行为对 ${u_j}$ 具有影响力。 ${I_i}$ 表示用户的个人信息, ${W_i} = \left\{ {\left( {T,t} \right)} \right\}$ 表示用户 ${u_i}$ $t$ 时刻在发布的社交文本信息 $T$ 。用户 ${u_i}$ 购物行为记录由集合 ${P_i} = \left\{ {\left( {a,p,t} \right)} \right\}$ 表示,其中 $a$ $p$ $t$ 分别表示用户购物行为、商品和时间。

本研究结合反从众理论研究用户的网络购物行为,结合网络购物的情境,本文将用户 ${u_j}$ ${u_i}$ 的影响下的求异性定义为

${L_{ij}} =\!\! \left\{ \begin{array}{l} \!\!\! 1,\nexists \left( {a,p,t} \right) \in {P_j}|\left( {a,p,t'} \right) \in {P_i} \\ \!\!\! 0,\exists \left( {a,p,t} \right) \in {P_j}|\left( {a,p,t'} \right) \in {P_i} \\ \end{array} \right.\!\!\!\!,{u_i} \in I_{n_j} \wedge 0 \leqslant t - t' \leqslant \varepsilon $ (1)

其中, $I_{n_j}$ 表示指向用户 ${u_j}$ 的节点集。则反从众指数(Anti-conformity Score)可定义为

$S{ _j} = \frac{{\sum\nolimits_{{u_i} \in I_{n_j}} {|{L_{ij}}|} }}{{\sum {I_{n_j}} }},0 \leqslant t - t' \leqslant \varepsilon $ (2)

举例说明,用户 ${u_1}$ 的入度如图1所示,根据定义用户 ${u_1}$ 的反从众指数为 ${S_1} = {8 / {13}}$

图 1 用户u1入度图 Figure 1 Indegree of user u1

结合反从众理论,社交网络用户购物行为的研究问题可以形式化描述为:对于给定的用户社交网络 $G = \left( {U,R} \right)$ 和用户个人信息集 $I$ 、微博文本集 $W$ 以及购物行为记录 $P$ ,找出影响社交用户购物行为的因素,并对任意给定用户预测其行为的反从众指数。

2.2 特征节点构建

(1) 个人信息特征。

Rahman[11]和Yin等[18]利用年龄、性别等个人信息特征研究用户消费行为决策动机与个人信息之间的联系,研究表明不同个人信息特征用户的行为存在显著差异。据此,本文结合用户的性别和地域信息研究用户行为,采用one-hot向量法表示。

用户的微博行为属性是体现用户特征的重要指标。用户发帖的数量能够反映用户在社交网络中的活跃程度以及性格特点。此外,用户的关注人数量、粉丝数等同样能够体现用户的影响力,广泛扩散的网络信息通常都是从拥有大量粉丝的用户开始传播的[19]。据此,本文利用用户博文数、关注人数、粉丝数等指标衡量用户的社交影响力。

(2) 用户重要性特征。

在微博平台上,用户间关系网络结构的实质是一个有向图,节点的出入度能够反映其在所处网络中的重要程度。经典的网络节点重要性程度排序算法PageRank算法,基于网页间的有向链接衡量网站的重要性。大量的社交网络研究中在挖掘用户重要性时都采用了PageRank算法,或结合社交领域特点对其进行改进。依据以上理论基础,本文采用PageRank算法衡量用户在社交网络图中的重要性。社交网络中节点重要性的计算公式可以表示为

${R_i} = \left( {1 - d} \right) + d\sum\nolimits_{j \in I_{n_i}} {\frac{{{R_j}}}{{{o_j}}}} $ (3)

其中, ${R_i}$ ${R_j}$ 可以表示用户 ${u_i}$ 和用户 ${u_j}$ 的重要程度, ${o_j}$ 为用户 ${u_j}$ 的关注数量, $I_{n_i}$ 是用户 ${u_i}$ 的粉丝的集合。 $d$ 是为解决独立网页节点“排名泄露”和“排名下沉”的问题而引入的阻尼因子,使得每个页面都可能随机访问到其他页面,通常设置为0.85。

(3) 用户兴趣特征。

用户在微博平台上或发表或转发或评论等一系列社交行为可以体现用户的兴趣偏好。本研究将每个用户所发布的微博文本进行合并,利用word2vec[20]中训练好的CBOW(Continuous Bag-of-Words)模型将文本中的每个词转化为相应的词向量,最后得到每个用户微博文本所包含的所有词向量的平均向量;利用已知购物品牌偏好的用户微博文本向量训练LSTM(Long Short-Term Memory)模型[21],分析未知品牌偏好的用户的兴趣偏好,再根据逻辑回归模型预测用户的购买行为。

(4) 购物行为特征。

网络购物通常不是一个孤立的行为,在用户发生实际购买动作前会产生一系列可观测的购物相关行为。随着时间的推移,消费者在网购前的行为有显著差异[2]。本研究利用用户的历史浏览、历史收藏以及历史购买等既往行为作为购物行为特征。此外,根据自我一致性理论(Self-consistency Theory),人们会利用自身相似经验保持自我行为态度的前后一致[22]。对于消费者而言,网络购物经验丰富的消费者对于商品的甄选能力更强,反从众的意愿更为显著。本研究以消费者的购物频数作为指标衡量其购物经验。

根据以上特征构建用户特征向量,最终用户特征向量如式(4)所示。

${{{x}}_i} = \left( {\mathop x\nolimits_i^{\left( 1 \right)} ,\mathop x\nolimits_i^{\left( 2 \right)} ,\cdots,\mathop x\nolimits_i^{\left( n \right)} } \right)$ (4)
2.3 因果网络构建

分析社交网络用户购物行为时,影响用户购物行为的因素繁多且关系复杂,无法观测到所有影响因素,可能存在潜在变量。因此,本文利用FCI算法判断数据具有不完全观察特性情况下,可观测变量之间的因果关系。根据因果网络结构图,保留对购物行为具有显著影响的特征,剔除冗余特征,从而达到特征选择的效果。同时,因果网络结构体现了特征间的内在因果机制,有利于理解用户的心理需求和消费动机。

学习因果网络结构时,为避免存在隐变量时PC算法[17]节点关系判断错误,导致得到的网络结构与真实有向无环图(Directed Acyclic Graph, DAG)不符,FCI算法输出的是局部祖先图,只包含非定向边、部分有向边、有向边和双向边这4种边。其中,“ ${{a}} \circ - \circ {{b}}$ ”表示 ${{a}}$ ${{b}}$ 表现出一定的相关性但其因果关系不明确,“ ${{a}} \circ \to {{b}}$ ”表示 ${{a}}$ 可能影响了 ${{b}}$ ,“ ${{a}} \to {{b}}$ ”,表示 ${{a}}$ ${{b}}$ 之间存在因果关系, ${{a}}$ ${{b}}$ 有影响,“ ${{a}} \leftrightarrow {{b}}$ ”表示 ${{a}}$ ${{b}}$ 之间存在隐变量同时对 ${{a}}$ ${{b}}$ 有影响。“*”作为元标记,泛指该方向箭头是“ $\blacktriangleright$ ”、“ $\circ$ ”、“”(空标记)中的任一种。在PAG中的分离集d-sep $\left( {{{a}},{{b}}} \right)$ 和可能-d-分离集 ${\rm{pds}}\left( {{{a}},{{b}}} \right)$ 定义为:

d-sep $\left( {{{a}},{{b}}} \right)$ ${{a}}$ ${{b}}$ 是PAG的节点,若存在节点 ${{c}}$ ,使得 ${{a}}$ ${{c}}$ 间存在一条无向路径 ${{p}}$ 满足 ${{p}}$ 中所有节点都是 ${{a}}$ ${{b}}$ 的祖先,则 ${{c}} \in$ d-sep $\left( {{{a}},{{b}}} \right)$

${\rm{pds}}\left( {{{a}},{{b}}} \right)$ ${{a}}$ ${{b}}$ 是PAG的节点,若 ${{a}}$ ${{b}}$ 之间路径上的存在节点 ${{c}}$ 使得 ${{a}}$ ${{c}}$ 间存在一条无向路径 ${{p}}$ ,满足 ${{p}}$ 中的所有三元组 $\left( {{{i}},{{m}},{{j}}} \right)$ 都是汇连结构 ${{i}} \to {{m}} \leftarrow {{j}}$ 或者形成一个环,则 ${{c}} \in {\rm{pds}}\left( {{{a}},{{b}}} \right)$

PAG中判断给定节点是否邻接的依据是:如果真实网络结构中 ${{a}}$ ${{b}}$ 条件独立,则 $ \exists {{S}} \subseteq$ d-sep $\left( {{{a}},{{b}}} \right)$ ,使得 ${{a}} \bot {{b}}|{{S}}$ 成立,此时可知, ${{a}}$ ${{b}}$ 之间不存在边。根据条件独立性检验,首先可以移除条件独立的2个节点间的边,得到初始骨架 $C$ 以及分离集d-sep。其次,将三元组定向为v-结构。若观测到的条件独立信息无法找到d-sep $\left( {{{a}},{{b}}} \right)$ ,则转向寻找其超集 ${\rm{pds}}\left( {{{a}},{{b}}} \right)$ ,根据条件独立性,在 ${\rm{pds}}$ 中找到最终骨架 $C$ ,再重新定向v-结构,从而解决了在含有隐变量的情况下,判断可观测变量之间的因果关系的问题。FCI算法的具体实现为

算法1:基于FCI的购物行为影响因素分析算法。

输入:社交用户关系图 $G$ ,用户个人信息集合 $I$ ,社交文本信息集合 $W$ ,购物行为集 $P$

输出:特征因果网络图 ${Q^*} = \left( {{{V}},{E^*}} \right)$

1:根据式(1)、(2),计算用户反从众指数集合 ${S_i}$

2:根据个人信息 $ {I_i}$ 、购物行为 $ {P_i}$ 和社交文本信息集合 $ {W_i}$ ,构建用户特征向量 $ {{{x}}_i}$

3:构建所有特征的无向完全图 $ Q = \left( {{{V}},E} \right)$ ,其中 $ {{V}} = \left[ {{{{x}}^{\left( 1 \right)}},{{{x}}^{\left( 2 \right)}},\cdots,{{{x}}^{\left( n \right)}}} \right]$

4:根据条件独立性,找到初始骨架 $ C$ 、分离集d-sep、三元组 $ M$

5:根据初始骨架 $ C$ ,将无向边转为非定向边加入边集 $ {E^{\rm{*}}}$

6:for $ \left\langle {{{a}},{{b}},{{c}}} \right\rangle \in M$

7:if ${{b}} \notin $ d-sep $\left( {{{a}},{{c}}} \right)$ , then 边定向为 $e\left( {{{a}}* \to {{b}}} \right)$ $e\left( {{{b}} \leftarrow *{{c}}} \right)$

8:End for

9:根据条件独立性,在 $ {\rm{pds}}$ 中找到最终骨架 $ C$ 、分离集d-sep(更新 $ C$ 和d-sep)// $ {\rm{pds}}$ 根据定义得到

10:根据步骤9重新确定边的方向(更新 $C$ )

11:return 特征因果网络图 $ {Q^*} = \left( {{{V}},{E^*}} \right)$

3 数据处理 3.1 数据来源

本研究使用的实验数据集包括购物数据和微博数据两大部分。购物数据由国内某电商平台提供,包含用户的购物行为数据以及对应的微博ID。其中购物行为数据从2013年1月至2017年12月,包含9 970名用户购买记录、收藏记录、浏览记录,共计3 131 557条数据。微博数据由新浪微博提供的API接口获取,包括用户的个人信息数据、发布的文本信息及用户间的关系数据,涉及用户39 496名,用户关系496 916对,共计4 903 785条微博文本数据。个人信息包括用户微博ID、用户名、性别、地域、博文数、关注用户数、粉丝数等,用户间关系从用户的关注用户集和粉丝集中获取。数据集的描述如表1所示。

表 1 数据集描述 Table 1 Dataset statistics
3.2 数据处理流程

本文研究提出了融合用户社交关系和社交信息的网络购物行为因果发现模型,数据处理流程如图2所示。

图 2 数据处理流程 Figure 2 Data processing flowchart

(1) 通过微博接口获取微博信息,从中抽取用户个人信息、微博信息、用户关系,并利用训练好的CBOW模型计算用户微博文本词向量,根据用户微博文本词向量和已知商品品牌偏好的用户文本向量计算文本相似度,挖掘用户兴趣点。同时,根据用户间的关注关系计算用户的重要性特征。

(2) 从历史购物行为数据中提取商品购买、商品浏览、商品收藏等行为特征,并计算网购经验。

(3) 利用用户关系、用户兴趣、购物行为等特征计算用户网络购物行为的反从众指数。

(4) 基于FCI算法构建因果网络模型进行特征选择,剔除对网络购物行为影响不显著的特征。

(5) 训练模型,挖掘网络用户购物行为的影响因素。

4 实验与分析

为了验证本文提出的基于FCI因果网络的购物行为分析算法的有效性,本文采用模型实验分析和实证分析两种方法对其进行验证。模型实验分析中,评估本文提出的算法在随机森林(Random Forest)模型[23]下与方差选择法、Pearson系数法、Lasso选择法、PC因果特征选择等方法间的性能差异。实证分析中,采用调查问卷的形式,对收集到的数据进行相关分析和回归分析,检验被选中特征对反从众指数的影响的显著性。

4.1 参数设置

本研究基于FCI算法生成购物行为的因果特征图,利用条件独立性判断因果关系边的存在性,其独立性阈值为0.95。在社交特征向量中,用户的微博文本信息统一使用CBOW模型转化为词向量,向量的维度统一为100。本研究在随机森林模型下进行反从众指数值预测,验证购物行为的因果特征图的有效性,随机森林模型决策树个数为10。

4.2 模型实验分析

(1) 评估指标。

采用平均绝对误差(Mean Absolute Error,MAE)、均方根误差(Root Mean Square Error,RMSE)、决定系数(Coefficient of Determination,R-square或R2)作为评估指标验证算法的有效性。指标MAE和RMSE的值越小则表明模型预测的准确度越高,指标R2越大表明方程对观测值的解释能力越强,模型对数据的拟合程度越高。MAE的定义为

${\rm{MAE}} = \frac{1}{N}\sum\limits_i {|{y_i} - {{\hat y}_i}|} $ (5)

RMSE的定义为

${\rm{RMSE}} = \sqrt {\frac{1}{N}{{\left( {{y_i} - {{\hat y}_i}} \right)}^2}} $ (6)

R2的定义为

${R^2} = \frac{{\sum\limits_i {{{\left( {{{\hat y}_i} - \bar y} \right)}^2}} }}{{\sum\limits_i {{{\left( {{y_i} - \bar y} \right)}^2}} }}$ (7)

其中, $N$ 为样本数量, ${y_i}$ 为第 $i$ 个样本真实的反从众指数值, ${\hat y_i}$ 为模型预测的第 $i$ 个样本的反从众指数值, ${\bar y_i}$ 为所有样本真实反从众指数值的均值。

(2) 特征选择。

利用FCI算法对用户的社交特征和用户反从众指数训练因果网络模型,进行特征选择。由于购物数据集中只包含其中9 970名用户的实际购买行为,购物数据集中不涉及的29 526名微博用户,根据2.2节用户兴趣特征计算方法,利用用户微博文本分析该用户的兴趣偏好,预测用户的购买行为,以预测的购买行为代替实际购买行为来度量反从众指数,具有实际购买行为的用户则使用实际购买行为来度量反从众指数。得到用户的社交特征因果关系图,如图3所示。

图 3 社交特征因果关系图 Figure 3 Causal graph of social characteristics

根据FCI模型,“ ${{a}} \circ - \circ {{b}}$ ”表示 ${{a}}$ ${{b}}$ 表现出一定的相关性但其因果关系不明确,“ ${{a}} \circ \to {{b}}$ ”表示 ${{a}}$ 可能影响了 ${{b}}$ ,“ ${{a}} \to {{b}}$ ”,表示 ${{a}}$ ${{b}}$ 之间存在切确的因果关系, ${{a}}$ ${{b}}$ 有影响,“ ${{a}} \leftrightarrow {{b}}$ ”表示 ${{a}}$ ${{b}}$ 之间存在隐变量同时对 ${{a}}$ ${{b}}$ 有影响。根据图3,在0.95的置信水平下,用户网络购物行为的反从众程度可能受性别、粉丝数量的影响。网红或大V等粉丝数多的用户往往具有较高的地位。研究表明,高低位者的行为态度更容易被其他用户接受和追随,认为自己较容易被接受和认可[24],因此容易呈现反从众行为。上述研究结果,与本研究算法学习到的社交特征因果关系图边“粉丝数量o→反从众指数”的结构和方向相一致,也验证了本研究算法的有效性。

根据购物数据集中的9 970名用户的历史浏览、历史收藏、历史购买行为以及购物经验等特征构建因果网络模型进行特征选择。得到用户的购物行为特征因果关系图,如图4所示。

图 4 购物行为特征因果关系图 Figure 4 Causal graph of shopping characteristics

在0.95的置信水平下,用户网络购物行为的反从众程度受历史收藏、历史购买和网购经验的影响。具有历史收藏或购买行为的用户会利用自身相似经验保持自我行为态度的前后一致[22],忽略他人行为,从而呈现出更强的反从众性。基于FCI的购物行为影响因素分析算法学习得到的购物行为特征因果关系图的边“历史购物o→反从众指数”、“历史收藏o→反从众指数”也符合日常消费行为习惯,历史购买和收藏行为体现了用户的兴趣偏好。对于该品牌商品,用户自身已经持有类似的经验和行为态度,其他用户的观点态度对其影响较小,行为不易受到他人的影响而改变,更易表现出反从众行为。

(3) 实验结果。

为了验证本文算法对提升网络购物行为分析的有效性,分别对无特征选择法、方差选择法、Pearson系数法、Lasso法、PC因果特征选择等方法,与FCI因果特征选择方法对比,在随机森林模型下进行反从众指数值预测。原有特征包括:用户性别、地域、粉丝数、关注人数、博文数、重要性、历史购物、历史收藏、历史浏览、网购经验。PC和FCI因果特征选择方法根据因果网络模型的结果选取特征。在0.95的置信水平下,根据PC因果发现算法的结果,选取的特征为历史收藏、历史浏览、历史购买、网购经验4个特征。FCI因果发现算法选取性别、粉丝数量、历史收藏、历史购物、网购经验5个特征训练模型。方差法、Pearson系数法、Lasso法依据各自选择标准选取前5个特征。对比结果如表2所示。

表 2 对比实验结果 Table 2 Performance results

表2可以看出,引入FCI因果网络模型进行特征选择,能够有效提升模型预测效果,降低特征维度,剔除冗余特征的干扰,同时直观体现特征之间的内在因果影响机制,有助于理解用户网络购物行为的消费动机。由于PC因果发现算法假设性较强,当存在不可观测的潜在影响因素时,会造成因果结构判断错误。与PC因果发现算法相比,FCI引入了隐变量进行因果结构学习,可以避免PC算法结构学习的错误,并能学习到更多可能影响反从众行为的特征,实验结果也表明FCI算法特征选择的效能优于PC算法。

4.3 实证分析

为了进一步验证该模型,本文同时采用问卷调查的形式对网络购物行为进行实证分析。根据CNNIC 2019年发布的《第43次中国互联网络发展状况统计报告》显示,社交平台和网络购物平台的主要用户群体为大学生和年轻白领,故本文实证研究选择在校大学生和年轻白领作为研究对象。发放在线问卷180份,其中有效问卷为167份,有效率为92.8%。问卷调查中涉及模型中的性别、收藏行为、网络购物经验等特征,问题采用国际上通用的Likert 5级量表进行测量。分别以Alpha信度系数法和探索性因子分析方法检验量表的信度和效度。数据结果显示各变量的Cronbach’s值均超过0.6,表明各量表的内部一致性较高。旋转成分矩阵显示各题项的因子载荷均大于0.6,说明问卷的建构效度较高。

本文研究采用SPSS(Statistical Product and Service Solutions)软件对相关数据值进行相关分析和线性回归分析。相关分析结果显示(如表3所示),该特征与反从众指数相关分析的显著性p值<0.05,表明性别、历史收藏、网购经验特征与反从众指数之间均存在一定关系。根据回归分析结果(如表4),历史收藏对反从众指数的调整R2为0.308,表示有30.8%的变差可由回归模型解释,对方程的F检验的p值0.000<0.05,表示回归方程成立,对回归方程中的系数的t检验,p值0.000<0.05表明历史收藏特征对反从众指数存在显著影响。网购经验对反从众指数的回归分析结果显示,网购经验特征对反从众指数存在显著影响,与模型结果吻合。

表 3 相关分析结果1) Table 3 Results of correlation analysis
表 4 回归分析结果 Table 4 Results of regression analysis
5 结束语

为了研究社交网络背景下,用户的购物行为模式和内在影响机制,本文提出了融合用户社交关系和社交信息的基于FCI的购物行为因果发现算法。首先,根据心理学相关理论,利用反从众理论研究用户的购物行为动机,并给出反从众指数的度量方法。其次,抽取用户的社交信息、社交关系特征和购物特征,利用因果网络模型进行特征选择,剔除冗余特征,减少噪声干扰,同时挖掘网络购物行为的内在因果机制。最后,结合随机森林模型训练网络用户购物行为的反从众指数预测模型。实验结果表明该方法能够识别网络用户购物行为特征的内在因果影响机制,验证了社交网络用户的购物行为特征间因果关系的存在性,为因果发现的应用领域提供了新的研究方向,同时也为社交用户购物行为的研究提供了新的工具。本文研究中仅利用显性的社交关系对用户行为进行分析预测,后续研究工作将结合二度好友影响力等隐藏社交影响力的度量方法进行改进,分析不同社交关系对用户购物行为的影响。

参考文献
[1]
YUN Y, HOOSHYAR D, JO J, et al. Developing a hybrid collaborative filtering recommendation system with opinion mining on purchase review[J]. Journal of Information Science, 2018, 44(3): 331-344. DOI: 10.1177/0165551517692955.
[2]
LO C, FRANKOWSKI D, LESKOVEC J. Understanding behaviors that lead to purchasing: a case study of pinterest[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2016: 531-540.
[3]
ANSARI S, ANSARI G, GHORI M U, et al. Impact of brand awareness and social media content marketing on consumer purchase decision[J]. Journal of Public Value and Administration Insights, 2019, 2(2): 5-10. DOI: 10.31580/jpvai.v2i2.896.
[4]
XU-PRIOUR D L, CLIQUET, GÉRARD, et al. The influence of buyers’ time orientation on online shopping behavior: a typology[J]. International Journal of Electronic Commerce, 2017, 21(3): 299-333. DOI: 10.1080/10864415.2016.1319206.
[5]
ASCH S E. Effects of Group Pressure Upon the Modification and Distortion of Judgments[M]. New York: Holt, Reinhart & Winston, 1952.
[6]
TANG J, WU S, SUN J. Confluence: Conformity influence in large social networks[C]//Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2013: 347-355.
[7]
ESCALAS J E, BETTMAN J R. Self-construal, reference groups, and brand meaning[J]. Journal of Consumer Research, 2005, 32(3): 378-389. DOI: 10.1086/497549.
[8]
SNYDER C R. Product scarcity by need for uniqueness interaction: a consumer catch-22 carousel?[J]. Basic and Applied Social Psychology, 1992, 13(1): 9-24. DOI: 10.1207/s15324834basp1301_3.
[9]
LEVY G. Anti-herding and strategic consultation[J]. European Economic Review, 2004, 48(3): 503-525. DOI: 10.1016/S0014-2921(03)00019-9.
[10]
CONNER S L, REARDON J, MILLER C, et al. Cultural antecedents to the normative, affective, and cognitive effects of domestic versus foreign purchase behavior[J]. Journal of Business Economics and Management, 2017, 18(1): 100-115. DOI: 10.3846/16111699.2016.1220975.
[11]
RAHMAN M A, ISLAM M A, ESHA B H, et al. Consumer buying behavior towards online shopping: an empirical study on Dhaka city, Bangladesh[J]. Cogent Business & Management, 2018, 5(1): 1-22.
[12]
莫赞, 罗敏瑶. 在线评论对消费者购买决策的影响研究——基于评论可信度和信任倾向的中介、调节作用[J]. 广东工业大学学报, 2019, 36(2): 54-61.
MO Z, LUO M Y. A research of the influence of online reviews on consumer purchase decision-based on mediation and adjustment of reliability comments and trust tendency[J]. Journal of Guangdong University of Technology, 2019, 36(2): 54-61. DOI: 10.12052/gdutxb.180132.
[13]
ALAVIJEH M R K, ESMAEILI A, SEPAHVAND A, et al. The effect of customer equity drivers on word-of-mouth behavior with mediating role of customer loyalty and purchase intention[J]. Engineering Economics, 2018, 29(2): 236-246.
[14]
彭嘉恩, 邓秀勤, 刘太亨, 等. 融合社交和标签信息的隐语义模型推荐算法[J]. 广东工业大学学报, 2018, 35(4): 45-50.
PENG J E, DENG X Q, LIU T H, et al. A recommendation algorithm of latent factor model fused with the social and tag information[J]. Journal of Guangdong University of Technology, 2018, 35(4): 45-50. DOI: 10.12052/gdutxb.170140.
[15]
QIU J, TANG J, MA H, et al. Deepinf: social influence prediction with deep learning[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM, 2018: 2110-2119.
[16]
SPIRTES P, GLYMOUR C N, SCHEINES R, et al. Causation, Prediction, and Search[M]. Cambridge: MIT Press, 2000.
[17]
蔡瑞初, 陈薇, 张坤, 等. 基于非时序观察数据的因果关系发现综述[J]. 计算机学报, 2017, 40(6): 1470-1490.
CAI R C, CHEN W, ZHANG K, et al. A survey on non-temporal series observational data based causal discovery[J]. Chinese Journal of Computers, 2017, 40(6): 1470-1490.
[18]
YIN H, HU Z, ZHOU X, et al. Discovering interpretable geo-social communities for user behavior prediction[C]//2016 IEEE 32nd International Conference on Data Engineering (ICDE). Las Vegas: IEEE, 2016: 942-953.
[19]
BAKSHY E, HOFMAN J M, MASON W A, et al. Everyone's an influencer: quantifying influence on twitter[C]//Proceedings of the Fourth ACM International Conference on Web Search and Data Mining. New York: ACM, 2011: 65-74.
[20]
MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[EB/OL]. (2013-09-07)[2019-12-28]. https://arxiv.org/abs/1301.3781.
[21]
HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. DOI: 10.1162/neco.1997.9.8.1735.
[22]
LEE J K, HANSEN S S, LEE S Y. The effect of brand personality self-congruity on brand engagement and purchase intention: The moderating role of self-esteem in Facebook[EB/OL]. Berlin: Springer, (2018-06-20)[2019-12-28]. https://doi.org/10.1007/s12144-018-9898-3.
[23]
SVETNIK V, LIAW A, TONG C, et al. Random forest: a classification and regression tool for compound classification and QSAR modeling[J]. Journal of Chemical Information & Computer Sciences, 2003, 43(6): 1947-1958.
[24]
KELLEY H H. The processes of causal attribution[J]. American Psychologist, 1973, 28(2): 107. DOI: 10.1037/h0034225.