基于多层次深度模型的社交网络核心谣言传播节点识别

引用本文

李元, 张栖, 朱建明, 等. 基于多层次深度模型的社交网络核心谣言传播节点识别[J]. 中国科学院大学学报, 2024, 41(1): 136-144.

Li Y, Zhang Q, Zhu J M, et al. Identification of core rumor spreaders in online social networks based on multi-stage deep model[J]. Journal of University of Chinese Academy of Sciences, 2024, 41(1): 136-144.

基于多层次深度模型的社交网络核心谣言传播节点识别

李元¹, 张栖¹, 朱建明², 焦建彬²

1. 中国科学院大学电子电气与通信工程学院, 北京 100049;
2. 中国科学院大学应急管理科学与工程学院, 北京 100049

2022年3月18日收稿; 2022年6月6日收修改稿

基金项目: 国家自然科学基金(72074203)资助

通信作者: 焦建彬, E-mail: jiaojb@ucas.ac.cn

摘要: 鉴于在线社交网络谣言控制的时效性与及时性，提出一种基于多维特征的两阶段图卷积网络(MSF-GCN)学习模型。该模型试图在尽早的时间实现精准定位核心谣言传播节点，从源头上阻断谣言扩散。通过将MSF-GCN方法与其他基准方法在谣言数据集上进行比对，实验结果验证了MSF-GCN学习模型更加有效。

关键词: 在线社交网络谣言识别核心节点图卷积神经网络

Identification of core rumor spreaders in online social networks based on multi-stage deep model

LI Yuan¹, ZHANG Qi¹, ZHU Jianming², JIAO Jianbin²

1. School of Electronic, Electrical and Communication Engineering, University of Chinese Academy of Sciences, Beijing 100049, China;
2. School of Emergency Management Science and Engineering, University of Chinese Academy of Sciences, Beijing 100049, China

Abstract: Online social networks have become the disaster areas where rumors grow. It is of great significance to identify core rumor spreaders for rumor prevention and control. The traditional rumor control model is mainly based on the dynamics of rumor propagation, and it is mainly focused on in-event or post-event control. In view of the timeliness of rumor control, this paper proposes a multi-stage graph convolutional network based on multi-dimensional features (MSF-GCN) deep learning model to accurately locate core rumor spreaders as early as possible and block rumor diffusion from the source. This work compares the MSF-GCN method with other three baseline methods on rumor data set, and the experimental results verify that our method is more efficient.

Keywords: online social network rumor identify core nodes GCN

数字时代的到来使世界各地人们的联系变得更加紧密和容易。在众多的协作、分享和交流渠道中，社交网络已成为人们生活中离不开的一种重要社交工具。公众能用社交平台关注当下热点事件、表达对热门话题的观点并分享自己的兴趣和生活，这种信息快速共享和转发的方式大大加快了信息融合的速度和规模。但是，信息的传播并不总是可靠的。为了赚取流量或其他某种目的，不断有人在社交平台中散布大量谣言。谣言是一种未经证实的信息，可能会带来伤害或威胁^[1]。大量事实证明社交网络已成为谣言滋长的温床^[2]。不仅如此，Vosoughi等^[3]研究表明，利用谣言的吸引力和在线社交网络的广泛影响力，谣言比事实信息传播得更快、更广。这势必会给社会带来恐慌和直接或间接的经济损失。因此，在谣言扩散前，识别是否存在核心谣言传播节点以及谁是核心谣言传播节点，对于预防和控制谣言传播具有重要的理论和现实意义。

谣言控制已成为社交网络研究领域的一个重要分支。过去的研究多数是基于影响最大化的思想，从阻塞点^[4-6]、阻塞边^[7-8]以及寻找关键节点传播正面信息^[9-11]这3个方面进行谣言事后控制。无论是哪种控制策略，其核心目的是通过某种算法寻找或识别关键的、有影响力的节点或边。其中贪婪算法是一种重要的方法，其核心思想是计算每个节点的影响力，并依次选择边际影响力最大的，直到选出K个最有影响力的节点^[12-15]；虽然贪婪算法有效性较高，但特别耗时。因此具有较低时间复杂度的启发式算法得到了学者的广泛研究^[16-18]。此外，也有学者通过分析用户档案信息^[19]、观察用户在特定时间窗口的活动模式^[20]等方法识别网络中的恶意用户；还有不少学者从图论结构中心性的角度^[21-23]描述了节点的重要性；随着人工智能的发展，有的学者利用特征工程^[24]的方法在特定场景中寻找重要节点^[25-27]；此外，逐渐有学者开始尝试深度学习方法，例如图卷积网络(graph convolutional network, GCN)^[28]，可将关键节点识别问题转换为分类、聚类或预测问题^[29-32]。

相比事后控制，对谣言的事先控制，能在尽可能早的时间实现从源头上进行谣言阻断，指数级地缩小全网监控范围，从而降低系统运行和维护成本，进一步推进实现人防和机防的联合响应，更好地阻止谣言传播。而实现事先控制的关键是识别核心谣言传播节点。因为核心谣言传播节点可能是谣言传播的潜在来源或引爆节点。这里，我们将谣言传播节点定义为那些可能参与传播谣言的用户。“核心”是指一种影响力，“核心谣言传播节点”是指传播谣言的用户中影响力较大的用户。实验中将谣言传播节点影响力前10%的用户视为核心谣言传播节点。在社交平台中，识别核心谣言传播节点具有4大难点：一是传播谣言的用户与众多没有参与传播谣言的用户建立了许多紧密的联系，这种联系加强了谣言传播者的网络融合性与隐蔽性；二是谣言话题具有复杂性和高维性；三是由于谣言事件发生的时间较短、随机性大、删除率高，因此无法有效地进行重要数据提取，导致现有公开数据集普遍面临数据样本稀疏、正负样本分布不均衡的问题；四是识别核心谣言传播节点这一问题目前还没有得到足够的重视，这主要是因为缺乏关于谣言传播节点的标注数据集。

基于此，提出一种多特征多层图卷积网络(MSF-GCN)模型的核心谣言传播节点识别方法。模型主要基于GCN，将特征工程和网络工程的方法结合起来，将节点静态属性和动态属性、谣言传播的时序信息、节点的关系网络整合起来一并纳入神经网络中进行学习。为解决谣言数据样本分布不均，样本数量缺乏这一问题，在进行量化计算时，设计了两阶段学习框架：第1阶段是GCN的预训练模型，它能针对特定下游任务，实现对整个场景的大概认知和知识提取；第2阶段是特征增强的GCN学习模型，它通过高斯采样技术，很好地扩展了样本集的特征，提升了小样本空间的致密性，促使神经网络的多层局部响应机制更好地发挥出来。通过与支持向量机(support vector machine，SVM)、K近邻(K-nearest neighbor，KNN)和逻辑回归(logistic regression，LR)3种基线方法的对比可知，MSF-GCN学习框架在基本没有增加计算量的情况下，不仅提高了识别类，而且实现了学习精度的显著提升。

综上所述，这项研究的创新性有以下3点：

1) 通过对社交网络中用户动态和静态特征进行挖掘和提取，利用多层神经网的局部响应机制，有效地识别出核心谣言节点，从而实现谣言的事先控制。

2) 提出一个多维特征下图卷积网络的双层学习框架，它将用户特征表示与网络结构特征相结合，既能处理节点静态/动态属性特征、语义特征和时序特征，又能处理节点的网络结构特征。

3) 在MSF-GCN模型的双层学习结构中，通过预训练学习，对基本数据集进行特征提取。然后利用特征增强技术，对特征空间进行高斯采样，显著增加了特征样本数。这不仅解决了小样本分布不均、样本数量缺乏的问题，而且使过拟合问题得到了缓解。

1 数据及特征提取

首先对实验选用的数据集进行简要说明，接着详细解释如何将原始微博数据集转化为识别核心谣言传播节点的实验数据集。然后给出核心谣言传播节点的定义，并从实验数据集中提取3种不同类型的特征集，作为所提模型算法的原始输入。最后介绍所提MSF-GCN学习模型的关键技术。

1.1 实验数据集的获取

实验所用的数据集来源于清华大学Aminer团队编写的新浪微博公开数据集^[33]。这个公开数据集是随机选择100个用户作为种子用户，然后依次收集他们的关注者及关注者的关注者。总共收集170万用户和他们之间的40亿个关注关系，平均每个用户有200个关注者。对于每个用户，同时收集他们的相关人物属性及最近1 000条微博(发布+转发)。

为将原始数据转化为所需的谣言数据，实验采用关键字筛选的方式，选出2类不同的谣言微博(原微博+转发微博)作为实验数据集。它们分别是“温州动车事故”(话题A)和“中国儿童尝试吃转基因大米”(话题B)。将参与这2个话题发布或转发的用户分为2大类，一类是支持谣言并继续发布和转发不实言论的谣言用户u^R，一类是不相信谣言并发布和转发反谣言微博的反谣言用户u^AR。在数据提取过程中，对抽取数据做了细致的人工标注。各话题具体统计信息见表 1。

表 1 实验数据集的统计量 Table 1 The statistics of the experimental data set

抽取出的用户属性用UP={u_i, P_i}表示，其中P_i表示谣言话题中用户u_i的静态属性和行为属性。静态属性包括节点的性别Gen(u_i)、认证情况Ver(u_i)，及注册时间Reg(u_i)；行为属性包括节点的微博转发数Ret(u_i)、微博原创数Pos(u_i)、关注数Fol(u_i)及粉丝数Deg(u_i)。因此P_i=[Gen(u_i), Ver(u_i), Reg(u_i), Deg(u_i), Fol(u_i), Ret(u_i), Pos(u_i)]。需要指出的是，由于一些用户被系统封禁，原数据集中无法获取到该类用户属性特征，因此将这类用户视为异常节点，将其删除。

另外，用户的历史微博内容用HC={u_i, C_i}表示，其中C_i表示单个用户u_i在社交平台上的微博历史文本信息，包括原始微博内容和转发微博内容。

1.2 核心谣言传播节点的定义

基于以上实验数据集，进一步对谣言用户进行细分。同时，给出以下2个定义。

定义1 谣言用户影响力Inf(u_i^R)。

决定谣言用户影响力的2个因素是扩散范围(粉丝数)的大小和参与谣言(发布或转发)的时间。越早参与谣言话题的传播，对谣言的扩散更有助力。先在同类谣言微博中，对谣言用户的参与时间进行时序化处理，对应得到谣言用户的时序数(见定义2)。再将用户粉丝数量乘以时序数的衰减因子，即用下式来衡量每个谣言用户的综合影响力

$ \operatorname{Inf}\left(u_i^R\right)=\mathrm{e}^{-s_i} \cdot \operatorname{Deg}\left(u_i^R\right) . $

(1)

其中：Deg(u_i^R)代表谣言用户u_i^R的粉丝数，这里指节点出度数；s_i指谣言用户i参与谣言的时序数。实验中，取影响力前10%的谣言节点作为核心谣言传播节点。

定义2 时序s：指在同一谣言话题下，用户参与转发谣言的时间序列。

对同一类谣言微博按发布时间的先后进行排序，将其持续时间的取值范围分为k+1个等宽的区间，从0开始依次标记，落在第i个区间的用户的时序值用s_i表示，过程如图 1所示。没有参与的用户时序值设为+∞。

	Download: JPG larger image
图 1 谣言微博时序处理过程 Fig. 1 Timing sequence process of rumor microblogs

根据上述定义，利用公式(1)可将实验数据集中谣言用户分为核心谣言传播节点与非核心谣言传播节点。最终得到3类用户，如表 2所示。这也是实验的最终预测分类值。

表 2 3类用户的数据统计 Table 2 Data statistics of three types of users

1.3 模型特征集的提取 1.3.1 节点属性特征矩阵的构建

大量研究表明个体的异质性在谣言传播中起着关键作用，所以在构建模型的过程中，特别考虑了节点属性的作用。用户属性中包含节点的静态属性和行为属性，从中提取出模型能够识别的数据特征，并用于表示学习。

节点的粉丝数Deg(u_i)可用于刻画度中心性Deg_Cen(u_i)，它反映该用户信息扩散的能力以及在网络拓扑中的重要性。关注数Fol(u_i)可用于表示节点获取信息的范围。认证情况和性别是节点身份的一种象征，文中分别用认证用户和性别在原始数据集中的比例表示节点的认证特征Ratio_Ver(u_i)与性别特征Ratio_Gen(u_i)。另外，微博转发数Ret(u_i)、微博原创数Pos(u_i)和时间3个维度的组合可用来构造用户的活跃程度Act(u_i)，反映节点在一定时长内参与话题讨论的多少，其计算方式如下

$ \operatorname{Act}\left(u_i\right)=\frac{\operatorname{Ret}\left(u_i\right)+\operatorname{Pos}\left(u_i\right)}{T\left(u_i\right)}, $

(2)

$ T\left(u_i\right)=T_{\text {ext }}-\operatorname{Reg}\left(u_i\right) . $

(3)

其中：T(u_i)代表一个时间跨度，即用户注册时间到数据获取时间中间的时长；T_ext指获取数据的时间。

最后，通过上述分析，可以得到每个用户的静态及动态属性的特征向量：F^a=[Ratio_Gen(u_i), Ratio_Ver(u_i), Deg_Cen(u_i), Fol(u_i), Act(u_i)]，其中a为用户属性特性向量的维度5。整个网络系统中用户的特征表示可设为X=n×F^a，其中n为网络中的节点数。

1.3.2 节点的历史内容特征矩阵的构建

用户发布的微博内容在一定程度上可以反映出用户在某个时间段的兴趣和观点。因此在构造用户的历史内容特征矩阵时，选取节点的历史微博信息HC={u_i, C_i}来提取相应的内容特征。将用户所有历史微博内容以文本形式存储后，经过文本向量化Doc2vec算法，可输出用户历史文本的特征矩阵D=n×F^b，其中n表示网络中节点数，F^b表示每个节点的历史文本内容C_i特征向量，b为历史内容特征向量的维度。

1.3.3 节点的局部时序邻域网络矩阵的构建

在社会网络图中，节点的影响能力不光取决于自身特征，还取决于它的邻居节点。因此，在节点表示学习时，节点的邻域网络选取尤为重要。但由于节点的异质性，不同节点具有不同形式或不同规模的邻域结构，这对于深度学习模型中小批量学习并不太适用。为了高效计算，实验中并没有提取每个节点的完整邻居集，而是利用广度优先搜索(breadth first search，BFS)算法^[31]对节点的邻居集进行固定规模S-1的抽样。S-1个邻居节点与目标节点即可构成规模为S的局部邻域网络。用$\boldsymbol{A}^{u_i}\left(\boldsymbol{A}^{u_i} \in {\mathbf{R}}^{S \times S}\right)$将其表示为邻接矩阵，其中每个元素代表节点之间的连接关系，A_ij=1表示节点之间有连边，A_ij=0则表示节点之间无连边。由于每个谣言节点的传播行为具有时序性，因此模型为谣言用户的邻接矩阵A^u_i中所有节点u₁, u₂, …, u_s构造了一个带有时序特征的邻接矩阵A^u_i。首先由定义2将邻接矩阵A^u_i中所有节点u₁, u₂, …, u_s的时序值s提取出来，通过线性变换形成一个新的时序向量q，其中c为常数，即时序s中越小的值在q中对应的值越大。再将q融入一个规模为S的单位矩阵I的主对角线中，得到S^u_i，最后通过对邻接矩阵A^u_i的变换，得到带有时序特征的邻接矩阵A^u_i。

$ q_i=-s_i+c, $

(4)

$ \boldsymbol{S}^{u_i}=\left\{\begin{array}{cc} q_i, & i=j=0, 1, 2 \cdots, S-1, \\ I_{i j}, & \text { othercases }, \end{array}\right. $

(5)

$ \overline{\boldsymbol{A}}^{u_i}=\boldsymbol{S}^{u_i} \boldsymbol{A}^{u_i} . $

(6)

例如图 2，若要为节点a(d_a=3)提取一个规模为S=6的邻域矩阵，则需先提取a的所有1阶邻居b(1-hop, d_b=1)、c(1-hop, d_c=2)和d(1-hop, d_d=3)，由于1阶邻居数为3，达不到S-1的规模，则继续提取a的2阶邻居e(2-hop, d_e=1)、f(2-hop, d_f=0)和g(2-hop, d_g=2)。从2阶邻居中寻找出度更大的邻居e和g，就能得到节点a规模为6的邻接矩阵A^a。假设目标节点

	Download: JPG larger image
图 2 时序邻接矩阵的生成 Fig. 2 Generation of timing sequential adjacency matrix

和邻居节点的时序值s为[0 1 3 0 +∞ +∞]，通过公式(4)(c=10)线性变换后得到时序向量q=[10 9 7 10 0 0]，利用公式(5)得到S^a，最后通过公式(6)计算出A^a。

2 模型方法

MSF-GCN模型是将识别核心谣言节点的问题转化为一个三分类的预测模型，3类分别是核心谣言传播节点、非核心谣言传播节点和反谣言传播节点。整个预测模型主要由输入层、隐藏层、全连接层、输出层及损失函数构成。

2.1 输入层

利用上述3个特征矩阵(节点属性特征矩阵X、节点历史内容特征矩阵D及节点局部时序邻域矩阵A)作为MSF-GCN学习模型的输入。

由于节点属性特征值存在量纲的不同，为提升模型的卷积速度和精度、避免过拟合，实验中采用下式max－min标准化方法对节点的每个属性特征值进行归一化处理

$ x^{\prime}=\frac{x-x_{\min }}{x_{\max }-x_{\min }} . $

(7)

从而得到标准化后的节点属性特征矩阵X′。

这样每个目标节点的表示可以用属性特征矩阵与历史行为特征矩阵拼接而成，因此，输入层特征矩阵可表示为F^{(a, b)}=(X′, D)，其维度是a+b。

输入层中采用时序邻接矩阵A作为网络结构表示。由于A为非对称矩阵，所以对其构造了对称归一化的拉普拉斯算子$\hat{\boldsymbol{A}}$

$ \hat{\boldsymbol{A}}=\boldsymbol{d}^{-\frac{1}{2}} \tilde{\boldsymbol{A}} \boldsymbol{d}^{-\frac{1}{2}}=\boldsymbol{d}^{-\frac{1}{2}}(\overline{\boldsymbol{A}}+\boldsymbol{I}) \boldsymbol{d}^{-\frac{1}{2}} . $

(8)

式中：I为单位矩阵，d为$\tilde{\boldsymbol{A}}$的度矩阵。

2.2 隐藏层

隐藏层也称图卷积层，它是一种利用图结构和特征向量学习节点表示向量的半监督算法。该层定义如下

$ \boldsymbol{H}^{i+1}=\sigma\left(\hat{\boldsymbol{A}} \boldsymbol{H}^i \boldsymbol{W}^i+\boldsymbol{b}^i\right) . $

(9)

其中：Hⁱ为GCN第i层的节点特征表示，Wⁱ和bⁱ表示第i层的训练权重和偏差参数，σ为非线性激活函数。在实验中，模型设置了2层GCN，选择ReLu(x)=max(0, x)作为这2层的激活函数，H⁰为节点的特征矩阵F^{(a, b)}。与此同时，为避免过度拟合，在这层还应用了Dropout^[34]技术。

2.3 全连接层

模型中设计了3个全连接层(fully connected layers，FC)用于进行GCN下游任务学习。每个全连接层利用ReLu非线性函数激活。同样，在前2个全连接层采用了Dropout技术，以避免过拟合。

2.4 输出层和损失函数

全连接层的输出被送入LogSoftMax分类器。整个模型的输出为$\boldsymbol{Z}=\operatorname{In}\left(\mathrm{P}\left(u k, k, u^{A R}\right)\right)$，将输出的分类结果与真实数据集中的标签进行比较，利用下式优化似然损失

$ L=-\sum\limits_k \boldsymbol{Y}_k \boldsymbol{Z}_k. $

(10)

综上所述，模型整体框架图如图 3所示。

	Download: JPG larger image
图 3 模型框架图 Fig. 3 Model frame

3 实验与实验结果

实验使用的是Window64位系统，处理器为Intel(R) Core(TM) i7-9700 CPU@3.00 GHz，内存32 GB。在对比实验中，选取SVM、KNN和LR 3个基线方法。

3.1 超参数设置

在模型框架中，训练集和测试集比例为8∶2。用户历史文本特征维度设为300，即F^b中b=300；实验中对目标节点采样了S=50的邻域网络。由于用户属性特征维度a=5，因此，输入层中特征矩阵F^{(a, b)}=(X′, D)中每个节点的特征维度为305维。

模型的前2层是图卷积层，后3层是全连接层，所有参数使用Adam优化器^[35]训练得到，各层具体参数见表 3。初始学习率设置为0.001，权值衰减为5e-4。当训练算法迭代到第10个epoch时，将学习率调为0.000 1。最终运行训练算法20个epoch时，通过early stopping方法^[36]选出效果最好的模型。最终输出经过Logsoftmax处理，完成核心谣言传播节点、非核心谣言传播节点及反谣言传播节点的预测任务。

表 3 模型参数 Table 3 Model parameters

3.2 实验过程 3.2.1 预训练

由于小样本问题(样本不足和样本不平衡)的存在，模型会产生过拟合且缺乏泛化能力，因此在实验中对模型做了预训练，以完成对已有知识的抽取。将训练数据集放入模型，通过BP算法^[37]得到模型参数，并且在预训练结束后得到数据通过GCN层后的特征表示，作为下一步高斯采样的输入。3类训练样本数分别为509、4 592和2 053，3类样本特征表示个数也依次对应。需注意的是，若预训练的epoch设置太低，模型还未充分学习，抽取到的知识自然是有限的；若epoch设置太高，模型虽然在训练集表现会越来越好，但是测试集上会表现得很差，这时候抽取到的知识是偏颇的，缺乏泛化能力。根据未做预训练之前模型在数据集上的拟合情况，实验将epoch设为3。

3.2.2 高斯采样

为克服抽取知识的不完备，模型通过高斯采样补全搜索空间，增加的特征表示虽未存在于数据集中，但补充了特征空间。为了完成对稀有类别(第1类和第3类)特征表示的高斯采样，先对这2类特征表示分别求均值，得到a¹和a²；再根据表 2的数据，对稀有类别分别采样5 000和2 500个特征表示。将生成的高斯噪声与a¹或a²相加，最后将特征表示的值保证在0~1。

3.2.3 训练过程

通过高斯采样得到新的特征表示，按照训练集和测试集的比例，将第1类特征表示在训练集和测试集分别划分4 500和500个，第3类特征表示分别划分1 700和800个。训练过程为：首先训练抽取的实验数据，输入是特征矩阵F和对称归一化拉普拉斯矩阵$\hat{\boldsymbol{A}}$，维度分别为50×305和50×50。经过2层GCN网络，输出为50×10的矩阵。再经过3层全连接层和Logsoftmax输出为3维向量，根据3维向量中值最大的索引得到结果。之后，是高斯采样生成的特征表示，输入500维的向量后，直接经过3层全连接层和Logsoftmax输出结果。

3.3 实验结果

实验首先对MSF-GCN模型中加入预训练和高斯采样这2项技术带来的影响和效果做了验证。在MSF-GCN模型和传统GCN模型(不加入预训练和高斯采样)下，训练集、测试集的准确率和损失值随着epoch数的增加，变化趋势如图 4所示。2组实验的模型参数一致。图 4(a)和4(b)显示，随着训练的进行，传统GCN模型在训练集上准确率上升，但在测试集上，准确率会逐步降低。但损失值在训练集和测试集的变化趋势却呈相反情况，这种情况说明了过拟合的出现。而图 4(c)和4(d)显示，MSF-GCN模型虽然前3个epoch在测试集上准确率比原始GCN低，损失值比原始GCN高，但是随着训练次数的增加，准确率在训练集和测试集都有所提高，且最终模型在测试集上的准确率超过传统GCN模型20%左右。MSF-GCN模型之所以在最开始表现得不如传统GCN，是因为它降低了模型对某些特征的依赖，更复杂的特征空间使得最开始学习稍微困难。但是随着学习的进行，模型从训练集提取到更丰富的知识后，在测试集中面对未知的特征，也能做出更合适的判断。最终，实验结果证明预训练和高斯采样能够有效解决小样本带来的过拟合和缺乏泛化性的问题。

	Download: JPG larger image
图 4 MSF-GCN与传统GCN模型对比 Fig. 4 Comparison between MSF-GCN and traditional GCN models

此外，还对MSF-GCN模型的有效性做了实验验证。这里选用SVM^[38]、KNN^[39]、LR^[40]3种方法作为基准对比方法，并采用4种度量指标，分别是Precision、Accuracy、Recall以及F₁-score。MSF-GCN模型与3种基准方法在4种度量指标下的差异如表 4所示。结果显示MSF-GCN模型的有效性最好。在3种基准方法中，SVM效果最好，LR稍差，KNN效果最差。主要原因是KNN在预测时，需要考虑训练集中的每一个点，而当预测到稀有类别时，大量无关类别的点也会被考虑进去计算距离；LR和SVM都会增加与分类关系较大的数据权重，降低与分类关系较小的点的权重，但SVM通过支持向量来影响决策面，具有一定的稀疏性，因此效果较好。然而，MSF-GCN模型不仅考虑用户的个人属性特征，还考虑用户之间的关系，同时对小样本特征进行了补充，因此表现出最好的效果。

表 4 不同模型下的预测效果评价指标 Table 4 The evaluation statistics of different models

4 总结与未来工作

本文基于特征学习、节点的网络结构、历史文本特征和时间特性，构造了一个识别核心谣言传播节点的三分类预测模型。目标是提前锁定谣言传播中会发挥关键作用的节点，以实现有效识别、侦测、防控谣言传播，达到事先控制的目的。在这项工作中，提出MSF-GCN模型，通过模型预训练和特征增强的技术，使模型比基线模型能更好地识别核心谣言传播节点。同时，MSF-GCN模型的整体性能表明了该方法的有效性。在未来的研究中，计划构造新的模型算法扩展这项研究，例如图注意网络、残差网络等。另外，由于谣言话题的复杂性和高维性，在谣言分类下研究群体行为也将成为未来研究的一个重要方向。

参考文献

[1]	DiFonzo N, Bordia P. Rumor psychology: social and organizational approaches[M]. Washington: American Psychological Association, 2007. Doi:10.1037/11503-000
[2]	Kwak H, Lee C, Park H, et al. What is Twitter, a social network or a news media?[C]//Proceedings of the 19th International Conference on World Wide Web-WWW'10. April 26-30, 2010. Raleigh, North Carolina, USA. New York: ACM Press, 2010: DOI: 10.1145/1772690.1772751.
[3]	Vosoughi S, Roy D, Aral S. The spread of true and false news online[J]. Science, 2018, 359(6380): 1146-1151. Doi:10.1126/science.aap9559
[4]	Hosni A I E, Li K. Minimizing the influence of rumors during breaking news events in online social networks[J]. Knowledge-Based Systems, 2020, 193: 105452. Doi:10.1016/j.knosys.2019.105452
[5]	Tong G A, Wu W L, Guo L, et al. An efficient randomized algorithm for rumor blocking in online social networks[J]. IEEE Transactions on Network Science and Engineering, IEEE, 2020, 7(2): 845-854. Doi:10.1109/TNSE.2017.2783190
[6]	Zhu J M, Ni P K, Wang G Q. Activity minimization of misinformation influence in online social networks[J]. IEEE Transactions on Computational Social Systems, 2020, 7(4): 897-906. Doi:10.1109/TCSS.2020.2997188
[7]	Kimura M, Saito K, Motoda H. Blocking links to minimize contamination spread in a social network[J]. ACM Transactions on Knowledge Discovery from Data, 2009, 3(2): 9. Doi:10.1145/1514888.1514892
[8]	Nandi A K, Medal H R. Methods for removing links in a network to minimize the spread of infections[J]. Computers & Operations Research, 2016, 69: 10-24. Doi:10.1016/j.cor.2015.11.001
[9]	Budak C, Agrawal D, El Abbadi A. Limiting the spread of misinformation in social networks[C]//Proceedings of the 20th International Conference on World Wide Web-WWW'11. March 28-April 1, 2011. Hyderabad, India. New York: ACM Press, 2011: DOI: 10.1145/1963405.1963499.
[10]	Zhu J M, Ghosh S, Wu W L. Robust rumor blocking problem with uncertain rumor sources in social networks[J]. World Wide Web, 2021, 24(1): 229-247. Doi:10.1007/s11280-020-00841-8
[11]	Hosni A I E, Li K, Ahmad S. DARIM: dynamic approach for rumor influence minimization in online social networks[C]//Neural Information Processing, 2019: 619-630. DOI: 10.1007/978-3-030-36711-4_52.
[12]	Wang Y, Cong G, Song G J, et al. Community-based greedy algorithm for mining top-k influential nodes in mobile social networks[C]//KDD'10: Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2010: 1039-1048. DOI: 10.1145/1835804.1835935.
[13]	Kempe D, Kleinberg J, Tardos É. Maximizing the spread of influence through a social network[C]//KDD'03: Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2003: 137-146. DOI: 10.1145/956750.956769.
[14]	Leskovec J, Krause A, Guestrin C, et al. Cost-effective outbreak detection in networks[C]//KDD'07: Proceedings of the 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2007: 420-429. DOI: 10.1145/1281192.1281239.
[15]	Chen W, Wang Y J, Yang S Y. Efficient influence maximization in social networks[C]//KDD'09: Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2009: 199-208. DOI: 10.1145/1557019.1557047.
[16]	Ilyas M U, Radha H. Identifying influential nodes in online social networks using principal component centrality[C]//2011 IEEE International Conference on Communications. June 5-9, 2011, Kyoto, Japan. IEEE, 2011: 1-5. DOI: 10.1109/icc.2011.5963147.
[17]	Ma Q, Ma J. Identifying and ranking influential spreaders in complex networks with consideration of spreading probability[J]. Physica A: Statistical Mechanics and Its Applications, 2017, 465: 312-330. Doi:10.1016/j.physa.2016.08.041
[18]	Lv Z W, Zhao N, Xiong F, et al. A novel measure of identifying influential nodes in complex networks[J]. Physica A: Statistical Mechanics and Its Applications, 2019, 523: 488-497. Doi:10.1016/j.physa.2019.01.136
[19]	Benevenuto F, Magno G, Rodrigues T, et al. Detecting spammers on twitter[C]//Seventh annual Collaboration, Electronic messaging, Anti-Abuse and Spam Conference July 13-14, 2010, Redmond, Washington, US. 2010: DOI: 10.1.1.297.5340.
[20]	Gupta A, Kaushal R. Towards detecting fake user accounts in facebook[C]//2017 ISEA Asia Security and Privacy-ISEASP. January 29-February 1, 2017, Surat, India. IEEE, 2017: 1-6. DOI: 10.1109/ISEASP.2017.7976996.
[21]	Kitsak M, Gallos L K, Havlin S, et al. Identification of influential spreaders in complex networks[J]. Nature Physics, 2010, 6(11): 888-893. Doi:10.1038/nphys1746
[22]	Agha Mohammad Ali Kermani M, Badiee A, Aliahmadi A, et al. Introducing a procedure for developing a novel centrality measure (sociability centrality) for social networks using TOPSIS method and genetic algorithm[J]. Computers in Human Behavior, 2016, 56: 295-305. Doi:10.1016/j.chb.2015.11.008
[23]	Dewi F K, Yudhoatmojo S B, Budi I. Identification of opinion leader on rumor spreading in online social network twitter using edge weighting and centrality measure weighting[C]//2017 Twelfth International Conference on Digital Information Management (ICDIM). September 12-14, 2017, Fukuoka, Japan. IEEE, 2017: 313-318. DOI: 10.1109/ICDIM.2017.8244680.
[24]	Cai J, Luo J W, Wang S L, et al. Feature selection in machine learning: a new perspective[J]. Neurocomputing, 2018, 300: 70-79. Doi:10.1016/j.neucom.2017.11.077
[25]	Inuwa-Dutse I, Liptrott M, Korkontzelos I. Detection of Spam-posting accounts on twitter[J]. Neurocomputing, 2018, 315: 496-511. Doi:10.1016/j.neucom.2018.07.044
[26]	Zheng X H, Zeng Z P, Chen Z Y, et al. Detecting spammers on social networks[J]. Neurocomputing, 2015, 159: 27-34. Doi:10.1016/j.neucom.2015.02.047
[27]	Qu C Q, Zhan X X, Wang G H, et al. Temporal information gathering process for node ranking in time-varying networks[J]. Chaos (Woodbury, N.Y.), 2019, 29(3): 033116. Doi:10.1063/1.5086059
[28]	Hamilton W L, Ying R, Leskovec J. Representation learning on graphs: methods and applications[EB/OL]. arXiv: 1709.05584. (2017-09-17)[2018-04-10]. https://arxiv.org/abs/1709.05584.
[29]	Zhang M H, Chen Y X. Link prediction based on graph neural networks[EB/OL]. arXiv: 1802.09691. (2018-02-27)[2018-12-03]. https://arxiv.org/abs1802.09691.
[30]	Yu E Y, Wang Y P, Fu Y, et al. Identifying critical nodes in complex networks via graph convolutional networks[J]. Knowledge-Based Systems, 2020, 198: 105893. Doi:10.1016/j.knosys.2020.105893
[31]	Zhao G H, Jia P, Zhou A M, et al. InfGCN: identifying influential nodes in complex networks with graph convolutional networks[J]. Neurocomputing, 2020, 414: 18-26. Doi:10.1016/j.neucom.2020.07.028
[32]	Xiao Y P, Yang Q F, Sang C Y, et al. Rumor diffusion model based on representation learning and anti-rumor[J]. IEEE Transactions on Network and Service Management, 2020, 17(3): 1910-1923. Doi:10.1109/TNSM.2020.2994141
[33]	Zhang J, Liu B, Tang J, et al. Social influence locality for modeling retweeting behaviors[C]//IJCAI'13: Proceedings of the Twenty-Third International Joint Conference on Artificial Intelligence. August 01 2013, Beijing, China. 2013: 2761-2767.
[34]	Hinton G E, Srivastava N, Krizhevsky A, et al. Improving neural networks by preventing co-adaptation of feature detectors[EB/OL]. arXiv: 1207.0580. (2012-07-03)[2017-07-03]. https://arxiv.org/abs1207.0580.
[35]	Kingma D P, Ba J, Adam: a method for stochastic optimization[EB/OL]. arXiv: 1412.6980. (2014-12-22)[2017-01-30]. https://arxiv.org/abs1412.6980.
[36]	Prechelt L. Early stopping-but when?[M]//Lecture Notes in Computer Science. Berlin, Heidelberg: Springer Berlin Heidelberg, 1998: 55-69. DOI: 10.1007/3-540-49430-8_3.
[37]	Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors[J]. Nature, 1986, 323(6088): 533-536. Doi:10.1038/323533a0
[38]	Wang G S. A survey on training algorithms for support vector machine classifiers[C]//2008 Fourth International Conference on Networked Computing and Advanced Information Management. September 2-4, 2008, Gyeongju, Korea (South). IEEE, 2008: 123-128. DOI: 10.1109/NCM.2008.103.
[39]	Liao Y H, Vemuri V R. Use of K-nearest neighbor classifier for intrusion detection[J]. Computers & Security, 2002, 21(5): 439-448. Doi:10.1016/S0167-4048(02)00514-X
[40]	Menard S. Standards for standardized logistic regression coefficients[J]. Social Forces, 2011, 89(4): 1409-1428. Doi:10.1093/sf/89.4.1409


中国科学院大学学报 2024, Vol. 41 Issue (1): 136-144	PDF