基于多智能体强化学习的社交网络舆情增强一致性方法

引用本文

谢光强, 许浩然, 李杨, 陈广福. 基于多智能体强化学习的社交网络舆情增强一致性方法[J]. 广东工业大学学报, 2022, 39(6): 36-43. DOI: 10.12052/gdutxb.220042.

Xie Guang-qiang, Xu Hao-ran, Li Yang, Chen Guang-fu. Consensus Opinion Enhancement in Social Network with Multi-agent Reinforcement Learning[J]. JOURNAL OF GUANGDONG UNIVERSITY OF TECHNOLOGY, 2022, 39(6): 36-43. DOI: 10.12052/gdutxb.220042.

基金项目:

国家自然科学基金资助项目(61972102)

作者简介:

谢光强(1979–) ，男，教授，博士，主要研究方向为多智能体、智能控制、差分隐私保护。

通信作者

李杨(1980–) ，女，教授，博士，主要研究方向为多智能体、差分隐私保护，E-mail：liyang@gdut.edu.cn

文章历史

收稿日期：2022-03-06

Contents Abstract Full text Figures/Tables PDF

基于多智能体强化学习的社交网络舆情增强一致性方法

谢光强, 许浩然, 李杨, 陈广福

广东工业大学计算机学院, 广东广州 510006

收稿日期：2022-03-06

基金项目：国家自然科学基金资助项目(61972102)

作者简介：谢光强(1979–) ，男，教授，博士，主要研究方向为多智能体、智能控制、差分隐私保护。

通信作者：李杨(1980–) ，女，教授，博士，主要研究方向为多智能体、差分隐私保护，E-mail：liyang@gdut.edu.cn.

摘要: 针对社交网络舆情动力学的增强一致性问题，提出了一种基于多智能体强化学习的智能感知模型(Consensus Opinion Enhancement with Intelligent Perception, COEIP) 。在舆情动力学场景下的马尔科夫决策过程中，首先通过双向循环神经网络设计了智能体的决策模型以解决智能体不定长感知的问题。然后通过差分奖励的思想针对收敛效率、连通度和通信代价三类目标，设计了有效的奖励函数。最后为优化COEIP模型，设计了基于策略梯度的多智能体探索与更新算法，让智能体在彼此交互过程中，通过奖励值自适应学习具备多目标权衡能力的邻域选择策略。大量仿真验证了COEIP在社交网络舆情动力学场景下可以有效调和智能体间的矛盾，降低系统稳定时的簇数，进而增强系统的舆情一致性。本模型为大规模社交网络下提高人群意见的统一性提供了新的解决方案，具有重要的理论指导意义。

关键词: 多智能体系统社交网络观点演化增强一致性

Consensus Opinion Enhancement in Social Network with Multi-agent Reinforcement Learning

Xie Guang-qiang, Xu Hao-ran, Li Yang, Chen Guang-fu

School of Computer Science and Technology, Guangdong University of Technology, Guangzhou 510006, China

Abstract: Aiming at the problem of consensus enhancement in opinion dynamics of social network, a consensus opinion enhancement with intelligent perception (COEIP) model based on multi-agent reinforcement learning is proposed. In the Markov decision-making process in opinion dynamics, firstly, the decision-making model of agent is designed through bidirectional recurrent neural network to solve the problem of uncertain-length perception. Then, through the idea of difference reward, an effective reward function is designed for the three objectives of convergence efficiency, connectivity and communication cost. Finally, in order to optimize COEIP model, a multi-agent exploration and collaborative update algorithm based on policy gradient is designed, which can enable agents to adaptively learn the neighborhood selection strategy with multi-objective trade-off ability through the reward value in the process of interaction with each other. A large number of simulations verify that COEIP can effectively reconcile the contradictions between agents and reduce the number of clusters when the system is stable in the scenario of opinion dynamics of social network, thus enhancing the consensus opinion of the system. This model provides a new solution for improving the unity of people's opinions under large-scale social networks, which has important theoretical guiding significance.

Key words: multi-agent systems social network opinion dynamics consensus enhancement

随着无线通信网络和互联网技术的快速发展，人们能够快速地和大规模群体进行实时观点交换，其中，社会网络团体决策(Social Network Group Decision Making，SNGDM)正快速成为解释人类行为的关键工具^[1-3]，为学术和工程领域带来了潜在的价值，如：供应商选择^[4]、公众舆情管理^[5-7]、政治选举^[8-10]、市场^[11]等。SNGDM中包含了一组可以表达自身观点的人(智能体)，这些智能体能够和其邻居进行交流并以选择最优候选解为目标。观点(Opinion)是影响和定义行为最关键的因素之一^[12-13]。每个智能体通过考虑其邻居的观点来对自身观点进行修正，以此达到一致、两极化、分裂的稳定结构，这种过程被称为观点演化，又称舆情动力学(Opinion Dynamics)^[12]。

在SNGDM中最具有挑战性的问题是所有智能体达成观点上的全面一致性^{[12, 14-16]}。同时，在舆情动力学中，网络拓扑表示智能体间的交互规则，对舆情的演化起着重要的作用^{[17- 18]}。由于社交网络拓扑中常常存在稀疏的网络连接，因此达成全面的一致性更为复杂，相关研究仍然处于初期^[1]。目前，大部分上述研究仅考虑了智能体与具有相似观点的邻居之间的一跳连接，而忽略了设计更为高效的通信交流方式，以更好地在大规模场景下增强一致性。此类问题可以通过多智能体强化学习(Multi-agent Reinforcement Learning，MARL)来解决，该方法正成为一种在线解决动态复杂问题的强大技术手段^[19-20]。例如，Shou等^[21]提出了一种平均场表演者−评论者的MARL算法来解决在竞争场景下多驾驶员重定位的问题。Sun等^[22]通过多智能体决定性策略梯度方法来解决合作场景下电压控制问题。

但目前鲜有学者将MARL的优势融入到社交网络增强舆情一致性的研究中，因此本文提出了一种全新的基于MARL的智能感知模型COEIP(Consensus Opinion Enhancement with Intelligent Perception)，通过分布式的手段增强系统的舆情一致性。具体来说，在社交网络下舆情动力学模型的马尔科夫决策过程中，由于各智能体感知范围有限，在每个时刻感知到的邻居数量不定，进而导致各智能体获取的邻居状态信息不定长。因此本文设计了基于双向循环神经网络的模型来构建智能体的感知模型，使智能体具备邻域选择的能力；接着通过差分奖励的思想设计了具有3类不同舆情动力学场景目标的奖励函数，并使用基于策略梯度的多智能体探索与协同更新算法来高效训练智能体的感知模型，使智能体具备多目标权衡的邻域选择能力。大量仿真验证了本文提出的COEIP方法和差分奖励函数的有效性。同时在与3类传统方法的对比中验证了本方法可以有效增强所有智能体之间的意见一致性，即减少社交网络最终稳定时形成的簇的数量，具有一定的优越性。

1 基于MARL的增强舆情一致性方法 1.1 社交网络舆情动力学

社交网络中的舆情动力学模型刻画了拥有各自观点的智能体在既定的融合规则下与其邻居进行观点演化的过程，本文针对具有时变切换拓扑的离散多智能体系统^[12]进行研究。

(1) 舆情动力学模型的环境：考虑系统中的一组智能体 $ V=\{\mathrm{1,2},\cdots ,i,\cdots ,n\} $ ，其中每一个智能体 $ i\in V $ 均能够在离散时刻 $ k\in \{\mathrm{0,1},2,\cdots \} $ 与其邻居进行舆情观点的通信交流。整个多智能体系统在时刻 $ k $ 的通信网络拓扑使用无向图 $ G\left(k\right) =\{V,E\left(k\right) \} $ 来表示，其中一条边 $ \left(i,j\right) \in E\left(k\right) $ 为从智能体 $ i $ 到 $ j $ 的通信流。

(2) 舆情动力学模型演化的融合规则：2个智能体 $ {V}_{i} $ 和 $ {V}_{j} $ 如果满足 $|{x}_{i}\left(k\right) -{x}_{j}\left(k\right) | < {r}_{{\rm{c}}}$ ，那么认为这两个智能体是互为邻居的。因此，智能体 $ {V}_{i} $ 的邻居集合被定义为

$ \begin{array}{l} {N_i}\left( k \right) = \left\{ {j \in V:\left( {i,j} \right) \in E\left( k \right)} \right\}= \{ {j: | {{x_i}\left( k \right) - {x_j}\left( k \right)} | <{r_{\rm{c}}}} \} \end{array} $

(1)

根据式(1) 的定义，一个智能体永远是其自身的邻居，用 $ \left|{N}_{i}\right(k\left) \right| $ 表示邻居的数量。接着，智能体同步根据式(2) 的动力学模型进行舆情观点的演化。

$ {x_i}(k + 1) = \frac{{\displaystyle\sum\nolimits_{j \in {N_i}\left( k \right) } {{x_j}} (k) }}{{\displaystyle\sum\nolimits_{j \in {N_i}\left( k \right) } 1 }} $

(2)

式(2) 所定义的舆情动力学的融合规则表明，每个智能体通过计算可信任邻居观点的平均值来更新自身的观点。

(3) 舆情观点的表示形式：在系统中的每一个智能体 $ {V}_{i}\in V $ 在时刻 $ k $ 针对同一个问题均持有一个实数舆情观点值 $ {x}_{i}\left(k\right) $ 。定义系统在时刻 $ k $ 整体的舆情值为矩阵 ${\boldsymbol{X}}\left(k\right) ={[{x}_{1}\left(k\right) ,{x}_{2}\left(k\right) ,\cdots ,{x}_{n}(k\left) \right]}^{\mathrm{T}}$ 。因此，动力学模型(2) 可以重写为式(3) 的矩阵形式。

$ \boldsymbol{X}(k+1) =\boldsymbol{L}(k) \boldsymbol{X}(k) $

(3)

式中： ${{\boldsymbol{L}}}\left(k\right) =\left[{l}_{ij}\right(k\left) \right]$ 矩阵为网络的通信拓扑关系，元素 $ {l}_{ij}\left(k\right) $ 的定义为

$ l_{ij}(k) =\left\{\begin{array}{ll} \dfrac{1}{\left|N_{i}(k) \right|}, j \in N_{i}(k) \\ 0, \;\;\;\; \;\;\;\;\; j \notin N_{i}(k) \end{array}\right. $

(4)

在传统舆情动力学模型(3) 的演化过程中，舆情观点的一致和网络通信拓扑有着紧密的联系，但传统模型中代表网络通信拓扑的 ${\boldsymbol{L}}\left(k\right)$ 矩阵是根据邻居的定义(1) 计算得来的，过于单一，忽视了智能体在舆情演化过程中的辨别能力和自主选择能力，进而导致了系统最终稳定时分裂为多个簇。因此，本文旨在赋予智能体更为智能的感知能力，让智能体通过综合考量感知到的局部邻居舆情值，自适应地选择利于达成一致的邻居做舆情演化，从而达到增强系统整体一致性的效果。

1.2 马尔科夫决策过程

马尔科夫决策过程(Markov Decision Processes, MDPs)是MARL中系统建模分析的基础。根据上节的分析，扩展了Zhang等^[23]提出的MARL下的马尔科夫决策过程，通过式(5) 所示的五元组来定义本文针对社交网络下舆情动力学模型的马尔科夫决策过程。

$ \left( {{{\left\{ {{S_i}} \right\}}_{i \in V{\rm{ }}}},{{\left\{ {{A_i}} \right\}}_{i \in V}},P,{{\left\{ {{R_i}} \right\}}_{i \in V}},{{\{ G(k) \} }_{k \geqslant 0}}} \right) $

(5)

式中： $ {\left\{{S}_{i}\right\}}_{i\in V} $ 为智能体 $ i $ 感知到的局部状态空间， $ {\left\{{A}_{i}\right\}}_{i\in V} $ 为智能体 $ i $ 做出的局部动作空间， ${\left\{{G}_{k}\right\}}_{k\geqslant 0}$ 为系统在时刻 $ k $ 的通信拓扑， $A={\displaystyle\prod }_{i}^{n}{A}_{i}$ 为所有智能体的联合动作空间。同时，每个智能体获取的局部奖励函数为 $ {R}_{i}: S\times A\to \mathbb{R} $ ，MDP的状态转移概率为 $ P:S\times A\times S\to \left[\mathrm{0,1}\right] $ 。

如图1所示，本文定义的马尔科夫决策过程的运作流程可以表述为：在时刻 $ k $ ，每个智能体 $ i $ 根据通信拓扑 $ G\left(k\right) $ 获取全局状态 $ s\left(k\right) $ 中的局部观测状态 $ {s}_{i}\left(k\right) $ ，并根据自身的策略函数 $ {\pi }_{{\theta }_{i}} $ 做出自身的动作 $ {a}_{i}\left(k\right) $ ，进而转移到新的状态 $ {s}_{i}(k+1) $ ，同时智能体 $ i $ 根据奖励函数 $ {R}_{i} $ 获得即时奖励 $ {r}_{i}\left(k\right) $ ，如此往复，智能体在与环境交互的过程中不断学习调整策略函数 $ {\pi }_{{\theta }_{i}}\left({a}_{i}\left(k\right) \right|{s}_{i}\left(k\right) ) $ 来最大化未来的期望累计回报，如式(6)所示。

图 1 社交网络下舆情动力学模型的马尔科夫决策过程示意图 Figure 1 Markov decision processes in social network

$ U(\theta) =\mathbb{E}_{\pi_{\theta_{i}}}\Big[\sum\nolimits_{k} r_{i}(k) \mid s_{i}(k) , a_{i}(k) \Big] $

(6)

接下来针对智能体 $ i $ 的策略进行建模。由于在舆情一致性演化过程中每个智能体感知到的邻居数不确定，且决策时需对每个局部邻居进行评判，因此本文采用循环神经网络来解决局部感知输入不定长和决策不定长的问题。由于循环神经网络是一种按时间序列进行分析的模型，智能体还需要将感知到的所有邻居的整体上下文信息综合起来做判断。故本文设计了基于双向循环神经网络中BGRU(Bidirectional Gated Recurrent Unit)^[24]的决策网络模型，如图2所示。

图 2 基于双向循环神经网络的决策模型示意图 Figure 2 Decision making model based on BGRU

在该网络模型中，输入为智能体 $ i $ 所有邻居的状态值集合 $ \{{x}_{j}\left(k\right) :j\in {N}_{i}\left(k\right) \} $ ，即所有邻居的舆情观点值经过BGRU网络后，通过全连接层和Sigmoid激活函数输出针对每一个邻居观点值的动作，动作 $ {a}_{i}\left(k\right) $ 表示选择每个邻居的概率。那么，动作 $ {a}_{i}\left(k\right) $ 的维度与输入状态集合的维度是一致的，即维度均为 $ [{N}_{i}\left(k\right) , 1] $ 。同时，为了让智能体具有探索能力以提高学习过程的鲁棒性，在最后动作的全连接层权重处增加了标准正态分布 $\mathcal{N}$ 的噪声。最终该模型输出的动作为选取每个邻居的概率，其值所属范围为 $ \left(\mathrm{0,1}\right) $ 。规定智能体 $ i $ 选取某个邻居 $ j $ 的概率用 $ \pi _{{\theta _i}}^j $ 表示，如果 $ \pi _{{\theta _i}}^j>0.5 $ ，则认为智能体 $ i $ 选取 $ j $ 作为舆情演化的依据。最终，将所有大于0.5的邻居汇总为式(7) 所示的集合，即经过决策模型后选取的新邻居集合。

$ \widehat{N}_{i}(k) =\{j: j \in N_{i}(k) \wedge\pi _{{\theta _i}}^j>0.5\} $

(7)

作为一种以目标为导向的智能方法，强化学习中的目标通常采用累计奖励来表示，因此奖励函数的设计对智能体能力的学习起着至关重要的作用^{[25- 26]}。同时，奖励函数的设计需要综合考量指标系数和可学习力之间的平衡^{[27- 28]}。因此本文在文献的基础上，设计了舆情动力学环境下的差分奖励(Difference Reward)函数式。

$ r_{i}(k) =R_{i}\left(s(k) , s_{-i}(k) \right) =g(s(k) ) -g\left(s_{-i}(k) \right) $

(8)

式中： $ s\left(k\right) $ 为全局状态， $ {s}_{-i}\left(k\right) $ 为全局状态去除智能体 $ i $ 状态后的剩余状态， $ g(\cdot ) $ 函数为舆情动力学环境中的量化目标。那么，式(8) 所示的差分奖励函数能够更具区分度地表征智能体 $ i $ 对于特定目标 $ g(\cdot ) $ 的贡献度。为此，本文归纳出了3类舆情动力学场景中的目标，并通过加权组合的方式表示。

$ g(s(k) ) =\alpha \cdot g_{1}(s(k) ) +\beta \cdot g_{2}(s(k) ) +\gamma \cdot g_{3}(s(k) ) $

(9)

式中： $ {g}_{1}(\cdot ) $ 、 $ {g}_{2}(\cdot ) $ 和 $ {g}_{3}(\cdot ) $ 分别为3类不同的目标； $ \alpha $ 、 $ \beta $ 和 $ \gamma $ 分别为3类不同目标的加权系数。需要注意的是，式(8) 中的 $ g\left(s\left(k\right) \right) $ 和 $ g\left({s}_{-i}\left(k\right) \right) $ 均使用式(9) 来计算，这两者的区别只在于传入状态值不同。同时，为了方便表述，在下文的奖励函数中用 $ s\left(k\right) $ 表示抽象的全局状态输入参数，实际计算中会发生变化。

(1) $ {g}_{1}(\cdot ) $ 目标：旨在让智能体学会提高收敛效率，该目标采用CD(Consensus Degree)表示，CD通过系统中所有智能体舆情观点值的标准差来量化收敛程度，同时为了让智能体能够快速收敛，在标准差的基础上减去每一步的时间惩罚，即

$ g_{1}(s(k) ) ={\rm{s t d}}(\boldsymbol{X}(k) ) -1 $

(10)

式中： ${{\boldsymbol{X}}}\left(k\right)$ 为在 $ k $ 时刻全局状态 $ s\left(k\right) $ 中的智能体整体舆情值列表， $ \mathrm{s}\mathrm{t}\mathrm{d}(\cdot ) $ 为标准差操作。那么，该量化目标的取值范围为 $ [0,+\infty ) $ ，该值越接近0表示系统的收敛性能越好。

(2) $ {g}_{2}(\cdot ) $ 目标：旨在让智能体学会提高系统的连通密度，该目标采用Graph Density(GD)表示，GD通过系统网络拓扑的密度来量化连通密度，即

$ g_{2}(s(k) ) =\frac{\displaystyle\sum\nolimits_{i \in V} |\widehat{N}_{i}(k) |}{n(n-1) } $

(11)

式中： $ n=\left|V\right| $ 为系统中智能体的个数， ${\displaystyle \sum }_{i\in V}|\widehat{N}_{i}\left(k\right) |$ 为时刻 $ k $ 时系统网络拓扑中的边数。那么，该量化目标的取值范围为 $ \left[\mathrm{0,1}\right] $ ，该值越接近1表示系统的连通密度越大，即智能体选择的邻居越多。

(3) $ {g}_{3}(\cdot ) $ 目标：旨在让智能体学会降低系统的通信代价，该目标采用Neighbor Degree(ND)表示，ND通过系统中智能体的平均邻居度^[29]来量化通信代价，即

$ g_{3}(s(k) ) =\frac{\displaystyle \sum\nolimits_{i \in {V}} d_{n n_{,}, i}(k) }{n(n-1) } $

(12)

$ {d_{nn,i}}(k) = \frac{1}{{| {{\widehat{N}_i}(k) } |}}\sum\nolimits_{_{j \in {\widehat{N}_i}(k) }} {{d_j}(k) } $

(13)

式中： $ {d}_{j}\left(k\right) $ 为智能体 $ j $ 在时刻 $ k $ 时的出度数， $ {d}_{nn,i}\left(k\right) $ 为智能体 $ i $ 选择邻居的平均出度数。那么，该量化目标的取值范围为 $ \left[\mathrm{0,1}\right] $ ，该值越小表示系统的通信代价越低，当该值为 $1/(n-1)$ 时，表示此时系统处在最优的通信拓扑，即平均每个智能体选择了一个邻居作为舆情动力学演化的基准。

值得注意的是， $ {g}_{2}(\cdot ) $ 目标与 $ {g}_{3}(\cdot ) $ 目标存在明显的对立关系，即通信代价越高，连通密度越大，反之亦然。在智能体学习过程中可以通过调整权重 $ \beta $ 和 $ \gamma $ 的值来权衡不同目标之间的影响。

1.3 基于策略梯度的MARL算法

基于策略梯度(Policy Gradient)的强化学习算法将智能体策略参数化，通过最大化期望累计回报来直接优化自身策略^[30]。该方法能够有效地优化智能体探索过程中的迭代策略，而且可以解决动作空间连续等问题。本节在状态、动作和奖励函数的建模分析基础上，给出了完整的智能体探索和学习自身策略 $ {\pi }_{{\theta }_{i}} $ 的算法，如下所示。

输入：最大回合数 $ M $ ，最大时间步 $ T $ ，学习批次 $ B $ 。

输出：智能体的策略网络参数 $ \theta $ 。

过程：

(1) 初始化智能体策略模型参数 $ \theta $ 、经验缓冲池 $ D $ ；

(2) for episode $ =1:M $ do

(3) 重置并初始化环境，得到系统全局初始状态 $ s\left(k\right) $ ；

(4) 获取差分奖励函数的权重 $ \alpha $ ， $ \beta $ 和 $ \gamma $ ；

(5) for $ k=1:T $ do

(6) 智能体根据式(1) 获取局部邻域状态 $ {s}_{i}\left(k\right) $ ；

(7) 智能体通过BGRU模型计算自己的动作 $ {a}_{i}\left(k\right) $ ，并选取新的邻域 $ {\widehat{N}}_{i}\left(k\right) $ ；

(8) 根据权重 $ \alpha $ ， $ \beta $ 和 $ \gamma $ 和式(8) ，计算所有智能体的即时差分奖励 $ {r}_{i}\left(k\right) $ ；

(9) 环境根据当前状态 $ s\left(k\right) $ 以及所有智能体选择的邻域通过动力学模型(3) 更新下一时刻状态 $ s(k+1) $ ，并判断是否结束 $\mathrm{d}\mathrm{o}\mathrm{n}\mathrm{e}$ ；

(10) 将所有智能体 $ i $ 的经验样本 $ ({s}_{i}\left(k\right) ,{a}_{i}\left(k\right) ,{r}_{i}\left(k\right) $ 存入经验缓冲池 $ D $ 中；

(11) if $\mathrm{d}\mathrm{o}\mathrm{n}\mathrm{e}$ do

(12) break；

(13) end if

(14) end for

(15) 从经验池 $ D $ 中均匀随机选 $ B $ 个智能体的轨迹样本；

(16) 通过式(18) 和(19) 计算策略梯度 $ {\nabla }_{\theta }U\left(\theta \right) $ ；

(17) 通过式(21) 更新策略参数 $ \theta $ ；

(18) end for

(19) return $ \theta $

为了方便后文的推导，使用 $ {\tau }_{i} $ 表示智能体 $ i $ 在环境中运行的一组状态/动作序列 $ ({s}_{i}\left(0\right) ,{a}_{i}\left(0\right) ,\cdots , {s}_{i}\left(H\right) , {a}_{i}(H\left) \right) $ ，其中 $ H $ 为该序列的长度。本算法属于分布式运行、集中式训练的模式，主要包含“多智能体探索阶段”和“更新策略阶段”两部分，下面将分别详细介绍各自的运作流程。

多智能体探索阶段：如算法中的(3) ~(14) 所示，每个智能体 $ i $ 在环境探索过程中，只根据式(1) 获取其感知半径内邻域的状态值 $ {s}_{i}\left(k\right) $ 。接着通过如图2所示的基于BGRU的决策网络模型计算智能体 $ i $ 选取每个邻居的概率动作，进而通过式(7) 得到新的邻域 $ \widehat{N}_{i}(k) $ 。同时，为了让智能体能够根据episode变化自动调节不同目标的奖励，给出了式(14) 的奖励目标切换方案。

$ \left\{\begin{array}{ll} \alpha=1 ; \beta=1 ; \gamma=0, & {\rm{if}} \; {\rm{episode}} \leqslant 100 \\ \alpha=0 ; \beta=0 ; \gamma=1, & {\rm{if}}\; 100 < {\rm{episode}} < 800 \\ \alpha=0 ; \beta=0.5 ; \gamma=0.5, & {\rm{if}} \; {\rm{episode}} \geqslant 800 \end{array}\right. $

(14)

那么，根据式(14) 的奖励目标切换方案以及式(8) 和式(9) 所定义的差分奖励函数，即可计算出每一个时刻智能体所获取到的差分奖励 $ {r}_{i}\left(k\right) $ 。值得注意的是，式(14) 仅给出了奖励目标切换的一个案例，在实验部分将详细分析不同目标切换下的效果。

为了能够在“更新策略阶段”有效地学习更新智能体的策略参数，在本阶段中每个智能体在最长时间跨度为 $ T $ 的探索基础上，将每一步的局部感知状态 $ {s}_{i}\left(k\right) $ 、局部动作 $ {a}_{i}\left(k\right) $ 、即时奖励 $ {r}_{i}\left(k\right) $ ，按时间顺序存储进经验缓冲池 $ D $ 中。在每一回合结束时，通过均匀随机采样，从 $ D $ 中选取 $ B $ 个智能体的轨迹进行学习。

更新策略阶段：如算法中的(15) ~(17) 所示，在每一回合结束时，通过均匀随机采样，从 $ D $ 中选取 $ B $ 个智能体的估计进行学习。在更新策略参数时，通过状态/动作序列进一步将强化学习中的目标函数(式(6) )简化为

$ U(\theta) =\sum\nolimits_{{\tau _i}} P\left(\tau_{i} \mid \theta_{i}\right) R_{i}\left(\tau_{i}\right) $

(15)

$ R_{i}\left(\tau_{i}\right) =\sum\nolimits_{k = 0}^H {{r_i}} (k) $

(16)

那么，针对目标函数 $ U\left(\theta \right) $ ，通过梯度下降方法求出 $ U\left(\theta \right) $ 的梯度 $ {\nabla }_{\theta }U\left(\theta \right) $ 为

$ \begin{split} \nabla_{\theta} U(\theta) =&\nabla_{\theta} \displaystyle\sum\nolimits_{{\tau _i}} P\left(\tau_{i} \mid \theta_{i}\right) R_{i}\left(\tau_{i}\right)=\\ &\sum\nolimits_{{\tau _i}} \nabla_{\theta} P\left(\tau_{i} \mid \theta_{i}\right) R_{i}\left(\tau_{i}\right)= \\ &\displaystyle\sum\nolimits_{{\tau _i}} P\left(\tau_{i} \mid \theta_{i}\right) \dfrac{\nabla_{\theta} P\left(\tau_{i} \mid \theta_{i}\right) }{P\left(\tau_{i} \mid \theta_{i}\right) } R_{i}\left(\tau_{i}\right)= \\ &\displaystyle\sum\nolimits_{\tau_{i}} P\left(\tau_{i} \mid \theta_{i}\right) \nabla_\theta {\rm{ln}} P\left(\tau_{i} \mid \theta_{i}\right) R_{i}\left(\tau_{i}\right) \end{split} $

(17)

从式(17) 的梯度可以发现，最终求出的 $ U\left(\theta \right) $ 的梯度中包含 $ {P}\left(\tau_{i} \mid \theta_{i}\right) $ 和 $ \nabla_{\theta} {\rm{ln}} P\left(\tau_{i} \mid \theta_{i}\right) R_{i}\left(\tau_{i}\right) $ 这两部分，由于 $ {P}\left(\tau_{i} \mid \theta_{i}\right) $ 为轨迹 $ T_{i} $ 出现的概率，那么该梯度可以等价理解为求 $ \nabla_{\theta} {\rm{ln}} P\left(\tau_{i} \mid \theta_{i}\right) R_{i}\left(\tau_{i}\right) $ 的期望。因此，可以通过采样 $ m $ 条轨迹的经验以平均逼近的方式估算该梯度，即

$ \begin{split} \nabla_{\theta} U(\theta) =&\displaystyle\sum\nolimits_{\tau_{i}} P\left(\tau_{i} \mid \theta_{i}\right) \nabla_{\theta} {\rm{ln}} P\left(\tau_{i} \mid \theta_{i}\right) R_{i}\left(\tau_{i}\right) \approx \\ &\dfrac{1}{m} \displaystyle\sum\nolimits_{i=1}^{m} \nabla_{\theta} {\rm{ln}} P\left(\tau_{i} \mid \theta_{i}\right) R_{i}\left(\tau_{i}\right) \end{split} $

(18)

此时，式(18) 所求出的梯度可以直观地理解为算法将提高出现高奖励回报轨迹的概率，降低出现低回报轨迹的概率。接着，对式(18) 中唯一的不确定量 $ \nabla_{\theta} {\rm{ln}} P\left(\tau_{i} \mid \theta_{i}\right) $ 进行求解

$ \begin{split} {{\nabla _\theta }{\rm{ln}} P\left( {{\tau _i}\mid {\theta _i}} \right) } =& {\nabla _\theta }{\rm{ln}} \Biggr[ \prod\limits_{k = 0}^H {P\left( {{s_i}(k + 1) \mid {s_i}(k) ,{a_i}(k) } \right) \times }\Biggr. \\ &\Biggr.{{{ \pi _{{\theta _i}}}\left( {{a_i}(k) \mid {s_i}(k) } \right) } } \Biggr] =\\ &{\nabla _\theta }\left[ {\displaystyle\sum\nolimits_{k = 0}^H {\rm{ln}} P\left( {{s_i}(k + 1) \mid {s_i}(k) ,{a_i}(k) } \right) + }\right.\\ &\left.{\displaystyle\sum\nolimits_{k = 0}^H {\rm{ln}} {\pi _{{\theta _i}}}\left( {{a_i}(k) \mid {s_i}(k) } \right) } \right]=\\ &{ {\nabla _\theta }\left[ {\displaystyle\sum\nolimits_{k = 0}^H {\rm{ln}} {\pi _{{\theta _i}}}\left( {{a_i}(k) \mid {s_i}(k) } \right) } \right]= }\\ &{ \displaystyle\sum\nolimits_{k = 0}^H {{\nabla _{{\theta _i}}}} {\rm{ln}} {\pi _{{\theta _i}}}\left( {{a_i}(k) \mid {s_i}(k) } \right) } \end{split} $

(19)

在式(19) 的推导过程中，状态动作转移概率 $ P\left({s}_{i}\right(k+1\left) \right|{s}_{i}\left(k\right) ,{a}_{i}\left(k\right) ) $ 为式(3) 所示的系统动力学模型，在推导过程中由于不存在策略参数 $ \theta $ ，故可以直接删去。因此，策略梯度可以整理为

$ \nabla_{\theta} U(\theta) \approx \frac{1}{m} \sum\nolimits_{i=1}^{m} \sum\nolimits_{k=0}^{H} \nabla_{\theta} {\rm{ln}} \pi_{\theta_{i}}\left(a_{i}(k) \mid s_{i}(k) \right) r_{i}(k) $

(20)

最终，通过最速下降法更新智能体的策略参数。

$ \theta \leftarrow \theta+\zeta \nabla_{\theta} U(\theta) $

(21)

式中： $ \zeta $ 为学习率。

通过以上算法流程，智能体能够在舆情动力学演化的环境中学习到在保持较低通信代价的前提下促进舆情观点一致的策略。值得注意的是，在本文的研究背景中，每个智能体在演化的过程中需要进行时间的同步，同时智能体感知到的状态、做出的动作都是局部的，这有利于模型的部署和扩展。

2 实验结果与分析 2.1 实验环境与参数设置

本文实验通过Python3.6.2构建了舆情动力学的仿真环境，使用PyTorch1.6.0搭建了智能体基于BGRU的策略梯度网络。实验中涉及的相关参数如表1所示。值得注意的是，在2.2中首先验证了 $ n=5 $ 时COEIP模型的有效性，然后将COEIP模型泛化至 $ n=100 $ 的场景下，并与3个传统模型进行了对比验证。在所有实验中，式(1)的智能体感知半径 $ {r}_{\mathrm{c}} $ 设置为1^[31]，系统一致性稳定的判断阈值设置为 $ 0.01 $ 。同时智能体的初始舆情状态在指定范围内均匀分布^[31]，其中 $ n=5 $ 的实验中初始舆情状态范围为 $ \left[\mathrm{0,10}\right] $ ， $ n=100 $ 的实验中包含初始范围 $ \left[\mathrm{0,4}\right]\mathrm{和}\left[\mathrm{0,10}\right] $ 的两组实验。

表 1 实验参数设定 Table 1 Parameter setting of simulations

2.2 实验结果与分析

为了全面分析本文所提出的算法和模型，除了使用CD、GD和ND 3个指标外，本文还采用了代数连通度AC(Algebraic Connectivity)^[32]和边连通度EC(Edge Connectivity)^[33]两个指标，它们分别表示系统的连通程度和网络鲁棒性。在图3~5中验证了单独使用某个目标奖励时模型的有效性。

图 3 仅使用目标1差分奖励函数时的指标曲线 Figure 3 Indicator curve with difference reward function ( $ {g_1}(\cdot ) $ )

图 4 仅使用目标2差分奖励函数时的指标曲线 Figure 4 Indicator curve with difference reward function ( $ {g_2}(\cdot ) $ )

图3展示了单独使用目标1的差分奖励函数后的效果，即 $ \alpha =1；\beta =0；\gamma =0 $ 。目标1旨在提高收敛效率，即舆情观点值的方差趋向于0，从图3可以看出AC在0.2左右，CD逐渐稳定在0，而其他指标收敛稳定的地方都大于0.5，说明系统保持了一定连通性，让舆情观点值收敛变快，但稳定的地方不明确。

图4展示了单独使用目标2的差分奖励函数后的效果，即 $ \alpha =0；\beta =1；\gamma =0 $ 。目标2旨在提高系统的连通密度，即GD、ND和EC趋向于1，可以发现所有指标均按预期收敛稳定，即CD逐渐变小且稳定在最低位，GD、ND和EC都向1收敛稳定。

图5展示了单独使用目标3的差分奖励函数后的效果，即 $ \alpha=0 ；\beta=0 ；\gamma=1 $ 。目标3旨在降低系统的通信代价，即GD、ND和EC趋向于 $ 1 /(n-1) $ 。可以发现，最终只有GD趋向于期望值，而ND和EC均低于理想值。且大约500回合后，通过AC和CD可以发现系统已断开连接，已形成多个簇。

图 5 仅使用目标3差分奖励函数时的指标曲线 Figure 5 Indicator curve with difference reward function ( $ {g_3}(\cdot ) $ )

从图3~5的实验仿真可以总结出，智能体能够根据给定目标的奖励函数使用Policy Gradient算法优化自己的决策能力，但单个目标所设定的奖励存在一定的局限性。

因此，下面将采用渐进学习的思想，先让智能体学习较为简单的策略，然后不断叠加更多的目标奖励。以式(14) 的奖励目标切换为例，给出了其对应的指标曲线，如图6所示，其中横坐标为回合数，纵坐标为目标值。

图 6 渐进学习混合目标差分奖励函数时的指标曲线 Figure 6 Indicator curve of progressive learning with mixed difference reward function

从图6可以发现指标曲线中有明显的分界线，且分界线与目标切换点是带有一定的滞后性的，但总体上呈现一致性的特点。同时可以看出混合使用目标2和3，即在800回合后，各个指标趋向稳定的值可以理解为强化学习对两个目标的权衡。因此，可以总结为：通过渐进学习混合目标奖励可以自适应学习到更好的组合策略，达到各目标间的权衡。

最后，通过系统稳定时的收敛簇数、收敛步长这两类指标来衡量模型的效果，其中收敛簇数用来衡量模型增强一致性的效果，收敛步长用来衡量模型的运行步数。同时将本文所提出的COEIP模型和传统的三类模型进行了综合对比实验分析，其中包含有经典的HK模型^[31]、基于共同邻居规则(Common-Neighbor Rule，CNR)模型^[34]和基于组压力(Group Pressure，GP)模型^[35]。由于本文研究的目标是增强一致性，换言之希望以更短的收敛步长收敛至更少的簇数。为了控制变量，CNR和GP模型中相关的参数统一设置为 $ \beta =0，m=1 $ 和 $ {p}_{i}=\lambda =0.5 $ 。

实验的统计数据如表2所示。该实验场景有100个智能体，这些智能体的舆情值分别均匀分布于[0,4]和[0,10]范围内，分别对应实验编号1和2。通过表2的数据可以发现：在较小的 $ \left[\mathrm{0,4}\right] $ 初始范围内，3类传统方法和COEIP均可以收敛至一个簇，但COEIP可以在更短的步数内收敛；在较大的 $ \left[\mathrm{0,10}\right] $ 初始范围内，传统的HK、CNR和GP模型均会出现舆情观点分裂的情况，最终分别收敛至5、2、4个簇，而COEIP可以在更短的步长内稳定至1个簇。

表 2 对比实验的统计数据 Table 2 Statistics of comparison simulations

因此，可以总结为：COEIP模型通过选择适当的邻居进行舆情演化，可以有效地调和智能体间相互矛盾的观点。

3 总结

本文研究了社交网络领域下舆情动力学增强一致性的问题，提出了一种基于多智能体强化学习的智能感知模型。在舆情动力学场景下的马尔科夫决策过程中，首先设计了基于双向循环神经网络来建立智能体的决策模型，接着根据舆情动力学场景中的3类目标设计了对应的差分奖励函数。最后通过基于策略梯度的多智能体探索和协同更新算法让智能体在彼此交互的过程中能够自适应地学习到高效的邻域选择策略。实验结果验证了COEIP能够让智能体决策具备多目标权衡的能力，在社交网络舆情动力学中能够高效地调和系统中差异较大的观点，以减少系统收敛稳定时簇的数量，从而促进系统一致性。未来将在本文的基础上继续研究社交网络中具有注意力机制的增强一致性方法，并验证该方法在现实场景中的有效性和泛化能力。

参考文献

[1]	DONG Y C, ZHA Q B, ZHANG H J, et al. Consensus reaching in social network group decision making: research paradigms and challenges[J]. Knowledge-Based Systems, 2018, 162: 3-13. DOI: 10.1016/j.knosys.2018.06.036.
[2]	ZHANG Z, GAO Y, LI Z L. Consensus reaching for social network group decision making by considering leadership and bounded confidence[J]. Knowledge-Based Systems, 2020, 204: 106240. DOI: 10.1016/j.knosys.2020.106240.
[3]	SCOTT J, CARRINGTON P J. The SAGE handbook of social network analysis[M]. California: SAGE Publications, 2011.
[4]	LI Y H, KOU G, LI G X, et al. Multi-attribute group decision making with opinion dynamics based on social trust network[J]. Information Fusion, 2021, 75: 102-115. DOI: 10.1016/j.inffus.2021.04.010.
[5]	LI T Y, ZHU H M. Effect of the media on the opinion dynamics in online social networks[J]. Physica A:Statistical Mechanics and its Applications, 2020, 551: 124117. DOI: 10.1016/j.physa.2019.124117.
[6]	JIAO Y R, LI Y L. An active opinion dynamics model: the gap between the voting result and group opinion[J]. Information Fusion, 2021, 65: 128-146. DOI: 10.1016/j.inffus.2020.08.009.
[7]	DOUVEN I, HEGSELMANN R. Mis-and disinformation in a bounded confidence model[J]. Artificial Intelligence, 2021, 291: 103415. DOI: 10.1016/j.artint.2020.103415.
[8]	BISWAS K, BISWAS S, SEN P. Block size dependence of coarse graining in discrete opinion dynamics model: application to the US presidential elections[J]. Physica A:Statistical Mechanics and its Applications, 2021, 566: 125639. DOI: 10.1016/j.physa.2020.125639.
[9]	ZHU L X, HE Y L, ZHOU D Y. Neural opinion dynamics model for the prediction of user-level stance dynamics[J]. Information Processing & Management, 2020, 57(2): 102031.
[10]	BRAVO-MARQUEZ F, GAYO-AVELLO D, MENDOZA M, et al. Opinion dynamics of elections in Twitter[C]//2012 Eighth Latin American Web Congress. Colombia: IEEE, 2012: 32-39.
[11]	ZHA Q B, KOU G, ZHANG H J, et al. Opinion dynamics in finance and business: a literature review and research opportunities[J]. Financial Innovation, 2020, 6(1): 1-22. DOI: 10.1186/s40854-019-0162-0.
[12]	DONG Y C, ZHAN M, KOU G, et al. A survey on the fusion process in opinion dynamics[J]. Information Fusion, 2018, 43: 57-65. DOI: 10.1016/j.inffus.2017.11.009.
[13]	SÎRBU A, LORETO V, SERVEDIO V D P, et al. Opinion dynamics: models, extensions and external effects[M]//Participatory sensing, opinions and collective awareness. Berlin: Springer, 2017: 363-401.
[14]	URENA R, CHICLANA F, MELANCON G, et al. A social network based approach for consensus achievement in multiperson decision making[J]. Information Fusion, 2019, 47: 72-87. DOI: 10.1016/j.inffus.2018.07.006.
[15]	CABRERIZO F J, AL-HMOUZ R, MORFEQ A, et al. Soft consensus measures in group decision making using unbalanced fuzzy linguistic information[J]. Soft Computing, 2017, 21(11): 3037-3050. DOI: 10.1007/s00500-015-1989-6.
[16]	LI G X, KOU G, PENG Y. Heterogeneous large-scale group decision making using fuzzy cluster analysis and its application to emergency response plan selection[J]. IEEE Transactions on Systems, Man, and Cybernetics:Systems, 2021, 52(6): 3391-3403.
[17]	XU S, WANG P, LYU J. Iterative neighbour-information gathering for ranking nodes in complex networks[J]. Scientific reports, 2017, 7(1): 1-13. DOI: 10.1038/s41598-016-0028-x.
[18]	NEDIĆ A, OLSHEVSKY A, RABBAT M G. Network topology and communication-computation tradeoffs in decentralized optimization[J]. Proceedings of the IEEE, 2018, 106(5): 953-976. DOI: 10.1109/JPROC.2018.2817461.
[19]	ZHANG K Q, YANG Z R, BAŞAR T. Multi-agent reinforcement learning: a selective overview of theories and algorithms[J]. Handbook of Reinforcement Learning and Control, 2021: 321-384.
[20]	郑思远, 崔苗, 张广驰. 基于强化学习的无人机安全通信轨迹在线优化策略[J]. 广东工业大学学报, 2021, 38(04): 59-64. ZHENG S Y, CUI M, ZHANG G C. Reinforcement learning-based online trajectory optimization for secure UAV communications[J]. Journal of Guangdong University of Technology, 2021, 38(04): 59-64. DOI: 10.12052/gdutxb.200113.
[21]	SHOU Z Y, DI X. Reward design for driver repositioning using multi-agent reinforcement learning[J]. Transportation research part C:emerging technologies, 2020, 119: 102738. DOI: 10.1016/j.trc.2020.102738.
[22]	SUN X Z, QIU J. Two-stage volt/var control in active distribution networks with multi-agent deep reinforcement learning method[J]. IEEE Transactions on Smart Grid, 2021, 12(4): 2903-2912. DOI: 10.1109/TSG.2021.3052998.
[23]	ZHANG K Q, YANG Z R, LIU H, et al. Fully decentralized multi-agent reinforcement learning with networked agents[C]//International Conference on Machine Learning. Sweden: IMLS, 2018: 5872-5881.
[24]	DEY R, SALEM F M. Gate-variants of gated recurrent unit (GRU) neural networks[C]//2017 IEEE 60th international midwest symposium on circuits and systems. Michigan: IEEE, 2017: 1597-1600.
[25]	SILVER D, SINGH S, PRECUP D, et al. Reward is enough[J]. Artificial Intelligence, 2021, 299: 103535. DOI: 10.1016/j.artint.2021.103535.
[26]	SUTTON R S, BARTO A G. Reinforcement learning: an introduction[M]. Massachusetts: MIT press, 2018.
[27]	FOERSTER J, FARQUHAR G, AFOURAS T, et al. Counterfactual multi-agent policy gradients[C]//Proceedings of the AAAI conference on artificial intelligence. Louisiana: AAAI Press, 2018, 32(1) : 2974-2982.
[28]	AGOGINO A, TURNER K. Multi-agent reward analysis for learning in noisy domains[C]//Proceedings of the fourth international joint conference on Autonomous agents and multiagent systems. Utrecht: IFAAMAS, 2005: 81-88.
[29]	BARRAT A, BARTHELEMY M, PASTOR-SATORRAS R, et al. The architecture of complex weighted networks[J]. Proceedings of the national academy of sciences, 2004, 101(11): 3747-3752. DOI: 10.1073/pnas.0400087101.
[30]	SILVER D, LEVER G, HEESS N, et al. Deterministic policy gradient algorithms[C]//International conference on machine learning. Beijing: IMLS, 2014: 387-395.
[31]	BLONDEL V D, HENDRICKX J M, TSITSIKLIS J N. On Krause's multi-agent consensus model with state-dependent connectivity[J]. IEEE transactions on Automatic Control, 2009, 54(11): 2586-2597. DOI: 10.1109/TAC.2009.2031211.
[32]	WU C W. Algebraic connectivity of directed graphs[J]. Linear and multilinear algebra, 2005, 53(3): 203-223. DOI: 10.1080/03081080500054810.
[33]	ESFAHANIAN A H. Connectivity algorithms[M]//Topics in structural graph theory. Cambridge: Cambridge University Press, 2013: 268-281.
[34]	WANG H J, SHANG L H. Opinion dynamics in networks with common-neighbors-based connections[J]. Physica A:Statistical Mechanics and its Applications, 2015, 421: 180-186. DOI: 10.1016/j.physa.2014.10.090.
[35]	CHENG C, YU C B. Opinion dynamics with bounded confidence and group pressure[J]. Physica A:Statistical Mechanics and its Applications, 2019, 532: 121900. DOI: 10.1016/j.physa.2019.121900.