基于深度强化学习的电力线与无线双模通信MAC层接入算法

陈智雄; 詹学滋; 左嘉烁

doi:10.11992/tis.202312023

基于深度强化学习的电力线与无线双模通信MAC层接入算法

doi: 10.11992/tis.202312023

陈智雄^{1, 2, ,},
詹学滋^1,,
左嘉烁^1,

1.
华北电力大学电子与通信工程系, 河北保定 071003;
2.
河北省电力物联网技术重点实验室, 河北保定 071003

基金项目: 国家自然科学基金青年基金项目(61601182)；中央高校科研业务费专项资金项目(2023MS113).

详细信息

作者简介:
陈智雄，副教授，主要研究方向为电力物联网、电力线通信。主持国家自然科学基金项目、河北省自然科学基金项目等10余项，获得国家发明专利授权6项。E-mail：zxchen@ncepu.edu.cn;

詹学滋，硕士研究生，主要研究方向为电力线通信和无线通信。E-mail：15659630390@163.com;

左嘉烁，硕士研究生,主要研究方向为电力线通信和无线通信。E-mail：1032888158@qq.com.

通讯作者:
陈智雄. E-mail：zxchen@ncepu.edu.cn.

中图分类号: TM721
出版历程
- 收稿日期: 2023-12-16
- 网络出版日期: 2025-01-08

Adaptive MAC layer access algorithm for power line and wireless dual-mode communication based on deep reinforcement learning

1.
Department of Electronic and Communication Engineering, North China Electric Power University, Baoding 071003, China;
2.
Hebei Key Laboratory of Electric Power Internet of Things Technology, Baoding 071003, China

摘要

摘要: 针对无线和电力线通信混合组网的信道竞争接入问题，提出了一种基于深度强化学习的电力线与无线双模通信的MAC接入算法。双模节点根据网络广播信息和信道使用等数据自适应接入双媒质信道。首先建立了基于双模通信网络交互和统计信息的双模通信节点数据采集模型；接着定义了基于协作信息的深度强化学习(deep reinforcement learning, DRL)状态空间、动作空间和奖励，设计了联合α-公平效用函数和P坚持接入机制的节点决策流程，实现基于双深度Q网络(double deep Q-network, DDQN)的双模节点自适应接入算法；最后进行算法性能仿真和对比分析。仿真结果表明，提出的接入算法能够在保证双模网络和信道接入公平性的条件下，有效提高双模通信节点的接入性能。
- 电力线通信 /
- 无线通信 /
- 双模节点 /
- 深度强化学习 /
- 双深度Q网络 /
- MAC层接入 /
- 公平效用函数 /
- P坚持接入
Abstract: Aiming to address the issue of channel competition in hybrid networks of PLC and WC, this study proposes a MAC access algorithm based on deep reinforcement learning for dual-mode communication over power lines and wireless channels. Dual-mode nodes adaptively access the dual-medium channel based on data such as network broadcast information and channel usage. First, a dual-mode node data collection model is established based on interactions and statistical information from dual-mode communication networks. Then, the DRL state space, action space, and rewards are defined based on collaborative information, and an adaptive access algorithm is developed using a dual deep Q-network. This algorithm incorporates a node decision-making process that combines the α-fairness utility function with the P-persistent access mechanism. Finally, simulations and comparative analyses of the algorithm’s performance are performed. Simulation results show that the proposed access algorithm effectively improves the access performance of dual-mode communication nodes while ensuring fairness in dual-mode network and channel access.
- power line communication /
- wireless communication /
- dual-mode nodes /
- deep reinforcement learning /
- double deep Q-network /
- MAC layer access /
- fairness utility function /
- P-persistent access

HTML全文

新型电力系统建设中多类型应用场景和业务接入对电力通信网络提出了更高要求^[1-2]。无线通信(wireless communication, WC)具备接入灵活、组网简单等优点^[3]，但是无线射频信号易受墙壁等障碍物影响，信号衰减和衰落影响较大。电力线通信(power line communication, PLC)利用已有的电力线路传输信号，无需重新布线即可解决信号接入和覆盖问题^[4-5]，但是存在脉冲噪声等不利影响。联合电力线和无线通信的双模通信可实现业务灵活接入和资源优势互补，有效提升网络综合性能。

已有电力线和无线双模通信的研究集中于物理层性能分析和优化方面^[6-8]。而随着双模通信网络的技术发展，介质访问控制(media access control, MAC)技术研究受到关注。在MAC接入算法方面，无线IEEE 802.11标准^[9]和HomePlug电力线通信技术采用的IEEE 1901标准^[10]，都广泛使用基于冲突避免的载波侦听多路访问(carrier sense multiple access with contention avoid, CSMA/CA)等^[11-13]。文献[11]以CSMA/CA机制为基础，提出了基于先空闲先征用的电力线和无线双模通信接入算法，双模节点采用二选一的方式选择电力线或者无线信道接入。文献[12]和文献[13]分别针对并行传输和复用等物理层技术，提出了2种电力线和无线双模通信MAC接入算法，分别适用于高可靠分集传输和高吞吐量业务。电力线和无线双模通信节点利用2种信道传输数据包，从而保证了节点接入的性能。但是上述基于CSMA/CA的固定参数退避算法存在一定的信道空闲情况，采用深度学习^[14]与强化学习^[15] (reinforcement learning, RL)设计双模节点的MAC层自适应接入算法，可以提升信道资源的利用率，具有重要的研究价值。

目前常用的深度强化学习(deep reinforcement learning, DRL)算法为深度Q网络(deep Q-network, DQN)算法^[16-17]，在网络资源分配^[18-19]、导频设计^[20]、路径规划^[21]、设备节能^[22]等通信领域研究中得到了应用。使用基于DQN的范式取代低效的随机访问机制，可实现确定性决策，通过对网络整体环境的在线学习让网络提升服务质量(quality of service, QoS)。文献[23]通过DRL调整终端的争用窗口，避免网络拥塞，减小碰撞概率。Wu等^[24]令智能网关观察和学习网络流量的变化情况，通过Q学习自适应调整全网的争用周期的大小。上述研究分别从争用窗口选取、频谱选择等角度开展机器学习，利用DRL进行退避数值选择决策。Naparstek等^[25]和Yu等^[26-28]则直接通过网络环境参数来决定接入时机或者接入信道。文献[25]将每个用户当前的状态映射到各自的神经网络中，通过Dueling DQN选择最优信道频谱。文献[26]提出了无线异构网络中基于DRL的载波感知接入算法，采用DQN实现异构网络的终端灵活接入。文献[27]提出适用于非均匀步长情况下的改进深度学习多址接入(deep learning multiple access, DLMA)协议，且引入 $\alpha$ -公平效用函数避免智能体连续占用信道的不公平现象。文献[28]结合水声通信中时延较大的特点，设计了等待经验存储机制，避免DQN训练的局部收敛现象。

上述基于DRL的MAC算法研究都是针对无线通信技术开展，针对PLC的MAC层接入算法研究尚处在起步阶段^[29]，与双模通信相关的研究成果几乎未见报道。DRL能够实现MAC层灵活接入，提升网络性能。电力线与无线混合通信场景中，基于DRL的MAC层接入可明显降低机制复杂度。因此，针对电力线和无线双模通信网络开展基于DRL的MAC层接入算法研究具有前瞻性。本文提出了一种基于DRL的电力线和无线双模通信MAC层接入算法(double channels multiple access based on deep reinforcement learning, DCMA-D)。DCMA-D节点利用DCMA-D算法对双连接通信网络环境进行在线动态学习，获得当前环境下的最优接入策略，通过 $\alpha$ -公平效用函数^[27]和P坚持机制在保证网络和信道接入公平性的同时实现自适应优化接入，还可以根据业务特点和需求实现网络资源调控或分配。

本文的创新点如下：

1)为了实现电力线和无线双模通信的灵活接入，本文提出了一种电力线和无线双模通信MAC层的自适应接入方法(DCMA-D)，节点在没有先验知识的条件下，依据DRL对接入环境进行学习，最终实现自适应接入和数据包传输。

2)为了避免智能节点过分占用一种媒质信道发送数据包而导致信道资源分配不公平，DCMA-D在保证智能节点自身传输性能的前提下，以 $\alpha$ -公平性能函数作为DRL的效用函数，通过调控公平性指数约束DCMA-D节点，来实现网络资源动态分配。

3)为了避免智能算法的“自私性”，导致其他节点传输资源被抢占，本文在接入算法中引入P坚持机制，在网络中单模节点数量较多的情况下，DCMA-D节点利用P-坚持接入机制约束自身传输动作，维护节点接入公平。同时降低碰撞概率，提高可靠性。

1. 网络模型和信息采集

根据电力线和无线双连接通信网络的特点，本文设计了双模节点的接入算法以及节点与网络环境的交互过程。

1.1 电力线与无线双模通信网络模型

如图1所示，本文构建一个电力线和无线双模通信网络，网络中包含1个中心协调网关G、L_P个PLC单模节点P、L_W个WC单模节点W和1个接入2个信道的双模节点I。假设所有节点都处于发送饱和状态，即始终都有数据包等待传送。

图 1 网络模型

P：PLC终端，W：无线终端，I：双模终端

Fig. 1 Network model

下载: 全尺寸图片

单模节点都采用基于二进制指数退避(binary exponential backoff, BEB)机制^[30]的CSMA/CA算法。与WC不同的是，PLC单模节点的退避机制中加入了延迟计数器(delay counter, DC)使得节点为避免碰撞而更为谨慎地接入网络。在信道有数据包传输或者因为发生碰撞而无法占用时，退避计数器(backoff counter, BC)冻结，DC值减一。当DC值小于0时，节点直接进入下一退避阶段，BC在新的退避窗口重新取值，直到数据包传输成功，节点才会回退到初始退避阶段。

节点可接收网关G广播的协作信息(包传输结果、包持续时间等)。如果在包传输时间内，同一信道内没有其他节点并发传输，网关G成功接收到数据包并且向全网广播确认消息(acknowledgement, Ack)，该次传输成功。否则，数据包将发生碰撞，网关G将不广播Ack消息，接入节点向全网共享包传输失败消息。双模节点I根据采集的双媒质信道状态信息，执行DCMA-D算法以自适应接入双模信道。

1.2 面向智能接入的协作信息数据采集模型

双模通信网络的网关G可在网管和通信过程中处理和存储节点传输和信道状态等信息。如图2所示，DCMA-D节点通过载波侦听和与网关交互2种方式获取MAC层状态参数。

图 2 双模智能节点信息采集过程

Fig. 2 Information collection process of dual-mode intelligent node

下载: 全尺寸图片

DCMA-D节点在进行决策之前都会进行载波侦听，获取实时的信道忙闲信息。DCMA-D节点接入信道传输数据包时，从网关G中获取其他节点的历史协作信息。随后以协作信息和载波侦听信息作为DRL算法的先验知识，训练神经网络，确定双模节点的传输策略。具体步骤如下：

1)载波侦听过程：定义DCMA-D节点在t时隙进行载波侦听后得到信道状态信息为O_t。其中，IDLE表示2个信道都空闲，P-BUSY表示电力线信道繁忙而无线信道空闲；W-BUSY表示无线信道繁忙而电力线信道空闲；BUSY表示2条信道都繁忙，即 ${O_t} \in {\text{\{ }}{O_{{\text{IDLE}}}}{\text{,}}{O_{{\text{P - BUSY}}}}{\text{,}}{O_{{\text{W - BUSY}}}}{\text{,}}{O_{{\text{BUSY}}}}{\text{\} }}$ 。

2)与网关G的传输交互过程：网关G存储各节点的协作信息 ${{\boldsymbol{B}}_t}{\text{ = [}}{{\boldsymbol{U}}_t}{\text{ }}{\boldsymbol{I}}{{\boldsymbol{I}}_t}{\text{]}}$ 。其中，动作信息 ${{\boldsymbol{U}}_t} = [{\boldsymbol{U}}_t^{(0)}{\text{ }}{\boldsymbol{U}}_t^{(1)} \cdots {\text{ }}{\boldsymbol{U}}_t^{(L)}]$ ， $i = 0,1, \cdots ,L$ 中具有节点i在之前K时隙的传输信息，即 ${\boldsymbol{U}}_t^{(i)} = [u_{t - K + 1}^{(i)}{\text{ }} \cdots {\text{ }}u_t^{(i)}]$ 。 $u_t^{(0)}$ 为双模节点的传输动作信息， $u_t^{(i)},i \ne 0$ 为单模节点的传输动作信息。 $u_t^{(i)} \in \varPi = \left\{ {1,2,3} \right\}$ 分别对应等待、电力线信道传输、无线信道传输，其中 $\varPi$ 为动作空间。

网关G向全网广播Ack消息的同时也向全网广播结果信息集 ${{\boldsymbol{II}}_t} = [{\boldsymbol{II}}_t^{(0)}{\text{ }}{\boldsymbol{II}}_t^{(1)} \cdots {\text{ }}{\boldsymbol{II}}_t^{(L)}]$ 。其中 ${\boldsymbol{II}}_t^{(i)} = [I_t^{(i)}{\text{ }}I_{t - 1}^{(i)} \cdots {\text{ }}I_{t - K + 1}^{(i)}]$ ， $i = 0,1, \cdots ,L$ 。 ${\boldsymbol{II}}_t^{(i)}$ 为网关G将节点i此前K次传输结果整合成传输结果历史信息。如果节点i成功接收本次传输的Ack消息，则 $I_t^{(i)} = {\text{S}}$ ，如果未能成功接收到Ack消息，表明此次传输失败，则 $I_t^{(i)} = {\text{F}}$ 。

2. 基于DRL的双模节点接入算法设计

DCMA-D节点采用DRL算法选择接入信道。为了保证网络全局公平，本文在DCMA-D节点进行决策过程中引入 $\alpha$ -公平效用函数和P-坚持接入机制，通过DCMA-D节点自我约束以及外部调控调整传输策略，在保证其他节点性能的情况下，最优化DCMA-D节点性能。

2.1 DCMA-D算法流程

DCMA-D算法的流程如图3所示，包括迭代更新神经网络参数的训练模块和根据学习结果进行发送和等待动作选择的决策模块2个部分。在与网络环境不断交互的过程中训练神经网络，迭代优化网络参数并进行决策。

图 3 DCMA-D算法示意

Fig. 3 Schematic of DCMA-D algorithm

下载: 全尺寸图片

图3所示的算法模型中包含2个DQN网络：Eval DQN和Target DQN。其中Eval DQN用来计算在本状态S_t下策略选择的Q值和Q值迭代更新、梯度下降、反向传播，其输出为 $\{ Q_{{{\mathrm{Eval}}} }^{(i)}\}$ ，即节点i在当前状态下的Q值估计值集合。为避免Q值估计误差，本文引入了双深度Q网络(double deep Q network, DDQN)代替原本的DQN架构。因此，根据DDQN架构原理，在损失函数计算中，将选取在下一状态S_t+1时Eval DQN的输出值集合，即 $\{ \hat Q_{{{\mathrm{Eval}}} }^{(i)}\}$ 。Target DQN用来给出下一状态S_t+1的Q值集合 $\{ \hat Q_{{{\mathrm{Target}}} }^{(i)}\}$ ，其网络更新来源于Eval DQN的参数复制。

为避免DCMA-D节点接入产生的资源分配不公平问题以及发生碰撞，DCMA-D算法中从2个方面来约束节点的发送动作。1)引入 $\alpha$ -公平效用函数。 $\varepsilon$ 贪婪策略以各节点的 $\alpha$ -公平效用函数值为依据选择DCMA-D节点的动作，避免DCMA-D节点一直占用一条信道。2)引入P-坚持接入机制。DCMA-D节点在发送时以p的概率发送数据包，而以1−p的概率等待至下一时隙重新进行决策，为其他节点预留更多的信道资源的同时避免碰撞。经过DQN估计生成的Q值将作为自变量，计算α-公平效用函数值(具体见2.3节)。随后根据ε贪婪策略得出DCMA-D节点当前的动作 $a_t^{(0)}$ 。同时，由P-坚持接入机制决定是否发送，p为发送概率。

在DQN的训练阶段，DCMA-D节点需要从经验池中抽取经验 $\boldsymbol{E}_t=[\boldsymbol{S}_t\; \; \text{ }a_t\; \; \boldsymbol{r}_t\; \; \text{ }\; \; \boldsymbol{S}_{t+1}]$ 进行经验重放，其中r是网络中所有终端节点传输的奖励，本质上是每次传输的结果反馈。把网络中所有的终端节点的结果收集起来，成为DCMA-D节点的经验的一部分，从而训练神经网络。完成经验抽样后，为了有效处理双连接通信网络中复杂的MAC层接入状态信息，通过DCMA-D节点处理网络中所有节点的接入数据信息，训练神经网络。DCMA-D节点通过Eval神经网络和Target神经网络的双神经网络驱动决定神经网络输出以及参数调整。

2.2 DDQN定义和迭代计算

DCMA-D节点将通过载波侦听和与网关进行传输交互的方式获得的载波侦听结果 ${o_t}$ 与协作信息 ${{\boldsymbol{B}}_t}$ 转换为DQN算法中的动作、状态和奖励信息。需要注意的是，由于本文引入 $\alpha$ -公平效用函数，需要网络中所有节点的动作参数产生的影响，因此DQN不只输出当前状态下DCMA-D的估计Q值，同时输出单模节点的动作产生的Q值。具体如下：

1)动作：DRL的动作定义与协作信息中 ${u_t}$ 的定义相同，即 ${a_t} \in \varPi = \{ 1,2,3\}$ 。分别对应节点等待、接入电力线信道传输、接入无线信道传输。

2)状态：DCMA-D节点以网关存储的协作信息和自身的载波侦听结果作为DRL算法的先验知识。将一定时间内的载波侦听结果与动作结合，组成当前的网络环境状态S_t，作为DQN的输入。当前信道状态包括各节点的协作信息 ${{\boldsymbol{B}}_t}$ 和双模节点的载波侦听结果O_t，即

${{\boldsymbol{S}}_t} = [{{\boldsymbol{B}}_t}{\text{ }}{O_t}]$

式中： O_t为载波侦听结果，提供实时网络环境状态； ${{\boldsymbol{B}}_t}$ 为协作信息，提供历史网络环境状态和其他节点的历史数据。

3)奖励和Q值：节点传输成功与否在于其是否成功接收网关G返回的传输结果信息 ${\boldsymbol{II}}_t$ ，本文以此为依据设计DCMA-D节点的DQN算法中的奖励。节点在第t次迭代获得的奖励为 $r_t^{(i)},i = 0,1, \cdots ,L$ 。

${r}_{t}^{(i)}=\left\{\begin{array}{l}0,\quad\text{ }等待\\ -{T}_{\mathrm{packet}},\quad\text{ }碰撞\\ {T}_{{\mathrm{packet}}},\quad\text{ }成功\end{array} \right.$

如果节点处于等待，那么节点奖励为0；如果节点传输完成后成功收到Ack消息，则获得奖励，奖励值为数据包传输时间T_packet；如果节点发送的数据包发生了碰撞导致节点在规定时间内没有收到Ack消息，则表示本次传输失败，奖励为T_packet。

各个节点是否成功传输的信息存储在网关G中，DCMA-D节点通过定时访问获取其他节点的传输结果信息，并以奖励的形式反馈到DQN 中。令 ${{\boldsymbol{r}}_t} = [r_t^{(0)}{\text{ }}r_t^{(1)}...{\text{ }}r_t^{(L)}]$ ，其中 $r_t^{(i)},i = 1,2, \cdots ,L$ 为单模节点的奖励。定义第t次迭代时节点的累计折扣奖励 $R_t^{(i)}$ ：

$R_t^{(i)} \triangleq \sum\limits_{k = 0}^\infty {{\gamma ^k}r_{t + k + 1}^{(i)}}$

式中 $\gamma$ 为累积折扣因子， $\gamma \in (0,1]$ 。由此，将Q值定义为

${Q^{(i)}}({{\boldsymbol{S}}_t},a;{\theta} ) \triangleq E[R_t^{(i)}|{{\boldsymbol{S}}_t},a,{\theta} ]$

即节点在状态 ${{\boldsymbol{S}}_t}$ 时选用动作a产生的累积折扣因子期望值，其中 $\theta$ 为神经网络的性能参数集。

本文的DRL算法采用DDQN架构。DQN直接由Target网络直接给出Q现实值。而DDQN先将下一时隙状态S_t+1输入Eval网络处理，获得输出值：

$\hat{Q}_{\text{Eval}}^{(i)}=Q^{(i)}(\boldsymbol{S}_{t+1},a;\boldsymbol{\mathit{\theta}}_t)$

式中 $\boldsymbol{\mathit{\theta}}_t$ 为第t次迭代时的Eval网络参数集。随后，找出与Eval输出值对应的Target网络输出值，即

$\hat Q_{{\text{Target}}}^{(i)} = {Q^{(i)}}({{\boldsymbol{S}}_{t + 1}},a;{\theta} _t^ - )$

式中 $\mathit{\boldsymbol{\mathit{\theta}}}_t^-$ 为Target网络参数集。DDQN根据 $Q_{{\text{Eval}}}^{(i)}$ 和 $\hat Q_{{\text{Target}}}^{(i)}$ 进行参数更新，具体形式为

$\hat Q_{{\text{Eval}}}^{(i)} \leftarrow {r_{t + 1}} + \beta {Q^{(i)}}({{\boldsymbol{S}}_{t + 1}},\arg \max \hat Q_{{\text{Eval}}}^{(i)};{\theta}_t^ - )$

由此，可得到更新过程中损失函数为

$l(\theta)=\frac{1}{N_{\boldsymbol{\mathit{E}}}(L+1)}\sum\limits_{i=0}^l\sum\limits_{e\in\boldsymbol{\mathit{E}}}^{ }\left(r_{t+1}^{(i)}+\gamma\hat{Q}_{\text{Target}}^{(i)}-Q_{\text{Eval}}^{(i)}\right)^2$

2.3 基于 $\alpha$ -公平效用和P-坚持的决策算法

为了保证DDQN在训练过程中能够遍历状态空间中的所有状态，DCMA-D节点在决策过程中采用 $\varepsilon$ 贪婪策略，即

$a_t^{(0)} = \left\{ \begin{gathered} {{1,\;}}\;{O_t} = {O_{{\mathrm{BUSY}}}} \\ \mathop {\arg \max }\limits_{a \in \{ 0,1,2\} } Q({{\boldsymbol{S}}_t},a;{{\theta}_t}),\;{O_t} \ne {O_{{\mathrm{BUSY}}}}{\text{, }}{p_{{\text{rob}}}}{{ = 1 - }}\varepsilon \\ {\text{rand }}A,\;{O_t} \ne {O_{{\mathrm{BUSY}}}}{\text{, }}{p_{{\text{rob}}}}{\text{ = }}\varepsilon \\ \end{gathered} \right.$

(1)

式中：A为智能节点的动作空间， $\varepsilon$ 为DCMA-D节点随机决策的概率。当载波侦听结果为忙时，DCMA-D节点的决策固定为等待；若载波侦听中至少有1条信道空闲，则DCMA-D节点有 $\varepsilon$ 的概率随机选择信道，而有 ${{1 - }}\varepsilon$ 的概率选择最优动作。在DRL开始时，DCMA-D节点通过随机接入收集经验，当收集到足够多的经验时转为选择最优动作，实现灵活接入。

本文引入 $\alpha$ -公平效用函数作为DDQN的决策依据。 $\alpha$ -公平效用函数是由单个节点的局部效用函数之和求得的全局效用函数。其中局部效用函数为

$f_{\alpha}(x_i)=\left\{\begin{gathered}(1-\alpha)^{-1}x_{^i}^{1-\alpha},\; \alpha\in(0,1)\cup(1,\infty) \\ \mathrm{log}_2x_i,\; \alpha\text{ = 1} \\ \end{gathered}\right.$

(2)

式中 $\alpha$ 为公平性目标参数，通过改变 $\alpha$ 的值可以在网络中实现不同的公平性目标。x_i为目标变量，即待优化目标。由式(2)可得全局效用函数为

$F({x_0},{x_1}, \cdots ,{x_L}) = \sum\limits_{i = 0}^L {{f_\alpha }({x_i})}$

(3)

本文以第t次迭代时各个节点的Q值为 $\alpha$ -公平效用函数，即

$x_i=Q^{(i)}(\boldsymbol{S}_t,a;\boldsymbol{\mathit{\theta}}_t)$

(4)

结合式(1)～(4)，DCMA-D节点的最优决策为

${a'_t} = \mathop {\arg \max }\limits_{a \in {A}} \left[ {\sum\limits_{i = 0}^L {{f_\alpha }\left( {{Q^{(i)}}({{\boldsymbol{S}}_t},a;{{\theta}_t})} \right)} } \right]$

此时，DCMA-D节点在2条信道载波侦听反馈都为忙时固定执行等待动作，而在载波侦听反馈有信道空闲时，采用 $\varepsilon$ 贪婪策略选择动作，即

$a_t^{(0)} = \left\{ \begin{gathered} 0,\;{O_t} = {O_{{\mathrm{BUSY}}}} \\ {{a'}_t},\;{O_t} \ne {O_{{\mathrm{BUSY}}}}{\text{, }}{p_{{\text{rob}}}}{{ = 1 - }}\varepsilon \\ {\text{rand }}A,\;{O_t} \ne {O_{{\mathrm{BUSY}}}}{\text{, }}{p_{{\text{rob}}}}{\text{ = }}\varepsilon \\ \end{gathered} \right.$

式中：A为智能节点的动作空间， ${a'_t}$ 为当前策略做出的最优动作。考虑到DCMA-D节点在节点竞争过程中会一直处于优势，挤占其他单模节点的信道资源，导致信道资源分配的不公平，造成单模节点的QoS不能得到保证，本文将P-坚持接入机制融入DCMA-D节点的决策过程当中。节点竞争获得信道争用权之后，以p的概率发送数据，以1−p的概率延迟一个时隙并进行侦听。如图3所示，已知节点作出决策为 $a_t^{(0)}$ ，若 $a_t^{(0)} \ne 0$ ，则DCMA-D节点在选择的信道上以p概率发送数据包，而以1−p概率等待一个时隙并进行侦听。与传统的P-坚持CSMA不同，若DCMA-D节点以1−p的概率等待一个时隙，则在下一时隙需重新进行决策，选择动作。

3. 仿真分析

本节对DCMA-D算法进行仿真以及性能分析。首先，对DRL算法中涉及到的超参数以及节点MAC层参数进行定义以及数值设定。然后，本文对DCMA-D节点在使用不同接入算法时双模节点和单模节点的性能进行比较分析，并且分析了 $\alpha$ -公平效用函数和P-坚持接入机制对DCMA-D节点和网络整体性能的影响。

本文选择已有的二选一接入算法^[11]、并行超帧接入算法^[12]和复用接入算法^[13]作为对比算法开展分析。在二选一和复用算法中，双模节点同一时间都只征用一种信道，不同之处在于双模节点执行二选一算法时，网络中其他节点都处在等待状态，而复用算法允许其他节点在双模节点传输的过程中接入另一个未被占用的信道。并行超帧算法在信道中引入了超帧结构，将超帧划分为争用期(contention period, CP)和非争用期(contention free period, CFP)，CP中节点竞争接入，而CFP中将帧结构划分为多个时分多址(time division multiple access, TDMA)时隙。终端节点采用CSMA/CA-TDMA机制传输数据包，即在CP时间采用双信道并行CSMA/CA机制发送TDMA时隙申请信息。网关收到申请信息后，按照申请信息到达的前后顺序来安排电力线或者无线信道超帧中的TDMA时隙。

由于DQN在进行Q值估计的过程中容易产生过估计的问题，本文选择了DDQN架构来防止Q值的过估计。为探讨过估计问题对仿真结果的影响，本文比较了利用DQN和DDQN架构进行仿真产生的结果。为方便讨论，本文只讨论了当P-坚持机制的接入概率p=1的情况时DQN与DDQN的性能对比。

3.1 仿真性能指标

在指标参数选择上，本文选用各节点的信道占用比、接入时延和信道中发生碰撞的概率作为模型中的性能指标。

1) 节点信道占用比：为了更直观地反映网络中各节点的吞吐量，本文引入节点信道占用比作为吞吐量性能的关键指标^[17]，节点信道占用比定义为节点在固定传输时间内，无碰撞成功传输数据包的时隙个数与2种信道可用传输时隙个数之和的比值：

$C_i=\frac{N_{\text{T}_i}}{N_{\text{T}_{\mathrm{P}}}+N_{\mathrm{T}_{\mathrm{W}}}}$

式中： ${N_{{{\text{T}}_i}}}$ 为节点i在仿真过程中成功传输中占用的时隙总数， $N_{\text{T}_{\mathrm{P}}}$ 和 ${N_{{{\text{T}}_{\text{W}}}}}$ 分别为电力线信道和无线信道在仿真过程中的时隙总数。

2) 接入时延：节点的接入时延为节点i接收到2次Ack消息的时间间隔。其中包含DIFS、SIFS、Ack消息的发送时间等。

3) 信道碰撞概率：定义信道碰撞概率为2条信道各自监测到碰撞的次数与2条信道中监测到有节点传输的次数之比。

3.2 仿真设置

本文采用NVIDIA GeForce RTX 3060 GPU进行仿真计算，在Python 3.8环境中进行仿真，通过TensorFlow2.0构建DRL架构。

仿真中设置网络中1个DCMA-D节点与多个单模节点共存的情况。假设模型中所有节点没有在物理层丢弃数据包，且只有多个节点同时传输才会导致数据包丢失。处于同一条信道上的节点具有相同的接入优先级，电力线单模节点竞争窗口值为C_W1={8,16,32,64}，延迟计数器为D_C={0,1,3,15}，无线单模节点的竞争窗口值为C_W2={32,64,128,256}。节点在传输过程中系统参数设置如表1所示。其中，分布式帧间间隔(distributed inter-frame spacing, DIFS)是节点数据包到达节点BC开始后退的间隔时间，大小为40 μs;短帧间间隔(short inter-frame spacing, SIFS)为数据包传送完成后直至收到Ack消息的最长时间间隔，大小为20 μs。

表 1 双模通信仿真参数设置

Table 1 Dual-mode communication simulation parameter settings

名称	数值
数据包长度E[P]/bits	12 480
Ack/bits	240
传输速率/(bit/s)	6000
时隙大小/μs	10
SIFS/μs	20
DIFS/μs	40

本文采用前馈神经网络(feedforward neural network, FNN)作为DCMA-D节点中2个Q神经网络(Q neural network, QNN)的架构。由于DCMA-D节点需要从网关和信道中获取全网节点的收发信息作为DDQN的输入，所需处理的数据量较大，因此本文设定QNN中包含20层全连接层，每层具有64个神经元，每个神经元采用修正线性单元(rectified linear unit, ReLU)^[16]激活。此外，为了避免神经网络因为梯度消失或者梯度爆炸出现网络退化问题，在神经网络前向传递的过程中引入残差网络结构(residual network, ResNet)，每个ResNet块包含2个全连接层。

DCMA-D节点的DRL算法的仿真超参数如表2所示。为了使DCMA-D节点能够尽可能多地遍历到网络中各种状态下采用不同决策产生的奖励值，使经验种类更加丰富，本文设定 $\varepsilon$ 贪婪策略中 $\varepsilon$ 的初值为1，迭代步长为0.995，终值为0.005。经验池的大小为1 000，抽样经验池大小N_E为32，以满足QNN的训练需要。每次训练通过均方根传播(root mean square propagation, RMSProp)优化器进行小批量梯度下降，使得神经网络收敛速度和稳定性进一步提高。

表 2 DRL算法超参数

Table 2 DRL algorithm hyperparameters

超参数	取值
状态历史长度M	20
$\varepsilon$ 变化范围	[0.005,1]
$\varepsilon$ 迭代值 $\lambda$	0.995
折扣因子 $\gamma$	0.9
经验池大小	1 000
抽样经验池大小N_E	32

图4为本文仿真过程的损失函数变化情况。仿真初始阶段，由于ε贪婪策略，损失函数较大。大约经过1 000次迭代后，神经网络趋于稳定，DCMA-D节点获得较为稳定的决策。

图 4 损失函数

Fig. 4 Loss function

下载: 全尺寸图片

3.3 接入算法性能对比

本节讨论了在单模节点数量变化的情况下双模节点接入算法性能。考虑到双媒质信道的独立性以及电力线通信MAC算法的差异性，本节令无线节点数量L_w=15，以电力线单模节点数量变化为例讨论双模节点的不同接入算法对网络中各节点和信道性能的影响。

3.3.1 平均信道占用比性能

随着电力线单模节点数量的增加，图5～8对比电力线单模节点和无线单模节点，分析了双模节点采用不同算法时的平均信道占用比性能。其中，图5为单个节点在整个仿真过程中各类型节点的总信道占用比。为方便讨论，在图5的仿真中，电力线单模节点和无线单模节点个数均为15个。

图 5 各类节点总信道占用比

Fig. 5 Total channel occupancy ratio of each node

下载: 全尺寸图片

图 6 双模节点信道占用比

Fig. 6 Dual connection node channel occupancy ratio

下载: 全尺寸图片

图 7 电力线单模节点信道占用比

Fig. 7 PLC single node channel occupancy ratio

下载: 全尺寸图片

图 8 无线单模节点信道占用比

Fig. 8 WC single node channel occupancy ratio

下载: 全尺寸图片

如图5所示，在仿真刚开始时，由于采用ε贪婪策略，DCMA-D节点在刚接入时，各类节点的信道占用比出现较大的波动。而随着DRL算法不断进行迭代，ε值在迭代过程中降低，在决策上采取Q值最高的决策。在不断的迭代训练过程中，DRL算法逐渐收敛，DCMA-D节点逐渐找到了最优决策，因而各类节点的信道占用比性能逐渐趋于稳定。

如图6所示，增加电力线单模节点数量时，使用4种接入算法的双模节点都不同程度地出现了信道占用比下降的现象。由于DCMA-D节点在接入过程不执行二进制指数退避等固定参数算法，能够更加灵活地接入信道，充分利用信道空闲传输，因此相对二选一、并行和复用算法，双模通信节点使用DCMA-D算法具有更高的信道占用比。

图7和图8为双模节点使用不同接入算法时，单模节点的平均信道占用比变化情况。可以发现，当双模节点采用复用接入算法或者并行超帧接入算法时，电力线单模节点平均信道占用比性能最优，而无线单模节点的平均信道占用比性能不如双模节点采用DCMA-D的情况。此外，在引入P-坚持机制后，电力线单模节点的信道占用比要高于未引入P-坚持机制的情况。

电力线单模节点执行退避算法时，通过DC计数来避免无序竞争和不必要的碰撞，因此信道产生了较多的空闲时隙。此时，DCMA-D节点在学习过程中发现利用电力线信道传输数据包能够获得更大的累积奖励，因此开始占用更多的电力线信道时隙资源，导致电力线单模节点一直处于被抢占的状态。与之相对，无线单模节点获得了更多的传输机会。因此，相较于非智能的复用算法，当双模节点使用DCMA-D算法时，电力线单模节点更难竞争到信道资源，导致性能较差。

当DCMA-D节点的DRL采用DQN进行Q值估计时，过估计使得DCMA-D节点在决策过程中容易产生较高误差，会产生更多的错误决策，造成算法收敛之后出现“伪优化决策”。而DDQN避免了过估计的产生，因此得到的决策更适合当前的网络。因此，可以看到同等条件下采用DDQN的DCMA-D节点在信道占用比性能上比采用DQN的节点更好。DDQN的优越性在接入时延和碰撞概率性能上也有较为明显的体现，使用DQN架构的DCMA-D节点与其他算法相比，性能也有所提升。

综合图6～8，相较于基于CSMA/CA的接入算法，DCMA-D能够占用更多的信道资源进行传输，但单模节点竞争不过DCMA-D节点，出现性能下降。而加入P-坚持机制后，DCMA-D节点性能虽然出现下降，但是总体上仍优于对比算法，且单模节点的性能得到明显改善。因此，在不同节点数量条件下，可通过P-坚持机制调控DCMA-D节点的传输，保证单模节点的接入公平。

3.3.2 平均接入时延性能

如图9所示，对比二选一、复用和并行超帧算法，双模节点采用DCMA-D算法时的接入时延性能在电力线单模节点数量多的情况下明显更好。随着电力线节点数量增加，DCMA-D算法可通过机器学习自适应调整算法，时延性能受节点数量的影响较小，具有更好的接入时延稳定性能。采用DQN架构的DCMA-D节点由于存在过估计问题，与相同条件下(P-坚持机制概率p=1)采用DDQN的DCMA-D节点相比接入时延更高。

图 9 双模节点接入时延

Fig. 9 Dual connection node access delay

下载: 全尺寸图片

如图10～11所示，双模节点采用DCMA-D算法时对单模节点接入时延性能的影响，要大于复用接入和二选一接入算法。由于双模节点的DCMA-D算法通过基于综合网络信息的DRL实现自适应接入，使得单模节点接入概率降低、产生更大的接入时延，且电力线单模节点的增加使得DC计数器更为谨慎，DCMA-D节点更多地占用电力线信道传输，导致了不公平现象的发生。

图 10 电力线单模节点接入时延

Fig. 10 PLC single node access delay

下载: 全尺寸图片

图 11 无线单模节点接入时延

Fig. 11 WC single node access delay

下载: 全尺寸图片

3.3.3 碰撞概率

图12～13为双模节点使用不同接入算法时电力线信道和无线信道的碰撞概率。DCMA-D没有使用P-坚持机制时(p=1)，2条信道的碰撞概率都较大，而融合P-坚持机制后，2种信道的碰撞概率都随着p值减小而降低。引入P-坚持接入机制后，DCMA-D节点的发送受到概率p的约束，p值的设置具有信道资源外部调控的作用。可见对智能算法的必要约束也有利于提升网络整体的性能。

图 12 电力线信道碰撞概率

Fig. 12 Collision probability of PLC channel

下载: 全尺寸图片

图 13 无线信道碰撞概率

Fig. 13 Collision probability of WC channel

下载: 全尺寸图片

由于采用DQN的DCMA-D节点存在过估计，因此产生的决策并非是最优的，这就导致DCMA-D节点发送的数据包产生碰撞的概率增加。因此，DCMA-D节点采用DQN时具有更高的碰撞概率。

3.3.4 $\alpha$ -公平性能

图14为DCMA-D节点取不同 $\alpha$ 值时传输概率的变化。DCMA-D节点在电力线信道的传输概率随着 $\alpha$ 增加而减小，而无线信道的传输概率随着 $\alpha$ 增加而增加。当 $\alpha$ 值较小时，DCMA-D的节点传输策略为最优化自身接入性能。电力线信道中单模节点发送受到延迟计数器约束，使得电力线信道更容易产生空闲时隙。因此，DCMA-D节点占用电力线信道的比例较高。而随着 $\alpha$ 值增加，DCMA-D节点策略转为侧重2条信道的公平接入，因此对无线信道的占用比例开始增加，同时无线信道碰撞概率增加，DCMA-D节点无法通过无线信道获得更大的奖励，因此，在 $\alpha$ 为70左右趋于平衡。

图 14 不同

$\alpha$ 值时双模节点在2种信道的传输概率

Fig. 14 Change in transmission probability under different

$\alpha$

下载: 全尺寸图片

图15为不同 $\alpha$ 参数情况下，DCMA-D节点选择2条信道的情况以及各类型节点的平均信道占用比变化。可以发现，各节点的平均信道占用比变化情况符合图13的讨论。由于电力线单模节点更为谨慎的接入机制，使得电力线单模节点的平均信道占用比虽然随着 $\alpha$ 值增加，但始终低于无线单模节点的平均信道占用比。而DCMA-D节点通过 $\alpha$ -公平效用函数的调控，在 $\alpha$ 值变化的情况下仍能保持较高的信道占用比，传输性能得到保证。

图 15 不同

$\alpha$ 值选择下平均信道占用比的变化

Fig. 15 Changes in average channel occupancy ratio under different

$\alpha$

下载: 全尺寸图片

4. 结束语

本文提出了基于DRL的电力线与无线双模通信MAC层接入算法(DCMA-D)，DCMA-D节点通过DDQN获得最优的接入策略，实现自适应信道接入。为了保证公平性，本文引入了 $\alpha$ -公平效用函数，DCMA-D节点通过优化公平效用值来优化策略，实现公平性能。仿真结果表明， $\alpha$ -公平效用函数能够避免过多占用一条信道而导致网络性能恶化。为了避免单模节点数量增加导致的不公平现象，本文引入P-坚持接入机制。仿真结果表明，当单模节点数量增加时，可以通过调控概率值p，约束双模节点的传输动作，为其他节点预留出更多的信道资源，改善其他节点的传输性能。本文主要探讨了网络中存在一个双模智能节点的情况，在接下来的研究工作中，将进一步探讨网络中存在多个双模节点的网络性能，以及通过网关进行机器学习来分配信道资源的算法。

图 1 网络模型

P：PLC终端，W：无线终端，I：双模终端

Fig. 1 Network model

下载: 全尺寸图片

图 2 双模智能节点信息采集过程

Fig. 2 Information collection process of dual-mode intelligent node

下载: 全尺寸图片

图 3 DCMA-D算法示意

Fig. 3 Schematic of DCMA-D algorithm

下载: 全尺寸图片

图 4 损失函数

Fig. 4 Loss function

下载: 全尺寸图片

图 5 各类节点总信道占用比

Fig. 5 Total channel occupancy ratio of each node

下载: 全尺寸图片

图 6 双模节点信道占用比

Fig. 6 Dual connection node channel occupancy ratio

下载: 全尺寸图片

图 7 电力线单模节点信道占用比

Fig. 7 PLC single node channel occupancy ratio

下载: 全尺寸图片

图 8 无线单模节点信道占用比

Fig. 8 WC single node channel occupancy ratio

下载: 全尺寸图片

图 9 双模节点接入时延

Fig. 9 Dual connection node access delay

下载: 全尺寸图片

图 10 电力线单模节点接入时延

Fig. 10 PLC single node access delay

下载: 全尺寸图片

图 11 无线单模节点接入时延

Fig. 11 WC single node access delay

下载: 全尺寸图片

图 12 电力线信道碰撞概率

Fig. 12 Collision probability of PLC channel

下载: 全尺寸图片

图 13 无线信道碰撞概率

Fig. 13 Collision probability of WC channel

下载: 全尺寸图片

图 14 不同 $\alpha$ 值时双模节点在2种信道的传输概率

Fig. 14 Change in transmission probability under different $\alpha$

下载: 全尺寸图片

图 15 不同 $\alpha$ 值选择下平均信道占用比的变化

Fig. 15 Changes in average channel occupancy ratio under different $\alpha$

下载: 全尺寸图片

表 1 双模通信仿真参数设置

Table 1 Dual-mode communication simulation parameter settings

名称	数值
数据包长度E[P]/bits	12 480
Ack/bits	240
传输速率/(bit/s)	6000
时隙大小/μs	10
SIFS/μs	20
DIFS/μs	40

表 2 DRL算法超参数

Table 2 DRL algorithm hyperparameters

超参数	取值
状态历史长度M	20
$\varepsilon$ 变化范围	[0.005,1]
$\varepsilon$ 迭代值 $\lambda$	0.995
折扣因子 $\gamma$	0.9
经验池大小	1 000
抽样经验池大小N_E	32

参考文献(30)

[1]	谢可, 王剑锋, 金尧, 等. 电力物联网关键技术研究综述[J]. 电力信息与通信技术, 2022, 20(1): 1−12. XIE Ke, WANG Jianfeng, JIN Yao, et al. Review of key technologies for power Internet of things[J]. Electric power information and communication technology, 2022, 20(1): 1−12.
[2]	张丽, 郝佳恺. 5G网络切片电力通信业务与测试技术研究[J]. 电力信息与通信技术, 2022, 20(5): 74−79. ZHANG Li, HAO Jiakai. Research on 5G network slicing technology in power communication service and testing[J]. Electric power information and communication technology, 2022, 20(5): 74−79.
[3]	杨璐, 吴清亮. 无线接入网络自适应公平调度算法[J]. 通信学报, 2012, 33(1): 102−106,113. doi: 10.3969/j.issn.1000-436X.2012.01.014 YANG Lu, WU Qingliang. Self-adaptive fair scheduling algorithm in wireless network[J]. Journal on communications, 2012, 33(1): 102−106,113. doi: 10.3969/j.issn.1000-436X.2012.01.014
[4]	YOON S G, JANG S, KIM Y H, et al. Opportunistic routing for smart grid with power line communication access networks[J]. IEEE transactions on smart grid, 2014, 5(1): 303−311. doi: 10.1109/TSG.2013.2279184
[5]	PAPADOPOULOS T A, KALOUDAS C G, CHRYSOCHOS A I, et al. Application of narrowband power-line communication in medium-voltage smart distribution grids[J]. IEEE transactions on power delivery, 2013, 28(2): 981−988. doi: 10.1109/TPWRD.2012.2230344
[6]	蒲红红, 刘晓胜, 韩铭, 等. 电力线通信信道下协作非正交多址接入系统的分布式机会中继选择[J]. 电工技术学报, 2020, 35(11): 2306−2318. PU Honghong, LIU Xiaosheng, HAN Ming, et al. Distributed opportunistic relay selection for cooperative non-orthogonal multiple access power line communication networks[J]. Transactions of China electrotechnical society, 2020, 35(11): 2306−2318.
[7]	MATHUR A, BHATNAGAR M R, AI Yun, et al. Performance analysis of a dual-hop wireless-power line mixed cooperative system[J]. IEEE access, 2018, 6: 34380−34392. doi: 10.1109/ACCESS.2018.2848306
[8]	陈智雄, 韩东升, 邱丽君. 室内无线和电力线双媒质协作通信系统性能研究[J]. 中国电机工程学报, 2017, 37(9): 2589−2599. CHEN Zhixiong, HAN Dongsheng, QIU Lijun. Research on the performance of cooperation communication system based on indoor double media with wireless channel and power line[J]. Proceedings of the CSEE, 2017, 37(9): 2589−2599.
[9]	ZHU Yihua, XU Mengying. Enhancing network throughput via the equal interval frame aggregation scheme for IEEE 802.11ax WLANs[J]. Chinese journal of electronics, 2023, 32(4): 747−759. doi: 10.23919/cje.2022.00.282
[10]	VLACHOU C, BANCHS A, SALVADOR P, et al. Analysis and enhancement of CSMA/CA with deferral in power-line communications[J]. IEEE journal on selected areas in communications, 2016, 34(7): 1978−1991. doi: 10.1109/JSAC.2016.2566078
[11]	LIU Ran, YUAN Jinsha, CHEN Zhixiong, et al. Research on the MAC layer performance of wireless and power line parallel communication[C]//The 8th International Conference on Computer Engineering and Networks. Shanghai: Springer, 2018: 729−737.
[12]	CHEN Zhixiong, ZHI Leixin, ZHAO Xiongwen, et al. Parallel access scheme for wireless and power line dual-connection communication[J]. IEEE transactions on vehicular technology, 2022, 71(7): 7997−8001. doi: 10.1109/TVT.2022.3171244
[13]	CHEN Zhixiong, ZHI Leixin, CHEN Peiru, et al. An MAC layer algorithm based on power line-wireless dual media channels and multiplexing[J]. China communications, 2022, 19(10): 78−91. doi: 10.23919/JCC.2022.10.006
[14]	孙志军, 薛磊, 许阳明, 等. 深度学习研究综述[J]. 计算机应用研究, 2012, 29(8): 2806−2810. doi: 10.3969/j.issn.1001-3695.2012.08.002 SUN Zhijun, XUE Lei, XU Yangming, et al. Overview of deep learning[J]. Application research of computers, 2012, 29(8): 2806−2810. doi: 10.3969/j.issn.1001-3695.2012.08.002
[15]	周文吉, 俞扬. 分层强化学习综述[J]. 智能系统学报, 2017, 12(5): 590−594. doi: 10.11992/tis.201706031 ZHOU Wenji, YU Yang. Summarize of hierarchical reinforcement learning[J]. CAAI transactions on intelligent systems, 2017, 12(5): 590−594. doi: 10.11992/tis.201706031
[16]	MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529−533. doi: 10.1038/nature14236
[17]	NGUYEN T T, NGUYEN N D, NAHAVANDI S. Deep reinforcement learning for multiagent systems: a review of challenges, solutions, and applications[J]. IEEE transactions on cybernetics, 2020, 50(9): 3826−3839. doi: 10.1109/TCYB.2020.2977374
[18]	赵晓荣. 基于深度强化学习的异构网络资源分配[D]. 济南: 山东大学, 2023. ZHAO Xiaorong. Resource allocation of heterogeneous networks based on deep reinforcement learning[D]. Jinan: Shandong University, 2023.
[19]	姜华, 杨家伟, 黄巍, 等. 基于深度强化学习的D2D辅助MEC网络资源分配算法[J]. 电力信息与通信技术, 2023, 21(7): 51−58. JIANG Hua, YANG Jiawei, HUANG Wei, et al. A D2D-assisted MEC network resource allocation algorithm based on deep reinforcement learning[J]. Electric power information and communication technology, 2023, 21(7): 51−58.
[20]	刘乔寿, 周雄, 刘爽, 等. 基于深度强化学习的OFDM自适应导频设计[J]. 通信学报, 2023, 44(9): 104−114. doi: 10.11959/j.issn.1000-436x.2023169 LIU Qiaoshou, ZHOU Xiong, LIU Shuang, et al. Adaptive pilot design for OFDM based on deep reinforcement learning[J]. Journal on communications, 2023, 44(9): 104−114. doi: 10.11959/j.issn.1000-436x.2023169
[21]	赵玉新, 杜登辉, 成小会, 等. 基于强化学习的海洋移动观测网络观测路径规划方法[J]. 智能系统学报, 2022, 17(1): 192−200. doi: 10.11992/tis.202106004 ZHAO Yuxin, DU Denghui, CHENG Xiaohui, et al. Path planning for mobile ocean observation network based on reinforcement learning[J]. CAAI transactions on intelligent systems, 2022, 17(1): 192−200. doi: 10.11992/tis.202106004
[22]	何云, 申敏, 王蕊, 等. 无蜂窝毫米波大规模MIMO系统基于深度强化学习的节能睡眠策略[J]. 电子学报, 2023, 51(10): 2831−2843. doi: 10.12263/DZXB.20220247 HE Yun, SHEN Min, WANG Rui, et al. Energy-efficient sleep-mode based on deep reinforcement learning for cell-free mmwave massive MIMO systems[J]. Acta electronica sinica, 2023, 51(10): 2831−2843. doi: 10.12263/DZXB.20220247
[23]	PEI Zhonghui, CHEN Wei, DU Luyao, et al. MAC contention protocol based on reinforcement learning for IoV communication environments[C]//2021 IEEE 6th International Conference on Computer and Communication Systems. Chengdu: IEEE, 2021: 546−552.
[24]	WU C M, KAO Y C, CHANG Kaifu, et al. A Q-learning-based adaptive MAC protocol for Internet of Things networks[J]. IEEE access, 2021, 9: 128905−128918. doi: 10.1109/ACCESS.2021.3103718
[25]	NAPARSTEK O, COHEN K. Deep multi-user reinforcement learning for distributed dynamic spectrum access[J]. IEEE transactions on wireless communications, 2019, 18(1): 310−323. doi: 10.1109/TWC.2018.2879433
[26]	YU Yiding, LIEW S C, WANG Taotao. Carrier-sense multiple access for heterogeneous wireless networks using deep reinforcement learning[C]//2019 IEEE Wireless Communications and Networking Conference Workshop. Marrakech: IEEE, 2019: 1−7.
[27]	YU Yiding, LIEW S C, WANG Taotao. Non-uniform time-step deep Q-network for carrier-sense multiple access in heterogeneous wireless networks[J]. IEEE transactions on mobile computing, 2021, 20(9): 2848−2861. doi: 10.1109/TMC.2020.2990399
[28]	YE Xiaowen, YU Yiding, FU Liqun. Deep reinforcement learning based MAC protocol for underwater acoustic networks[J]. IEEE transactions on mobile computing, 2022, 21(5): 1625−1638. doi: 10.1109/TMC.2020.3029844
[29]	TONELLO A M, LETIZIA N A, RIGHINI D, et al. Machine learning tips and tricks for power line communications[J]. IEEE access, 2019, 7: 82434−82452. doi: 10.1109/ACCESS.2019.2923321
[30]	BIANCHI G. Performance analysis of the IEEE 802.11 distributed coordination function[J]. IEEE journal on selected areas in communications, 2000, 18(3): 535−547. doi: 10.1109/49.840210

点击查看大图

图(15) / 表(2)

摘要

1. 网络模型和信息采集
1.1 电力线与无线双模通信网络模型
1.2 面向智能接入的协作信息数据采集模型
2. 基于DRL的双模节点接入算法设计
2.1 DCMA-D算法流程
2.2 DDQN定义和迭代计算
2.3 基于 $\alpha$ -公平效用和P-坚持的决策算法
3. 仿真分析
3.1 仿真性能指标
3.2 仿真设置
3.3 接入算法性能对比
4. 结束语

1. 网络模型和信息采集
1.1 电力线与无线双模通信网络模型
1.2 面向智能接入的协作信息数据采集模型
2. 基于DRL的双模节点接入算法设计
2.1 DCMA-D算法流程
2.2 DDQN定义和迭代计算
2.3 基于 $\alpha$ -公平效用和P-坚持的决策算法
3. 仿真分析
3.1 仿真性能指标
3.2 仿真设置
3.3 接入算法性能对比
4. 结束语

参考文献(30)

基于深度强化学习的电力线与无线双模通信MAC层接入算法

doi: 10.11992/tis.202312023

通讯作者: 陈智雄. E-mail：zxchen@ncepu.edu.cn.

出版历程

Adaptive MAC layer access algorithm for power line and wireless dual-mode communication based on deep reinforcement learning

1. 网络模型和信息采集

1.1 电力线与无线双模通信网络模型

1.2 面向智能接入的协作信息数据采集模型

2. 基于DRL的双模节点接入算法设计

2.1 DCMA-D算法流程

2.2 DDQN定义和迭代计算

2.3 基于\alpha \alpha -公平效用和P-坚持的决策算法

3. 仿真分析

3.1 仿真性能指标

3.2 仿真设置

3.3 接入算法性能对比

3.3.1 平均信道占用比性能

3.3.2 平均接入时延性能

3.3.3 碰撞概率

3.3.4 \alpha \alpha -公平性能

4. 结束语

出版历程

目录

1. 网络模型和信息采集

1.1 电力线与无线双模通信网络模型

1.2 面向智能接入的协作信息数据采集模型

2. 基于DRL的双模节点接入算法设计

2.1 DCMA-D算法流程

2.2 DDQN定义和迭代计算

2.3 基于\alpha \alpha -公平效用和P-坚持的决策算法

3. 仿真分析

3.1 仿真性能指标

3.2 仿真设置

3.3 接入算法性能对比

4. 结束语

通讯作者:
陈智雄. E-mail：zxchen@ncepu.edu.cn.

2.3 基于 $\alpha$ -公平效用和P-坚持的决策算法

3.3.4 $\alpha$ -公平性能

2.3 基于 $\alpha$ -公平效用和P-坚持的决策算法