基于多智能体注意力机制的自动巡检路线强化学习模型

引用本文

欧嘉俊, 曾伟良, 李谕锋, 范竞敏. 基于多智能体注意力机制的自动巡检路线强化学习模型[J]. 广东工业大学学报, 2024, 41(5): 39-47, 71. DOI: 10.12052/gdutxb.230203.

Ou Jia-jun, Zeng Wei-liang, Li Yu-feng, Fan Jing-min. Reinforcement Learning Model for Automatic Inspection Route Based on Multi-agent Attention Mechanism[J]. JOURNAL OF GUANGDONG UNIVERSITY OF TECHNOLOGY, 2024, 41(5): 39-47, 71. DOI: 10.12052/gdutxb.230203.

基金项目:

国家自然科学基金资助项目(62273102，62073084)；广东省基础与应用基础研究基金资助项目(2024A1515010629)

作者简介:

欧嘉俊(2000–)，男，硕士研究生，主要研究方向为路径规划、AI交叉应用，E-mail：kingsely@mail2.gdut.edu.cn。

通信作者

曾伟良(1986–)，男，副教授，博士，主要研究方向为大规模路网的路径规划，E-mail：weiliangzeng@gdut.edu.cn

文章历史

收稿日期：2023-12-15

Contents Abstract Full text Figures/Tables PDF

基于多智能体注意力机制的自动巡检路线强化学习模型

欧嘉俊, 曾伟良, 李谕锋, 范竞敏

广东工业大学自动化学院, 广东广州 510006

收稿日期：2023-12-15

基金项目：国家自然科学基金资助项目(62273102，62073084)；广东省基础与应用基础研究基金资助项目(2024A1515010629)

作者简介：欧嘉俊(2000–)，男，硕士研究生，主要研究方向为路径规划、AI交叉应用，E-mail：kingsely@mail2.gdut.edu.cn。

通信作者：曾伟良(1986–)，男，副教授，博士，主要研究方向为大规模路网的路径规划，E-mail：weiliangzeng@gdut.edu.cn.

摘要: 合理的任务分配与巡检路线规划是确保机器人能够高效替代工程师完成变电站危险区域巡检任务的关键所在。然而，以往的研究大多局限于为变电设备规划固定的最短巡检路径，却鲜少考虑到设备检测时间和检验等级的差异性。为了进一步提升变电站巡检的有效性和灵活性，本文在充分考虑检测时间、设备检验等级以及待检测设备数量差异性的基础上，构建了一个动态巡检路径规划模型。鉴于所建模型属于NP-hard问题，提出了一种基于强化学习和多智能体注意力机制的求解策略。在求解过程中，先利用具有注意力层的编码器−解码器框架生成巡检路径，随后通过无监督神经网络进行训练优化。最后，以南方电网某变电站作为实验点进行模型验证。与遗传算法、分层可变领域搜索算法和自适应并行蚁群算法相比，本文提出的算法在路径距离上分别缩短了3.31%，1.24%与1.73%，规划用时分别缩短了17.06%，16.22%与13.89%，单次巡检成本分别降低了21.22%，6.86%与9.14%，展现出显著的优越性。

关键词: 多智能体变电站路径规划强化学习注意力机制

Reinforcement Learning Model for Automatic Inspection Route Based on Multi-agent Attention Mechanism

Ou Jia-jun, Zeng Wei-liang, Li Yu-feng, Fan Jing-min

School of Automation, Guangdong University of Technology, Guangzhou 510006, China

Abstract: Reasonable task allocation and inspection routes are crucial for robots to replace engineers in performing inspection tasks in dangerous areas of substations. However, most existing studies focused solely on planning fixed shortest paths for inspecting power transformation equipment, neglecting the variability of equipment inspection times and the heterogeneity of inspection levels. To enhance the effectiveness and flexibility of substation inspections, this study establishes a dynamic inspection path planning model by comprehensively considering the variability of inspection times, the heterogeneity of equipment inspection levels, and the number differences equipments to be inspected. To address the NP-hard of the proposed model, this paper proposes a solution based on the reinforcement learning and multi-agent attention mechanism, which first generates inspection paths using an encoder-decoder framework with an attention layer, and then trains it using an unsupervised neural network. Finally, a substation of China Southern Power Grid is used as an experimental site to validate the model. Compared with the genetic algorithm (GA), Hierarchical Variable Neighborhood Search algorithm (HVNS) , and Adaptive Parallel Memetic Multi-Elite Ant System algorithm (APMMEAS) , the proposed algorithm reduces the path distances by 3.31%, 1.24%, and 1.73%, respectively; reduces the planning time by 17.06%, 16.22% and 13.89%, respectively; and reduces the single inspection costs by 21.22%, 6.86%, and 9.14%, respectively.

Key words: multi-agent power substation path planning reinforcement learning attention mechanism

随着电力需求的日益增长，变电站作为电力系统的核心节点，其定期巡检的重要性愈发凸显。然而，传统的变电站巡检主要依赖于人工操作，但在复杂电磁环境和部分恶劣的自然条件下，人工巡检不仅面临安全风险，而且在效率上也难以满足现代电力系统的要求。鉴于此，机器人作为一种新兴的巡检工具应运而生，它们不仅能够显著提高巡检效率，降低巡检成本，还能在保障巡检人员安全的同时，有效减少人力资源的消耗。因此，巡检机器人在变电站巡检中的应用具有广阔的前景和巨大的潜力^[1-3]。

巡检机器人的路径规划是确保其能够全天候在规定的时间和位置高效完成巡检的关键。当前，巡检建图方法主要包括拓扑地图法和栅格网络法。拓扑地图法通过构建巡检场景的拓扑关系，利用图论^[4]和枚举法^[5]进行路径规划，但它在应对设备检测要求的差异化和巡检任务动态变化方面存在局限性，且求解效率有待提升。而栅格网络法则能更精确地构建变电站巡检环境，通过改进蚁群算法^[6]和粒子群算法^[7]等方法增强路径规划的鲁棒性。尽管已有研究将Dijkstra最短路径与改进蚁群算法相结合，实现了实时巡检路径规划与自动避障，但在监测点众多的情况下，其效率仍显不足。这些研究主要聚焦于巡检点与机器人工作站之间的经典路径规划问题，未充分考虑用电高峰期间的检测时间窗约束、设备等级异质性以及机器人电池容量限制。因此，现有的路径规划方法尚不能满足变电站巡检的差异化需求。为实现更高效、精准的巡检，需要综合考虑多种因素，提出适应性更强的路径规划算法，以确保巡检机器人能够在复杂多变的变电站环境中稳定、高效地运行。

在用电高峰期，变电设备因运行负荷剧增，故障风险显著提升，因此，设置合理的时间窗口进行巡检至关重要。本文将巡检任务建模为带时间窗口的车辆路径问题(Vehicle Routing Problem with Time Windows, VRPTW)，以应对用电高峰时段的挑战。然而，VRPTW是典型的NP-hard问题，随着巡检点数量增加，可行路径的数量呈指数级上升，使得求解变得极为复杂。传统的启发式算法，如迭代局部搜索法、遗传算法、禁忌搜索法和自适应领域搜索法等，在解决此类问题上发挥了重要作用，但在面对节点规模扩大和约束条件增多时，这些算法往往难以在有限的时间内找到全局最优解，且容易陷入局部最优的困境。

近年来，深度学习(Deep Learning, DL)和强化学习(Reinforcement Learning, RL)的快速发展为复杂组合优化问题的求解提供了新的思路。深度强化学习(Deep Reinforcement Learning, DRL)结合了深度学习的特征表示能力和强化学习的决策优化能力，成为解决多目标组合优化问题的有力工具。分层强化学习和多智能体强化学习^[8-9]在大规模路径规划问题上展现出了高效的性能，为解决VRPTW问题提供了新的方向。此外，巡检机器人硬件的不断升级也为巡检路径规划的实施提供了有力保障。更先进的传感器、更高效的处理器以及更稳定的运动控制系统使得巡检机器人能够在复杂多变的变电站环境中稳定运行，确保巡检任务的顺利完成^[10-12]。

针对智能变电站巡检任务，巡检机器人的路径规划算法无疑是提升检测效率的关键所在。本文深入考虑了变电设备的检验等级差异、用电高峰期对设备稳定性的影响，以及待检测设备数量的实时变动，进而构建了基于带时间窗的车辆路径问题的巡检模型。这一模型不仅能够精准反映巡检任务的复杂性和动态性，还能为机器人提供科学的巡检路径规划。为有效求解这一复杂模型，本文提出了一种融合强化学习与多智能体注意力机制的求解方法。强化学习使得机器人能够在与环境的交互中不断优化自身的行为策略，而多智能体设计则能够充分利用多个机器人的协同能力，提高整体巡检效率。更为重要的是，注意力机制的引入使得机器人在多变的巡检场景中能够精确识别并重点关注当前最为关键的任务或信息，从而大大提高巡检的针对性和效率。

1 巡检规划建模 1.1 问题描述与定义

变电站巡检机器人的路径规划，借鉴车辆路径问题(Vehicle Routing Problem, VRP)或其衍生模型的设计原理，要求机器人从工作站出发，在设定时间内有效地完成所有巡检点，确保服务的精准性。然而，变电站巡检任务的特殊性在于，机器人受到电池容量的严格限制，因此，规划过程中必须确保每个机器人所分配的巡检任务在其电池耗尽前能够顺利完成。

模型设定中，每台机器人的电池容量限制设置为$ {Q}_{v} $，确保所有巡检任务遵循此参数。工业用电高峰期，巡检重点应放在故障率高的设备，保障这一时段供电设备的稳定与安全。

变电站巡检策略的优化必须充分考虑到变电站内部设备检测等级的差异性。变电站作为电力系统的核心组成部分，负责不同电压级别的升降压工作，涉及的电力设备种类繁多，包括变压器、电力电缆、输电线路、断路开关、隔离开关以及互感器等。鉴于不同设备可能出现的故障类型和发生概率存在显著差异，巡检工作应当侧重于故障率较高的设备，赋予其较高的检测优先级，以便及时识别并处理潜在的故障问题。基于文献[13]对变电站设备等级的评定和文献[14]中提出的电网设备差异化检测策略，进一步简化了变电站的检测区域划分，将其主要划分为主变区、馈电线区和开关控制区三大部分，并为每个区域设定了相应的检测优先级。具体而言，主变区作为变电站的核心区域，其设备故障可能对整个系统造成严重影响，因此被设定为一级检测优先级；馈电线区负责电能的传输与分配，其故障率虽相对较低，但仍需保持较高的警惕，故设定为二级检测优先级；而开关控制区则主要负责电路的开合控制，其故障影响相对较小，因此被设定为三级检测优先级。通过这种差异化巡检策略的制定与实施，可以更加精准地锁定潜在故障较高的设备，优先进行检测，从而提高巡检工作的效率和针对性。

为了确保巡检路径规划能够充分满足变电站巡检任务的实际需求，本文将机器人所处的巡检环境抽象为一个有向图$ G\left(V\right) $，其中节点集合$ V=\left\{{v}_{0},{v}_{1},\cdots, {v}_{i}\right\} $，$ {v}_{i} $表示巡检点$ i $，共$ K $个巡检点。$ S=\left({\boldsymbol{s}}_{1},{\boldsymbol{s}}_{2},\cdots ,{\boldsymbol{s}}_{{K}}\right) $为路径规划的问题实例，其中，$ {\boldsymbol{s}}_{{i}}=({v}_{i},{d}_{i},{e}_{i},{l}_{i},{\alpha }_{i},{\beta }_{i}) ,{d}_{i} $表示巡检点$ i $需要检测设备数量，巡检点$ {v}_{i} $检测时间窗为$ ({e}_{i},{l}_{i}) $。巡检规划的目标是在确保以机器人工作站为起点和终点的条件下，寻找出一组成本最低且互不重叠的巡检路径。规划的路径必须确保每个巡检点在其规定的时间窗口内仅被一台机器人检测一次，从而避免资源的浪费和任务的重复执行。为了便于理解和引用，本文将所使用的符号及其含义整理成表1。

表 1 符号定义 Table 1 Symbol definition

1.2 模型构建

在巡检路径规划中，鉴于每台机器人拥有独立的巡检路线，总共将生成M条巡检路线。本模型旨在寻求最优解决方案$ r\left[1,M\right]=(r\left[1\right],r\left[2\right],\cdots, r[M\left]\right) $，以实现总成本最低。总成本定义如下：

$ \begin{split} {\rm{Cost}}\left(r\left[1,M\right]\right) =&{d}_{\mathrm{s}\mathrm{u}\mathrm{m}}\left(r\left[1,M\right]\right) +{p}_{\mathrm{s}\mathrm{u}\mathrm{m}}\left(r\left[1,M\right]\right) +\\ &{I}_{\mathrm{s}\mathrm{u}\mathrm{m}}\left(r\left[1,M\right]\right) \end{split} $

(1)

$ {d}_{\mathrm{s}\mathrm{u}\mathrm{m}}\left(r\left[1,M\right]\right) = \sum _{m=1}^{M}\sum _{t=1}^{\left|r\left[m\right]\right|-1}\mathrm{D}\mathrm{i}\mathrm{s}\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{c}\mathrm{e}({v}_{r\left[m\right]\left[t\right]},{v}_{r\left[m\right]\left[t+1\right]}) $

(2)

$ \begin{split} {p}_{\mathrm{s}\mathrm{u}\mathrm{m}}\left(r\left[1,M\right]\right) =&\sum _{m=1}^{M}\sum _{i=1}^{K}[{I}_{{e}_{i} > {{\tilde t}}_{i}} \times {\alpha }_{i} \times \left({e}_{i}-{\widetilde {t}}_{i}\right) +\\ &{I}_{{ {\tilde t}}_{i} > {l}_{i}} \times {\beta }_{i} \times \left({\widetilde {t}}_{i}-{l}_{i}\right) ] \end{split} $

(3)

$ {I}_{\mathrm{s}\mathrm{u}\mathrm{m}}\left(r\left[1,M\right]\right) = {\sum }_{m=1}^{M}{\sum }_{t=1}^{\left|r\left[m\right]\right|-1}\mathrm{G}\mathrm{r}\mathrm{a}\mathrm{d}\mathrm{e}\left({v}_{r\left[m\right]\left[t\right]},{v}_{r\left[m\right]\left[t+1\right]}\right) $

(4)

式中，$ {d}_{\mathrm{s}\mathrm{u}\mathrm{m}}\left(r\left[1,M\right]\right) $表示所有机器人的巡检路径成本；$ \mathrm{D}\mathrm{i}\mathrm{s}\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{c}\mathrm{e}({v}_{m},{v}_{t}) $表示两个巡检点的距离；$ \left|r\left[m\right]\right| $表示路径m的节点数；$ {v}_{r\left[m\right]\left[t\right]} $表示t时刻第m台机器人服务的巡检点；$ {p}_{\mathrm{s}\mathrm{u}\mathrm{m}}\left(r\left[1,M\right]\right) $表示超出检测时间窗的惩罚；若$ {e}_{i} > {\widetilde {t}}_{i} $，$ {I}_{{e}_{i} > {{\tilde t}}_{i}} $取值为1，否则取值为0；若$ {\widetilde {t}}_{i} > {l}_{i} $，$ {I}_{{{\tilde t}}_{i} > {l}_{i}} $取值为1，否则取值为0；$ {I}_{\mathrm{s}\mathrm{u}\mathrm{m}}\left(r\left[1,M\right]\right) $表示巡检路径不遵循设备检测优先级的总惩罚；若巡检点$ {v}_{r\left[m\right]\left[t+1\right]} $的优先级比$ {v}_{r\left[m\right]\left[t\right]} $高，$ \mathrm{G}\mathrm{r}\mathrm{a}\mathrm{d}\mathrm{e}\left({v}_{r\left[m\right]\left[t\right]},{v}_{r\left[m\right]\left[t+1\right]}\right) $取值为1，否则取值为0。

1.3 多智能体注意力模型

巡检机器人路径规划模型作为经典VRP问题的延伸，不仅包括了基本的路径规划需求，还整合了时间窗约束、机器人电池容量以及巡检设备的优先级等多重约束。传统的启发式算法在解决这类问题时，往往难以在复杂的约束条件下精确找到最优解。鉴于此，本文将注意力机制^[15]与多智能体强化学习^[16]相结合，设计了一种基于编码器−解码器结构的多智能体注意力模型(Multi-agent Attention Model，MAAM)。该模型通过智能体协同学习和注意力机制提升路径规划的精确性和效率，以在复杂约束下定位最优巡检路径。

1.3.1 MAAM强化学习形式

环境(Environment)和智能体(Agent)构建了强化学习的二元基础结构。本文采用马尔可夫决策过程(Markov Decision Process，MDP)定义MAAM强化学习环境，该环境包括状态、动作、概率转移和奖励机制。在此框架中，智能体特指巡检机器人，它们通过与环境的交互来学习如何有效地执行巡检任务。

如图1所示，MAAM模型框架的核心是其解码器的多智能体结构设计。编码器首先处理来自机器人工作站和巡检点的信息，并输出高维特征表示。解码器结合高维特征、约束掩码和上下文嵌入，生成路径集$ r[1,M] $。

图 1 多智能体注意力模型 Figure 1 Multi-agent attention model

每台机器人的路径规划过程可视为一个从当前巡检点出发，逐步选择下一个未访问巡检点的序列决策问题。为了实现这一点，本文定义了一个条件概率函数$ {p}_{{\boldsymbol{\theta }}}\left(r\left[1,M\right]|{S}\right) $,该函数描述了在给定问题实例$ S $条件下，选择巡检路径$ r\left[1,M\right] $的概率。

$ {p}_{{\boldsymbol{\theta }}}\left(r\left[1,M\right]|{S}\right) ={\prod }_{t=1}^{n}{p}_{{\boldsymbol{\theta }}}\left(r\left[{m}\left(t\right) \right]\left[t\right]|{S},c\left[t-1\right]\right) $

(5)

式中，$ {m}\left(t\right) $表示$ t $时刻进行路径规划的机器人编号，$ c[t-1] $表示在$ t-1 $时刻已经检测完成的巡检点，$ {p}_{{\boldsymbol{\theta }}}\left(r\left[{m}\left(t\right) \right]\left[t\right]|{S},c\left[t-1\right]\right) $表示在给定问题实例$ S $以及已检测巡检点$ c[t-1] $条件下，系统时间为$ t $时，编号为$ {m}\left(t\right) $的机器人选择巡检路径$ r\left[{m}\left(t\right) \right]\left[t\right] $的概率。

利用随机策略的方法无需为每个问题实例单独训练策略，而是可以从给定随机分布(通过离线训练获得)生成可行的实时解决方案。因此，本文通过随机策略方式生成高质量的解决方案，避免了在短时间内模型对每个新问题进行重复训练。

1.3.2 编码器

编码器旨在将低维信息转化为高维表示。以4个待检测的巡检点为例，其编码器结构详见图2。

图 2 编码器框架 Figure 2 Encoder framework

在此过程中，信息向量首先投影到嵌入层(Embedding Layer, EL)，随后经过一系列参数相互独立的注意力模块进行深度处理。每个模块均融合了多头注意力层(Multi-head Attention, MHA)与前反馈层(Feed Forward, FF)，并通过残差连接和批归一化技术优化性能。$ {X}_{i}=({v}_{i}\odot {e}_{i}\odot {l}_{i}\odot \delta {d}_{i}) $，$ \odot $表示特征拼接，从而组成每个巡检点的信息元组。通过可学习线性参数$ {W}^{i} $和$ {b}^{i} $计算初始巡检点的嵌入$ {h}_{i}^{0} $，作为编码器的输入，其中0表示初始层。

$ {h}_{i}^{0}={W}^{i}{X}_{i}+{b}^{i} $

(6)

注意力机制是一种带权池化方法，输入由询问(query)和键值对(key-value)组成，可以理解为巡检点之间的加权消息传递^[17]。key用于计算注意力分布，value则生成选择信息。在本文中，以$ i $巡检点作为query，其他巡检点作为key，分别得到其他巡检点的value值，$ {h}_{i}^{0} $经过$ K $层注意力层更新节点嵌入，选择value值最大的巡检点作为巡检点$ i $的后一个巡检点，每个单独的注意力函数由以下两部分组成：

${u}_{i,j}=\frac{{\boldsymbol{q}}_{{i}}^{\mathrm{T}}{k}_{j}}{\sqrt{{d}_{k}}} $

(7)

$ {h}_{i'}={\rm{softmax}}\left({u}_{i,j}\right) {v}_{j}={\sum }_{j}\frac{{e}^{{u}_{i,j}}}{{\sum }_{{j'}}{e}^{{u}_{i,j'}}}{v}_{j} $

(8)

式中，$ \mathrm{T} $表示转置，$ {\boldsymbol{q}}_{{i}}={W}^{Q_v}{h}_{i}^{l} $，$ {k}_{j}={W}^{K}{h}_{i}^{l} $，$ {v}_{j}={W}^{v}{h}_{i}^{l} $，分别表示注意力机制中巡检点$ {h}_{i}^{l} $的$ \mathrm{q}\mathrm{u}\mathrm{e}\mathrm{r}\mathrm{y} $与巡检点$ {h}_{j}^{l} $的$ \mathrm{k}\mathrm{e}\mathrm{y} $-value键值对。$ {u}_{i,j} $表示巡检点$ i $的$ {{\boldsymbol{q}}}_{i} $与巡检点$ j $的$ {k}_{j} $之间的缩放点积，$ \mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x} $作为激活函数，$ {d}_{k} $表示$ {h}_{i}^{0} $的维度。

利用MHA层进行特征增强，模型对不同参数的注意力值$ Z $进行多次计算，巡检点$ i $的MHA层注意力值可由式(9) 获得。

${F}_{i}\left({h}_{1}^{0},{h}_{2}^{0},\cdots ,{h}_{n}^{0}\right) ={\sum }_{z=1}^{Z}{W}_{Z}^{i}{h'}_{iz} $

(9)

$ {{\widehat h}_{l}}={h}_{i}^{0}+{{F}}_{i}\left({h}_{1}^{0},{h}_{2}^{0},\cdots ,{h}_{n}^{0}\right) $

(10)

${h}_{i}^{1}={{\widehat h}_{l}}+\varphi \left({{\widehat h}_{l}}\right) $

(11)

其中，式(11)$ {h}_{i}^{1} $的1表示$ {h}_{i}^{0} $后一层嵌入层。前馈层FF引入跳跃连接(Skip Connection)，利用$ \mathrm{R}\mathrm{e}\mathrm{L}\mathrm{u} $作为神经元激活函数：

$\varphi \left({{\widehat h}_{l}}\right) ={W}_{1}^{f}{\rm{ReLu}}\left({W}_{2}^{f}{{\widehat h}_{l}}+{b}_{0}^{f}\right) +{b}_{1}^{f} $

(12)

利用式(9)~(11)经过$ \eta $次计算后得到$ \{{h}_{i}^{\eta },i= 1,\cdots ,K\} $。最后，输入层将所有高维数据聚合作为输出层的结果。

$ {{\overline h}}^{K}=\frac{1}{K}{\sum }_{i=1}^{K}{h}_{i}^{\eta } $

(13)

1.3.3 解码器

解码器负责设定状态、动作和奖励，并通过深度神经网络训练智能体。智能体通过感知环境与彼此状态，生成有序动作序列。这些动作不仅影响环境，还改变智能体的状态。如图3所示，解码器基于编码器的嵌入和前一步输出，在第t时间步选择下一个巡检点。智能体的核心目标是选择一系列动作，直至达到目标状态，从而最大化随时间累积的奖励函数值。通过状态与动作的映射^[18]，解码器协助智能体制定有效的决策策略，直至所有巡检点检测完毕。

图 3 解码器框架 Figure 3 Decoder framework

(1) 状态。在多智能体注意力模型中，全局状态可以分为环境状态和智能体状态。环境状态包含待检测巡检点的高维嵌入$ {{\overline h}}^{K} $和已经检测过的巡检点。智能体状态由当前机器人位置及其剩余电量组成。在每个解码时间步内，智能体选择下一个将检测的巡检点。当某个巡检点的检测任务完成后，电池剩余容量更新为

$ {\widehat{w}}_{m,t}=\mathrm{max}\left(0,{\widehat{w}}_{m,t-1}-{\delta d}_{i}\right) $

(14)

在第$ t $时间步长，解码器的状态信息嵌入来自编码器的输出，可表示为

${h}_{t}^{c}=\left[{{\overline h}}^{K};{h}_{{r}_{t-1},1}^{K};{\widehat{w}}_{1,t};{h}_{{r}_{t-1},2}^{K};{\widehat{w}}_{2,t};\cdots ;{h}_{{r}_{t-1},M}^{K};{\widehat{w}}_{M,t}\right] $

(15)

(2) 动作。每台机器人的动作表示在第$ t $时间步长选择的下一个巡检点。如图3所示，首先利用多头注意力机制计算巡检路径经过的巡检点前后顺序的嵌入$ {h}_{t}^{c'} $；然后，计算所有巡检点的注意力参数$ {q}_{c} $，$ {k}_{i} $，并以$ \mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h} $作为激活函数计算$ {u}_{i,m,t} $。

$ {h}_{t}^{c'}={\rm{MHA}}\left({h}_{t}^{c}\right) $

(16)

$ {\boldsymbol{q}}_{{c}}={W}^{Q_v}{{h}_{t}^{c'}}$

(17)

${k}_{i}={W}^{K}{h}_{i}^{\lambda } $

(18)

$ {u}_{i,m,t}=\mathrm{tanh}\left(\frac{{\boldsymbol{q}}_{{c}}^{\mathrm{T}}{k}_{i}}{\sqrt{{d}_{k}}}\right) $

(19)

最后，通过$ \mathrm{s}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x} $函数计算第$ t $时间步长的巡检点$ i $匹配给机器人$ M $的概率。

$ {p}_{i,m,t}={\rm{softmax}}\left({u}_{i,m,t}\right) =\frac{{e}^{{u}_{i,m,t}}}{{\sum }_{{j'}}{e}^{{u}_{i,m,t}}} $

(20)

根据概率$ {p}_{i,m,t} $，在训练过程中利用$ \varepsilon$-贪婪算法解码来选择动作，实现在每个时间步都选择当前情况的最佳动作。

(3) 奖励。奖励函数定义了强化学习的目标。在变电站巡检调度中，由巡检成本与智能体数量成本定义奖励函数，目标是巡检路径总成本最小。

$ R\left(r\left[1,M\right]\right) =-{\rm{Cost}}\left(r\left[1,M\right]\right) -\partial M$

(21)

其中，$ \partial $为增加一个智能体(机器人)的成本系数，$ M $为智能体数量。

1.3.4 训练方法

利用向量$ \boldsymbol{\theta } $参数化随机策略并使用基于策略梯度^[19](Policy Gradient)的方法对模型进行训练。策略梯度方法迭代地使用预期收益的估计梯度来更新策略参数。本文应用带有回滚基准的强化学习方法^[20]作为梯度优化器，通过计算多智能体策略的累积奖励估计策略梯度。梯度优化器可用式(22)表示。

$ \begin{split} {\nabla }_{{\boldsymbol{\theta }}}L\left(\boldsymbol{\theta }|S\right) =&-{E}_{r \sim {p}_{\boldsymbol{\theta }}\left(.|{S}\right) }[(R(r[1,{M}]-\\ &R({r}^{{\rm{BL}}}\left[1,M\right]) ) {\nabla }_{\boldsymbol{\theta }}\mathrm{l}\mathrm{n}({p}_{\boldsymbol{\theta }}(r\left[1,M\right]|{S}) ) ] \end{split} $

(23)

式中，$ L\left(\boldsymbol{\theta }|{S}\right) ={E}_{{p}_{\boldsymbol{\theta }}\left({S}\right) }\left(R\right(r[1,M]\left) \right) $表示根据蒙特卡洛算法评估的策略期望累积回报,$ R\left(r\right[1,M] $是根据概率分布$ {p}_{i,m,t} $得到的巡检方案。$ R\left({r}^{{\rm{BL}}}\left[1,M\right]\right) $表示基准网络$ {\boldsymbol{\theta }}^{{\rm{BL}}} $通过$ \varepsilon $-贪心算法得到的基准解。通过引入基准网络$ {\boldsymbol{\theta }}^{{\rm{BL}}} $评估实例$ S $的复杂程度，降低了训练过程中的梯度方差。每一轮训练结束时将模型参数$ {p}_{\boldsymbol{\theta }} $与基准网络参数$ {p}_{{\boldsymbol{\theta }}^{{\rm{BL}}}} $进行比较，在显著性水平$ \alpha \left({p}_{\boldsymbol{\theta }},{p}_{{\boldsymbol{\theta }}^{{\rm{BL}}}}\right) = 0.5 $的t检验中，若当前概率模型参数更优，则对基准网络进行回滚更新$ {\boldsymbol{\theta }}^{{\rm{BL}}}=\boldsymbol{\theta } $。此外，在强化学习过程中，加入$ \mathrm{A}\mathrm{d}\mathrm{a}\mathrm{m} $优化器实现最小化训练参数$ {\nabla }_{\boldsymbol{\theta }}L\left(\boldsymbol{\theta }|{S}\right) $，从而快速寻找最优的巡检路径，具体训练流程如图4所示。

图 4 训练流程图 Figure 4 Training process

2 实验分析 2.1 问题描述与定义

如图5所示，本文以南方电网某变电站集群作为实验场景，评价路径巡检方法的性能，其中0节点表示机器人工作站，其他数字代表巡检点，巡检机器人运行在变电站可行区域内。以机器人工作站作为起点和终点，每个时段都要派出一定数量的机器人到每个巡检点进行检测。一个巡检点需要检测的设备数量、设备等级以及时间窗可以按照决策者的决策动态而变化。本文对巡检点的设置如表2所示。时间窗惩罚系数$ {\alpha }_{i} $，$ {\beta }_{i} $设置为$ \left[\mathrm{0,0.2}\right] $与$ \left[\mathrm{0,1}\right] $的随机分布。

图 5 变电站布局图 Figure 5 The layout of the studied substation

表 2 巡检点属性表 Table 2 Inspection point attributes

以4个机器人为例，对有巡检时间窗约束的巡检点进行巡检路线规划，分别对比本文算法、遗传算法、HVNS算法以及APMMEAS算法，结果如图6所示。对比其他算法，本文提出的多智能体强化学习算法在综合考虑路径总距离、时间窗偏移以及设备重要性条件下规划的巡检路径更加合理，机器人巡检效率更高。

图 6 巡检路径图 Figure 6 Inspection path

2.2 算法效率及成本分析

考虑到本文选取的变电站规模较小，因此将智能体数量设置为1~4个以考察算法运行效果。每个智能体之间初始参数是完全相同的，本文比较单个智能体以独立方式执行搜索的场景与多个智能体以合作方式搜索的场景。如图7所示，多智能体合作的情况比单智能体效率更高。在强化学习过程中，奖励函数会在智能体遍历解决方案时诱导智能体向更优的方向搜索。

图 7 智能体数量与算法收敛关系 Figure 7 Agent quantity and algorithm convergence

另外，每个智能体以合作的方式共存，因此多智能体遍历的方式能进一步提高效率。智能体数量越多，算法的收敛速度越快，巡检任务则需增加相应数量的机器人完成。然而，对于本案例，并非一昧增加智能体数量就能实现以最少的成本完成巡检任务，原因是奖励函数中需要考虑每个智能体的成本问题。

巡检机器人与人工巡检之间的成本比较是评估其优势的一个重要方面。然而，仅仅通过短期成本的对比无法完全体现巡检机器人的优势。因此，在考虑巡检机器人的使用寿命期间内，本文将人工巡检与机器巡检的成本进行了详细对比。人工巡检任务由6名技术员负责，每天上班8 h，信息来源于南方电网公开材料。同时，采购了4台SMP Robotics的S3.2型号巡检机器人，购买成本共计20万元。此外，每年还需要购买相应的维护耗材。图8展示了对比结果。图中人工累计成本于第3年超过机器人成本^[5]，机器人完成变电站巡检任务累计成本降低33.33%。

图 8 成本对比 Figure 8 Cost comparison

2.3 性能分析

为了全面评估本文提出的基于强化学习的多智能体注意力模型在智能巡检路径规划方面的效率，本文将之与遗传算法、HVNS算法以及APMMEAS算法进行了对比分析。

遗传算法作为一种模拟生物进化过程的优化方法，擅长在广泛的搜索空间内寻找最优解，适用于解决复杂的路径规划问题。然而，其需要大量的迭代计算，可能导致计算成本较高，且在局部最优解处可能陷入停滞，影响求解效率。

HVNS算法作为变邻域搜索的一种扩展，通过多层次的邻域搜索机制来优化解的质量，特别适用于处理具有多个约束条件的路径规划问题。然而，其效率受邻域结构设计的影响，需要复杂的邻域定义，并可能导致较长的计算时间。

APMMEAS算法结合了蚁群算法和局部搜索策略的优势，通过并行化和自适应机制提高搜索效率和解的质量。在变电站巡检路径规划中，该算法能有效地搜索多条可能的路径，并快速适应任务需求的变化。然而，其并行化和自适应机制的设计复杂度较高，需要精细调整以获得最佳性能。

相比之下，本文提出的基于强化学习的多智能体注意力模型在路径规划方面展现出了显著的优势。通过利用注意力机制捕捉巡检点之间的相关性，模型能够更准确地指导智能体的决策过程。同时，强化学习的应用使得模型能够根据实际反馈进行自适应调整，提高了解的质量和效率。此外，模型的并行处理能力也使其在处理大规模巡检任务时具有更高的效率。

变电站巡检路径规划问题的算法参数设置如表3所示，算法收敛时间与规划路径距离如表4所示。在路径规划质量方面，本文算法相较于遗传算法、HVNS算法和APMMEAS算法，分别缩短了3.31%、1.24%和1.73%的机器人行驶距离，显著降低了运维成本和能耗。在计算效率方面，本算法较遗传算法加快了17.06%的算法收敛时间；较HVNS算法加快了16.22%；较APMMEAS算法加快了13.89%。这一优异的效率不仅源于注意力机制的高效关注约束，更得益于多智能体并行搜索和强化学习序列决策的创新融合，为实时动态调度奠定基础。在成本控制方面，本文算法分别较遗传算法、HVNS算法和APMMEAS算法降低了21.22%、6.86%和9.14%的单次巡检总成本。究其原因，一方面规划出更优的低成本路径，另一方面则是有效避免了时间窗口和优先级违约而产生的高额罚金，最大限度实现了经济高效运维。通过上述对比，本文算法在路径质量、计算效率和成本控制等多个关键维度上的卓越性能和优越性得到了充分验证，从理论和实践层面为变电站巡检调度等复杂约束优化问题提供了创新高效的解决方案。

表 3 算法参数设置 Table 3 Algorithm parameter setting

表 4 算法对比 Table 4 Algorithm contrast

3 结论

综合考虑了巡检点等级差异性以及高峰期用电时间窗对设备故障的影响建立机器人巡检路径方案，提出了基于多智能体注意力模型的VRPSTW问题解决方案。该模型能根据监测点动态变化的待检设备数量进行机器人调度，实现变电站设备短时抽检，确保设备稳定运行。

在模型构建方面，本文采用了编码器−解码器框架，通过注意力层生成高效的巡检路径。编码器负责将巡检点的信息转化为高维表示，而解码器则根据这些表示和先前的决策来生成下一步的动作。这种结构使得模型能够充分利用巡检点之间的相关信息，提高路径规划的准确性和效率。

为了训练模型，本文采用了无监督神经网络方法。这种方法无需大量的标注数据，而是利用模型自身的结构特性进行自学习。这不仅降低了数据收集的成本，还提高了算法的泛化能力。

在与其他算法的对比中，本文提出的方法展现出了显著的优势。与遗传算法、HVNS算法和APMMEAS算法相比，本文的规划路径平均缩短了2.09%，算法运行时间平均缩短了15.72%，成本也平均减少了12.41%。这些结果充分证明了多智能体注意力模型在解决VRPSTW问题上的有效性和高效性。

然而，机器人自动巡检路径规划这一领域仍然有诸多待完善之处。本文采用的是策略梯度下降法进行网络训练，这种方法虽然取得了一定的效果，但在效率方面仍有进一步提升的空间。因此，未来研究可以尝试采用更为先进、目标指向性更强的算法来优化训练过程，以期实现更高的路径规划效率。

此外，考虑到高压输电线路的覆盖面积广、线路长，需要众多巡检机器人进行并行作业。这不仅增加了巡检成本，也对机器人的协调和管理提出了更高的要求。为了降低机器人成本，同时保证巡检工作的全面性和高效性，可以考虑将本文的模型应用于高压和非高压输电设备的混合抽样巡检中。通过这种方式，可以根据设备的重要性和风险等级，合理调配巡检机器人的数量和巡检频率，减少单次检测的设备数量，缩短检测周期，从而在保证巡检质量的同时，有效降低巡检成本。

参考文献

[1]	傅惠, 伍乃骐, 胡刚. 城市交通系统管理与优化研究综述[J]. 工业工程, 2016, 19(1): 10-15. FU H, WU N Q, HU G. An overview of management and optimization of urban transportation systems[J]. Industrial Engineering Journal, 2016, 19(1): 10-15.
[2]	王建邦, 袁智勇, 陈波, 等. 变电站巡检机器人数据驱动无模型自适应控制[J]. 电测与仪表, 2019, 56(19): 114-120. WANG J B, YUAN Z Y, CHEN B, et al. Data driven model free adaptive control for substation inspection robots[J]. Electric Measurement and Instrumentation, 2019, 56(19): 114-120.
[3]	黄金魁. 智能变电站三维实景无人值守感知系统的应用研究[J]. 电测与仪表, 2020, 57(4): 87-92. HUANG J K. Research on the application of three-dimensional real scene unattended sensing systems in intelligent substations[J]. Electric Measurement and Instrumentation, 2020, 57(4): 87-92.
[4]	张永涛, 李博, 张甲, 等. 基于图论的变电站巡检机器人全局路径规划[J]. 山东电力技术, 2020, 47(9): 45-49. ZHANG Y T, LI B, ZHANG J, et al. Global path planning of substation inspection robots based on graph theory[J]. Shandong Electric Power Technology, 2020, 47(9): 45-49. DOI: 10.3969/j.issn.1007-9904.2020.09.009.
[5]	张永涛, 于倩倩, 肖智彬, 等. 基于枚举法的变电站巡检机器人巡视路线优化[J]. 浙江电力, 2021, 40(1): 12-17. ZHANG Y T, YU Q Q, XIAO Z B, et al. Optimization of inspection routes for substation inspection robots based on enumeration method[J]. Zhejiang Electric Power, 2021, 40(1): 12-17.
[6]	薛阳, 俞志程, 吴海东, 等. 基于IACO-ABC 算法的变电站巡检机器人路径规划[J]. 浙江电力, 2019, 38(11): 10-15. XUE Y, YU Z C, WU H D, et al. Path planning for substation inspection robots based on the IACO-ABC algorithm[J]. Zhejiang Electric Power, 2019, 38(11): 10-15.
[7]	刘胜, 晏齐忠, 张志鑫, 等. 基于ACO-PSO算法的变电站巡检机器人路径规划研究[J]. 浙江电力, 2021, 40(1): 29-35. LIU S, YAN Q Z, ZHANG Z X, et al. Study on path planning for substation inspection robots using the ACO-PSO algorithm[J]. Zhejiang Electric Power, 2021, 40(1): 29-35.
[8]	宋涛, 李丹, 路宁. 基于分层强化学习的数字化输电线路路径规划研究[J]. 电测与仪表, 2022, 59(4): 91-97. SONG T, LI D, LU N. Study on path planning for digital transmission lines using hierarchical reinforcement learning[J]. Electric Measurement and Instrumentation, 2022, 59(4): 91-97.
[9]	王万良, 陈浩立, 李国庆, 等. 基于深度强化学习的多配送中心车辆路径规划[J]. 控制与决策, 2022, 37(8): 2101-2109. WANG W L, CHEN H L, LI G Q, et al. Path planning for vehicles at multiple distribution centers using deep reinforcement learning[J]. Control and Decision, 2022, 37(8): 2101-2109.
[10]	YANG Q, MA S, ZHANG G, et al. A new assistance navigation method for substation inspection robots to safely cross grass areas[J]. Sensors, 2023, 23(22): 9201. DOI: 10.3390/s23229201.
[11]	NING X, LIU Z, LI Y. Autonomous obstacle crossing method for substation inspection robots based on locust optimization algorithm[C]//3rd International Conference on Artificial Intelligence, Automation, and High-Performance Computing. Wuhan: SPIE, 2023: 1271702.
[12]	傅惠, 金诚谦, 牛张哲, 等. 网联自动驾驶货车编队规划与控制研究综述[J]. 工业工程, 2024, 27(1): 25-35. FU H, JIN C Q, NIU Z Z, et al. A comprehensive review of platoon planning and control research for networked automated driving trucks[J]. Industrial Engineering, 2024, 27(1): 25-35.
[13]	YANG Z, SHEN Y, ZHOU R, et al. A transfer learning fault diagnosis model of distribution transformer considering multi-factor situation evolution[J]. IEEJ Transactions on Electrical and Electronic Engineering, 2020, 15(1): 30-39. DOI: 10.1002/tee.23024.
[14]	YANG Z C, SHEN Y, FAN Y, et al. Research on differentiation inspection strategy of distribution networks[C]//Proceedings of the 2019 IEEE 2nd International Conference on Electronics and Communication Engineering. Xi'an: IEEE, 2019: 331-335.
[15]	KOOL W, VAN HOOF H, WELLING M. Attention, learn to solve routing problems![C]// International Conference on Learning Representations. New Orleans: ICLR, 2019: 1-25.
[16]	ZHANG K, HE F, ZHANG Z, et al. Multi-vehicle routing problems with soft time windows: a multi-agent reinforcement learning approach[J]. Transportation Research Part C: Emerging Technologies, 2020, 121: 102861. DOI: 10.1016/j.trc.2020.102861.
[17]	VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. LongBeach, California: NIPS'17, 2017: 6000-6010.
[18]	AREL I, LIU C, URBANIK T, et al. Reinforcement learning-based multi-agent system for network traffic signal control[J]. IET Intelligent Transport Systems, 2010, 4(2): 128-135. DOI: 10.1049/iet-its.2009.0070.
[19]	AGARWAL A, HENAFF M, KAKADE S, et al. PC-PG: policy cover directed exploration for provable policy gradient learning[J]. Advances in Neural Information Processing Systems, 2020, 33: 13399-13412.
[20]	WILLIAMS R J. Simple statistical gradient-following algorithms for connectionist reinforcement learning[J]. Machine Learning, 1992, 8(3): 229-256.
[21]	MIRJALILI S. Genetic algorithm[M]// Evolutionary Algorithms and Neural Networks. Cham: Springer, 2019: 43-55.
[22]	EUCHI J, YASSINE A. A hybrid metaheuristic algorithm to solve the electric vehicle routing problem with battery recharging stations for sustainable environmental and energy optimization[J]. Energy Systems, 2023, 14(1): 243-267.
[23]	YAN X, LI W, HUANG Y, et al. An adaptive parameter for max-min elite ant system to solve CVRP problem[C]// 17th International Conference on Computational Intelligence and Security.Chengdu: IEEE, 2021: 580-584.