基于深度强化学习的无人机博弈路径规划

引用本文

薛均晓, 张世文, 陆亚飞, 等. 基于深度强化学习的无人机博弈路径规划[J]. 郑州大学学报(理学版), 2025, 57(4): 8-14.

XUE Junxiao, ZHANG Shiwen, LU Yafei, et al. UAV Game Path Planning Based on Deep Reinforcement Learning[J]. Journal of Zhengzhou University(Natural Science Edition), 2025, 57(4): 8-14.

基金项目

国家重点研发计划项目(2022YFC3004400)

通信作者

张世文(1997—)，男，硕士研究生，主要从事深度强化学习研究，E-mail: smallsunnyfox@gs.zzu.edu.cn

作者简介

薛均晓(1982—)，男，副教授，主要从事人工智能和网络空间安全研究，E-mail: xuejx@zzu.edu.cn

文章历史

收稿日期：2024-02-25

Contents Abstract Full text Figures/Tables PDF

基于深度强化学习的无人机博弈路径规划

薛均晓^1,2, 张世文¹, 陆亚飞², 严笑然², 付玮³

1. 郑州大学网络空间安全学院河南郑州 450002;
2. 之江实验室人工智能研究院浙江杭州 311100;
3. 之江实验室天基计算研究中心浙江杭州 311100

收稿日期：2024-02-25

基金项目：国家重点研发计划项目(2022YFC3004400)

作者简介：薛均晓(1982—)，男，副教授，主要从事人工智能和网络空间安全研究，E-mail: xuejx@zzu.edu.cn.

通信作者：张世文(1997—)，男，硕士研究生，主要从事深度强化学习研究，E-mail: smallsunnyfox@gs.zzu.edu.cn.

摘要：针对深度强化学习方法在复杂环境下面对无人机博弈任务时学习效率较低的问题，提出了知识和数据联合驱动的深度强化学习模型。首先，借鉴了模仿学习的思想，将遗传算法作为启发式搜索策略，并收集专家经验知识；其次，通过深度强化学习与环境进行交互，收集在线经验数据；最后，构建了知识和数据联合驱动的深度强化学习模型，用于优化无人机博弈策略。实验结果表明，所提模型有效提升了收敛速度和学习稳定性，经过训练的智能体具有较好的自主博弈路径规划能力。

关键词：深度强化学习无人机博弈路径规划遗传算法

UAV Game Path Planning Based on Deep Reinforcement Learning

XUE Junxiao^1,2, ZHANG Shiwen¹, LU Yafei², YAN Xiaoran², FU Wei³

1. School of Cyber Science and Engineering, Zhengzhou University, Zhengzhou 450002, China;
2. Institute of Artificial Intelligence, Zhejiang Lab, Hangzhou 311100, China;
3. Research Center of Space Computing, Zhejiang Lab, Hangzhou 311100, China

Abstract: A deep reinforcement learning model driven by knowledge and data was proposed to address the low learning efficiency of deep reinforcement learning methods in complex environments for unmanned aerial vehicle (UAV) game tasks. Firstly, drawing on the idea of imitation learning, a genetic algorithm was employed as a heuristic search strategy, and expert experience knowledge was collected. Secondly, the UAV interacted with the environment through deep reinforcement learning and collected online experience data. Finally, a deep reinforcement learning model driven by knowledge and data was constructed to optimize UAV game strategies. Experimental results indicated that the proposed model effectively improved the convergence speed and learning stability, and the trained agents demonstrated better autonomous game path planning capabilities.

Key words: deep reinforcement learning UAV game path planning genetic algorithm

0 引言

近年来，无人机作为快速高效的作战平台，以其灵活多样的作战形式和安全可靠的使用特性，在高精度、快节奏的现代局部战争中发挥了巨大作用^[1]。无人机博弈任务的首要目的是突破博弈目标的保护抵达指定任务区域，本质上是一个从出发点到目标位置的多约束路径规划问题。目前常用于无人机博弈的导航方式是卫星导航和无线电导航，一旦被博弈目标干扰，任务成功率将大幅下降。此外，由于指挥信息系统的控制决策受限于传输距离，具备一定的延时性。因此，具备自主感知和决策能力的无人机将在现代局部战争中展现出更好的博弈能力和作战效能。

现代战场环境复杂多变，具有环境高维度、信息不完整和策略非完备等特征，传统的路径规划算法难以适应。基于图搜索的路径规划算法，如Dijkstra算法^[2]和A^*算法^[3]等，在相对简单的二维环境中十分有效，但在高维环境中存在较高的计算复杂度。基于随机取样的路径规划算法，如概率路图算法^[4]和快速随机扩展树算法^[5]等，适用于动态或者高维环境，其收敛速度普遍较慢，且需要大量的内存和计算资源。基于智能仿生的路径规划算法，如蚁群算法^[6]、粒子群优化算法^[7]和人工蜂群算法^[8]等，适用于复杂环境，但都面临收敛较难的问题，且有可能陷入局部最小值。

强化学习^[9]是一种以环境反馈作为输入的机器学习方法，指从环境状态到动作映射的学习，旨在使智能体在缺乏先验环境信息的条件下，通过与环境持续交互学习特定行为策略，适用于信息不完全情况下的连续决策问题。然而，传统的强化学习方法在复杂环境中表现不佳。深度强化学习^[10]在强化学习的基础上构建了端到端的感知与控制系统，具有较强的通用性。其核心框架为通过深度学习处理高维感知，并通过强化学习输出连续控制决策，适合处理高维环境和复杂问题，但也面临着样本效率低、训练速度慢等挑战。

模仿学习^[11]旨在通过观察专家演示加速强化学习中的行为策略学习过程。本文借鉴了模仿学习的思想，将遗传算法^[12]在复杂运动规划中的优秀表现作为启发式搜索策略，用于收集和整理专家经验知识。同时，结合深度强化学习方法，从包含专家启发经验和在线收集经验的数据中，深入学习并优化无人机博弈路径规划策略。通过这种方法构建了一个知识和数据联合驱动的深度强化学习模型，有效增强了无人机的自主博弈路径规划能力。为了验证所提模型的有效性，构建了基于真实数字高程模型数据的仿真实验环境，并在不同地形的地图中进行了训练和测试。实验结果表明，所提模型在收敛速度和学习稳定性方面均取得了有效提升，经过训练的智能体在无人机博弈路径规划任务中的表现也有所提升。

1 问题建模

基于无人机在受限环境下仅能获取自身局部观测数据的假设，将无人机博弈路径规划问题建模为部分可观测的马尔可夫决策过程^[13],

$ (S, A, P, R, \mathit{\Omega}, O, \gamma), $

(1)

式中：$S$ 是一组有限状态集，$s_{t} \in S$ 表示$t$ 时刻的环境状态；$\mathit{\Omega}$ 是一组局部观测信息，可表示为$o_{t}$，具体包括无人机的自身位置$u_{t}\left(u_{x}, u_{y}, u_{z}\right)$、无人机的速度$v_{t}\left(v_{x}, v_{y}, v_{z}\right)$ 以及无人机的受击状态（正常为0，受到攻击为1，被击毁为2）；$O$ 是条件观测概率$O(o \mid s)$，表示无人机观测到局部信息$o_{t}$ 时处于环境状态$s_{t}$ 的概率，由于在受限环境中缺乏其他环境信息，本文中的环境状态$s_{t}$ 只包含无人机的局部观测信息$o_{t}$ 以及博亦目标位置$w_{t}\left(w_{x}, w_{y}, w_{z}\right)$、任务目标位置$g_{t}\left(g_{x}, g_{y}, g_{z}\right)$ 和无人机附近100 m的9维地形高度信息$h_{t}; A$ 是一组有限动作集，智能体在$t$ 时刻根据状态$s_{t}$ 选择动作$a_{t} \in A; P\left(s_{t+1} \mid s_{t}, a_{t}\right)$ 为状态转移概率函数；$R$ 为奖励函数，$R\left(s_{t}, a_{t}\right)$ 表示在状态$s_{t}$ 执行动作$a_{t}$ 获得的奖励；$\gamma$ 为奖励折扣因子，用于衡量当前奖励和未来奖励的相对重要性。

具体来说，在单位时间内无人机飞行速度和方向固定的情况下，无人机的决策为决定其飞行方向的$a_{t}(p, y)$，其中：p为无人机的俯仰角，需要满足无人机的最大爬升和下降率；y为无人机的偏航角，需要满足无人机的最小转弯半径。最终决策需要满足最小转弯半径、最大爬升和下降率的联合约束。无人机在执行动作时根据当前时刻位置、所选飞行方向和无人机固定速度计算出下一时刻的位置和速度。

奖励函数的设计综合考虑了无人机到目标点的距离、与地形的碰撞、受击状态、运动约束以及是否完成博弈任务等因素。基本奖励函数可表示为

$ \left\{\begin{array}{l} r_{\text {success }}=50, \\ r_{\text {death }}=-10, \\ r_{\text {dis }}=0.1 *\left(d_{t-1}-d_{t}\right), \\ r_{\text {step }}=-0.01, \\ r_{\text {constraint }}=-0.01, \end{array}\right. $

(2)

式中：$r_{\text {success }}$ 为完成任务时的任务成功奖励；$r_{\text {death }}$ 为与地形发生碰撞或被博亦目标击毁时的坠毁惩罚；$r_{\text {dis }}$ 为根据无人机到目标点距离计算的任务距离奖励；$d_{t-1}$ 和$d_{t}$ 分别为$t-1$ 和$t$ 时刻无人机到目标点的距离；$r_{\text {step }}$ 为每次执行动作决策时的前进惩罚，用于鼓励智能体更快地到达目标点；$r_{\text {constraint }}$ 为无人机动作决策不符合运动约束时的惩罚。

2 模型构建

知识和数据联合驱动的深度强化学习模型如图 1所示。

图 1 知识和数据联合驱动的深度强化学习模型 Fig. 1 Deep reinforcement learning model driven by knowledge and data

将遗传算法作为启发式优化搜索策略，可以将无人机博弈路径规划问题转化为基因编码，利用基因操作搜索最优解，并将最优解作为专家经验知识存储到深度强化学习的回放经验池中。同时，在深度强化学习算法的训练过程中，智能体在训练过程中的在线经验也被收集到回放经验池中作为训练数据。每隔一定的步数，智能体会从同时包含启发性专家知识和大量训练数据的经验回放池中随机抽取经验，根据损失函数计算损失，并对网络参数进行更新。

2.1 遗传算法

遗传算法是一种模拟生物进化过程的算法，其基本原理^[12]是将问题转化为基因编码的形式，通过基因操作(如交叉、变异、选择等)来搜索最优解。使用遗传算法将无人机博弈路径规划问题转化为优化问题，通过遗传算法搜索最优的无人机博弈路径，然后将搜索到的最优路径作为专家知识拆分并存储到回放经验池中。

遗传算法的优化目标为最小化无人机的总航程和环境中的总威胁强度，环境中的威胁包含来自地形的高度威胁和来自博弈目标的击毁威胁。基于此，设计的优化目标函数可表示为

$ \min J=\min \int_{t_{0}}^{t}\left[\alpha l(t)-\beta\left(h_{t}^{\max }+d_{t}^{w}\right)\right] \mathrm{d} t, $

(3)

式中：l(t)为无人机到当前时刻的航程；$h_{t}^{\max }$为当前时刻无人机附近地形的最高高度；$d_{t}^{w}$为当前时刻无人机到博弈目标的距离；α和β分别为航程代价和威胁代价的权重因子。

无人机博弈路径规划任务的约束条件包含：不与地形发生碰撞、不被博弈目标击毁且移动路径满足无人机运动约束，以上条件均通过遗传算法的基因操作满足。使用遗传算法将可能解表示为个体，每个个体采用二进制编码方式进行基因编码，通过选择、交叉、变异等基因操作对种群进行演化，以选择出更适应环境的种群。

具体到无人机博弈路径规划问题，每个个体代表一条潜在路径。初始种群数量设置为100，每个种群的个体数量也设置为100，即每个种群中有100条路径。同时，每个个体的染色体数量设置为500，即每条路径包含500个中间节点，每个节点对应无人机的三维航迹点。

具体流程包括：种群初始化、碰撞检测、适应度计算、基因操作执行、形成新种群以及保留最优路径。

2.2 专家知识收集

首先通过遗传算法搜索最优路径，并将最优路径作为专家知识，从中提取专家启发经验并存储到经验池中，然后采用双延迟深度确定性策略梯度^[14](twin delayed deep deterministic policy gradient，TD3)算法构建并训练在线学习网络。

TD3算法是基于策略梯度的深度强化学习算法，由深度确定性策略梯度^[15](deep deterministic policy gradient，DDPG)算法改进而来，在复杂动作空间和连续决策问题上相较于其他算法表现更好。

TD3的网络结构采用Actor-Critic架构，Actor网络根据包含无人机局部观测的状态信息选择动作，Critic网络根据状态信息和Actor网络所选动作估计动作价值函数的值。动作价值函数的值反映了Actor网络所选动作的好坏，可用于Actor网络的梯度计算和策略更新。TD3的整体网络结构如图 2所示。

图 2 TD3的网络结构 Fig. 2 Network structure of TD3

在TD3算法中，智能体的目标是寻找当前参数下的最优策略以最大化其奖励回报。TD3算法也采用了与DQN算法^[16]相同的经验回放机制，即每隔一定的步数就从包含预先收集的专家启发经验的回放经验池中随机抽取小批量样本用于网络更新，以减少样本之间的相关性。

Actor网络分为在线策略网络和目标策略网络，在线策略网络通过单步梯度上升进行更新，其梯度计算方式为

$ \nabla_{\theta} J(\theta) \approx \nabla_{\theta} \frac{1}{|B|} \sum\limits_{s \in B} Q_{\phi_{1}}\left(s, \mu_{\theta}(s)\right), $

(4)

式中：B为更新时抽取的批量样本；θ为在线策略网络的参数；$\phi_{1}$为两个在线Q网络之一的参数，策略网络的学习目标是最大化$\phi_{1}$ 上的期望Q值。

Critic网络包含两个在线Q网络及其对应的目标网络，TD3算法同时学习两个Q函数，并使用两个Q值中较小的一个来计算损失函数中的目标Q值，目标Q值的计算公式为

$ y\left(r, s^{\prime}, d\right)=r+\gamma(1-d) \min\limits _{i=1, 2} Q_{\phi_{\operatorname{targ}}^{i}}\left(s^{\prime}, a^{\prime}\left(s^{\prime}\right)\right), $

(5)

式中：r为奖励值；γ为奖励折扣因子；d为代表回合是否结束的终止标志，d为1时代表回合结束；a′(s′)为平滑后的目标策略。

TD3算法在DDPG算法的基础上加入了目标策略平滑，平滑方式是在目标策略的每个维度中添加裁剪过的噪声，并将加入噪声后的策略裁剪到有效动作范围，使目标策略适当地平滑化，可以有效防止策略网络的过拟合。

目标策略的计算公式为

$ a^{\prime}\left(s^{\prime}\right)={clip}\left(\mu_{\theta_{\text {targ }}}\left(s^{\prime}\right)+{clip}(\varepsilon, -c, c), a_{\text {low }}, a_{\text {high }}\right), $

(6)

式中：ε表示随机高斯噪声，ε~N(0, σ)；c为噪声的截断边界；clip表示截断函数；θ_targ为目标策略网络的参数；a_low和a_high为有效动作范围的边界值。因为策略网络的输出范围为[-1, 1]，所以a_low的取值为-1，a_high的取值为1。

最终，由式(5)计算得到的目标Q值将被同时用于Critic中两个在线Q网络的损失计算，损失函数公式分别表示为

$ L\left(\phi^{1}\right) =\underset{\left(s, a, r, s^{\prime}, d\right)}{E}\left[\left(Q_{\phi^{1}}(s, a)-y\left(r, s^{\prime}, a\right)\right)^{2}\right], $

(7)

$ L\left(\phi^{2}\right) =\underset{\left(s, a, r, s^{\prime}, d\right)}{E}\left[\left(Q_{\phi^{2}}(s, a)-y\left(r, s^{\prime}, a\right)\right)^{2}\right] \text { 。} $

(8)

为了使策略网络的学习更加稳定并降低估计误差，TD3算法采用了延迟策略更新方法，即以相对较低的频率更新策略网络，以相对较高的频率更新Q网络和目标网络。在本文中，Q网络和目标网络每更新两次，策略网络也会进行一次更新。

此外，Actor和Critic中的所有网络均采用Adam^[17]优化器进行参数更新，目标网络的更新采用软更新策略，

$ \left\{\begin{array}{l} \theta_{\operatorname{targ}}=\tau \theta+(1-\tau) \theta_{\operatorname{targ}}, \\ \phi_{\operatorname{targ}}^{i}=\tau \phi+(1-\tau) \phi_{\operatorname{targ}}^{i}, \end{array}\right. $

(9)

式中：i=1, 2；τ表示软更新率，通常取一个较小的值以避免频繁更新目标网络，使学习更加稳定。

策略网络的输入为无人机在t时刻的状态s_t(o_t, w_t, g_t, h_t)，s_t在输入后首先通过两层包含256个节点的全连接层和ReLU激活函数，然后通过输出层和Tanh激活函数得到策略网络的输出。Q网络的输入包含s_t和策略网络的输出，在通过两层包含256个节点的全连接层和ReLU激活函数后输出预测的Q值。

为了满足无人机联合运动约束的限制，策略网络的输出并不会直接用于无人机的移动。无人机在移动时，首先根据当前位置和速度以及运动约束计算无人机的可行动作域，然后将策略网络的输出映射到当前可行动作域上，最后根据映射动作、无人机当前位置计算得到无人机下一时刻的位置和速度。

3 实验与结果分析

算法和网络模型基于PyTorch框架实现，编程语言为Python3.9，操作系统为Ubuntu20.04，GPU为NVIDIA RTX3060。首先根据不同地形的数字高程模型(digital elevation model，DEM)数据搭建了仿真实验环境，然后在实验中分别对比了DDPG算法、由DDPG算法改进而来的LSTM-DDPG算法、TD3算法以及本文算法的实验效果。

3.1 实验环境搭建

为了模拟真实的地形环境，从ASTER GDEM V3全球DEM数据集中下载了部分DEM数据以构建仿真环境，该数据集具有高空间分辨率、全球覆盖和免费公开可用等特点。分别使用三个不同地形的DEM数据构建了三个仿真环境用于训练和测试。首先在地理空间数据云中选择区域，然后下载指定区域的DEM数据，截取数据中1 km×1 km范围内的高程数据，并对其进行平滑处理，最终保存处理后的三维地图数据。

完成三维地图的处理以后，在三维地图的基础上设计了无人机博弈路径规划任务的实验环境。每个仿真环境地图的横纵坐标数据在经过处理后保持在1 km以内，高度为DEM数据中的真实高度。每个回合开始前，需要设置目标点、博弈目标和无人机的初始位置。具体包括：在地图坐标数据范围内随机初始化目标点位置；在距离目标点100~150 m的范围内随机初始化博弈目标位置；在距离目标点500~550 m的范围内随机初始化无人机初始位置。

在训练过程中，当无人机被博弈目标击毁、与地形发生碰撞、到达目标点或者超出最大训练步数时即停止当前回合的训练。具体来说，无人机的初始血量为50，当无人机出现在博弈目标开火范围内时，博弈目标会对无人机发射子弹，子弹将按照一定的速度和发射时的初始方向匀速飞行。当子弹与无人机的距离小于50 m时，视为无人机被击中，并将无人机血量减1，当无人机血量为0时，视为无人机被博弈目标击毁，即任务失败。此外，无人机与地形的碰撞检测实现方式为将无人机当前高度与附近100 m的地形高度信息平均值进行对比，当前高度位于附近高度的50 m以上时视为无人机与地形发生碰撞，任务失败。到达目标点的判断方式为对比无人机到目标点的当前距离是否小于50 m，小于等于50 m时则视为无人机成功到达目标点，即任务成功。

3.2 结果分析

在基于不同难度地形的DEM数据构建的三个仿真环境中分别对比了DDPG算法、LSTM-DDPG算法、TD3算法以及本文算法。算法均在三个地形的地图中进行了训练和测试，其中地图 1的地形较为平缓，训练难度偏低，故训练期间在地图 1上训练200个回合，而在地图 2和地图 3上均训练2 000个回合。

地图 1的训练结果如图 3所示。可以看出，本文算法拥有更快的收敛速度，且平均回报曲线更加平滑。DDPG算法的前期学习曲线波动较大；TD3算法通过对DDPG算法进行改进，增强了学习的稳定性；LSTM-DDPG算法通过LSTM网络提取时序信息增强了学习效果；本文算法的学习效果则同时优于TD3算法和LSTM-DDPG算法。

图 3 地图 1的训练结果 Fig. 3 Training results of map 1

地图 2和地图 3的训练结果分别如图 4和图 5所示。由于地图 2和地图 3的地形相较于地图 1更加复杂，整体学习效果也会有所下降。从地图 2和地图 3的训练结果可以看出，本文算法相比其他算法的学习速度更快，且学习稳定性更高。

图 4 地图 2的训练结果 Fig. 4 Training results of map 2

图 5 地图 3的训练结果 Fig. 5 Training results of map 3

除了对比不同算法的学习效果，还使用不同算法训练得到的博弈策略，在对应地形的实验环境中进行了测试实验，以比较习得策略的性能，具体测试结果如表 1所示，其中测试实验的对比指标包含500个回合的平均回报和成功率。可以看出，本文算法相比未引入专家启发经验的TD3算法、DDPG算法和LSTM-DDPG算法，在平均回报上均有一定的提升。同时，在不同实验地图上的测试成功率也优于其他三种对比方法。

表 1 不同算法习得策略的测试结果 Tab. 1 Test results of policies learned by different algorithms

综合比较训练结果和测试结果，本文提出的知识和数据联合驱动的深度强化学习模型通过将遗传算法对问题求解的结果作为专家启发经验，加入深度强化学习算法的回放经验池中，有效加快了算法的收敛速度，且对学习稳定性也有一定的帮助，从而提升了习得控制策略在无人机博弈路径规划任务上的性能表现。

4 结语

本文提出一种基于深度强化学习的无人机博弈路径规划方法，借鉴了模仿学习从专家演示中学习行为策略的思想，构建了知识和数据联合驱动的深度强化学习模型。首先，将无人机博弈路径规划问题转化为优化问题，并使用遗传算法求解；其次，将遗传算法搜索到的路径作为专家知识拆分为专家启发经验存储到深度强化学习的回放经验池中；最后，采用TD3算法构建网络结构，在训练过程中边收集在线经验边更新网络参数，并在更新时从包含预先收集的专家启发经验的回放经验池中随机抽取用于更新的小批量样本数据。实验结果表明，所提方法在收敛速度和学习稳定性上都有一定的提升，习得控制策略在无人机博弈路径规划任务上的性能表现也有所提升。随着地形复杂度的提升，算法的性能有明显的下降，下一步工作将会针对更复杂的地形构建实验场景，提升其学习效果和性能表现。

参考文献

[1]	杨喆, 王海. 无人机突防能力研究[C]//第十届中国指挥控制大会. 北京: 兵器工业出版社, 2022: 259-262. YANG Z, WANG H. Research on penetration capability of UAV[C]//Proceedings of the 10th China Conference on Command and Control. Beijing: Ordnance Industry Press, 2022: 259-262. (0)
[2]	王超, 王银花. 一种改进Dijkstra算法的UAV路径规划[J]. 信息技术与信息化, 2021(10): 217-219. WANG C, WANG Y H. An improved Dijkstra algorithm for UAV path planning[J]. Information technology and informatization, 2021(10): 217-219. (0)
[3]	姚得鑫, 伞红军, 王雅如, 等. 移动机器人路径规划中A^算法的改进研究[J]. 系统仿真学报, 2024, 36(11): 2684-2698. YAO D X, SAN H J, WANG Y R, et al. Research on the improvement of A^ algorithm in path planning of mobile robot[J]. Journal of system simulation, 2024, 36(11): 2684-2698. (0)
[4]	陈志勇, 吴精华. 基于目标导向采样的机器人改进概率路图法研究[J]. 农业机械学报, 2023, 54(6): 410-418. CHEN Z Y, WU J H. Improved probability path graph method for robots based on goal-oriented sampling[J]. Transactions of the Chinese society for agricultural machinery, 2023, 54(6): 410-418. (0)
[5]	巩浩, 谭向全, 李佳欣, 等. 基于改进RRT算法的移动机器人路径规划研究[J]. 组合机床与自动化加工技术, 2024(1): 19-24. GONG H, TAN X Q, LI J X, et al. Research on path planning of mobile robot based on improved RRT algorithm[J]. Modular machine tool & automatic manufacturing technique, 2024(1): 19-24. (0)
[6]	张骜, 毛海亮, 卞鹏, 等. 自适应蚁群算法的无人机三维航迹规划[J]. 电光与控制, 2024, 31(5): 24-29. ZHANG A, MAO H L, BIAN P, et al. 3D UAV flight path planning with adaptive ant colony optimization[J]. Electronics optics & control, 2024, 31(5): 24-29. (0)
[7]	刘艳红, 陈田田, 张方方. 基于改进粒子群算法的移动机器人路径规划[J]. 郑州大学学报(理学版), 2020, 52(1): 114-119. LIU Y H, CHEN T T, ZHANG F F. Mobile robot path planning based on improved particle swarm optimization[J]. Journal of Zhengzhou university (natural science edition), 2020, 52(1): 114-119. DOI:10.13705/j.issn.1671-6841.2018312 (0)
[8]	刘琨, 封硕. 面向无人机航迹规划的改进人工蜂群算法[J]. 郑州大学学报(理学版), 2021, 53(1): 74-79. LIU K, FENG S. Improved artificial bee colony algorithm for UAV path planning[J]. Journal of Zhengzhou university (natural science edition), 2021, 53(1): 74-79. DOI:10.13705/j.issn.1671-6841.2020193 (0)
[9]	马骋乾, 谢伟, 孙伟杰. 强化学习研究综述[J]. 指挥控制与仿真, 2018, 40(6): 68-72. MA C Q, XIE W, SUN W J. Research on reinforcement learning technology: a review[J]. Command control & simulation, 2018, 40(6): 68-72. (0)
[10]	杨思明, 单征, 丁煜, 等. 深度强化学习研究综述[J]. 计算机工程, 2021, 47(12): 19-29. YANG S M, SHAN Z, DING Y, et al. Survey of research on deep reinforcement learning[J]. Computer engineering, 2021, 47(12): 19-29. (0)
[11]	张超, 白文松, 杜歆, 等. 模仿学习综述: 传统与新进展[J]. 中国图象图形学报, 2023, 28(6): 1585-1607. ZHANG C, BAI W S, DU X, et al. Survey of imitation learning: tradition and new advances[J]. Journal of image and graphics, 2023, 28(6): 1585-1607. (0)
[12]	LAMINI C, BENHLIMA S, ELBEKRI A. Genetic algorithm based approach for autonomous mobile robot path planning[J]. Procedia computer science, 2018, 127: 180-189. (0)
[13]	PINEAU J, GORDON G, THRUN S. Applying metric-trees to belief-point POMDPs[C]// Proceedings of the 16th International Conference on Neural Information Processing Systems. New York: ACM Press, 2003: 759-766. (0)
[14]	FUJIMOTO S, HOOF H, MEGER D. Addressing function approximation error in actor-critic methods[C]//International Conference on Machine Learning. New York: ACM Press, 2018: 1587-1596. (0)
[15]	LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[EB/OL]. (2015-09-09)[2024-01-19]. https://doi.org/10.48550/arXiv.1509.02971. (0)
[16]	MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529-533. (0)
[17]	KINGMA D P, BA J. Adam: a method for stochastic optimization[EB/OL]. (2014-12-22)[2024-01-19]. https://doi.org/10.48550/arXiv.1412.6980. (0)