元强化学习在AUV多任务快速自适应控制的应用

引用本文

徐春晖, 杨士霖, 徐德胜, 方田. 元强化学习在AUV多任务快速自适应控制的应用. 舰船科学技术, 2025, 47(5): 89-96 复制到剪切板

XU Chunhui, YANG Shilin, XU Desheng, FANG Tian. Application of meta-reinforcement learning in AUV multi-task rapid adaptive control. Ship Science and Technology, 2025, 47(5): 89-96 复制到剪切板

元强化学习在AUV多任务快速自适应控制的应用

徐春晖^1,2, 杨士霖^1,2,3, 徐德胜^1,2,3, 方田^1,2,3

1. 中国科学院沈阳自动化研究所机器人学国家重点实验室，辽宁沈阳 110016;
2. 辽宁省水下机器人重点实验室，辽宁沈阳 110169;
3. 中国科学院大学，北京 100049

收稿日期: 2024-08-05.

基金项目: 国家重点研发计划项目（2022YFC2806000）

作者简介: 徐春晖（1982 – ），男，硕士，副研究员，研究方向为水下机器人软件控制

摘要: 为解决基于深度强化学习的AUV跟踪控制器在面临新任务时需从零开始训练、训练速度慢、稳定性差等问题，设计一种基于元强化学习的AUV多任务快速自适应控制算法——R-SAC（Reptile-Soft Actor Critic）算法。R-SAC算法将元学习与强化学习相结合，结合水下机器人运动学及动力学方程对跟踪任务进行建模，利用R-SAC算法在训练阶段为AUV跟踪控制器获得一组最优初始值模型参数，使模型在面临不同的任务时，基于该组参数进行训练时能够快速收敛，实现快速自适应不同任务。仿真结果表明，所提出的方法与随机初始化强化学习控制器相比，收敛速度最低提高了1.6倍，跟踪误差保持在2.8%以内。

关键词: AUV 元强化学习最优初始值模型参数快速收敛

Application of meta-reinforcement learning in AUV multi-task rapid adaptive control

XU Chunhui^1,2, YANG Shilin^1,2,3, XU Desheng^1,2,3, FANG Tian^1,2,3

1. State Key Laboratory of Robotics, Shenyang Institute of Automation, Chinese Academy of Sciences, Shenyang 110016, China;
2. Key Laboratory of Marine Robotics, Liaoning Province, Shenyang 110169, China;
3. University of Chinese Academy of Sciences, Beijing 100049, China

Abstract: To address the issue of AUV tracking controllers based on deep reinforcement learning requiring retraining from scratch for new tasks, exhibiting slow training speeds, and poor stability, a multi-task rapid adaptive control algorithm based on meta-reinforcement learning, termed R-SAC (Reptile-Soft Actor Critic), has been designed. The R-SAC algorithm integrates meta-learning with reinforcement learning and models the tracking tasks by combining underwater vehicle kinematic and dynamic equations. During the training phase, the R-SAC algorithm obtains a set of optimal initial model parameters for the AUV tracking controller, enabling the model to achieve fast convergence when facing different tasks and thus rapidly adapt to various tasks. Simulation results demonstrate that the proposed method improves convergence speed by at least 1.6 times compared to randomly initialized reinforcement learning controllers, with tracking errors maintained within 2.8%.

Key words: AUV meta-reinforcement learning optimal initial model parameters fast convergence

0 引　言

自主水下机器人（Autonomous Underwater Vehicle，AUV）凭借机动性高、自主性强和工作范围广等优势在海底热液探测、环境监控以及军事观察等领域作用显著^[1]，尤其在人类无法进入的危险水域更是无可替代^[2]。然而，AUV的复杂且高度耦合的非线性系统和水下环境不确定性阻碍了精确控制模型的建立，成为AUV设计精准控制系统关键障碍^[3]。

强化学习作为一种不依赖精确模型的最优控制器，通过智能体与环境的互动学习控制策略，在自动驾驶、无人机和AUV运动等控制方面表现出优于传统控制器的性能^[4]。深度确定性策略梯度（Deep Deterministic Policy Gradient，DDPG）^[5]算法通过引入确定性策略梯度扩展了演员-评论家（Actor-Critic，AC）^[6]算法，使AUV在动态复杂的水下环境中达到对接时间短、能耗少等要求^[7]。但DDPG面临训练不稳定、易陷入局部最优的挑战。近端策略优化（Proximal Policy Optimization，PPO）^[8]算法通过引入策略裁剪技术，提高了探索效率和训练稳定性，尤其在与上下文和域随机化方法结合后，成功实现了AUV在不同干扰下的精准深度跟踪^[9]。不过PPO在多维动作空间时表现不佳。为克服这一局限，双延迟深度确定性策略梯度（Twin Delayed Deep Deterministic Policy Gradient，TD3）^[10]算法在DDPG结构上引入双重Q网络，进一步提升训练稳定性，使AUV在复杂环境中实现精准导航和避障^[11]。但TD3在处理噪声和高方差时策略易波动，且对超参数较为敏感。软演员-评论家（Soft Actor-Critic，SAC）^[12]算法通过引入熵奖励和软最大化策略，自动平衡探索与利用，使算法更稳健。研究^[13]表明，SAC算法相比传统PID控制器，在复杂海洋环境中使AUV能耗更低、到达目标更快。

虽然强化学习在AUV控制中展现特定优势，但其泛化能力有限且对数据要求高，通常需对新任务从零开始训练，导致训练速度慢。为此，研究人员将其与元学习（Meta-learning）^[14]相结合，通过在不同任务上训练为强化学习模型获取一组对任务敏感的最优初始化参数，加速模型对新任务的适应，提升泛化能力和数据效率^[15]。模型无关元学习（MAML）^[16]算法作为一种通用框架结合PPO算法使KUKA LBR 4+机器人在未知摩擦的情况下，经过少量交互就可将冰球射向指定位置^[17]。然而，MAML存在计算复杂及稳定性问题。而Reptile^[18]算法作为MAML算法的优化，其结构简单，提升了计算效率。

本文提出一种基于元强化学习的R-SAC（Reptile-Soft Actor Critic）算法，应用于AUV跟踪控制任务中，通过Reptile算法为SAC控制器获得一组最优初始化参数，使基于SAC强化学习AUV控制器在新任务中无需从零开始学习，提高训练速度和稳定性同时完成精准跟踪，快速自适应不同任务。

1 系统建模及分析

定义的大地固定坐标系 ${O_E} - XYZ$ 和载体固定坐标系 ${O_b} - {x_b}{y_b}{z_b}$ 如图1所示。地固系原点 ${O_E}$ 为大地上任意一点， ${O_E}X$ 轴和 ${O_b}{y_b}$ 轴方向分别对应正北和正东方向， ${O_E}Z$ 轴垂直于大地面，方向竖直向下。体固系原点 ${O_b}$ 为AUV载体重心， ${O_b}{x_b}$ 轴、 ${O_b}{y_b}$ 轴方向对应AUV的纵向和横向， ${O_b}{z_b}$ 轴垂直于平面 ${x_b}{O_b}{y_b}$ ，正方向为AUV正下方。

图 1 AUV 的地固系以及体固系 Fig. 1 Earth-fixed frame and body-fixed frame for AUV

AUV的六自由度动力学和运动学特性^[19]，其方程可表示为：

$\boldsymbol{M}\dot{v}+\boldsymbol{C}(\boldsymbol{v})\boldsymbol{v}+\boldsymbol{D}(\boldsymbol{v})\boldsymbol{v}+\boldsymbol{g}(\boldsymbol{\eta})=\boldsymbol{\tau}，$

(1)

$\dot{\eta}=\boldsymbol{J}(\boldsymbol{\eta})\boldsymbol{v}。$

(2)

式中： $\boldsymbol{M}=\boldsymbol{M}_{RB}+\boldsymbol{M}_A$ ， ${{\boldsymbol{M}}_{RB}}$ 和 ${{\boldsymbol{M}}_A}$ 为AUV的惯性矩阵和附加质量矩阵； $\boldsymbol{v}=[u,v,w,p,q,r]^{\rm{T}}$ 包含AUV在体固系下的线速度和角速度向量； $\boldsymbol{C}\left(v\right)=\boldsymbol{C}_{RB}\left(v\right)+\boldsymbol{C}_A\left(v\right)$ ， ${{\boldsymbol{C}}_{RB}}\left( v \right)$ 和 ${{\boldsymbol{C}}_A}\left( v \right)$ 为AUV的科式向心矩阵和附加科里奥利力和力矩矩阵； $\boldsymbol{D}\left(v\right)=\boldsymbol{D}_L\left(v\right)+\boldsymbol{D}_Q\left(v\right)$ ， ${{\boldsymbol{D}}_L}\left( v \right)$ 和 ${{\boldsymbol{D}}_Q}\left( v \right)$ 为线性阻尼矩阵和二次阻力矩阵； $\boldsymbol{g}(\eta)$ 为恢复力向量； $\eta = [x,y,z,\phi ,\theta ,\psi ]$ 包含地固系下的位置向量和角度； $\boldsymbol{\tau}=\boldsymbol{\tau}_b+\boldsymbol{\tau}_{tet}$ ， $\boldsymbol{\tau}_b$ 和 $\boldsymbol{\tau}_{tet}$ 为AUV产生的力和力矩以及外部干扰力和力矩； $\boldsymbol{J}(\boldsymbol{\eta})$ 为坐标转换矩阵。

2 SAC算法

SAC算法作为随机性策略强化学习算法的一种，通过最大熵公式来实现更好的探索，在连续动作问题上得到大量使用。其优化目标为：

$J({\text{π}} )={\displaystyle \sum _{t=0}^{T}{E}_{\left({s}_{t},{a}_{t}\right)\sim {\rho }_{{\text{π}} }}\left[{\gamma }^{t}\left(r\left({s}_{t},{a}_{t}\right)+\mu \mathcal{H}\left({\text{π}} \left(·|{s}_{t}\right)\right)\right)\right]}。$

(3)

式中： $\gamma$ 为折扣因子； ${\rho _{\text{π}} }$ 为策略 ${\text{π}}$ 下轨迹 $\left( {{s_t},{a_t}} \right)$ 分布； $\mu$ 为温度参数。用于调整熵和奖励的比例； $\mathcal{H}(·)$ 为策略 ${\text{π}}$ 在状态 ${s_t}$ 下的熵；定义为：

$\mathcal{H}\left({\text{π}} \left(·|{s}_{t}\right)\right)={E}_{{a}_{t}\sim {\text{π}} }\left[-\mathrm{log}{\text{π}} \left({a}_{t}|{s}_{t}\right)\right] 。$

(4)

软动作值函数 ${Q^{\text{π}} }\left( {s,a} \right)$ 和软状态值函数 ${V^{\text{π}} }\left( s \right)$ 定义为：

${Q^{\text{π}} }\left( {s,a} \right) = r\left( {s,a} \right) + \gamma {E_{s' \sim p}}\left[ {{V^{\text{π}} }\left( {s'} \right)} \right]，$

(5)

${V^{\text{π}} }\left( s \right) = {E_{a \sim {\text{π}} }}\left[ {{Q^{\text{π}} }\left( {s,a} \right) - \mu \log {\text{π}} \left( {a|s} \right)} \right] 。$

(6)

式中： $p$ 状态转移概率； $s'$ 为下个状态； $\log {\text{π}} \left( {a|s} \right)$ 为策略的对数。

在策略评估阶段，软动作值函数 ${Q^{\text{π}} }\left( {s,a} \right)$ 通过贝尔曼方程迭代更新：

${Q^{\text{π}} }\left( {s,a} \right) \leftarrow r\left( {s,a} \right) + \gamma {E_{s' \sim p,a' \sim {\text{π}}}}\left[ {{Q^{\text{π}}}\left( {s,a} \right) - \mu \log {\text{π}} \left( {a'|s'} \right)} \right] 。$

(7)

在策略改进阶段，策略被更新为 ${Q^{\text{π}} }\left( {s,a} \right)$ 值的玻尔兹曼形式：

$\text{π}_{\mathrm{new}}\left(a|s\right)\propto e^{\frac{1}{\beta}Q^{\text{π}}\left(s,a\right)}。$

(8)

为了缓解 $Q$ 值高估的问题，SAC使用了2个 $Q$ 网络，更新目标为：

$y = r\left( {s,a} \right) + \gamma {E_{s' \sim p}}\left[ {\mathop {\min }\limits_{i = 1,2} {Q_{{{\theta '}_i}}}\left( {s',a'} \right) - \mu \log {{\text{π}} _\phi }\left( {a'|s'} \right)} \right]。$

(9)

式中：目标 $Q$ 网络 ${Q_{{{\theta '}_i}}}$ 是当前 $Q$ 网络 ${Q_{{\theta _i}}}$ 的一个延迟复制版本； ${\theta '_i}$ 是目标 $Q$ 网络的参数。通过指数移动平均方式更新：

${\theta '_i} \leftarrow \tau {\theta _i} + \left( {1 - \tau } \right){\theta '_i} 。$

(10)

策略网络通过最大化下列目标函数来更新：

$J(\text{π}_{\mathrm{new}})=E_{s\sim D,a\sim\text{π}_{\mathrm{new}}}\left[\mu log\left(\text{π}_{\mathrm{new}}\left(a|s\right)\right)-Q_{\theta}\left(s,a\right)\right]。$

(11)

式中： $D$ 为经验回放缓冲区。SAC算法通过反复迭代上述步骤来优化策略和 $Q$ 值函数，以确保策略有效性和稳定性的同时，获得最优策略。

3 Reptile算法

Reptile与其他深度学习算法的区别在于Reptile并非寻找特定任务的最优初始化参数，而是通过在一系列任务上重复调整参数来找到一组初始参数 $\theta$ ，初始参数 $\theta$ 在新任务上具有敏感性，在面临不同的任务时，经过几步更新后便可获得最优的模型参数。Reptile的更新过程如图2所示，图中 ${\phi ^0}$ 为模型开始训练前的初始化参数，上、下2个部分路径分别代表任务 $n$ 和任务 $m$ 训练时的优化过程，在任务 $n$ 上进行数次优化，得到参数 ${\hat \theta ^n}$ ，模型参数 ${\phi ^0}$ 会朝着这个参数方向按一定比例进行更新，公式为：

图 2 Reptile梯度下降过程 Fig. 2 Reptile gradient descent process

${\phi ^1} \leftarrow {\phi ^0} + \beta \left( {{{\hat \theta }^n} - {\phi ^0}} \right)。$

(12)

式中： $\beta$ 为学习率，在任务 $m$ 上重复上述过程，直至循环结束。

4 基于元强化学习的跟踪控制器设计 4.1 任务建模

AUV在大多数任务中，都需要进行位置跟踪控制，例如水下作业、目标接近等需要精确的位置控制。本文以位置跟踪控制任务为研究背景，框架式AUV^[20]作为仿真建模，该AUV采用矢量推进方式，通过8个推进器在六自由度中产生力和力矩：

$\tau_b=\boldsymbol{TF}。$

(13)

式中： $\boldsymbol{F}=[F_1,F_2,F_3,F_4,F_5,F_6,F_7,F_8]^{\rm{T}}$ 为推进器所产生的力的向量； ${\boldsymbol{T}} \in {\mathbb{R}^{6 \times 8}}$ 为推力构型矩阵。通过设定各推进器的推力比（或转速比）可以在指定自由度产生力或力矩，或者通过伪逆矩阵将控制器的输出转换为各个推进器的推力：

$\boldsymbol{F}=\boldsymbol{T}^+\tau_b。$

(14)

4.2 状态和动作设计

在位置跟踪任务中，采用相对位置误差作为状态会减少状态空间的维度和复杂性，又因直观且易于解释的优点，有助于研究人员理解被控对象行为准则，便于后期调试和优化。因此，选择相对位置误差作为状态量，即 $\Delta\mathit{{x}}_{\mathit{t}}$ ，其中 $\Delta {x_t} = {x_d} - {x_t}$ ， ${x_d}$ 为期望位置， ${x_t}$ 为 $t$ 时刻的AUV绝对位置。除此之外，状态空间还要包含AUV自身状态信息，即 $t$ 时刻的绝对速度 ${u_t}$ ，因此最终状态空间 $S$ 记作 $S = \left[ {\Delta {x_t},{u_t}} \right]$ 。

仿真平台可实行的动作为推进器的推力，故控制策略的动作空间选择一维连续空间 $action = \{\boldsymbol F\}$ ，控制系统通过将推进器的推力矢量置为 $[\boldsymbol{F},\boldsymbol{F},-\boldsymbol{F},-\boldsymbol{F},0,0, 0,0]$ 实现端到端位置控制。仿真平台推进器推力上下限为50 N，对应动作空间取值范围为 $F \in [ - 50,50]$ 。

4.3 奖励函数和元任务集设计

强化学习是以目标为导向性的学习方法，通过奖励函数将学习目标转化为可量化的奖励信号来指引被控对象学习策略，位置跟踪任务的目标是确保AUV在行进过程中与期望位置保持零误差。在实际的情况中，位置跟踪也会根据具体的情况进行分类。例如在海底目标搜寻中，需要AUV精准到达目标位置而不能超过目标点，如果超调，则会导致错过采样区域，影响数据的有效性，在水下设施检查中，如果超调则会带来撞击目标的安全隐患；而在执行快速深海资源勘查和搜寻任务时，AUV需要快速移动到搜索区域，为了提升效率，则允许一定的超调；在AUV进行水下作业时，为了提高AUV的耐久性、延长维护周期，推进器采用柔性控制，即输出的推力通常在极限值以下且波动较小，使推进器承受的机械应力显著减小，延缓轴承、齿轮等机械部件的磨损，增加设备的使用寿命。因此，在本文中，将位置跟踪分成3个任务，分别是不允许超调、允许超调和柔性控制3种形式。

第1个任务，位置跟踪不允许超调。通过添加惩罚项来约束被控对象位置跟踪时不超调。奖励函数形式为：

${r_t} = - |\Delta {x_{t + 1}}| - e 。$

(15)

式中： ${r_t}$ 为被控对象在 $t$ 时刻获得的奖励， $\Delta {x_{t + 1}}$ 为 $t$ 时刻AUV的相对位置误差，为 $e$ 惩罚项。当 ${x_{t + 1}} \gt {x_d}$ 时， $e = - 10$ ，当 $\; {x_{t + 1}} \leqslant {x_d}$ 时， $e = 0$ 。

第2个任务，位置跟踪允许超调，奖励函数形式为：

${r_t} = - |\Delta {x_{t + 1}}| 。$

(16)

第3个任务，实现推进器柔性控制位置跟踪（允许超调）。在AUV的运动控制中，为了实现推进器柔性控制将动作添加到奖励函数。为此，奖励函数形式为：

${r_t} = - |\Delta {x_{t + 1}}| - \lambda {a_{t + 1}}^2 。$

(17)

式中： $\lambda$ 为柔性系数； ${a_{t + 1}}$ 为 $t + 1$ 时刻AUV的推力。通过调整柔性系数 $\lambda$ 来实现推进器柔性控制的前提下完成位置跟踪任务。

任务快速适应是指模型在面对新任务时，仅通过少量的训练就能迅速收敛到最优策略的能力。为实现这一点，元强化学习需要获取元任务集中积累的先验知识，为此，将上述任务设计成基本的元任务集 $T = [{T_1},{T_2}, \cdots ,{T_n}]$ ，其中 ${T_n}$ 为第 $n$ 个基本元任务，同时为 $T$ 中每一个元任务创建经验回放池 ${M_{{T_n}}} = [s_t^{{T_n}},a_t^{{T_n}}, r_t^{{T_n}},s_{t + 1}^{{T_n}}]$ 。

4.4 R-SAC算法设计

R-SAC算法能使SAC模型获取一组比较好的初始化参数，在AUV面对不同环境时能快速适应位置跟踪的任务。R-SAC算法模型框图如图3所示。

图 3 R-SAC算法模型框图 Fig. 3 Block diagram of the R-SAC algorithm

可知，整个R-SAC算法模型分为元学习训练阶段和测试阶段，详细流程为：

1）首先步骤①初始化模型参数为 $\phi _{{\mathrm{SAC}}}^0$ 。

2）在元学习训练阶段，依次对元任务集的子任务进行步骤②～步骤⑤。其中步骤③为SAC算法内循环阶段，通过计算子任务上的损失函数并求一阶梯度来更新模型参数，公式为：

$\phi _{\rm{SAC}}^{{n^{'}}} = \phi _{\rm{SAC}}^0 - \beta {\nabla _{\phi _{\rm{SAC}}^0}}{L_{{T_n}}} 。$

(18)

式中： $\beta$ 为内循环的学习率，即SAC算法中Actor网络学习率和Critic网络学习率， ${L_{{T_n}}}$ 为SAC模型在子任务 ${T_n}$ 的损失函数。在内循环结束后，将得到的参数 $\phi _{\rm{SAC}}^{{n^{'}}}$ 带入到外循环中步骤④。

在步骤④中，梯度更新方向为模型参数更新前后的差值，计算公式为：

$\phi _{\rm{SAC}}^n \leftarrow \phi _{\rm{SAC}}^0 - \alpha \left( {\phi _{\rm{SAC}}^{{n^{'}}} - \phi _{\rm{SAC}}^0} \right)。$

(19)

式中： $\alpha$ 为外循环的学习率。

接下来，在步骤⑤中，将外循环中更新后的参数 $\phi _{\rm{SAC}}^n$ 赋值到模型中，使模型在该参数下继续优化，并不断重复步骤②～步骤⑤，直到元学习训练回合数结束，模型得到一组优化后的初始参数 $\phi _{\rm{SAC}}^*$ 。

3）最后是测试阶段。在这个环节中，被控对象执行步骤⑥从元任务集 $T$ 上抽取任意子任务 ${T_n}$ ，利用元学习训练阶段得到的参数 $\phi _{\rm{SAC}}^*$ 初始化模型，即步骤⑦，使模型经过步骤⑧少量优化，快速适应新环境。

5 仿真结果对比分析 5.1 参数设计

本文采用python语言中的Gym框架为AUV开发了一个数值仿真程序，水动力参数参考文献[21]，使用四阶龙格-库塔方法在每个时间步长为0.1 s上求解微分方程。提出的R-SAC模型基于pytorch库实现。本文所用计算平台为Intel(R) Core(TM) i7-12700H 2.30 GHz，NVIDIA GeForce GTX 3060 Laptop GPU。

海流是水下机器人常遇到的扰动，在仿真环境中常把海流作为正弦干扰^[22]，因此在元训练阶段，添加幅值为30 N，周期为30 s的干扰力。在内循环中，AUV在前进速度方向的初始位置为0 m，目标位置为5 m，内循环设置为2回合，每回合300步，采样时间 ${T_s} = 0.1 \;{\mathrm{s}}$ ，外循环为2000回合。

SAC算法基于Actor-Critic框架，其中Actor、Critic网络各有2个隐藏层，每个隐藏层的神经元256 个，激活函数为relu函数。输出为推力的均值和方差。算法参数设置如表1所示。

表 1 算法超参数设置 Tab.1 The parameter of algorithm

5.2 仿真结果及分析

为了验证本文所设计算法找到的最优初始值模型参数，对元训练任务和新任务之间的差异具备一定的鲁棒性、快速适应不同任务，将R-SAC通过元训练得到的最优初始值模型参数分别部署到元训练任务和新任务中，并和随机初始参数的SAC算法进行对比实验。

对比实验分为2组，训练次数为100回合，每回合300步，其余参数设置与5.1节相同。在第1组实验中，将元训练的输出参数和随机初始参数分别部署到与4.3节相同的元训练任务中。本文是通过不同奖励函数定义不同的任务，因此，第2组实验通过修改奖励函数来代表新任务。

第1组实验中，奖励函数曲线对比如图4所示，奖励曲线分析如表2所示。

图 4 实验1任务奖励曲线对比图 Fig. 4 Experiment 1: comparison of the reward curve of the task

表 2 实验1奖励曲线分析 Tab.2 Experiment 1: Reward curve analysis

由图4和表2可知，在元训练任务中，R-SAC训练得到的最优初始值模型参数都有较高的奖励初始值，收敛过程更加平稳、快速，且奖励稳态值也高于随机初始化的方法；在柔性控制任务中，R-SAC算法虽然训练前期出现相对较大波动，但在训练后期收敛平稳，而随机初始化SAC在后期75回合左右奖励值出现波动，收敛稳定性逊于R-SAC。

跟踪效果对比图中，R-SAC与随机初始化SAC在3个任务中训练次数分别对应表2中收敛回合数，结果如图5所示，表3为AUV到达目标位置后跟踪性能分析。

图 5 实验1跟踪效果曲线对比图 Fig. 5 Experiment 1: comparison of tracking effects curve

表 3 实验1跟踪性能分析 Tab.3 Experiment 1: tracks the performance analysis

由图5和表3可知，当到达目标位置后，R-SAC算法跟踪曲线稳定，能很好维持在镇定点附近，相比SAC算法波动较小，且跟踪误差在2%以内，尤其是在不超调任务中更为明显，有助于AUV在水下完成区域精细监测。柔性控制中的动作对比如图6所示。

图 6 实验1柔性控制动作曲线对比图 Fig. 6 Experiment 1: comparison of flexible control action curves

可以看出，R-SAC算法在整个跟踪过程中，推进器输出的推力值波动要明显小于随机初始化SAC，这使得推进器承受的应力较低，延长了推进器的工作寿命，并且跟踪精度也高于随机初始化方法。

第2组实验中，海浪干扰力不变，与元训练相同为幅值30 N的正弦干扰力。当AUV进入更狭小的工作空间时，为了提高自身的安全性，需要提高惩罚项 $e$ 来避免因跟踪超调引起的碰撞，因此将式(15)中的惩罚项 $e$ 提高50%，改为−15；为了使AUV更加精确地调整运动，减少位置误差，可以放大奖励函数即位置误差的惩罚更大，因此将式(16)放大1倍，达到更高的控制精度；AUV在水中长时间作业后，推进器会产生一定的磨损，为了在精准跟踪的同时提高推进器的耐用性，式(17)中的柔性系数 $\lambda$ 增加2倍，改为0.003。奖励曲线对比结果如图7所示，奖励曲线分析如表4所示。

图 7 实验2任务奖励曲线对比图 Fig. 7 Experiment 2: comparison of the reward curve of the task

表 4 实验2奖励曲线分析 Tab.4 Experiment 2: reward curve analysis

可知，在不允许超调和允许超调任务中，R-SAC表现如实验1中相同；在柔性控制任务中，R-SAC算法奖励初始值高，收敛较快于随机初始化SAC。在改变奖励函数的情况下，R-SAC奖励曲线依然能快速收敛与稳定。

跟踪效果对比图中，R-SAC与随机初始化SAC在3个任务中训练次数分别对应表4中收敛回合数，结果如图8所示，表5为AUV到达目标位置后跟踪性能分析。

图 8 实验2跟踪效果曲线对比图 Fig. 8 Experiment 2: comparison of tracking effects curve

表 5 实验2跟踪性能分析 Tab.5 Experiment 2: tracks the performance analysis

R-SAC算法在不超调任务中表现依然出色，远优于随机初始化SAC方法，跟踪误差依然保持在2%以内；在超调任务中，R-SAC算法跟踪误差更是稳定在1%以内；在柔性跟踪控制任务中，虽然误差与实验1同任务性比增加到2.8%，但与随机初始化相比，降低了51.7%，随机初始化SAC的跟踪精度远不如R-SAC。柔性控制中的动作对比如图9所示。

图 9 实验2柔性控制动作曲线对比图 Fig. 9 Experiment 2: comparison of flexible control action curves

可知，2种算法使推进器在前期输出合理的推力来保护自身，R-SAC在91步到150步时动作值波动大于随机初始SAC，在其余过程R-SAC胜于随机初始化方法。出现这种情况是因为柔性系数增大，在随机初始化SAC中，被控对象更加关注推进器的柔性控制的影响而忽略了跟踪精度；相反R-SAC因为元训练中其他2个任务更注重跟踪效果，使得在相对柔性控制下依然实现精准跟踪，对应图5(b) 91步～150步时的跟踪效果。说明R-SAC得到最优初始值模型参数具有先验知识，在实现精准跟踪的过程中降低了推进器的磨损，保护了推进器的使用寿命。

通过2组实验的对比，充分说明R-SAC算法找到的最优初始值模型参数可以使强化学习AUV控制器面对新任务时，无需从零开始训练，有效提高SAC模型在不同任务中的训练速度和稳定性，与随机初始化SAC模型相比，收敛速度最低提高了1.6倍，跟踪误差保持在2.8%以内，并对原训练任务和新任务之间的差异具备一定鲁棒性。

6 结　语

本文针对AUV控制器对任务变化快速自适应的需求，提出一种R-SAC算法AUV跟踪控制器。通过定义多样化的奖励函数构建多种训练任务，并引入干扰力模拟海洋中的真实环境。通过元训练得到一组最优初始值模型参数，该参数能够有效地抽象和捕捉不同任务的共性特征，将得到的参数部署到新任务中并快速收敛，提高了系统的响应速度，增强了控制器在不同任务下的鲁棒性和稳定性，与随机初始化SAC模型相比，收敛速度最低提高了1.6倍，跟踪误差保持在2.8%以内。实现对新任务的快速自适应，解决了面临新的任务时需从零开始训练、训练速度慢和稳定性差等问题。

参考文献

[1]	高伟, 李天辰, 谷海涛, 等. 深海AUV无动力下潜运动特性研究[J]. 机器人, 2021, 43(6): 674-683.
[2]	CORINA B, EDUARDO I, MATTHEW J R. Experimental evaluation of depth controllers for a small-size AUV[C]//IEEE/OES Autonomous Underwater Vehicle Workshop, Porto, Portugal, 2018.
[3]	TAO L , YULI H , HUI X. Deep reinforcement learning for vectored thruster autonomous underwater vehicle control[J]. Complexity, 2021, 1−25.
[4]	许雅筑, 武辉, 游科友, 等. 强化学习方法在自主水下机器人控制任务中的应用[J]. 中国科学: 信息科学, 2020, 50(12): 1798-1816. DOI:10.1360/SSI-2020-0065
[5]	LILLICRAP P T, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[J]. CoRR, 2015, abs/1509.02971.
[6]	SUTTON R S, MCALLESTER D, SINGH S, et al. Policy gradient methods for reinforcement learning with function approximation[C]//MIT Press. MIT Press, 1999.
[7]	崔立, 宋玉, 张进. 基于自适应DDPG方法的复杂场景下AUV动动对接[J]. 船舶工程, 2023, 45(8): 8-14+69.
[8]	SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximal policy optimization algorithms[J]. arXiv preprint arXiv: 1707.06347, 2017.
[9]	徐春晖, 徐德胜, 周仕昊, 等. 基于上下文感知的强化学习AUV控制器研究[J]. 舰船科学技术, 2024, 46(11): 108-114.
[10]	FUJIMOTO S, HOOF H, MEGER D. Addressing function approximation error in actor-critic methods[C]//International conference on machine learning. PMLR, 2018.
[11]	BEHNAZ H, ALIREZA K, POURIA S. Deep reinforcement learning for adaptive path planning and control of an autonomous underwater vehicle[J]. Applied Ocean Research, 2022, 129.
[12]	HAARNOJA T, ZHOU A, ABBEEL P, et al. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor[C]//International conference on machine learning. PMLR, 2018.
[13]	YOANN S, GILLES C L, BENOIT C. Simultaneous control and guidance of an AUV based on soft actor–critic[J]. Sensors, 2022, 22(16): 6072-6072. DOI:10.3390/s22166072
[14]	BECK J, VUORIO R, LIU E Z, et al. A survey of meta-reinforcement learning[J]. arXiv preprint arXiv: 2301.08028, 2023.
[15]	李凡长, 刘洋, 吴鹏翔, 等. 元学习研究综述[J]. 计算机学报, 2021, 44(2): 422-446. DOI:10.11897/SP.J.1016.2021.00422
[16]	FINN C, ABBEEL P, LEVINE S. Model-agnostic meta-learning for fast adaptation of deep networks[C]//International conference on machine learning. PMLR, 2017.
[17]	ARNDT K, HAZARA M, GHADIRZADEH A, et al. Meta reinforcement learning for sim-to-real domain adaptation[J]. CoRR, 2019, abs/1909. 12906.
[18]	NICHOL A, ACHIAM J, SCHULMAN J. On first-order meta-learning algorithms[J]. arXiv preprint arXiv: 1803.02999, 2018.
[19]	FOSSEN T I. Marine control systems – guidance. navigation, and control of ships, rigs and underwater vehicles[J/OL]. Marine Cybernetics, Trondheim, Norway, Org. Number NO 985195 005 MVA, www. marinecybernetics. com, ISBN: 8292356 00 2, 2002[2024-06-06].
[20]	PURCELL N. 6-DoF modelling and control of a remotely operated vehicle[EB/OL]//Bluerobotics. (2022-08-11)[2024-06-10]. https://BlueRo- botics.com/6-dof-modelling-and-control-of-a-remotely-operatedvehicle.
[21]	MALTE B V, FOGH F S, ESBEN U, et al. An open-source benchmark simulator: control of a BlueROV2 underwater robot[J]. Journal of Marine Science and Engineering, 2022, 10(12): 1898-1898. DOI:10.3390/jmse10121898
[22]	LAMRAOUI C H, QIDAN Z. Path following control of fully-actuated autonomous underwater vehicle in presence of fast-varying disturbances[J]. Applied Ocean Research, 2019, 8(6): 40−46.


舰船科学技术 2025, Vol. 47 Issue (5): 89-96 DOI: 10.3404/j.issn.1672-7649.2025.05.014	PDF