2. 辽宁省水下机器人重点实验室,辽宁 沈阳 110169;
3. 中国科学院大学,北京 100049
2. Key Laboratory of Marine Robotics, Liaoning Province, Shenyang 110169, China;
3. University of Chinese Academy of Sciences, Beijing 100049, China
自主水下机器人(Autonomous Underwater Vehicle,AUV)凭借机动性高、自主性强和工作范围广等优势在海底热液探测、环境监控以及军事观察等领域作用显著[1],尤其在人类无法进入的危险水域更是无可替代[2]。然而,AUV的复杂且高度耦合的非线性系统和水下环境不确定性阻碍了精确控制模型的建立,成为AUV设计精准控制系统关键障碍[3]。
强化学习作为一种不依赖精确模型的最优控制器,通过智能体与环境的互动学习控制策略,在自动驾驶、无人机和AUV运动等控制方面表现出优于传统控制器的性能[4]。深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)[5]算法通过引入确定性策略梯度扩展了演员-评论家(Actor-Critic,AC)[6]算法,使AUV在动态复杂的水下环境中达到对接时间短、能耗少等要求[7]。但DDPG面临训练不稳定、易陷入局部最优的挑战。近端策略优化(Proximal Policy Optimization,PPO)[8]算法通过引入策略裁剪技术,提高了探索效率和训练稳定性,尤其在与上下文和域随机化方法结合后,成功实现了AUV在不同干扰下的精准深度跟踪[9]。不过PPO在多维动作空间时表现不佳。为克服这一局限,双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)[10]算法在DDPG结构上引入双重Q网络,进一步提升训练稳定性,使AUV在复杂环境中实现精准导航和避障[11]。但TD3在处理噪声和高方差时策略易波动,且对超参数较为敏感。软演员-评论家(Soft Actor-Critic,SAC)[12]算法通过引入熵奖励和软最大化策略,自动平衡探索与利用,使算法更稳健。研究[13]表明,SAC算法相比传统PID控制器,在复杂海洋环境中使AUV能耗更低、到达目标更快。
虽然强化学习在AUV控制中展现特定优势,但其泛化能力有限且对数据要求高,通常需对新任务从零开始训练,导致训练速度慢。为此,研究人员将其与元学习(Meta-learning)[14]相结合,通过在不同任务上训练为强化学习模型获取一组对任务敏感的最优初始化参数,加速模型对新任务的适应,提升泛化能力和数据效率[15]。模型无关元学习(MAML)[16]算法作为一种通用框架结合PPO算法使KUKA LBR 4+机器人在未知摩擦的情况下,经过少量交互就可将冰球射向指定位置[17]。然而,MAML存在计算复杂及稳定性问题。而Reptile[18]算法作为MAML算法的优化,其结构简单,提升了计算效率。
本文提出一种基于元强化学习的R-SAC(Reptile-Soft Actor Critic)算法,应用于AUV跟踪控制任务中,通过Reptile算法为SAC控制器获得一组最优初始化参数,使基于SAC强化学习AUV控制器在新任务中无需从零开始学习,提高训练速度和稳定性同时完成精准跟踪,快速自适应不同任务。
1 系统建模及分析定义的大地固定坐标系
![]() |
图 1 AUV 的地固系以及体固系 Fig. 1 Earth-fixed frame and body-fixed frame for AUV |
AUV的六自由度动力学和运动学特性[19],其方程可表示为:
M˙v+C(v)v+D(v)v+g(η)=τ, | (1) |
˙η=J(η)v。 | (2) |
式中:
SAC算法作为随机性策略强化学习算法的一种,通过最大熵公式来实现更好的探索,在连续动作问题上得到大量使用。其优化目标为:
J(π)=T∑t=0E(st,at)∼ρπ[γt(r(st,at)+μH(π(·|st)))]。 | (3) |
式中:
H(π(·|st))=Eat∼π[−logπ(at|st)]。 | (4) |
软动作值函数
Qπ(s,a)=r(s,a)+γEs′∼p[Vπ(s′)], | (5) |
Vπ(s)=Ea∼π[Qπ(s,a)−μlogπ(a|s)]。 | (6) |
式中:
在策略评估阶段,软动作值函数
Qπ(s,a)←r(s,a)+γEs′∼p,a′∼π[Qπ(s,a)−μlogπ(a′|s′)]。 | (7) |
在策略改进阶段,策略被更新为
πnew(a|s)∝e1βQπ(s,a)。 | (8) |
为了缓解
y=r(s,a)+γEs′∼p[mini=1,2Qθ′i(s′,a′)−μlogπϕ(a′|s′)]。 | (9) |
式中:目标
θ′i←τθi+(1−τ)θ′i。 | (10) |
策略网络通过最大化下列目标函数来更新:
J(πnew)=Es∼D,a∼πnew[μlog(πnew(a|s))−Qθ(s,a)]。 | (11) |
式中:
Reptile与其他深度学习算法的区别在于Reptile并非寻找特定任务的最优初始化参数,而是通过在一系列任务上重复调整参数来找到一组初始参数
![]() |
图 2 Reptile梯度下降过程 Fig. 2 Reptile gradient descent process |
ϕ1←ϕ0+β(ˆθn−ϕ0)。 | (12) |
式中:
AUV在大多数任务中,都需要进行位置跟踪控制,例如水下作业、目标接近等需要精确的位置控制。本文以位置跟踪控制任务为研究背景,框架式AUV[20]作为仿真建模,该AUV采用矢量推进方式,通过8个推进器在六自由度中产生力和力矩:
τb=TF。 | (13) |
式中:
F=T+τb。 | (14) |
在位置跟踪任务中,采用相对位置误差作为状态会减少状态空间的维度和复杂性,又因直观且易于解释的优点,有助于研究人员理解被控对象行为准则,便于后期调试和优化。因此,选择相对位置误差作为状态量,即
仿真平台可实行的动作为推进器的推力,故控制策略的动作空间选择一维连续空间
强化学习是以目标为导向性的学习方法,通过奖励函数将学习目标转化为可量化的奖励信号来指引被控对象学习策略,位置跟踪任务的目标是确保AUV在行进过程中与期望位置保持零误差。在实际的情况中,位置跟踪也会根据具体的情况进行分类。例如在海底目标搜寻中,需要AUV精准到达目标位置而不能超过目标点,如果超调,则会导致错过采样区域,影响数据的有效性,在水下设施检查中,如果超调则会带来撞击目标的安全隐患;而在执行快速深海资源勘查和搜寻任务时,AUV需要快速移动到搜索区域,为了提升效率,则允许一定的超调;在AUV进行水下作业时,为了提高AUV的耐久性、延长维护周期,推进器采用柔性控制,即输出的推力通常在极限值以下且波动较小,使推进器承受的机械应力显著减小,延缓轴承、齿轮等机械部件的磨损,增加设备的使用寿命。因此,在本文中,将位置跟踪分成3个任务,分别是不允许超调、允许超调和柔性控制3种形式。
第1个任务,位置跟踪不允许超调。通过添加惩罚项来约束被控对象位置跟踪时不超调。奖励函数形式为:
rt=−|Δxt+1|−e。 | (15) |
式中:
第2个任务,位置跟踪允许超调,奖励函数形式为:
{r_t} = - |\Delta {x_{t + 1}}| 。 | (16) |
第3个任务,实现推进器柔性控制位置跟踪(允许超调)。在AUV的运动控制中,为了实现推进器柔性控制将动作添加到奖励函数。为此,奖励函数形式为:
{r_t} = - |\Delta {x_{t + 1}}| - \lambda {a_{t + 1}}^2 。 | (17) |
式中:
任务快速适应是指模型在面对新任务时,仅通过少量的训练就能迅速收敛到最优策略的能力。为实现这一点,元强化学习需要获取元任务集中积累的先验知识,为此,将上述任务设计成基本的元任务集
R-SAC算法能使SAC模型获取一组比较好的初始化参数,在AUV面对不同环境时能快速适应位置跟踪的任务。R-SAC算法模型框图如图3所示。
![]() |
图 3 R-SAC算法模型框图 Fig. 3 Block diagram of the R-SAC algorithm |
可知,整个R-SAC算法模型分为元学习训练阶段和测试阶段,详细流程为:
1)首先步骤①初始化模型参数为
2)在元学习训练阶段,依次对元任务集的子任务进行步骤②~步骤⑤。其中步骤③为SAC算法内循环阶段,通过计算子任务上的损失函数并求一阶梯度来更新模型参数,公式为:
\phi _{\rm{SAC}}^{{n^{'}}} = \phi _{\rm{SAC}}^0 - \beta {\nabla _{\phi _{\rm{SAC}}^0}}{L_{{T_n}}} 。 | (18) |
式中:
在步骤④中,梯度更新方向为模型参数更新前后的差值,计算公式为:
\phi _{\rm{SAC}}^n \leftarrow \phi _{\rm{SAC}}^0 - \alpha \left( {\phi _{\rm{SAC}}^{{n^{'}}} - \phi _{\rm{SAC}}^0} \right)。 | (19) |
式中:
接下来,在步骤⑤中,将外循环中更新后的参数
3)最后是测试阶段。在这个环节中,被控对象执行步骤⑥从元任务集
本文采用python语言中的Gym框架为AUV开发了一个数值仿真程序,水动力参数参考文献[21],使用四阶龙格-库塔方法在每个时间步长为0.1 s上求解微分方程。提出的R-SAC模型基于pytorch库实现。本文所用计算平台为Intel(R) Core(TM) i7-12700H 2.30 GHz,NVIDIA GeForce GTX 3060 Laptop GPU。
海流是水下机器人常遇到的扰动,在仿真环境中常把海流作为正弦干扰[22],因此在元训练阶段,添加幅值为30 N,周期为30 s的干扰力。在内循环中,AUV在前进速度方向的初始位置为0 m,目标位置为5 m,内循环设置为2回合,每回合300步,采样时间
SAC算法基于Actor-Critic框架,其中Actor、Critic网络各有2个隐藏层,每个隐藏层的神经元256 个,激活函数为relu函数。输出为推力 的均值和方差。算法参数设置如表1所示。
![]() |
表 1 算法超参数设置 Tab.1 The parameter of algorithm |
为了验证本文所设计算法找到的最优初始值模型参数,对元训练任务和新任务之间的差异具备一定的鲁棒性、快速适应不同任务,将R-SAC通过元训练得到的最优初始值模型参数分别部署到元训练任务和新任务中,并和随机初始参数的SAC算法进行对比实验。
对比实验分为2组,训练次数为100回合,每回合300步,其余参数设置与5.1节相同。在第1组实验中,将元训练的输出参数和随机初始参数分别部署到与4.3节相同的元训练任务中。本文是通过不同奖励函数定义不同的任务,因此,第2组实验通过修改奖励函数来代表新任务。
第1组实验中,奖励函数曲线对比如图4所示,奖励曲线分析如表2所示。
![]() |
图 4 实验1任务奖励曲线对比图 Fig. 4 Experiment 1: comparison of the reward curve of the task |
![]() |
表 2 实验1奖励曲线分析 Tab.2 Experiment 1: Reward curve analysis |
由图4和表2可知,在元训练任务中,R-SAC训练得到的最优初始值模型参数都有较高的奖励初始值,收敛过程更加平稳、快速,且奖励稳态值也高于随机初始化的方法;在柔性控制任务中,R-SAC算法虽然训练前期出现相对较大波动,但在训练后期收敛平稳,而随机初始化SAC在后期75回合左右奖励值出现波动,收敛稳定性逊于R-SAC。
跟踪效果对比图中,R-SAC与随机初始化SAC在3个任务中训练次数分别对应表2中收敛回合数,结果如图5所示,表3为AUV到达目标位置后跟踪性能分析。
![]() |
图 5 实验1跟踪效果曲线对比图 Fig. 5 Experiment 1: comparison of tracking effects curve |
![]() |
表 3 实验1跟踪性能分析 Tab.3 Experiment 1: tracks the performance analysis |
由图5和表3可知,当到达目标位置后,R-SAC算法跟踪曲线稳定,能很好维持在镇定点附近,相比SAC算法波动较小,且跟踪误差在2%以内,尤其是在不超调任务中更为明显,有助于AUV在水下完成区域精细监测。柔性控制中的动作对比如图6所示。
![]() |
图 6 实验1柔性控制动作曲线对比图 Fig. 6 Experiment 1: comparison of flexible control action curves |
可以看出,R-SAC算法在整个跟踪过程中,推进器输出的推力值波动要明显小于随机初始化SAC,这使得推进器承受的应力较低,延长了推进器的工作寿命,并且跟踪精度也高于随机初始化方法。
第2组实验中,海浪干扰力不变,与元训练相同为幅值30 N的正弦干扰力。当AUV进入更狭小的工作空间时,为了提高自身的安全性,需要提高惩罚项
![]() |
图 7 实验2任务奖励曲线对比图 Fig. 7 Experiment 2: comparison of the reward curve of the task |
![]() |
表 4 实验2奖励曲线分析 Tab.4 Experiment 2: reward curve analysis |
可知,在不允许超调和允许超调任务中,R-SAC表现如实验1中相同;在柔性控制任务中,R-SAC算法奖励初始值高,收敛较快于随机初始化SAC。在改变奖励函数的情况下,R-SAC奖励曲线依然能快速收敛与稳定。
跟踪效果对比图中,R-SAC与随机初始化SAC在3个任务中训练次数分别对应表4中收敛回合数,结果如图8所示,表5为AUV到达目标位置后跟踪性能分析。
![]() |
图 8 实验2跟踪效果曲线对比图 Fig. 8 Experiment 2: comparison of tracking effects curve |
![]() |
表 5 实验2跟踪性能分析 Tab.5 Experiment 2: tracks the performance analysis |
R-SAC算法在不超调任务中表现依然出色,远优于随机初始化SAC方法,跟踪误差依然保持在2%以内;在超调任务中,R-SAC算法跟踪误差更是稳定在1%以内;在柔性跟踪控制任务中,虽然误差与实验1同任务性比增加到2.8%,但与随机初始化相比,降低了51.7%,随机初始化SAC的跟踪精度远不如R-SAC。柔性控制中的动作对比如图9所示。
![]() |
图 9 实验2柔性控制动作曲线对比图 Fig. 9 Experiment 2: comparison of flexible control action curves |
可知,2种算法使推进器在前期输出合理的推力来保护自身,R-SAC在91步到150步时动作值波动大于随机初始SAC,在其余过程R-SAC胜于随机初始化方法。出现这种情况是因为柔性系数 增大,在随机初始化SAC中,被控对象更加关注推进器的柔性控制的影响而忽略了跟踪精度;相反R-SAC因为元训练中其他2个任务更注重跟踪效果,使得在相对柔性控制下依然实现精准跟踪,对应图5(b) 91步~150步时的跟踪效果。说明R-SAC得到最优初始值模型参数具有先验知识,在实现精准跟踪的过程中降低了推进器的磨损,保护了推进器的使用寿命。
通过2组实验的对比,充分说明R-SAC算法找到的最优初始值模型参数可以使强化学习AUV控制器面对新任务时,无需从零开始训练,有效提高SAC模型在不同任务中的训练速度和稳定性,与随机初始化SAC模型相比,收敛速度最低提高了1.6倍,跟踪误差保持在2.8%以内,并对原训练任务和新任务之间的差异具备一定鲁棒性。
6 结 语本文针对AUV控制器对任务变化快速自适应的需求,提出一种R-SAC算法AUV跟踪控制器。通过定义多样化的奖励函数构建多种训练任务,并引入干扰力模拟海洋中的真实环境。通过元训练得到一组最优初始值模型参数,该参数能够有效地抽象和捕捉不同任务的共性特征,将得到的参数部署到新任务中并快速收敛,提高了系统的响应速度,增强了控制器在不同任务下的鲁棒性和稳定性,与随机初始化SAC模型相比,收敛速度最低提高了1.6倍,跟踪误差保持在2.8%以内。实现对新任务的快速自适应,解决了面临新的任务时需从零开始训练、训练速度慢和稳定性差等问题。
[1] |
高伟, 李天辰, 谷海涛, 等. 深海AUV无动力下潜运动特性研究[J]. 机器人, 2021, 43(6): 674-683. |
[2] |
CORINA B, EDUARDO I, MATTHEW J R. Experimental evaluation of depth controllers for a small-size AUV[C]//IEEE/OES Autonomous Underwater Vehicle Workshop, Porto, Portugal, 2018.
|
[3] |
TAO L , YULI H , HUI X. Deep reinforcement learning for vectored thruster autonomous underwater vehicle control[J]. Complexity, 2021, 1−25.
|
[4] |
许雅筑, 武辉, 游科友, 等. 强化学习方法在自主水下机器人控制任务中的应用[J]. 中国科学: 信息科学, 2020, 50(12): 1798-1816. DOI:10.1360/SSI-2020-0065 |
[5] |
LILLICRAP P T, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[J]. CoRR, 2015, abs/1509.02971.
|
[6] |
SUTTON R S, MCALLESTER D, SINGH S, et al. Policy gradient methods for reinforcement learning with function approximation[C]//MIT Press. MIT Press, 1999.
|
[7] |
崔立, 宋玉, 张进. 基于自适应DDPG方法的复杂场景下AUV动动对接[J]. 船舶工程, 2023, 45(8): 8-14+69. |
[8] |
SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximal policy optimization algorithms[J]. arXiv preprint arXiv: 1707.06347, 2017.
|
[9] |
徐春晖, 徐德胜, 周仕昊, 等. 基于上下文感知的强化学习AUV控制器研究[J]. 舰船科学技术, 2024, 46(11): 108-114. |
[10] |
FUJIMOTO S, HOOF H, MEGER D. Addressing function approximation error in actor-critic methods[C]//International conference on machine learning. PMLR, 2018.
|
[11] |
BEHNAZ H, ALIREZA K, POURIA S. Deep reinforcement learning for adaptive path planning and control of an autonomous underwater vehicle[J]. Applied Ocean Research, 2022, 129.
|
[12] |
HAARNOJA T, ZHOU A, ABBEEL P, et al. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor[C]//International conference on machine learning. PMLR, 2018.
|
[13] |
YOANN S, GILLES C L, BENOIT C. Simultaneous control and guidance of an AUV based on soft actor–critic[J]. Sensors, 2022, 22(16): 6072-6072. DOI:10.3390/s22166072 |
[14] |
BECK J, VUORIO R, LIU E Z, et al. A survey of meta-reinforcement learning[J]. arXiv preprint arXiv: 2301.08028, 2023.
|
[15] |
李凡长, 刘洋, 吴鹏翔, 等. 元学习研究综述[J]. 计算机学报, 2021, 44(2): 422-446. DOI:10.11897/SP.J.1016.2021.00422 |
[16] |
FINN C, ABBEEL P, LEVINE S. Model-agnostic meta-learning for fast adaptation of deep networks[C]//International conference on machine learning. PMLR, 2017.
|
[17] |
ARNDT K, HAZARA M, GHADIRZADEH A, et al. Meta reinforcement learning for sim-to-real domain adaptation[J]. CoRR, 2019, abs/1909. 12906.
|
[18] |
NICHOL A, ACHIAM J, SCHULMAN J. On first-order meta-learning algorithms[J]. arXiv preprint arXiv: 1803.02999, 2018.
|
[19] |
FOSSEN T I. Marine control systems – guidance. navigation, and control of ships, rigs and underwater vehicles[J/OL]. Marine Cybernetics, Trondheim, Norway, Org. Number NO 985195 005 MVA, www. marinecybernetics. com, ISBN: 8292356 00 2, 2002[2024-06-06].
|
[20] |
PURCELL N. 6-DoF modelling and control of a remotely operated vehicle[EB/OL]//Bluerobotics. (2022-08-11)[2024-06-10]. https://BlueRo- botics.com/6-dof-modelling-and-control-of-a-remotely-operatedvehicle.
|
[21] |
MALTE B V, FOGH F S, ESBEN U, et al. An open-source benchmark simulator: control of a BlueROV2 underwater robot[J]. Journal of Marine Science and Engineering, 2022, 10(12): 1898-1898. DOI:10.3390/jmse10121898 |
[22] |
LAMRAOUI C H, QIDAN Z. Path following control of fully-actuated autonomous underwater vehicle in presence of fast-varying disturbances[J]. Applied Ocean Research, 2019, 8(6): 40−46.
|