基于深度强化学习的潜艇破损进水抗沉辅助决策方法

引用本文

陈逸丰, 徐海祥, 冯辉, 徐庆超, 周李坪. 基于深度强化学习的潜艇破损进水抗沉辅助决策方法. 舰船科学技术, 2026, 48(7): 120-127 复制到剪切板

CHEN Yifeng, XU Haixiang, FENG Hui, XU Qingchao, ZHOU Liping. Deep reinforcement learning-based auxiliary decision-making method for submarine anti-sinking under damage and flooding. Ship Science and Technology, 2026, 48(7): 120-127 复制到剪切板

基于深度强化学习的潜艇破损进水抗沉辅助决策方法

陈逸丰¹, 徐海祥^1,2, 冯辉^1,2, 徐庆超¹, 周李坪¹

1. 武汉理工大学船海与能源动力工程学院，湖北武汉 430063;
2. 武汉理工大学高性能船舶技术教育部重点实验室，湖北武汉 430063

收稿日期: 2025-07-31.

作者简介: 陈逸丰（2000 – ），男，硕士研究生，研究方向为潜艇损管辅助决策

摘要: 潜艇水下破损进水严重威胁其生命力，及时的决策响应至关重要。现有抗沉决策大多基于规则推理或案例匹配，因受限于规则库或案例库，对复杂动态工况的损伤应对能力明显不足。针对此问题，本文提出基于双重深度Q网络（Double Deep Q-Network，DDQN）的抗沉辅助决策方法。首先，通过破损进水机理构建多维状态空间，整合静力与动力抗沉措施并映射为离散化损管动作集合，创新设计考量生存能力核心要素的复合加权奖励函数；然后，结合随机经验回放与贪婪衰减探索机制，采用DDQN算法框架实现抗沉决策；最后，构建生命力评价指标，将所提方法与深度Q网络（Deep Q-Network，DQN）进行仿真对比。仿真结果表明，典型工况下DDQN抗沉决策使潜艇生命力指标更优，验证了方法的有效性和优越性。

关键词: 潜艇抗沉损管决策深度强化学习 DDQN 生命力评价

Deep reinforcement learning-based auxiliary decision-making method for submarine anti-sinking under damage and flooding

CHEN Yifeng¹, XU Haixiang^1,2, FENG Hui^1,2, XU Qingchao¹, ZHOU Liping¹

1. School of Naval Architecture, Ocean and Energy Power Engineering, Wuhan University of Technology, Wuhan 430063, China;
2. Key Laboratory of High Performance Ship Technology of the Ministry of Education, Wuhan University of Technology, Wuhan 430063, China

Abstract: Underwater damage and flooding of submarines pose a severe threat to their vitality, making timely decision-making responses crucial. Existing anti-sinking decision-making methods are mostly based on rule-based reasoning or case matching. However, limited by rule bases or case bases, their capability to respond to damage under complex dynamic operating conditions is significantly insufficient. To address this issue, this paper proposes an auxiliary anti-sinking decision-making method based on the Double Deep Q-Network (DDQN). First, a multi-dimensional state space is constructed based on the damage and flooding mechanism; static and dynamic anti-sinking measures are integrated and mapped into a discretized damage control action set; and a composite weighted reward function that takes into account the core elements of viability is innovatively designed. Second, by combining random experience replay and the epsilon-greedy exploration with decay mechanism, the DDQN algorithm framework is adopted to realize anti-sinking decision-making. Finally, vitality evaluation indicators are established, and a simulation comparison is conducted between the proposed method and the Deep Q-Network (DQN). The simulation results show that the DDQN-based anti-sinking decision-making yields better submarine vitality indicators under typical operating conditions, which verifies the effectiveness and superiority of the proposed method.

Key words: submarine anti-sinking damage control decision-making deep reinforcement learning DDQN survivability evaluation

0 引　言

现代海战中，潜艇凭借其独特的隐蔽性、突击性和机动性优势，已成为维护国家海洋安全的核心力量。然而，潜艇的作战效能高度依赖其生存能力^[1]。现代潜艇技术虽已实现长足发展，但其封闭的舱室环境、复杂的作业工况及有限的应急逃生方式，使其在遭受攻击或突发事故导致舱室破损进水时，面临极高风险，若损害管制处置不当或不及时，将直接威胁人员与装备安全，甚至造成不可逆的作战能力丧失^[2]。因此，开展潜艇破损进水抗沉辅助决策研究具有重要的实际意义。

国内外学者近年围绕潜艇破损进水抗沉辅助决策方法展开研究，当前该领域决策方法主要分为基于专家系统^[3]与基于案例推理^[4]两类。其中，基于专家系统的决策方法通过构建专业知识库，结合推理机对实时损伤信息进行逻辑匹配以输出处置方案。浦金云等^{[5 − 6]}基于专家系统理论建立舰船抗沉规则，结合多目标决策加性加权法构建评估模型，解决了生命力指标间的制约问题，并将该技术推广至潜艇生命力辅助决策。赵占领^[7]通过建立潜艇抗沉数学模型，构建了潜艇的抗沉知识库和推理策略，使用专家系统实现艇体姿态控制，进而实现潜艇的自动抗沉。Li等^[8]提出了一种基于模糊专家系统的混合应急决策方法，通过模糊隶属度函数量化损害程度与响应策略的匹配关系，解决了传统专家系统在模糊数据处理中的局限性。

基于案例推理的决策方法则通过挖掘历史案例的特征参数与处置经验，建立案例相似度匹配模型，为当前事故提供类比推理。Zhu等^[9]设计了一种融合多源信息的框架案例推理方法，通过优化案例表示与检索流程、引入结构相似性以降低信息缺失干扰，有效提升了决策效率与案例匹配精度。Louvros等^[10]提出了一种融合机器学习（ML）与案例推理（CBR）的方法，CBR侧重案例相似度快速匹配与概率加权推断，ML则学习损伤参数的非线性关系，二者协同提供互补的生存时间预测与风险置信区间。朱玲娜等^[11]基于传统案例推理模型，结合BP神经网络与学习型伪度量（LPM）设计了一种管路破损检索方法，在案例检索阶段以伪度量替代传统距离度量，避免了“距离陷阱”问题。

专家系统决策方法可解释性强、易于理解，但受限于规则完备性不足，且因专家经验差异易产生逻辑相悖规则；案例推理决策方法在面对超出历史场景的破损工况时，易出现匹配失效或输出次优解，且大规模案例库的更新维护成本高、检索效率低，难以满足抗沉决策的实时性需求。相较而言，强化学习通过智能体与环境的持续交互实现动态学习，可自主驱动数据生成与策略迭代，在弥补规则不完备性、适应全新场景及满足实时决策需求等方面具有独特优势，为解决上述问题提供了可行路径。基于此，本文针对潜艇抗沉辅助决策中动态场景适应性不足的核心问题，采用双重深度Q网络（DDQN）的决策方法，旨在为复杂工况下的抗沉决策提供兼具高时效性与高鲁棒性的解决方案。

1 深度强化学习方法概述 1.1 强化学习基本原理

强化学习基于智能体与环境交互实现自主学习，其基本原理是：在时刻$ t $，智能体获取到环境状态$ {s}_{t} $后执行动作$ {a}_{t} $，环境接收动作后给予智能体相应的奖励反馈$ {R}_{t} $并转移至下一状态$ {s}_{t+1} $，其原理如图1所示。强化学习以最大化长期累积奖励为目标，通过与环境交互，逐步学习到最优行为策略。

图 1 强化学习原理示意图 Fig. 1 Schematic diagram of reinforcement learning principles

1.2 DQN算法

深度Q网络（Deep Q-Network，DQN）是经典强化学习算法Q-learning与深度神经网络（Deep Neural Network，DNN）相结合的算法，旨在解决传统Q-learning算法在高维状态空间中的维度灾难问题。该算法核心思想是利用深度神经网络近似值函数，即拟合状态-动作对的Q值，从而实现对大规模状态空间的高效处理。为稳定训练过程，DQN引入目标网络（Target Network）机制，通过定期复制当前网络（Online Network）参数来更新目标网络，避免因参数频繁更新导致的训练不稳定问题。在计算目标Q值时，DQN基于当前状态-动作对的即时奖励与目标网络对下一状态所有可能动作的Q值估计，取最大值并乘以折扣因子构成累计奖励期望，目标Q值的计算方式为：

$ {y}_{t}{}^{{\rm{DQN}}}={R}_{t}+\gamma \cdot \max_{{{a}^{\prime}}}{Q}_{{{\theta }^-}}\left({s}_{t+1},{a}^{\prime}\right)。$

(1)

式中：$ {R}_{t} $为时刻$ t $执行动作后获得的即时奖励；$ \gamma $为折扣因子，权衡即时奖励与未来奖励的重要性，满足$ 0\leqslant \gamma \leqslant 1 $；$ {s}_{t+1} $为时刻$ t+1 $的环境状态；$ {a}^{\prime} $为状态$ {s}_{t+1} $下可执行的候选动作；$ {\theta }^{-} $为目标网络参数。

DQN算法通过梯度下降法迭代更新网络参数$ \theta $，使Q网络逐步逼近最优值函数，参数的更新方式为：

$ \theta \leftarrow \theta +\alpha \cdot \left[y_{t}^{{\rm{DQN}}}-{Q}_{\theta }({s}_{t},{a}_{t})\right]\cdot {\nabla }_{\theta }{Q}_{\theta }({s}_{t},{a}_{t})。$

(2)

式中：$ \theta $为当前网络参数；$ \alpha $为学习率；$ {s}_{t} $为时刻$ t $的环境状态；$ {a}_{t} $为时刻$ t $执行的动作；$ {\nabla }_{\theta } $为参数$ \theta $的梯度算子。

尽管DQN算法在复杂环境中表现出较强的学习能力，但其直接使用目标网络选取并评估最优动作的机制可能导致Q值高估（overestimation）问题，这种Q值高估问题会引发系统性偏差，导致智能体陷入局部最优、收敛震荡的问题。

1.3 DDQN算法

双重深度Q网络（Double Deep Q-Network，DDQN）是针对DQN算法中存在的Q值高估问题提出的一种改进算法。其核心思想在于解耦最优动作选择与Q值评估这2个步骤。与DQN直接使用目标网络计算所有动作的Q值并以最大值作为下一时刻状态的估计不同，DDQN引入双重网络结构：利用当前网络来选择当前认为在下一状态中最优的动作，然后使用目标网络来评估该选定动作对应的Q值。这种解耦机制有效避免了使用同一个网络既进行动作选择又进行价值评估所导致的系统性高估偏差，显著提高了Q值估计的准确性，从而提升了算法在复杂环境中的稳定性和收敛性，而潜艇破损进水抗沉辅助决策问题具有动态变化快、抗沉动作价值评估要求高且决策容错性低的特点，因此DDQN算法能更好地用于该问题。DDQN算法的目标值计算方式为：

$ {y}_{t}{}^{{\rm{DDQN}}}={R}_{t}+\gamma \cdot {Q}_{{{\theta }^-}}\left({s}_{t+1},{\mathrm{argmax}}_{{{a}^{\prime}}}{Q}_{\theta }\left({s}_{t+1},{a}^{\prime}\right)\right)。$

(3)

DDQN的参数更新方式为：

$ \theta \leftarrow \theta +\alpha \cdot \left[y_{t}^{{\rm{DDQN}}}-{Q}_{\theta }({s}_{t},{a}_{t})\right]\cdot {\nabla }_{\theta }{Q}_{\theta }({s}_{t},{a}_{t})。$

(4)

其中，DDQN算法参数的含义与DQN算法中对应参数的定义保持一致。

2 基于DDQN的抗沉辅助决策

潜艇破损进水场景具有强动态性、多参数耦合及决策时效性要求高的特征，传统基于规则的决策方法难以应对复杂工况下的最优决策问题。强化学习作为一种数据驱动的序列决策方法，能够有效处理非线性动态系统的实时决策难题。本节构建基于DDQN的潜艇抗沉辅助决策模型，该模型以潜艇实时运行状态为输入，通过设计抗沉目标导向的动作空间与奖励函数，驱动智能体在抗沉操作中逐步学习最优控制策略。潜艇抗沉辅助决策模型的核心架构如图2所示。

图 2 基于DDQN的潜艇抗沉辅助决策流程图 Fig. 2 Flow chart of submarine anti-sinking auxiliary decision-making based on DDQN

2.1 状态空间设计

状态空间是为描述系统动态演化特征而选取的关键状态集合。为准确描述潜艇在破损进水过程中的动态演化特征，需合理选取能够全面反映系统状态变化的关键参数。结合潜艇抗沉场景的关键特征，选取潜深、纵倾角、进水体积、进水速度、下潜速度、高压气余量共6个核心变量构成状态空间，状态向量定义为：

$ \mathcal{S}=\left\{(d,\theta ,V,v,{v}_{d},G)\left| \begin{array}{c} d\in {R}^+,|\theta |\leqslant {\theta }_{\max }\\ V\in [0,{V}_{\max}],v\geqslant 0\\ {v}_{d}\in R,G\in [0,{G}_{\max}] \end{array}\right.\right\} 。$

(5)

式中：$ d $为潜深；$ \theta $为纵倾角；$ V $为进水体积；$ v $为进水速率；$ {v}_{d} $为下潜速度；$ G $为高压气余量。

2.2 动作空间设计

动作空间是环境中智能体能够采取的动作集合。潜艇水下抗沉措施作为此类动作集合的具体体现，可划分为静力抗沉^[12]与动力抗沉^[13]两大类。其中，静力抗沉涵盖堵漏、支顶、排水及平衡等核心手段。现对每项措施进行简要说明。

堵漏是指采取物理堵漏或高压气堵漏方式对破口进行封堵，以抑制进水。物理堵漏通过物理器材实现破口封堵，堵漏效果随着时间呈正相关递增，但随着破口尺寸的增大以及潜深的增加，物理堵漏效果将显著弱化；高压气堵漏通过向破损舱室内充注高压气体，使舱内压强不小于艇外水压以实现堵漏。

支顶是指对破损舱壁实施加固操作，以抵御外部水压作用，从而提升破损舱室抗压能力，以确保相邻舱室与破损舱室间的压差不超过舱壁抗压强度阈值。

排水是指通过排水泵将舱内积水排出艇外，以降低舱室内部水位，同时减小因积水造成的不平衡力矩。

平衡是指通过高压气排出压载水以提高浮力，减缓下潜速度，同时平衡纵倾力矩。

动力抗沉是指基于当前潜艇姿态和下潜速度，解算适配的进退航速，从而缓解破损进水导致的下潜深度递增。

本文的动作空间由五类离散化决策变量组合构成，其笛卡尔积形成完整的动作集合。具体而言，每类措施对应一个决策维度：堵漏措施包含物理堵漏、高压气堵漏及不堵漏3种选项；支顶、排水、平衡与动力抗沉措施均为二元选择（实施/不实施）。通过全维度组合，共生成48种可能的动作策略。动作空间的数学表征为：

$ A=\left\{{a}_{i}\left| \begin{array}{c} {a}_{i}=({D}_{j},{S}_{k},{P}_{l},{B}_{m},{K}_{n})\\ j\in \{0,1,2\},k,l,m,n\in \{0,1\} \end{array}\right.\right\} 。$

(6)

式中：$ {D}_{j} $为堵漏类型，编码形式0代表不堵漏，1代表物理堵漏，2代表高压气堵漏；$ {S}_{k} $、$ {P}_{l} $、$ {B}_{m} $、$ {K}_{n} $分别对应支顶、排水、平衡与动力抗沉的布尔决策，编码形式0代表不实施，1代表实施。例如$ ({D}_{1},{S}_{1},{P}_{1}, {B}_{1},{K}_{1}) $表示“物理堵漏、支顶、排水、平衡、动力抗沉”的组合措施，而$ ({D}_{0},{S}_{0},{P}_{0},{B}_{0},{K}_{0}) $则表示不采取任何抗沉措施的基准状态。

2.3 奖励函数设计

奖励函数作为强化学习框架中的核心要素，通过将环境状态与智能体动作映射为数值化反馈信号，为策略优化提供量化导向，从而驱动智能体在动态环境中迭代学习并收敛至最优决策策略。本文以抗沉最终结果为评判依据设计终端状态奖励值，若抗沉成功则给予正值奖励，否则给予较大的负值奖励，以强化对风险的规避导向，同时设计潜深、进水速率、纵倾角及高压气余量四类过程奖励函数，分别从深度控制、进水抑制、姿态稳定及应急资源管理维度，构建量化奖励体系。

潜深奖励函数表达式为：

$ R\mathrm{_{depth}}=-xe^{|x|},x=\frac{d_t-d_0}{d_0}。$

(7)

式中：$ {d}_{t} $为当前潜深；$ {d}_{0} $为初始潜深。

进水速率奖励函数表达式为：

$ R_{\mathrm{velocity}}=-\left(e^{\frac{v_t}{v_0}}-1\right)。$

(8)

式中：$ {v}_{t} $为当前进水速率；$ {v}_{0} $为初始进水速率。

纵倾角奖励函数表达式为：

$ R\mathrm{_{sita}}=\frac{1}{\sqrt{2\text{π}}}\left({\rm{e}}^{-\frac{x^2}{2}}-{\rm{e}}^{-\frac{1}{2}}\right),x=\frac{\theta}{3}。$

(9)

式中：$ \theta $为纵倾角。

高压气余量奖励函数表达式为：

$ R_{\mathrm{gas}}=-(e^{\frac{G_0-G_t}{G_0}}-1)。$

(10)

式中：$ {G}_{t} $为当前高压气余量；$ {G}_{0} $为初始高压气余量。

总奖励函数值为各部分奖励函数值的加权和：

$ \begin{split}R=&{E}_{1}{R}_{{\rm{depth}}}+{E}_{2}{R}_{{\rm{velocity}}}+{E}_{3}{R}_{{\rm{sita}}}+\\ & {E}_{4}{R}_{{\rm{gas}}}+100\;{{S}}-200F。\end{split} $

(11)

式中：$ {E}_{1} $为潜深权重系数；$ {E}_{2} $为进水体积权重系数；$ {E}_{3} $为纵倾角权重系数；$ {E}_{4} $为高压气余量权重系数；$ S $为抗沉成功的指示变量；$ F $为抗沉失败的指示变量。

3 仿真与结果分析 3.1 仿真条件设置

本文仿真分析设定破口位置位于艏部舱室，此工况下潜艇将产生显著埋首力矩，可能引发潜艇失稳沉没，是对潜艇生命力威胁最严重的场景^[14]；同时需说明，非艏部舱室破损虽危险程度不及艏部，但为充分验证算法有效性，已针对其破损情况完成相关验证。鉴于艏部舱室破损的高危险性，本文以该工况为对象，重点说明算法的适配性及决策特点。抗沉过程中，响应时间定义为从决策制定到执行的持续时长，是抗沉关键安全要素，当舱室人员配置齐全时，响应时间取基础值，本文设定为10 s^[15]。

为验证抗沉决策算法的有效性，本文采用DDQN算法并与经典DQN算法开展仿真对比。为确保对比的公平性，2种算法采用相同的网络结构及超参数配置。具体配置详见表1。

表 1 DQN与DDQN网络结构及超参数设置 Tab.1 Network structures and hyperparameter settings of DQN and DDQN

3.2 评价指标 3.2.1 抗沉成功标准

在潜艇破损进水应急处置中，抗沉成功的判定需满足以下量化标准^[15]：

1）潜深控制达标，潜艇通过主动干预措施，能够上浮至安全深度，或直接上浮至水面；

2）姿态稳定性达标，在深度控制与运动恢复过程中，潜艇纵倾角始终保持在安全阈值范围内，即：$ \left| \begin{array}{c}{\theta }_{\max}\end{array}\right| \leqslant {30}^{\circ } $，且挽回后上浮时应保持合理的艉纵倾，即：$ \theta \in ({7}^{\circ }\sim {20}^{\circ }) $。

3.2.2 潜艇生命力指标

潜艇生命力评估需综合考虑动态过程稳定性与参数恢复的时效特征。本文围绕潜艇深度状态、姿态特征、进水程度及高压气储备情况，通过标准化处理、时间积分与权重分配构建评价体系，具体指标如下：

1）潜深控制指标

设$ d(t) $为$ t $时刻潜艇潜深，$ {d}_{\text{safe}} $为安全潜深阈值。在抗沉时段$ [{t}_{0},T] $（$ {t}_{0} $为措施执行起始时间，$ T $为抗沉终止时间）内，计算各时刻潜深控制得分$ {S}_{d}(t) $为：

$ {S}_{d}(t)=\begin{cases} 1-{\left(\dfrac{d(t)}{{d}_{\text{safe}}}\right)}^{2}, \ \ d(t)\leqslant {d}_{\text{safe}}，\\ 0, \ \ d(t) \gt {d}_{\text{safe}}。\end{cases} $

(12)

当$ d(t) $未超过安全阈值时，得分随深度增加而单调递减；当潜深突破安全阈值时，判定潜深控制失效。在此基础上，通过数值积分计算该时段内的平均得分$ {\overline{S}}_{d} $为：

$ \overline{S}_d = \frac{1}{T - t_0} \int_{t_0}^{T} S_d(t) \, \mathrm{d}t 。$

(13)

该指标反映潜艇在破损进水后，通过采取措施控制潜深，将潜深持续维持在安全阈值范围内的能力。

2）姿态恢复指标

以$ \theta (t) $为$ t $时刻潜艇纵倾角，$ {\theta }_{\text{safe}} $为纵倾角安全阈值。在时段$ [{t}_{0},T] $内，计算各时刻纵倾角恢复得分$ {S}_{\theta }(t) $：

$ {S}_{\theta }(t)=\begin{cases} 1-{\left(\dfrac{|\theta (t)|}{{\theta }_{\text{safe}}}\right)}^{2}, \ \ \ |\theta (t)|\leqslant {\theta }_{\text{safe}}，\\ 0, \ \ \ |\theta (t)| \gt {\theta }_{\text{safe}}。\end{cases} $

(14)

当纵倾角处于安全范围时，得分随倾角绝对值的增加而单调递减；超出阈值则表明潜艇操纵性丧失，通过数值积分计算平均得分$ {\overline{S}}_{\theta } $：

$\overline{S}_\theta = \frac{1}{T - t_0} \int_{t_{0}}^{T} S_\theta(t) \mathrm{d}t 。$

(15)

该指标衡量潜艇在整个抗沉时段内维持姿态平衡、保障航行稳定性的效果。

3）进水控制指标

定义$ V(t) $为$ t $时刻潜艇进水体积，$ {V}_{\max } $为最大允许进水体积。在时段$ [{t}_{0},T] $内，计算各时刻进水体积控制得分$ {S}_{V}(t) $：

$ {S}_{V}(t)=\begin{cases} 1-{\left(\dfrac{V(t)}{{V}_{\max }}\right)}^{2}, \ \ \ V(t)\leqslant {V}_{\max }，\\ 0, \ \ \ V(t) \gt {V}_{\max }。\end{cases} $

(16)

当进水体积可控时，得分随进水占比增加而单调递减；当进水体积超过极限值，即判定浮力系统失效。通过积分计算该时段内的平均得分$ {\overline{S}}_{V} $：

$ \overline{S}_V = \frac{1}{T - t_0} \int_{t_0}^{T} S_V(t) \, \mathrm{d}t。$

(17)

该指标体现抗沉措施在整个评估过程中对进水规模的抑制能力，关系到潜艇剩余浮力储备。

4）资源利用指标

取$ G(T) $为$ T $时刻高压气余量百分比，$ {G}_{\min } $为最低安全余量，$ {G}_{0} $为初始余量。资源利用指标考虑抗沉结束时刻$ T $的余量状态，通过两项约束进行评分：一是确保余量不低于安全值，二是惩罚过度消耗行为。具体计算为：

$ {S}_{G}(T)=\min \left(\frac{G(T)}{{G}_{\min }},1\right)\times \left[1-0.5\left(\frac{|\text{Δ}G(T)|}{{G}_{0}}\right)\right]。$

(18)

式中：$ \text{Δ}G(T)={G}_{0}-G(T) $为高压气消耗总量。该指标量化高压气资源在措施执行结束时的利用效率，避免因过度使用导致后续应急操作失效。

5）综合生命力分数计算

结合上述各指标的平均得分，以及预设权重$ {w}_{d}、{w}_{\theta }、{w}_{V}、{w}_{G} $，可得综合生命力分数$ F $：

$ F=100\times \left({w}_{d}{\overline{S}}_{d}+{w}_{\theta }{\overline{S}}_{\theta }+{w}_{V}{\overline{S}}_{V}+{w}_{G}{S}_{G}(T)\right)。$

(19)

此外，针对参数变化率过大的非稳态过程，引入以下基于梯度的附加惩罚项：

$ \text{惩罚值} = -k \times \sum_{t=t_0}^{T-\Delta t} \max\left(0, \frac{\mathrm{d}X_i}{\mathrm{d}t} - \text{阈值}\right) 。$

(20)

式中：$ k $为惩罚系数；$ \displaystyle\frac{\text{d}{X}_{i}}{\text{d}t} $为各指标的变化率；最终生命力分数需扣除惩罚值。

3.3 仿真结果与分析

潜艇破损进水后的抗沉决策过程受初始状态与破损特征等多因素耦合影响，其动态响应规律及决策有效性需通过多场景仿真验证。为系统探究不同关键变量对算法决策性能的影响机制，全面评估所提方法在复杂工况下的适应性，本节将分别针对初始潜深与破口尺寸这2个核心影响因素开展对比仿真分析。

3.3.1 不同深度下的抗沉决策

为探究初始潜深变化对潜艇抗沉决策的影响，分析不同深度下发生破损进水后，抗沉措施有效性与潜艇姿态、浮力恢复等关键指标的内在规律，本节设置了D1、D2、D3等3种对比工况，具体参数见表2，以验证算法在不同潜深场景下的适应性和鲁棒性。

表 2 不同潜深工况设置 Tab.2 Working condition settings for different submergence depths

分别采用DQN与DDQN算法在不同潜深工况下开展仿真，依据式(19)计算各实验结果的生命力分数，其仿真决策结果如表3所示。

表 3 采用DQN与DDQN算法决策结果 Tab.3 Decision-making results using DQN and DDQN algorithms

图3为不同初始潜深下抗沉决策后的潜艇状态（潜深、纵倾角、进水体积）变化，其中横轴10 s位置的纵向线，对应抗沉决策的响应时刻，D1、D2、D3对应曲线代表采取抗沉决策时的状态变化，D1*、D2*、D3*对应曲线代表未采取抗沉决策时的状态变化。可知，抗沉决策对潜艇破损后的状态恢复具有关键调控作用。在未采取抗沉措施时，随初始潜深增加，潜艇因进水导致的浮力损失持续增大，呈现加速下沉趋势；纵倾角因重心偏移持续恶化，艏部下沉态势显著；进水体积随着外部水压升高快速增加，凸显了不同潜深下潜艇破损进水过程的高风险特性。在基于强化学习的潜艇抗沉辅助决策中，针对初始潜深D1(10 m)、D2(20 m)、D3(30 m)等3类工况的仿真结果表明，不同工况下DDQN与DQN方法的决策效果呈现差异化特征，且各状态响应与抗沉决策的适配性紧密相关。

图 3 采用DQN与DDQN方法在不同初始潜深下决策后潜艇状态变化 Fig. 3 Submarine state changes after decision-making using DQN and DDQN methods at different initial submergence depths

在D1工况（初始潜深10 m）中，DDQN方法输出决策包含排水动作（P₁），而DQN方法未采取排水操作。由潜深变化曲线（图3(a)）可知，基于DDQN的抗沉决策通过排出舱内积水以加速浮力恢复，使得潜深变化幅度更快，抗沉终止时间较基于DQN方法的抗沉决策缩短了12 s，生命力分数提高了3.51%；在姿态稳定性方面，排水措施减少了积水引发的不平衡力矩，其与平衡动作的协同作用使纵倾力矩快速趋于平衡，DDQN方法的纵倾角较DQN向艉倾趋势收敛更快；进水总量方面，在D1工况中均采用物理堵漏，物理堵漏适配小潜深、低水压场景，DDQN方法的排水措施进一步缩减了舱室积水，既有效遏制了进水又减少了高压气消耗，提升了资源利用率。

在D2工况（初始潜深20 m）中，DDQN方法采用高压气堵漏（D2）适配高水压环境，堵漏效果更优，同时配合排水动作（P₁），使得舱内积水下降速率显著快于DQN方法；在潜深控制方面，高压气堵漏快速抑制进水，排水加速浮力恢复，DDQN方法的潜深变化更迅速，抗沉终止时间缩短了11 s，生命力分数提高了2.16%；在姿态稳定性方面，因舱内积水快速减少，不平衡力矩得到更高效控制，DDQN方法的纵倾角恢复速度更快；在进水总量方面，高压气堵漏的封堵效果结合排水的持续减积作用，使DDQN方法的进水体积下降速率优于采用物理堵漏的DQN，充分体现高压气堵漏在该潜深场景的适配性与高效性。

在D3工况（初始潜深30 m）中，二者算法输出决策一致，均为高压气堵漏（D₂）、支顶（S₁）、排水（P₁）与平衡（B₁），体现出该措施在此工况下的高度适配性。在潜深控制方面，因初始潜深大导致进水作用强，潜深增长趋势虽被有效遏制但时间跨度增加，抗沉终止时间达83 s，在该高风险工况下，生命力分数为80.38；在姿态稳定性方面，高水压下进水的强干扰使纵倾角呈现更大幅度动态变化，但决策后通过排出压载水与平衡力矩，纵倾角逐步向合理艉倾发展；在进水总量方面，高压气堵漏快速遏制进水后，排水措施持续降低舱内积水，虽初始进水体积峰值因潜深增大而高于D1和D2工况，但整体衰减趋势显著，有效缓解了进水对艇体浮力与姿态的影响。

3.3.2 不同破口尺寸下的抗沉决策

为探究破口半径差异对潜艇抗沉的作用机理，明确破口尺寸与进水速率、抗沉策略适配性及潜艇生存能力间的定量关系，验证算法在不同破损尺度下的决策有效性，设计了S1、S2、S3等3种对比工况，具体参数见表4。

表 4 不同破口尺寸工况设置 Tab.4 Working condition settings for different breach sizes

分别采用DQN算法与DDQN算法在不同破口尺寸工况下进行仿真，依据式(19)计算各实验结果的生命力分数，仿真决策结果如表5所示。

表 5 采用DQN与DDQN算法决策结果 Tab.5 Decision-making results using DQN and DDQN algorithms

图4为不同破口尺寸下抗沉决策后的潜艇状态（潜深、纵倾角、进水体积）变化。S1、S2、S3对应曲线代表采取抗沉决策时的状态变化，S1*、S2*、S3*对应曲线代表未采取抗沉决策时的状态变化。可知，破口尺寸对潜艇破损状态演化的影响主要体现于进水速率。未采取抗沉措施时，随破口半径增大，流通面积增加直接导致进水速率急剧加快，由此引发的潜深下沉、纵倾角恶化及进水体积增长的幅度更为显著，反映出大破口破损时进水的高危险性。

图 4 采用DQN与DDQN方法在不同破口尺寸下决策后潜艇状态变化 Fig. 4 Submarine state changes after decision-making using DQN and DDQN methods under different breach sizes

采取抗沉决策后，在S1工况（破口半径0.1 m）中，DQN与DDQN方法输出决策一致，均为物理堵漏（D₁）、支顶（S₁）及排水（P₁）措施。因破口面积小、初始进水量少，采取物理堵漏遏制进水，配合排水动作排出舱内积水，潜深、纵倾角趋于稳定仅呈现小幅下降，进水体积峰值低且持续下降，于35 s时将舱内积水减少至0，艇体处于安全状态，抗沉终止时间短，生命力评分达91.04，充分体现小破口、低进水量场景下堵漏与排水措施的优先级。

在S2工况（破口尺寸0.2 m）中，DQN方法的物理堵漏因破口增大导致效果衰减，进水速率抑制存在滞后性，潜深下降趋势缓解较慢，抗沉终止时间为88 s；DDQN方法通过高压气堵漏快速遏制进水，配合排水加速浮力恢复，潜深于71 s时完成了控制，较DQN缩短了17 s；在姿态稳定性方面，DQN方法因物理堵漏进水控制滞后，舱内积水引发的不平衡力矩持续时间长，纵倾波动幅度大；DDQN方法则通过高压气快速减少进水增量，排水与平衡动作协同降低力矩干扰，纵倾角收敛速度相对提升；在进水体积方面，配合排水措施，DQN方法的物理堵漏措施较DDQN方法的高压气堵漏措施进水峰值更高、下降更缓。基于DDQN方法的抗沉决策生命力评分达90.68，较DQN提高了1.14%，验证高压气堵漏在该破口场景下的适配特性与效能优势表现。

在S3工况中，与D3工况一致，大破口引发的高进水速率与强水压驱动使潜深、纵倾角及进水体积的初始变化趋势更为剧烈，在组合措施的协同作用下能够有效抑制事故的发展，并推动艇体状态向安全域恢复。

4 结　语

1）针对传统潜艇抗沉辅助决策方法存在规则定义一致性欠缺、案例覆盖范围有限及自主学习能力不足等问题，本研究提出了一种基于双重深度Q网络（DDQN）的强化学习辅助决策方法，方法核心创新包括：以强化学习替代传统驱动模式；构建覆盖各类损管措施的综合“状态-动作”簇；设计复合奖励函数体系，同时构建综合生命力指标用于决策评估。

2）为验证方法有效性，本研究设置不同初始潜深及不同破口尺寸的对比仿真，结果表明该方法在典型工况下显著优化了潜艇生命力指标，缩短了抗沉时间，为复杂动态场景下的抗沉决策提供了新的技术路径，具备一定工程应用参考价值。

3）本研究虽通过理论建模与仿真验证初步展现了DDQN算法的优势，但由于实际潜艇损管决策涉及流固耦合动态响应、多舱室进水交互及外界环境干扰等复杂因素，当前模型对物理机理的简化假设仍与真实场景存在差距。

参考文献

[1]	孙玉山, 马陈飞, 张国成, 等. 潜艇抗沉性及抗沉辅助决策系统研究综述[J]. 舰船科学技术, 2019, 41(21): 1-4+14. SUN Y S, MA C F, ZHANG G C, et al. Research survey of submarine unsinkability and anti-sinking auxiliary decision system[J]. Ship Science and Technology, 2019, 41(21): 1-4+14. DOI:10.3404/j.issn.1672-7649.2019.11.001
[2]	刘辉, 李志辉, 官东, 等. 潜艇高压气吹除主压载水舱应急挽回的运动规律和控制策略[J]. 海军工程大学学报, 2024, 36(1): 29-33. LIU H, LI Z H, GUAN D, et al. Emergency recovery motion law and control strategy of submarine high-pressure air blowing main ballast tank[J]. Journal of Naval University of Engineering, 2024, 36(1): 29-33. DOI:10.7495/j.issn.1009-3486.2024.01.005
[3]	GWINNER F, TOMITZA C, WINKELMANN A. Comparing expert systems and their explainability through similarity[J]. Decision Support Systems, 2024, 182: 114248. DOI:10.1016/j.dss.2024.114248
[4]	SMITI A, ELOUEDI Z. Dynamic maintenance case base using knowledge discovery techniques for case based reasoning systems[J]. Theoretical Computer Science, 2020, 817: 24-32. DOI:10.1016/j.tcs.2019.06.026
[5]	李炳煌, 浦金云, 陈晓洪. 构建舰船抗沉智能决策支持系统[J]. 船海工程, 2006, 35(2): 81-83. LI B H, PU J Y, CHEN X H. Construction of anti-flooding intelligent decision support system[J]. Ship and Ocean Engineering, 2006, 35(2): 81-83. DOI:10.3963/j.issn.1671-7953.2006.02.024
[6]	熊凯军, 浦金云, 蔡一轮, 等. 潜艇生命力决策辅助系统设计[J]. 船海工程, 2005, 34(1): 3-6. XIONG K J, PU J Y, CAI Y L, et al. Development of the decision-aided system of survivability for military submarines[J]. Ship and Ocean Engineering, 2005, 34(1): 3-6. DOI:10.3963/j.issn.1671-7953.2005.01.003
[7]	赵占领. 基于专家系统的潜艇自主抗沉技术研究与仿真[D]. 哈尔滨: 哈尔滨工程大学, 2011.
[8]	LI H, GUO J Y, YAZDI M, et al. Supportive emergency decision-making model towards sustainable development with fuzzy expert system[J]. Neural Computing and Applications, 2021, 33(22): 15619-15637. DOI:10.1007/s00521-021-06183-4
[9]	ZHU L, REN K, PU J. Framework case decision reasoning method integrating multiple information[C]// 6th International Conference on Electromechanical Control Technology and Transportation, 2022, 12081: 1133−1142.
[10]	LOUVROS P, STEFANIDIS F, BOULOUGOURIS E, et al. Machine learning and case-based reasoning for real-time onboard prediction of the survivability of ships[J]. Journal of Marine Science and Engineering, 2023, 11(5): 890. DOI:10.3390/jmse11050890
[11]	朱玲娜, 任凯, 浦金云. 基于案例推理的舰船管路破损应急决策模型研究[J]. 舰船电子工程, 2022, 42(9): 141-145. ZHU L N, REN K, PU J Y. Research on emergency decision-making model of ship pipeline damage based on case-based reasoning[J]. Ship Electronic Engineering, 2022, 42(9): 141-145. DOI:10.3969/j.issn.1672-9730.2022.09.030
[12]	郝英泽, 林凡彩. 潜艇水下发生破损抗沉基本措施研究[C]// 2009航海技术理论研究论文集, 2009: 152−154. HAO Y Z, LIN F C. Research on basic measures for anti-sinking of submarines when damaged underwater[C]// Proceedings of 2009 Conference on Maritime Technology Theoretical Research, 2009: 152−154.
[13]	刘辉, 浦金云. 潜艇水下动力抗沉技术研究[J]. 舰船科学技术, 2008, 30(6): 66-69. LIU H, PU J Y. The research on underwater dynamic anti-sinking capability of submarine[J]. Ship Science and Technology, 2008, 30(6): 66-69. DOI:10.3404/j.issn.1672-7649.2008.06.011
[14]	周宗和, 刘元, 李寒飞, 等. 艏部舱室破损下潜艇抗沉性研究[J]. 舰船科学技术, 2025, 47(6): 27-34. ZHOU Z H, LIU Y, LI H F, et al. Research of submarine anti-settling under the damage of bow cabin[J]. Ship Science and Technology, 2025, 47(6): 27-34.
[15]	韩琨羽. 潜艇六自由度操纵运动预报及动力抗沉数值模拟[D]. 武汉: 武汉理工大学, 2022.


舰船科学技术 2026, Vol. 48 Issue (7): 120-127 DOI: 10.3404/j.issn.1672-7649.2026.07.020	PDF