随机波浪中船舶运动的准确快速预报是保障海上航行安全与作业效率的关键技术之一。船舶受风浪等环境因素的随机干扰,其运动响应呈现出复杂的时间序列特性。对船舶运动进行及时在线预报,可为减摇控制、船载设备操作提供关键决策支持,对提升船舶适航性具有重要意义。
近年来随着深度学习技术的发展,大量学者采用各类神经网络方法进行船舶运动预报。Li等[1]使用反向传播(Back-Propagation,BP)神经网络来预报船舶六自由度运动,并与传统的自回归移动平均模型对比,结果表明使用神经网络模型对于船舶运动预报具有较高潜力。但BP神经网络本质上是一种前馈神经网络,缺乏对时间序列数据中长期依赖关系的建模能力。因此,学者们将注意力转向能捕捉处理时间序列数据中长期依赖关系的神经网络。长短期记忆(Long Short-Term Memory,LSTM)神经网络模型最初由Hochreiter等[2]提出,并已被证明在捕获数据趋势和排序相关性方面有效,此方法在船舶运动预报方面显示出独特优势[3 − 6]。但当LSTM模型面对长输入序列时,存在一些问题,如训练时间长、收敛速度慢,这限制了LSTM在船舶运动预测中的应用。近年来时序卷积神经网络(Temporal Convolutional Neural Network,TCN)[7]为处理时间序列问题提供了一种新方法,其为因果卷积、扩张卷积和残差连接的组合。相对传统循环神经网络,TCN基于卷积操作,能够并行处理整个序列,大幅提升了计算速度,同时基于扩张因果卷积能高效建模长时间依赖。Zhang等[8]使用TCN与注意力机制结合进行船舶运动姿态预报,与LSTM模型和支持向量机模型相比具有更高的预报精度。
上述神经网络方法一般通过大量历史数据来训练模型以获得较好的预报精度,但这导致模型训练耗时长而无法及时更新网络。当新数据特征变化较大时,模型预报精度会下降;若通过减少训练数据来快速更新网络,又会造成模型精度不足。因此,结合增量学习(Incremental Learning,IL)方法来实现模型快速更新并取得良好预报精度就变得尤为重要。然而,仅在新数据集上进行增量学习,会使模型在旧数据集上的性能大幅度下降,即出现灾难性遗忘问题。克服该问题的增量学习方法大致分为基于正则化、基于回放、基于梯度和基于网络结构[9]4种类型,代表性的算法包括基于正则化的弹性权重巩固[10]算法、基于回放机制的经验回放(Experience Eeplay,ER)[11]算法、基于梯度的平均梯度情景记忆[12]算法以及基于网络结构的动态可扩展表征[13]算法。
增量学习在类别增量任务中已被广泛研究,但其在船舶运动预测等回归问题中的应用尚处于起步阶段。Wehbe等[14]提出一种增量支持向量回归机方法,用于在线学习水下航行器运动阻尼。陈东洋[15]提出增量集成随机森林回归预测模型来预测船舶水动力性能取得良好效果。Dang等[16]设计了一种基于增量稀疏高斯过程的模型预测控制方法,用于水下航行器的轨迹跟踪,增强在线模型训练的效率。目前,增量学习方法在波浪中船舶运动预测问题上应用甚少。
为了实现随机波浪中船舶运动在线建模与预报,本文将具有经验回放机制的增量学习(Incremental Learning with Experience Replay mechanism,ILER)方法与TCN网络结合,并对训练及回放数据进行稀疏化(Sparsification,SS),建立稀疏增量时序卷积神经网络(SS-ILER-TCN)模型。通过对训练数据的分段流式输入及稀疏化,在保证一定预报精度的状况下实现模型在线更新与预报。为了验证所提方法有效性,进行4~6级海况下随机波浪中船舶运动预报,讨论不同训练数据量和模型结构对预报精度的影响。
1 模型介绍基于Tenserflow平台建立用于随机波浪中船舶运动在线建模与预报的SS-ILER-TCN模型,该模型由数据预处理、时序卷积神经网络、稀疏经验回放、增量学习、数据输出5个组成部分,其具体结构见图1。当模型获得足够船舶运动历史数据,即进行数据预处理生成训练样本,并与经过稀疏经验回放的样本合并一齐馈送至时序卷积神经网络进行增量训练,训练完成后,使用最新训练模型对新到数据进行预测。
|
图 1 SS-ILER-TCN模型结构 Fig. 1 SS-ILER-TCN model structure |
为统一输入数据x的统计分布性,加快模型训练收敛,提升训练数值稳定性,需对x进行归一化处理:
| $ {x}_{\boldsymbol{t}}=\frac{{x}}{\max (\left| x\right| )}。$ | (1) |
式中:xt为输入时间序列;x为原始输入数据;max(|x|)为x绝对值的最大值。
数据归一化后,将数据依照时间顺序按每e个样本划分为一段,对每段数据通过滑动数据窗口生成初始样本,建立输入序列与输出的映射关系。图2为训练阶段1的数据预处理过程,输入序列长度即为滑动数据窗口长度j,输出长度为1,如需提前n步预报,则输出为输入序列后第n个数据。对于第S段样本经滑窗生成初始样本后,为提升训练效率,再对初始样本进行等间距稀疏选取L个作为第S阶段的训练样本XP,S,其与数据回放池内样本按时序整合为XS作为TCN的输入。
|
图 2 数据预处理 Fig. 2 Data preprocessing |
TCN是一种基于卷积神经网络架构的时序建模方法,它主要由因果卷积、膨胀卷积和残差连接构成,具体结构见图3。
|
图 3 TCN模型结构 Fig. 3 TCN model structure |
因果卷积即卷积核仅覆盖当前及历史时刻,确保输出仅依赖于当前及历史输入,不泄露未来信息。膨胀卷积是通过间隔采样扩大感受野,通过指数级增大扩张因子,网络可在不增加参数量的情况下,快速扩大感受野。当前阶段训练样本XS馈送至TCN时,对于XS中序列X在t位置的膨胀因果卷积算子F定义为:
| $ F(t)=\sum\limits_{k=0}^{K-1}{\boldsymbol{\omega }}_{\boldsymbol{k}}\cdot {x}_{t-d\cdot k}。$ | (2) |
式中:ω为卷积核;k为卷积核内的位置索引;K为卷积核大小;d为扩张因子。
为解决网络层数过深导致梯度消失问题,TCN引入残差连接,如图3残差块所示,其主要思想是通过快捷连接将输入X加到残差块(
| $ o=\sigma (\boldsymbol{X}+\mathcal{F}(\boldsymbol{X}))。$ | (3) |
式中:σ为激活函数。TCN残差块内有2个分支,第1个分支通过一系列堆叠层转换输入X,而另1个分支是输入X的快捷连接。此外,原始输入X和残差块
在训练样本经过TCN层的多个残差块得到隐藏特征ht后,将此隐藏特征传递到输出层建立船舶运动预报的映射关系,产生预报结果yt:
| $ {y}_{t}={\boldsymbol{W}}_{d}{\boldsymbol{h}}_{t}+{\boldsymbol{b}}_{d}。$ | (4) |
式中:Wd为权重矩阵;bd为偏差项。
1.3 稀疏经验回放随着增量学习的推进,模型会逐渐忘却旧有的知识,即发生灾难性遗忘。经验回放是一个典型基于回放的方法,其通过建立数据回放池,将训练过的样本放入其中,然后在数据回放池中进行随机采样,以确保大多数回放样本均有机会被用于训练,但其随机性质无法确保所选样本的质量。此外,随着增量学习推进,存储原始样本增多占用更多存储空间。深度生成模型作为另一个基于回放的方法,则通过建立一个深度生成模型产生与旧任务相关的样本,合并至新样本训练,但生成样本相对原始样本含有的有效信息较少,对防止模型遗忘的能力较差。
为解决模型灾难性遗忘问题且保证模型训练效率,采用经验回放机制同时对训练样本进行稀疏化。图4为稀疏经验回放具体流程。当第S阶段的TCN模型训练完成后,将此阶段在预处理部分生成的训练样本XP,S以I为间距进行稀疏化得到XI,S后放入数据回放池XD中生成新的回放数据XD,S+1。此外,随着训练阶段推进,回放池中数据持续增加,使得训练时长持续增加。为避免该问题,对回放池设置一个大小为B的固定容量并依据先入先出原则控制回放数据,其中B为XI,S样本数的m倍。对于图4所示的情况,m取2,当XI,S放入数据回放池后,将XI,S-2移出数据回放池。
|
图 4 稀疏经验回放 Fig. 4 Sparse experience replay |
增量学习是一种机器学习范式,即模型在不遗忘已有知识的前提下,持续从新数据或新任务中学习。它通过优化旧模型参数θ,使得在新任务序列上最小化总损失来完成增量更新。但当新任务序列分布相对旧任务序列差异较大时,直接优化会导致模型偏向最新任务,灾难性遗忘随之发生,考虑到模型训练效率,故结合稀疏经验回放来进行增量更新。在增量更新前,预处理阶段生成的样本XP,S与数据回放池样本XD,S合并成新训练样本XS,并取后20%作为验证集。样本的合并和分配如图5所示。
|
图 5 时序关联整合 Fig. 5 Temporal correlation integration |
XS生成后,将数据放入训练好的TCNS-1模型,在TCNS-1模型的参数下进行训练,则第S阶段模型参数更新为:
| $ {\theta }_{S}={\theta }_{S-1}-\eta \nabla L({\theta }_{S-1};{\boldsymbol{X}}_{S})。$ | (5) |
式中:θS为TCNS模型参数;η为学习率;L为损失函数。
1.5 数据输出模型在每阶段训练完成后,将新获取数据输入训练后的模型用于生成模型预测值,再将其进行反归一化得到实际预测值yrt。模型的评价标准采用平均绝对值误差(Mean Absolute Error,MAE)、均方根误差(Root Mean Square Error,RMSE)和相关系数(Correlation Coefficient,CC):
| $ MAE=\frac{1}{N}\sum\limits_{t=1}^{N}\left| {y}_{rt}-{L}_{t}\right| ,$ | (6) |
| $ RMSE=\sqrt{\frac{1}{N}\sum\limits_{t=1}^{N}{({{y}_{rt}}-{{L}_{t}})}^{2}},$ | (7) |
| $ CC=\frac{\displaystyle\sum\limits_{t=1}^{N}({y}_{rt}-\overline{{y}_{r}})({L}_{t}-\overline{L})}{\sqrt{\displaystyle\sum\limits_{t=1}^{N}({y}_{rt}-\overline{{y}_{r}}{)}^{2}\displaystyle\sum\limits_{t=1}^{N}{({{L}_{t}}-\overline{L})}^{2}}}。$ | (8) |
式中:N为测试数据集的长度;Lt为参考值。
2 模型有效性验证 2.1 船舶运动数据选取DTMB-
|
|
表 1 DTMB- |
|
|
表 2 入射波参数 Tab.2 Incident wave parameters |
|
图 6 5级海况下船舶不同运动时历 Fig. 6 Time series of different ship motions under sea state 5 |
模型超参数的选取不仅影响模型的训练效率,同时影响预报精度。在增量学习中,模型网络结构稳定性是保留历史知识的前提,故在每一次增量学习中,模型网络结构相关超参数应固定以更好继承历史知识,其在训练之前就需确定好。为研究SS-ILER-TCN模型网络结构相关超参数的影响,以船舶在5级海况横浪中横摇运动算例来进行超参数影响分析。SS-ILER-TCN模型主体为TCN结构,故影响模型网络结构的超参数有TCN的卷积核大小、卷积核数量、扩张因子序列和激活函数。将卷积核大小和数量分别定义为K和N,则用于控制模型网络结构的超参数预设为(K=3,N=32)、(K=5,N=32)、(K=3,N=64)、(K=5,N=64),扩张因子序列与K为幂指数关系,激活函数采用ReLU。
对于不影响模型结构的超参数则取固定值以控制变量。预处理部分超参数每段样本数e取
由表3可知,卷积核大小和卷积核数量对横摇预测精度和训练效率有显著影响。较大的卷积核能够捕捉更长的时序依赖关系,显著降低预测误差。在卷积核数量相同情况下,例如(N=32,E=50)时,K=5预报的MAE与RMSE相比于K=3降低了22.1%和22.6%。随着卷积核数量增加,模型的特征提取能力进一步提升。在卷积核大小相同情况下,例如K=3时,(N=64,E=30)预报的MAE与RMSE相比于(N=32,E=50)在迭代次数更少条件下降低了7.1%和8.2%。
|
|
表 3 不同超参数配置下船舶横摇预报误差(n=10) Tab.3 Ship roll prediction errors under different hyperparameter configurations (n=10) |
虽然卷积核数量与大小的增加都提升了模型的表达能力,但计算开销增加,为平衡计算效率需降低训练迭代轮次E。在TCN部分超参数同为(K=5,N=64)的情况下,迭代轮次为50的相较于迭代轮次为30的各阶段预测精度更高,模型表达能力相对更好。在此基础上继续增大卷积核数量与大小可进一步增加模型表达能力,但在计算效率影响下模型训练轮次变小,训练稳定性变差。由于在训练耗时在7.5 s内的最佳超参数为(K=5,N=64),故后文超参数K取5,N取64,扩张因子序列取(1,5,25,125,150),迭代次数取30,其余超参数不变进行测试。
2.3 模型消融测试为了评估SS-ILER-TCN模型的增量学习和稀疏经验回放机制对模型效能的改善,以5级海况下船舶在横浪中横摇及迎浪中垂荡和纵摇运动为测试工况,将TCN模型、结合增量学习的TCN(IL-TCN)模型和SS-ILER-TCN模型预报结果进行对比分析。由表4可知,随着样本数e的增加,TCN模型预报误差逐渐降低,但训练耗时也随之增加。在将增量学习机制引入TCN后,IL-TCN模型与
|
|
表 4 5级海况下不同模型第八阶段预报误差(n=10) Tab.4 Prediction errors of different models at the eighth stage under sea state 5 (n=10) |
|
|
表 5 5级海况下不同模型预报误差(n=10) Tab.5 Prediction errors of different models under sea state 5 (n=10) |
为进一步评估SS-ILER-TCN模型的有效性,以5级海况下船舶在横浪中的横摇运动为测试工况,将该模型中TCN替换为LSTM和Transformer,分别建立SS-ILER-LSTM模型和SS-ILER-Transformer模型,并与SS-ILER-TCN模型预报结果进行对比分析。对不影响模型核心结构的超参数,统一采用2.2节所设定的参数。考虑到LSTM结构的特殊性,其激活函数设为ReLU,门控激活函数设为Sigmoid。同时,由于在线建模与预测对及时性的需求,通过合理设置模型结构相关超参数以控制各模型训练耗时相近。具体而言,SS-ILER-LSTM模型包含2个LSTM层,记忆单元数第一层为256,第二层为128;而SS-ILER-Transformer模型包含2个堆叠的Transformer编码器层,其模型维度为64,前馈网络维度设128,多头注意力数分别为2与4。图7给出3个模型提前10步横摇运动预报时历,表6汇总了3个模型相应的误差及训练耗时。可知,在低训练耗时的前提下,SS-ILER-TCN模型相较于其他2个模型精度更高。在测试阶段6~8,SS-ILER-TCN的MAE与RMSE相对于SS-ILER-LSTM模型分别平均降低26.21%与25.32%,相对于SS-ILER-Transformer模型分别平均降低24.45%与28.17%。此外,相对另外2个模型,SS-ILER-TCN模型预报精度随着增量学习推进更稳定。得益于TCN卷积结构所固有的局部连接与权重共享特性,当数据分布发生变化时,模型无需进行全局性的大幅调整,而仅需高效地微调与之直接相关的局部卷积核权重。这种机制使其能有效追踪数据漂移,从而在增量训练中表现出更好的精度和稳定性。
|
图 7 5级海况下不同模型横摇预报时历(n=10) Fig. 7 Roll prediction time series of different models under sea state 5 (n=10) |
|
|
表 6 不同模型预报船舶横摇运动误差对比(n=10) Tab.6 Comparison of ship roll prediction errors using different models (n=10) |
为研究SS-ILER-TCN模型泛用性,以4~6级海况下船舶在横浪中横摇及迎浪中纵摇与垂荡运动数据进行验证,测试模型泛用性。表7给出不同海况下船舶运动预报误差。图8给出不同海况下船舶运动自相关系数比较。可知,不同运动预报精度随着提前预报步数增加而逐渐降低,且降低幅度与自相关系数衰减趋势相符。相对横摇与纵摇运动,垂荡运动的自相关系数衰减最快,其平均相关系数最低,在提前10步与15步预报时约为0.97与0.93。对于横摇运动,其自相关系数衰减速度由高到低依次为5级海况、6级海况、4级海况,在提前15步预报时,预测值与参考值的相关系数分别为0.993、0.989、0.961。对于纵摇运动,4级与5级海况下自相关系数衰减速度小于6级海况;在提前15步预报时,预测值与参考值的相关系数分别为0.970、0.984、0.955。图9给出不同海况下提前10步预报的运动时历。可知,模型预测值与参考值基本吻合,对于自相关性较弱的垂荡运动数据,在峰值处存在一定偏差。以上结果表明,模型对不同海况下不同运动泛用性良好,且自相关性越强的数据预测效果越好。对于自相关性较弱的垂荡运动,在提前15步预报时,预测值与参考值的相关系数仍大于0.92,能够满足实际需求。此外,由于本文超参数在7.5 s训练耗时限制下选取,在实际使用中可通过放宽训练耗时或在算力更高的设备上进行训练,以增大模型特征提取能力,进一步提高模型预报精度。
|
|
表 7 不同海况下船舶运动预报误差 Tab.7 Ship motion prediction errors under different sea states |
|
图 8 不同海况下船舶运动自相关系数图 Fig. 8 Autocorrelation function (ACF) plots of ship motion under different sea states |
|
图 9 SS-ILER-TCN模型不同海况预报结果(n=10) Fig. 9 Prediction results of the SS-ILER-TCN model under different sea conditions (n=10) |
1)将增量学习机制引入TCN后,IR-TCN相对TCN模型具有更高的预报精度,与更多样本量下的TCN模型预报精度相当,但训练效率大幅提升。在将稀疏经验回放机制引入IR-TCN模型后,SS-ILER-TCN与IR-TCN模型预报精度都随着随测试阶段的推进逐渐降低并趋于稳定,但SS-ILER-TCN模型在预报精度和稳定性上更好。
2)在不同模型对比测试中,SS-ILER-TCN模型在低训练耗时下的预报精度与稳定性均最优,其MAE与RMSE相对于SS-ILER-LSTM模型分别降低约26%与25%,相对于SS-ILER-Transformer模型分别降低24%与28%。
3)对于不同海况,SS-ILER-TCN模型对船舶不同运动预报泛用性良好。在7.5 s训练耗时下,SS-ILER-TCN模型预报精度随提前预报步数增加而逐渐降低;对于自相关性较强的5级海况下横摇运动,在提前预报15步时预测值与参考值的相关系数达0.99;对于自相关性较弱的垂荡运动,在提前预报15步时相关系数仍有0.92,能够满足实际需求。
本研究验证了SS-ILER-TCN模型在波浪特征参数固定情况下的有效性,该模型能以较低计算成本实现良好的预报精度,且对船舶不同运动预报具备良好泛化能力。同时,模型训练仅依赖船舶历史运动数据,也显著降低了数据获取成本。在实际应用中,鉴于波浪统计特征通常随时间缓慢变化,可通过放宽训练耗时降低对硬件设备的要求,进而减少适配与运营成本。针对变波浪特征参数下的船舶运动预报需求,后续拟在该模型基础上,设计合适的回放机制与持续归一化策略,进一步增强模型在真实海洋环境中的可靠性。
| [1] |
LI X, LV X, YU J, et al. Neural network application on ship motion prediction[C]// Proceedings of the 9th International Conference on Intelligent Human-Machine Systems and Cybernetics, 2017: 414−417.
|
| [2] |
HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. DOI:10.1162/neco.1997.9.8.1735 |
| [3] |
易文海, 高志亮. 基于LSTM神经网络的随机横浪中船舶横摇运动极短期预报[J]. 武汉理工大学学报(交通科学与工程版), 2021, 45(6): 1113-1117. YI W H, GAO Z L. Very short-term prediction of ship rolling motion in random transverse waves based on LSTM neural network[J]. Journal of Wuhan University of Technology(Transportation Science & Engineering), 2021, 45(6): 1113-1117. DOI:10.3963/j.issn.2095-3844.2021.06.020 |
| [4] |
WANG Y, WANG H, ZHOU B, et al. Multi-dimensional prediction method based on Bi-LSTMC for ship roll[J]. Ocean Engineering, 2021, 242: 110106. DOI:10.1016/j.oceaneng.2021.110106 |
| [5] |
WANG Y, WANG H, ZOU D, et al. Ship roll prediction algorithm based on Bi-LSTM-TPA combined model[J]. Journal of Marine Science and Engineering, 2021, 9(4): 387. DOI:10.3390/jmse9040387 |
| [6] |
XUE J, GAO Z, YI W. An APSO-based TPA-BLSTM model for predicting ship motion in irregular waves using wave-series Input[J]. Ships and Offshore Structures, 2025, 20(3): 372-383. DOI:10.1080/17445302.2024.2336675 |
| [7] |
LEA C, VIDAL R, REITER A, et al. Temporal convolutional networks: a unified approach to action segmentation[C]// Proceedings of the 14th European Conference on Computer Vision, 2016: 47−54.
|
| [8] |
ZHANG B, WANG S, DENG L, et al. Ship motion attitude prediction model based on IWOA-TCN-Attention[J]. Ocean Engineering, 2023, 272: 113911. DOI:10.1016/j.oceaneng.2023.113911 |
| [9] |
张东阳, 陆子轩, 刘军民, 等. 深度模型的持续学习综述: 理论、方法和应用[J]. 电子与信息学报, 2024, 46(10): 3849-3878. ZHANG D Y, LU Z X, LIU J M. A survey of continual learning with deep networks: theory, method and application[J]. Journal of Electronics & Information Technology, 2024, 46(10): 3849-3878. DOI:10.11999/JEIT240095 |
| [10] |
KIRKPATRICK J, PASCANU R, RABINOWITZ N, et al. Overcoming catastrophic forgetting in neural networks[J]. Proceedings of the National Academy of Sciences, 2017, 114(13): 3521-3526. DOI:10.1073/pnas.1611835114 |
| [11] |
ROLNICK D, AHUJA A, SCHWARZ J, et al. Experience replay for continual learning[C]// Proceedings of the 33rd International Conference on Neural Information Processing Systems, 2019: 350−360.
|
| [12] |
CHAUDHRY A, RANZATO M A, ROHRBACH M, et al. Efficient lifelong learning with A-GEM[C]// Proceedings of the 7th International Conference on Learning Representations, 2019.
|
| [13] |
YAN S, XIE J, HE X. Der: dynamically expandable representation for class incremental learning[C]// Proceedings of the Conference on Computer Vision and Pattern Recognition, 2021: 3014−3023.
|
| [14] |
WEHBE B, FABISCH A, KRELL M M. Online model identification for underwater vehicles through incremental support vector regression[C]// Proceedings of the International Conference on Intelligent Robots and Systems, 2017: 4173−4180.
|
| [15] |
陈东洋. 面向船舶性能预报的增量学习方法研究[D]. 无锡: 江南大学, 2024.
|
| [16] |
DANG Y, HUANG Y, SHEN X, et al. Incremental sparse gaussian process-based model predictive control for trajectory tracking of unmanned underwater vehicles[J]. IEEE Robotics and Automation Letters, 2025, 10(3): 2327-2334. DOI:10.1109/LRA.2025.3530115 |
| [17] |
易文海. 基于LSTM神经网络的随机海浪中船舶运动极短期预报方法研究[D]. 武汉: 武汉理工大学, 2021.
|
2026, Vol. 48
