舰船航行数据是船舶自动识别系统(AIS)获取的舰船航行位置、航速、航向、环境变化等动态信息形成海量时空数据;这些数据不仅支撑着船舶避碰、航线规划等基础功能,更隐含着舰船行为模式、交通流特征及潜在安全风险[1]。然而,复杂多变的海洋环境、设备故障以及人为操作失误等因素,极易导致AIS获取的航行数据中出现异常值,即航行过程中产生的、偏离正常行为模式或预期轨迹的数据,这些异常数据不仅会干扰船舶监控系统的正常运行,还可能误导决策,对航行安全构成严重威胁。因此,实现舰船航行异常数据识别,是提升海上交通安全、优化航运管理效率的基础保障。
陈蜀喆等[2]为实现船舶航行安全的有效管理,针对船舶的避碰转向点数据挖掘展开相关研究,通过设定滑动窗口对船舶航行数据进行遍历,以此分析相邻时刻下的航向变化特征,并计算该时刻下的航行轨迹点的变化情况,以此实现转向点数据挖掘;但是滑动窗口的大小和步长需预先设定,但不同航速、海况下的最优参数可能不同,对于数据动态变化的适应能力较差,影响模型在该情况下的数据挖掘性能。祁文娟等[3]为实现船舶航行数据聚类,Hausdorff 距离理念判断2个轨迹之间的相似性后,采用最小描述长度(MDL)原则对船舶轨迹进行分段,基于密度的聚类算法(DBSCAN)对分段后的轨迹段进行聚类,以此获取船舶航行轨迹数据结果;但是该方法的分段策略主要依赖空间几何信息(如垂直距离、角度距离),忽略船舶轨迹的时空动态特性(如速度变化、时间间隔),导致分段精度不足、轨迹数据误判情况。李费旭等[4]为可靠分析船舶异常数据,获取船舶数据,将该数据输入改进LSTM中,采用多变量LSTM,同时处理多个船舶数据,以此输出每个时间步数据的异常概率,以此完成异常数据识别;但是,船舶运行环境(如海域、负载)变化可能导致数据分布偏移,导致模型在该情况下检测结果的可靠性下降。黄滔等[5]为实现船舶异常数据检测,利用多源传感器采集船舶数据,并对该数据进行处理后输入机器学习算法中,以此识别数据中的异常数据;但是该算法在应用过程中,对于空间数据的检测效果较差,特别是空间存在动态变化时,该方法无法可靠判断数据类别。
聚类分析方法作为无监督学习的核心手段,在处理复杂数据时展现出强大的适应性和灵活性[6],该方法能够适应动态变化的航行环境,尤其适用于数据分布复杂、异常模式多样的场景。因此,文中提出聚类分析的舰船航行异常数据识别方法,以此实现舰船航行异常数据识别,为船舶航行安全管理提供可靠依据。
1 舰船航行异常数据识别 1.1 舰船航行异常数据分布特性舰船航行数据包含航行位置、航速、航向、环境变化等海量动态时空数据,这些数据在采集过程中,环境的动态变化、数据传输干扰等均会造成数据中存在异常数据,例如航行轨迹点异缺失、航行位置异常等;并且舰船在航行过程中会发生停留、转向等情况,在这种情况下,采集的航行数据也会存在独特的分布特点,该数据极易与异常数据发生混淆。因此,为保证舰船航行异常数据识别效果,需充分分析该数据的分布特性。文中以AIS采集的舰船航行数据为技术,分析舰船航行异常数据的分布特性,其分布示意图如图1所示。在图1中:舰船航行时产生的4类数据分别为异常数据、停留数据、正常数据,其中异常数据随机分布,并且该类数据呈现不同的分布情况,如密集分布或者单一分布;停留数据则呈现明显的聚集状态,因此与密集分布的异常数据存在相似性;正常数据按照航行轨迹规则分布。
|
图 1 舰船航行数据点的特性分布 Fig. 1 Distribution of characteristics of ship navigation data points |
异常数据主要围绕舰船在航行过程中的正常数据展开,航行数据是舰船按照航行轨迹航行过程中产生,其涵盖航行位置、经度、纬度、航行海域的温度和湿度以及航行方向等信息;如果舰船的航行轨迹用Xl表示,该轨迹下包含的数据表达为:
| $ {X_l} = x_l^1,x_l^2,...,x_l^j,...,x_l^n。$ | (1) |
式中:
这些数据一旦存在异常数据,对舰船的正常航行分析、航行轨迹控制等造成影响,会导致舰船航行发生偏差,增加航行过程中的不安全因素。因此,需对舰船航行过程中的异常数据进行可靠识别,判断异常数据类别,为舰船航行控制提供可靠依据。
1.2 基于聚类分析的数据异常得分计算为保证舰船航行异常数据的可靠识别,避免将正常数据识别为异常数据,文中采用聚类分析对舰船航行异常利群数据检测,该检测的主要目的是从全局和局部2个角度判断航行数据中的异常数据,其包含2个部分,一是采用k近邻聚类分析方法计算航行数据全局离散异常值;二是利用密度峰值聚类方法计算航行数据的局部离散异常值,结合2个异常值的计算结果,获取该数据的异常得分,以此判定数据是否为异常数据。详细步骤如下:
步骤1 全局离散异常值计算
采用k近邻聚类分析方法进行聚类时,如果舰船航行数据Xi中,各个数据点呈现密集分布,各个数据点之间距离较小,即k近邻值较小;如果数据点呈现稀疏分散分布,则数据点之间的距离较远,即k近邻值较大。因此,利用k近邻聚类分析方法进行舰船航行数据的全局离散异常值q(xi)计算,判断全局异常数据。航行数据全局异常值为:
| $ q\left( {{x_i}} \right) = \sum\limits_{k = 1}^n {{d_k}\left( {{x_i},{x_j}} \right)} 。$ | (2) |
式中:
步骤2 局部离散异常值计算
舰船航行异常数据也存在密集分布情况,在该情况下,全局离散异常值
| $ {\bar \rho _c} = \frac{1}{{k\left| {{N_c}} \right|}}\sum\limits_{k = 1}^n {\frac{1}{{{{\left( {2\pi } \right)}^\tau }}} \times \exp \left( { - \frac{{{d_k}{{\left( {{x_i},{x_j}} \right)}^2}}}{2}} \right)}。$ | (3) |
式中:
结合上述公式获取的
| $ \tilde q\left( {{x_i}} \right) = \frac{{{{\bar \rho }_c}}}{{{\rho _{{x_i}}}}} 。$ | (4) |
式中:
综合上述2个步骤完成
| $ \overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{q} = q\left( {{x_i}} \right) \times \tilde q\left( {{x_i}} \right) $ | (5) |
依据式(5)的计算结果,确定异常得分值最高的Top-m数据点即为异常数据
步骤1 在
步骤2 依据欧式距离的大小将所有
步骤3 计算各个子类别中数据样本的均值
| $ {o_K} = \frac{1}{{{M_k}}}\sum\limits_{m = 1}^{{M_k}} {{{\bar y}_m}}。$ | (6) |
式中:
步骤4 在上述步骤的基础上,对所有数据样本进行重新聚类,在依据欧式距离大小将其划分至最近的聚类中心对应的类别中。
步骤5 计算划分后的聚类信息熵,计算公式为:
| $ {\kappa _m} = - \frac{1}{{{M_k}}}\sum\limits_{m = 1}^{{M_k}} {{p_m}\log \left( {{p_m}} \right)}。$ | (7) |
式中:
步骤6 重复上述步骤,当聚类数量与聚类样本数一致后,停止算法运行,并将最小信息熵结果作为最优聚类结果。依据该结果完成舰船航行异常数据分类,确定异常数据为缺失数据或者离散数据等,以此实现最终的舰船航行异常数据识别。
2 结果分析以某大型货船为例展开相关测试,该货船船长为366 m、垂线间长为350 m、船宽为51 m、型深为30.20 m、设计吃水为14.50 m、航速为22 kn,直接主要航行路线为3条,中转航行路线为4条。
文中方法在进行舰船航行异常数据识别前,需对数据进行异常得分值计算,为测试文中方法的计算效果,随机以出发点和目标点1之间的航行数据为例进行测试,获取该航行的数据异常得分结果,如图2所示。依据图2结果可知:文中方法通过全局和局部异常值计算后,能够确定航行轨迹中所有航行数据的异常值大小,并且呈现数据的分布情况:
|
图 2 数据异常得分结果 Fig. 2 Abnormal Score Results of Data |
1)从整体趋势来看,绝大多数数据点的异常得分较低,集中在某一较低区间(低于0.2),表明这些数据属于正常航行模式或停留模式;少数数据点的异常得分显著高于其他点,其中,数据异常得分值最高接近0.8,形成明显的“峰值”。
2)异常数据点呈现离散分布,得分极高,数量稀少,并且部分异常数据之间存在关联覆盖情况,在空间上呈现聚集状态,但通过局部离散异常值的计算,文中方法仍能有效区分各个异常数据的异常值。
综上可知:文中方法具备较好的异常数据与正常/停留数据的分离性通过全局与局部异常得分的综合计算,能够准确、稳定地识别出不同类型的异常数据,为后续的异常分类提供可靠的数据基础。
由于异常密集数据和异常离散数据呈现不同的分布状态,因此,为验证文中方法对于航行异常数据的识别效果,通过文中方法进行上述2种数据进行聚类,依据式(7)获取数据聚类后的信息熵结果,如图3所示。依据图3测试结果可知:1)整体趋势分析:2种数据的聚类信息熵均呈现出相对平稳的波动趋势,未出现剧烈上升或下降,并且信息熵结果均低于0.12,因此,文中方法能够更精准地完成不同规模异常数据类别划分。2)局部细节分析:异常密集数据和异常离散数据划分后,2种数据的聚类信息熵均呈现逐渐增加趋势,当数据量>
|
图 3 数据聚类后的信息熵结果 Fig. 3 Information entropy results after data clustering |
为验证舰船航行异常数据的识别效果,选择标准化互信息
| $ \mu \left( {y,c} \right) = \frac{{I\left( {y,c} \right)}}{{\displaystyle\frac{1}{2}\left[ {\eta \left( y \right) + \eta \left( c \right)} \right]}}。$ | (8) |
式中:
为明确测试目标,本文所识别的异常数据主要分为以下三类:
1)缺失数据。指在船舶AIS数据流中,因设备故障、信号中断等原因导致的轨迹点序列不连续,造成部分数据记录完全丢失的现象。
2)离散数据。指明显偏离船舶正常航行模式的孤立或少量轨迹点,通常由临时性干扰、人为错误或突发状况引起,在空间上表现为远离主轨迹的离群点。
3)破损数据。指数据记录本身存在但数值异常或格式错误的数据,例如经纬度超出合理范围、航速为负值、时间戳错乱等数据格式或逻辑错误。
在不同的数据量下,文中方法进行不同类别的异常数据划分,划分后的
|
|
表 1 标准化互信息测试结果 Tab.1 Standardized mutual information test results |
本文提出了基于聚类分析的舰船航行异常数据识别方法。该方法的主要优势与结论如下:
创新性地设计了全局−局部融合机制,通过k近邻与密度峰值聚异的协同计算,有效克服了单一视角的局限性,显著提升了对空间动态变化数据的异常检测鲁棒性,能够更好地区分分布相似的异常密集数据与正常停留数据。引入了最小熵K−均值算法进行异常分类,通过信息熵最小化动态确定最佳聚类数,避免了传统K−均值对K值的依赖,实现了更高的聚类纯度和更低的误判率,为异常数据的成因分析提供了清晰的数据支撑。实验结果表明,本方法在应对大规模、多类别航行异常数据时,保持了高且稳定的识别性能,标准化互信息值值均高于0.938,具备良好的工程应用潜力。
未来研究方向将集中于:进一步提升本方法对多源异构数据的适应性与融合处理能力,如融合气象、发动机状态等非AIS数据,以构建更全面的舰船航行安全评估体系;同时探索将本框架应用于实时流式数据处理场景,以增强其在实战环境中的时效性。
| [1] |
石悦, 罗贺, 蒋儒浩, 等. 融合数据质量增强和时空信息编码网络的船舶海上轨迹预测方法[J]. 模式识别与人工智能, 2025, 38(1): 51-67. SHI Y, LUO H, JIANG R H, et al. Ship maritime trajectory prediction method integrating data quality enhancement and spatio-temporal information encoding network[J]. Pattern Recognition and Artificial Intelligence, 2025, 38(1): 51-67. |
| [2] |
陈蜀喆, 王子威, 龚彪. 基于滑动窗口算法的船舶避碰转向点数据挖掘模型[J]. 中国航海, 2025, 48(1): 124-131. CHEN S Z, WANG Z W, GONG B, et al. Data mining model of ship collision avoidance turning points based on sliding window algorithm[J]. Navigation of China, 2025, 48(1): 124-131. |
| [3] |
祁文娟, 刘志恒, 周绥平, 等. 基于改进TRACLUS算法的船舶轨迹聚类研究[J]. 系统工程与电子技术, 2025, 47(4): 1214-1221. QI W J, LIU Z H, ZHOU S P, et al. Research on ship trajectory clustering based on improved TRACLUS algorithm[J]. Systems Engineering and Electronics, 2025, 47(4): 1214-1221. |
| [4] |
李费旭, 周利, 丁仕风, 等. 基于改进LSTM的船体监测数据异常处理方法[J]. 船舶工程, 2024, 46(7): 90-102,121. LI F X, ZHOU L, DING S F. Exception handling method for hull monitoring data based on improved LSTM[J]. Ship Engineering, 2024, 46(7): 90-102,121. |
| [5] |
黄滔, 陈冬梅, 杨勇兵. 船舶柴油机运行参数异常检测及分析[J]. 船海工程, 2024, 53(4): 66-70. HUANG T, CHEN D M, YANG Y B. Detection and analysis of abnormal operating parameters of marine diesel engines[J]. Ship & Ocean Engineering, 2024, 53(4): 66-70. |
| [6] |
李可欣, 郭健, 王宇君, 等. 一种基于降维密度聚类的船舶异常轨迹识别方法[J]. 包装工程, 2023, 44(11): 284-292. LI K X, GUO J, WANG Y J, et al. Trajectory anomaly identification method of vessels based on dimensional-density reduction clustering[J]. Packaging Engineering, 2023, 44(11): 284-292. |
2025, Vol. 47
