舰船科学技术  2025, Vol. 47 Issue (21): 173-177    DOI: 10.3404/j.issn.1672-7649.2025.21.028   PDF    
聚类分析的舰船航行异常数据识别研究
宋伟, 郭莹     
黑龙江工业学院 现代制造工程学院,黑龙江 鸡西 158100
摘要: 舰船航行数据具有高维度、多模态与强动态等特征,使得异常数据与正常航行数据的区分难度增加,因此,提出聚类分析的舰船航行异常数据识别方法。依据舰船航行异常数据分布特性,引入全局-局部融合机制,采用k近邻聚类分析方法和密度峰值聚类方法分别计算航行数据全局离散异常值和局部离散异常值,结合2个异常值的计算结果,获取该数据异常得分,以此判定异常航行数据;在此基础上,采用最小熵K-均值算法对检测出的异常数据进行自适应分类,完成异常数据的分类识别。测试结果显示:该方法通过全局与局部异常得分综合计算,准确识别不同航行异常数据,并划分不同的异常数据类别;不同类别异常数据划分的标准化互信息均高于0.938,保证多类别异常数据的划分效果。
关键词: 聚类分析     舰船航行     分布特性     异常数据识别     数据异常得分    
Research on identification of ship navigation anomaly data through cluster analysis
SONG Wei, GUO Ying     
School of Modern Manufacturing Engineering, Heilongjiang University of Technology, Jixi 158100, China
Abstract: Ship navigation data has the characteristics of high dimension, multi-mode and strong dynamics, which makes it more difficult to distinguish abnormal data from normal navigation data. Therefore, a clustering analysis method for identifying abnormal data of ship navigation is proposed. According to the distribution characteristics of abnormal data of ship navigation, the global-local fusion mechanism is introduced, and the global discrete abnormal value and local discrete abnormal value of navigation data are calculated by K nearest neighbor clustering analysis method and density peak clustering method respectively, and the abnormal score of the data is obtained by combining the calculation results of the two abnormal values, so as to judge abnormal navigation data; On this basis, the minimum entropy K- means algorithm is used to adaptively classify the detected abnormal data to complete the classification and identification of abnormal data. The test results show that this method can accurately identify different navigation abnormal data and classify different abnormal data categories through comprehensive calculation of global and local abnormal scores. The standardized mutual information of different types of abnormal data division is higher than 0.938, which ensures the division effect of multi-category abnormal data.
Key words: cluster analysis     ship navigation     distribution characteristics     abnormal data identification     score of abnormal data    
0 引 言

舰船航行数据是船舶自动识别系统(AIS)获取的舰船航行位置、航速、航向、环境变化等动态信息形成海量时空数据;这些数据不仅支撑着船舶避碰、航线规划等基础功能,更隐含着舰船行为模式、交通流特征及潜在安全风险[1]。然而,复杂多变的海洋环境、设备故障以及人为操作失误等因素,极易导致AIS获取的航行数据中出现异常值,即航行过程中产生的、偏离正常行为模式或预期轨迹的数据,这些异常数据不仅会干扰船舶监控系统的正常运行,还可能误导决策,对航行安全构成严重威胁。因此,实现舰船航行异常数据识别,是提升海上交通安全、优化航运管理效率的基础保障。

陈蜀喆等[2]为实现船舶航行安全的有效管理,针对船舶的避碰转向点数据挖掘展开相关研究,通过设定滑动窗口对船舶航行数据进行遍历,以此分析相邻时刻下的航向变化特征,并计算该时刻下的航行轨迹点的变化情况,以此实现转向点数据挖掘;但是滑动窗口的大小和步长需预先设定,但不同航速、海况下的最优参数可能不同,对于数据动态变化的适应能力较差,影响模型在该情况下的数据挖掘性能。祁文娟等[3]为实现船舶航行数据聚类,Hausdorff 距离理念判断2个轨迹之间的相似性后,采用最小描述长度(MDL)原则对船舶轨迹进行分段,基于密度的聚类算法(DBSCAN)对分段后的轨迹段进行聚类,以此获取船舶航行轨迹数据结果;但是该方法的分段策略主要依赖空间几何信息(如垂直距离、角度距离),忽略船舶轨迹的时空动态特性(如速度变化、时间间隔),导致分段精度不足、轨迹数据误判情况。李费旭等[4]为可靠分析船舶异常数据,获取船舶数据,将该数据输入改进LSTM中,采用多变量LSTM,同时处理多个船舶数据,以此输出每个时间步数据的异常概率,以此完成异常数据识别;但是,船舶运行环境(如海域、负载)变化可能导致数据分布偏移,导致模型在该情况下检测结果的可靠性下降。黄滔等[5]为实现船舶异常数据检测,利用多源传感器采集船舶数据,并对该数据进行处理后输入机器学习算法中,以此识别数据中的异常数据;但是该算法在应用过程中,对于空间数据的检测效果较差,特别是空间存在动态变化时,该方法无法可靠判断数据类别。

聚类分析方法作为无监督学习的核心手段,在处理复杂数据时展现出强大的适应性和灵活性[6],该方法能够适应动态变化的航行环境,尤其适用于数据分布复杂、异常模式多样的场景。因此,文中提出聚类分析的舰船航行异常数据识别方法,以此实现舰船航行异常数据识别,为船舶航行安全管理提供可靠依据。

1 舰船航行异常数据识别 1.1 舰船航行异常数据分布特性

舰船航行数据包含航行位置、航速、航向、环境变化等海量动态时空数据,这些数据在采集过程中,环境的动态变化、数据传输干扰等均会造成数据中存在异常数据,例如航行轨迹点异缺失、航行位置异常等;并且舰船在航行过程中会发生停留、转向等情况,在这种情况下,采集的航行数据也会存在独特的分布特点,该数据极易与异常数据发生混淆。因此,为保证舰船航行异常数据识别效果,需充分分析该数据的分布特性。文中以AIS采集的舰船航行数据为技术,分析舰船航行异常数据的分布特性,其分布示意图如图1所示。在图1中:舰船航行时产生的4类数据分别为异常数据、停留数据、正常数据,其中异常数据随机分布,并且该类数据呈现不同的分布情况,如密集分布或者单一分布;停留数据则呈现明显的聚集状态,因此与密集分布的异常数据存在相似性;正常数据按照航行轨迹规则分布。

图 1 舰船航行数据点的特性分布 Fig. 1 Distribution of characteristics of ship navigation data points

异常数据主要围绕舰船在航行过程中的正常数据展开,航行数据是舰船按照航行轨迹航行过程中产生,其涵盖航行位置、经度、纬度、航行海域的温度和湿度以及航行方向等信息;如果舰船的航行轨迹用Xl表示,该轨迹下包含的数据表达为:

$ {X_l} = x_l^1,x_l^2,...,x_l^j,...,x_l^n。$ (1)

式中:$ x_l^j $为航行轨迹$ l $中的第$ j $个轨迹点数据,且$ x_l^j = \left\langle {\lambda _l^j,\varphi _l^j,t_l^j,\vartheta _l^j} \right\rangle $,其中$ \lambda _l^j $$ \varphi _l^j $为经度和纬度,$ t_l^j $为时间戳;$ \vartheta _l^j $为方向;n为数据量。

这些数据一旦存在异常数据,对舰船的正常航行分析、航行轨迹控制等造成影响,会导致舰船航行发生偏差,增加航行过程中的不安全因素。因此,需对舰船航行过程中的异常数据进行可靠识别,判断异常数据类别,为舰船航行控制提供可靠依据。

1.2 基于聚类分析的数据异常得分计算

为保证舰船航行异常数据的可靠识别,避免将正常数据识别为异常数据,文中采用聚类分析对舰船航行异常利群数据检测,该检测的主要目的是从全局和局部2个角度判断航行数据中的异常数据,其包含2个部分,一是采用k近邻聚类分析方法计算航行数据全局离散异常值;二是利用密度峰值聚类方法计算航行数据的局部离散异常值,结合2个异常值的计算结果,获取该数据的异常得分,以此判定数据是否为异常数据。详细步骤如下:

步骤1 全局离散异常值计算

采用k近邻聚类分析方法进行聚类时,如果舰船航行数据Xi中,各个数据点呈现密集分布,各个数据点之间距离较小,即k近邻值较小;如果数据点呈现稀疏分散分布,则数据点之间的距离较远,即k近邻值较大。因此,利用k近邻聚类分析方法进行舰船航行数据的全局离散异常值q(xi)计算,判断全局异常数据。航行数据全局异常值为:

$ q\left( {{x_i}} \right) = \sum\limits_{k = 1}^n {{d_k}\left( {{x_i},{x_j}} \right)} 。$ (2)

式中:$ {d_k}\left( {{x_i},{x_j}} \right) $为航行数据点$ {x_i} $$ {x_j} $之间的$ k $近邻距离。$ q\left( {{x_i}} \right) $的值越大表示数据异常的概率越大,为异常数据的概率越大。

步骤2 局部离散异常值计算

舰船航行异常数据也存在密集分布情况,在该情况下,全局离散异常值$ q\left( {{x_i}} \right) $计算结果则无法准确判断数据的异常情况。此时,需进行局部离散异常值计算。文中选择密度峰值聚类方法进行局部离散异常值计算,该方法可充分考虑数据局部的密度情况,以此计算数据点的局部异常值,保证异常数据的可靠判断。舰船航行数据局部离散异常值计算时,结合航行数据点$ {x_i} $$ {x_j} $之间的$ k $近邻距离$ {d_k}\left( {{x_i},{x_j}} \right) $完成,结合该距离实现数据聚类后,计算各个类别簇的平均密度$ {\bar \rho _c} $,计算公式为:

$ {\bar \rho _c} = \frac{1}{{k\left| {{N_c}} \right|}}\sum\limits_{k = 1}^n {\frac{1}{{{{\left( {2\pi } \right)}^\tau }}} \times \exp \left( { - \frac{{{d_k}{{\left( {{x_i},{x_j}} \right)}^2}}}{2}} \right)}。$ (3)

式中:$ c $为簇;$ {N_c} $为该簇的数据量;$ \tau $为维度。

结合上述公式获取的$ {\bar \rho _c} $,计算舰船航行数据点$ {x_i} $的局部离散异常值$ \tilde q\left( {{x_i}} \right) $,计算公式为:

$ \tilde q\left( {{x_i}} \right) = \frac{{{{\bar \rho }_c}}}{{{\rho _{{x_i}}}}} 。$ (4)

式中:$ {\rho _{{x_i}}} $为数据点$ {x_i} $所在簇的核密度。

综合上述2个步骤完成$ q\left( {{x_i}} \right)$$ \tilde q\left( {{x_i}} \right) $的计算后,结合2个计算结果获取船航行数据点xi的综合异常得分值$\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{q} $,其计算公式为:

$ \overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\frown}$}}{q} = q\left( {{x_i}} \right) \times \tilde q\left( {{x_i}} \right) $ (5)

依据式(5)的计算结果,确定异常得分值最高的Top-m数据点即为异常数据$ {\tilde Y_M} $

1.3 基于最小熵K-均值的异常数据分类

步骤1 在$ {\tilde Y_M} $中随机抽取$ K $个数据作为当前的聚类中心,用$ {o_1},{o_2},...,{o_K} $表示。

步骤2 依据欧式距离的大小将所有$ {\tilde Y_M} $划分为距离最近的聚类中心对应的类别中,形成各个子类别。

步骤3 计算各个子类别中数据样本的均值$ {\bar y_m} $,以此获取该类别新的聚类中心,计算公式为:

$ {o_K} = \frac{1}{{{M_k}}}\sum\limits_{m = 1}^{{M_k}} {{{\bar y}_m}}。$ (6)

式中:$ {M_k} $为第$ k $个子区域中异常数据量。

步骤4 在上述步骤的基础上,对所有数据样本进行重新聚类,在依据欧式距离大小将其划分至最近的聚类中心对应的类别中。

步骤5 计算划分后的聚类信息熵,计算公式为:

$ {\kappa _m} = - \frac{1}{{{M_k}}}\sum\limits_{m = 1}^{{M_k}} {{p_m}\log \left( {{p_m}} \right)}。$ (7)

式中:$ {p_m} $表示第$ m $类在第$ k $个聚类簇中所占的比例。

步骤6 重复上述步骤,当聚类数量与聚类样本数一致后,停止算法运行,并将最小信息熵结果作为最优聚类结果。依据该结果完成舰船航行异常数据分类,确定异常数据为缺失数据或者离散数据等,以此实现最终的舰船航行异常数据识别。

2 结果分析

以某大型货船为例展开相关测试,该货船船长为366 m、垂线间长为350 m、船宽为51 m、型深为30.20 m、设计吃水为14.50 m、航速为22 kn,直接主要航行路线为3条,中转航行路线为4条。

文中方法在进行舰船航行异常数据识别前,需对数据进行异常得分值计算,为测试文中方法的计算效果,随机以出发点和目标点1之间的航行数据为例进行测试,获取该航行的数据异常得分结果,如图2所示。依据图2结果可知:文中方法通过全局和局部异常值计算后,能够确定航行轨迹中所有航行数据的异常值大小,并且呈现数据的分布情况:

图 2 数据异常得分结果 Fig. 2 Abnormal Score Results of Data

1)从整体趋势来看,绝大多数数据点的异常得分较低,集中在某一较低区间(低于0.2),表明这些数据属于正常航行模式或停留模式;少数数据点的异常得分显著高于其他点,其中,数据异常得分值最高接近0.8,形成明显的“峰值”。

2)异常数据点呈现离散分布,得分极高,数量稀少,并且部分异常数据之间存在关联覆盖情况,在空间上呈现聚集状态,但通过局部离散异常值的计算,文中方法仍能有效区分各个异常数据的异常值。

综上可知:文中方法具备较好的异常数据与正常/停留数据的分离性通过全局与局部异常得分的综合计算,能够准确、稳定地识别出不同类型的异常数据,为后续的异常分类提供可靠的数据基础。

由于异常密集数据和异常离散数据呈现不同的分布状态,因此,为验证文中方法对于航行异常数据的识别效果,通过文中方法进行上述2种数据进行聚类,依据式(7)获取数据聚类后的信息熵结果,如图3所示。依据图3测试结果可知:1)整体趋势分析:2种数据的聚类信息熵均呈现出相对平稳的波动趋势,未出现剧烈上升或下降,并且信息熵结果均低于0.12,因此,文中方法能够更精准地完成不同规模异常数据类别划分。2)局部细节分析:异常密集数据和异常离散数据划分后,2种数据的聚类信息熵均呈现逐渐增加趋势,当数据量>1400条后,波动较为明显,但是仍旧能够可靠完成2种类别异常数据的划分。

图 3 数据聚类后的信息熵结果 Fig. 3 Information entropy results after data clustering

为验证舰船航行异常数据的识别效果,选择标准化互信息$ \mu \left( {y,c} \right) $作为评价指标,该指标能够衡量同类数据间的关联程度,其值在0~1之间,值越大表示异常数据识别效果越佳,$ \mu \left( {y,c} \right) $的计算公式为:

$ \mu \left( {y,c} \right) = \frac{{I\left( {y,c} \right)}}{{\displaystyle\frac{1}{2}\left[ {\eta \left( y \right) + \eta \left( c \right)} \right]}}。$ (8)

式中:$ y $为异常数据类别实际标签;$ c $为方法分类标签;$ I\left( * \right) $为互信息度量;$ \eta \left( * \right) $为熵。

为明确测试目标,本文所识别的异常数据主要分为以下三类:

1)缺失数据。指在船舶AIS数据流中,因设备故障、信号中断等原因导致的轨迹点序列不连续,造成部分数据记录完全丢失的现象。

2)离散数据。指明显偏离船舶正常航行模式的孤立或少量轨迹点,通常由临时性干扰、人为错误或突发状况引起,在空间上表现为远离主轨迹的离群点。

3)破损数据。指数据记录本身存在但数值异常或格式错误的数据,例如经纬度超出合理范围、航速为负值、时间戳错乱等数据格式或逻辑错误。

在不同的数据量下,文中方法进行不同类别的异常数据划分,划分后的$ \mu \left( {y,c} \right) $结果如表1所示。依据表1可知:在所有测试数据量(2万条至16万条)下,文三类异常数据的标准化互信息值均高于0.938,表明聚类结果与真实标签之间高度一致,本文方法具备较强的异常数据区分能力;即使在16万条大规模数据下,标准化互信息值仍保持在0.943~0.963之间,表明本文方法未因数据量增大而出现性能衰减,适用于实际航行中的海量AIS数据处理,在多类别异常识别任务中的有效性高。

表 1 标准化互信息测试结果 Tab.1 Standardized mutual information test results
3 结 语

本文提出了基于聚类分析的舰船航行异常数据识别方法。该方法的主要优势与结论如下:

创新性地设计了全局−局部融合机制,通过k近邻与密度峰值聚异的协同计算,有效克服了单一视角的局限性,显著提升了对空间动态变化数据的异常检测鲁棒性,能够更好地区分分布相似的异常密集数据与正常停留数据。引入了最小熵K−均值算法进行异常分类,通过信息熵最小化动态确定最佳聚类数,避免了传统K−均值对K值的依赖,实现了更高的聚类纯度和更低的误判率,为异常数据的成因分析提供了清晰的数据支撑。实验结果表明,本方法在应对大规模、多类别航行异常数据时,保持了高且稳定的识别性能,标准化互信息值值均高于0.938,具备良好的工程应用潜力。

未来研究方向将集中于:进一步提升本方法对多源异构数据的适应性与融合处理能力,如融合气象、发动机状态等非AIS数据,以构建更全面的舰船航行安全评估体系;同时探索将本框架应用于实时流式数据处理场景,以增强其在实战环境中的时效性。

参考文献
[1]
石悦, 罗贺, 蒋儒浩, 等. 融合数据质量增强和时空信息编码网络的船舶海上轨迹预测方法[J]. 模式识别与人工智能, 2025, 38(1): 51-67.
SHI Y, LUO H, JIANG R H, et al. Ship maritime trajectory prediction method integrating data quality enhancement and spatio-temporal information encoding network[J]. Pattern Recognition and Artificial Intelligence, 2025, 38(1): 51-67.
[2]
陈蜀喆, 王子威, 龚彪. 基于滑动窗口算法的船舶避碰转向点数据挖掘模型[J]. 中国航海, 2025, 48(1): 124-131.
CHEN S Z, WANG Z W, GONG B, et al. Data mining model of ship collision avoidance turning points based on sliding window algorithm[J]. Navigation of China, 2025, 48(1): 124-131.
[3]
祁文娟, 刘志恒, 周绥平, 等. 基于改进TRACLUS算法的船舶轨迹聚类研究[J]. 系统工程与电子技术, 2025, 47(4): 1214-1221.
QI W J, LIU Z H, ZHOU S P, et al. Research on ship trajectory clustering based on improved TRACLUS algorithm[J]. Systems Engineering and Electronics, 2025, 47(4): 1214-1221.
[4]
李费旭, 周利, 丁仕风, 等. 基于改进LSTM的船体监测数据异常处理方法[J]. 船舶工程, 2024, 46(7): 90-102,121.
LI F X, ZHOU L, DING S F. Exception handling method for hull monitoring data based on improved LSTM[J]. Ship Engineering, 2024, 46(7): 90-102,121.
[5]
黄滔, 陈冬梅, 杨勇兵. 船舶柴油机运行参数异常检测及分析[J]. 船海工程, 2024, 53(4): 66-70.
HUANG T, CHEN D M, YANG Y B. Detection and analysis of abnormal operating parameters of marine diesel engines[J]. Ship & Ocean Engineering, 2024, 53(4): 66-70.
[6]
李可欣, 郭健, 王宇君, 等. 一种基于降维密度聚类的船舶异常轨迹识别方法[J]. 包装工程, 2023, 44(11): 284-292.
LI K X, GUO J, WANG Y J, et al. Trajectory anomaly identification method of vessels based on dimensional-density reduction clustering[J]. Packaging Engineering, 2023, 44(11): 284-292.