舰船科学技术  2023, Vol. 45 Issue (1): 186-189    DOI: 10.3404/j.issn.1672-7649.2023.01.034   PDF    
基于数据挖掘的船舶海上航行轨迹高精度跟踪研究
夏容, 李房云     
南昌航空大学 科技学院,江西 九江 332020
摘要: 为提升船舶海上航行安全性,设计基于数据挖掘的船舶海上航行轨迹高精度跟踪方法。该方法利用数据处理模块对获取的船舶时空数据进行处理后,通过轨迹热点区域提取模块的改进密度峰值聚类算法,提取船舶航行轨迹热点区域;频繁轨迹挖掘模块在该区域内利用改进的序列模式挖掘算法,挖掘出具有时空属性的频繁航行轨迹,实现舰船海上航行轨迹跟踪。测试结果显示:该方法具有良好的聚类效果,能够可靠完成轨迹热点区域的聚类,DB指标的结果均在1.5以内;能够获取轨迹的热点区域,实现指定航线轨迹的高精度跟踪,在跟踪过程中没有发生明显的轨迹偏差情况。
关键词: 数据挖掘     船舶航行轨迹     高精度跟踪     轨迹热点区域     频繁航行轨迹     时空数据    
Research on high precision tracking of ship's navigation trajectory at sea based on data mining
XIA Rong, LI Fang yun     
Science and Technology College, Nanchang Hangkong University, Jiujiang 332020, China
Abstract: In order to improve the safety of ship navigation at sea, a high-precision tracking method of ship navigation trajectory based on data mining is studied. This method uses the data processing module to process the acquired ship's spatio-temporal data, and then extracts the ship's navigation track hot spots through the improved density peak clustering algorithm of the track hot spots extraction module. The frequent trajectory mining module uses an improved sequential pattern mining algorithm to mine frequent navigation trajectories with spatio-temporal attributes in this region, so as to realize the tracking of ships' maritime navigation trajectories. The test results show that the method has a good clustering effect, and can reliably complete the clustering of track hot spots, and the results of DB indicators are within 1.5. The hot spot area of the track can be obtained to achieve high-precision tracking of the designated route track, and there is no obvious track deviation during the tracking process.
Key words: data mining     ship navigation track     high precision tracking     track hotspot area     frequent navigation track     spatio-temporal data    
0 引 言

船舶在进行运输、搜索或者救援时,对于航行轨迹的跟踪效果直接影响其航行时间的长短、航行方向的可靠性等[1]。因此,船舶在海上航行过程中,需高精度实现航行轨迹跟踪。轨迹跟踪指的是船舶按照给定的参考轨迹为依据[2],从当前位置点移动至目标位置点之间的运动轨迹,并且该轨迹主要定义在时空轨迹上。在对船舶进行海上轨迹跟踪时[3],通常采用地理信息系统或者电子海图完成,但是上述方法在应用过程中均存在一定问题,如对于船舶周围环境信息的事实描述、海图更新效果等较差[4],因此跟踪结果存在显著误差。杨家轩等[5]为提升航行轨迹跟踪精度,充分结合船舶的航向、航速信息,提出相关的船舶轨迹跟踪方法,该方法能够在一定程度上提升船舶的轨迹跟踪效果,但是当航迹数量增多后,该方法的轨迹跟踪误差较大。吕国华等[6]为实现船舶轨迹的精准提取,提升船舶航行管理效果,提出基于联邦学习相关轨迹提取算法,获取船舶航行的主要航线结果。但该方法应用过程中,无法获取轨迹的热点区域。因此,当航迹距离发生显著的变化时,轨迹跟踪精度会降低。数据挖掘是一种用于海量数据处理的方法,常见的数据挖掘算法包含数据聚类、数据处理等,该算法能够从海量的数据中获取所需的或者隐含的有效数据,为目标的处理提供可靠数据依据。本文结合船舶在航行过程中的海上环境复杂等特点,为保证船舶航行轨迹的高精度跟踪,本文利用数据挖掘的优势,提出基于数据挖掘的船舶海上航行轨迹高精度跟踪方法。

1 船舶海上航行轨迹高精度跟踪 1.1 基于数据挖掘的航行轨迹高精度跟踪方法框架

本文为实现船舶海上航行轨迹高精度跟踪,提出基于数据挖掘的船舶海上航行轨迹高精度跟踪方法,该方法整体框架如图1所示。该方法由3个模块组成,分别为航行数据处理模块、轨迹热点区域提取模块以及频繁轨迹挖掘模块。数据处理模块主要是对获取的船舶时空数据中的噪声、缺失数据或者重叠数据进行处理,提升数据的有效性;轨迹热点区域提取模块则是以处理后的时空数据为依据,采用改进密度峰值聚类算法,获取轨迹热点区域后,通过频繁轨迹挖掘模块采用的改进的序列模式挖掘算法在该区域内挖掘船舶频繁轨迹,获取轨迹跟踪结果。

图 1 基于数据挖掘的航行轨迹高精度跟踪方法框架 Fig. 1 Framework of high-precision trajectory tracking method based on data mining
1.2 船舶航行轨迹热点区域提取

船舶在海上航行过程中,所产生的轨迹主要为时空轨迹,但是由于船舶航行时存在线性和非线性航迹,获取的时空数据存在明显的数据密度均匀度较差现象,该现象直接影响轨迹跟踪效果,因此为实现船舶海上航行轨迹高精度跟踪,采用改进密度峰值聚类算法提取一系列的船舶海上航行热点时空区域。该聚类算法在该区域提取过程中,充分考虑距离度量中存在的线性和非线性2种关系,并对2种关系进行不同权值赋予,以此区分不同距离度量的影响效果。可对数据实行连续化处理,并设定截断阈值dTh,其采用航行轨迹点之间的距离表示,以此提升轨迹点密度判断精度。

在线性和非线性2种情况下,采用2种密度计算方法,分别是船舶航迹点之间的直线距离密度 $ {\rho _{i,1}} $ 计算和非直线距离密度 $ {\rho _{i,2}} $ 计算,两者的计算公式分别为:

$ {\rho _{i,1}} = \sum\limits_j^m {\left( {{d_{\max }} - \left\| {{p_i} - {p_j}} \right\|} \right)} ,$ (1)
$ {\rho _{i,2}} = \sum\limits_j^m {{e^{ - {{\left( {\frac{{\left\| {{p_i} - {p_j}} \right\|}}{{{d_{\max }}}}} \right)}^2}}}}。$ (2)

式中: $ {p_i} $ $ {p_j} $ 均表示船舶航迹点,两者之间的欧式距离用 $ \left\| {{p_i} - {p_j}} \right\| $ 表示; $ {d_{\max }} $ 表示轨迹点之间的最大时间距离; $ m $ 表示全部轨迹点数量。

$ {\rho _{i,1}} $ $ {\rho _{i,2}} $ 实行加权结合处理后获取该轨迹点的密度结果,其计算公式为:

$ {\rho _i} = w{\rho _{i,1}} + \left( {1 - w} \right){\rho _{i,2}} ,$ (3)

式中, $ w $ 表示权重。

定义更远距离 $ {\eta _i} $ ,其表达式为:

$ {\eta }_{i}=\left\{\begin{array}{c}{\mathrm{min}}_{j:{p}_{j} > {p}_{i}}\Vert {p}_{i}-{p}_{j}\Vert ,\exists {p}_{j} > {p}_{i},\\ {\mathrm{max}}_{j=1,2,\mathrm{...},m}\Vert {p}_{i}-{p}_{j}\Vert ,{\rm{others}}。\end{array}\right. $ (4)

为保证航行轨迹热点区域提取效果,定义各个 $ {p_i} $ 的密度特征 $ {\alpha _i} $ ,其计算公式为:

$ {\alpha _i} = {\rho _i}{\eta _i} 。$ (5)

$ {\alpha _i} $ 的值越大,表示该轨迹点被定义为聚类中心的概率越大。在集合 $ I $ 中获取 $ {\alpha _i} $ 值大于dTh的点,将这些点对应的轨迹点均划分至集合 $ {S_2} $ 中,并且将轨迹拐点位置左侧的 $ {\alpha _i} $ 划分至 $ {S_1} $ 集合中。获取 $ {S_1} $ $ {S_2} $ 中的交集部分,用集合 $ S $ 表示。该集合中元素的 $ {\alpha _i} $ 值均较大,其对应的 $ {p_i} $ 即可表示为初步簇类中心。与此同时,将其他剩余的点均划分至与其距离最近、密度最高且相邻的簇中,以此完成船舶海上航行轨迹热点区域 $ S' $ 提取。

1.3 船舶航行轨迹高精度跟踪实现

完成海上航行轨迹热点区域提取后,采用改进的序列模式挖掘算法在该区域内进行频繁轨迹挖掘,以此挖掘出具有时空属性的频繁航行轨迹,即实现船舶海上航行轨迹跟踪。依据获取的 $ S' $ 对船舶原始航行轨迹进行简约处理,如果 $ S' $ 中包含的船舶时空轨迹点用 $ \left( {{x_i},{y_i},t{}_i} \right) $ 表示,其中 $ t{}_i $ 表示时间戳,将 $ \left( {{x_i},{y_i},t{}_i} \right) $ $ S' $ 中的区域元素 $ {R_i} $ 进行匹配计算,并且需同时满足下述2个条件:

条件 1  $ t_i $ 属于 $ {R_i} $ 所对应的密集时间窗 $K{W_i} = [ {{T'}_{start}},$ ${{T'}_{end}} ]$ ,且 $ {T'_{start}} \leqslant t{}_i \leqslant {T'_{end}} $ $ {T'_{start}} $ $ {T'_{end}} $ 对应开始和结束时间。

条件 2 空间轨迹位置点用 $ \left( {{x_i},{y_i}} \right) $ 表示,其位于 $ {R_i} $ 所属的网格空间单元内,即 $ \left( {{x_i},{y_i}} \right) \in {R_i} $ ,此时对 $ \left( {{x_i},{y_i},t{}_i} \right) $ 进行转换,形成时空热点区域 $ {R_i} $ 元素;如果 $ \left( {{x_i},{y_i}} \right) $ 不位于 $ {R_i} $ 所属的网格空间单元内,则删除该轨迹位置点。依据上述处理即可获取以 $ S' $ 为元素的序列数据集,并采用改进的序列模式挖掘算法对 $ S' $ 中的频繁轨迹进行挖掘,其详细步骤如下所述:

输入海上航行移动轨迹数据集 $ D = \left\{ {{T_{{r_1}}},{T_{{r_2}}},\cdots ,{T_{{r_n}}}} \right\} $ 以及 $ S' $

步骤 1 对 $ D $ 实行转换,使其形成 $ S' $ 序列数据库。

步骤 2 对 $ S' $ 序列数据库进行扫描,获取航行轨迹频繁序列L1

步骤 3 构建各个L1的投影数据库,并对其中全部的轨迹频繁项进行搜索,以此生成航行轨迹频繁序列L2

步骤 4 构建长度为 $ k $ 的序列模式Lk的投影库,对其中的所有频繁项进行搜索,生成长度为 $ k + 1 $ 的航行轨迹频繁序列Lk+1

步骤 5 重复步骤4,形成航行频繁轨迹集Q。

输出海上航行频繁轨迹集Q,以此实现轨迹跟踪。

2 测试分析

为验证本文方法在船舶海上航行高精度跟踪中的应用效果,选择一艘货运船作为测试对象,采用本文方法对其航行轨迹进行跟踪,获取跟踪结果,以此衡量本文方法的应用效果。该货运船属于中途运输货船,载重12.5 t,长233 m,宽35 m。该船在进行运输时,有指定的运输航线和目标港口,需保证在运输过程中,能够高精度完成航行轨迹跟踪。

为验证本文方法在进行海上航行轨迹跟踪时,对于轨迹热点区域的聚类的效果,采用DB指标作为评价标准,该指标越小,表示聚类效果越佳,同时热点区域的聚类精度越高,则轨迹跟踪精度越高,该指标取值期望低于1.5,计算公式为:

$ DB = \frac{1}{K}\sum {{{\max }_{j \ne i}}} \left( {\frac{{{c_i} + {c_j}}}{{\left\| {{A_i} - {A_j}} \right\|}}} \right)。$ (6)

式中: $ {A_i} $ $ {A_j} $ 均表示质心,前者对应簇类 $ i $ ,后者对应簇类 $ j $ $ K $ 表示簇的数量; $ {c_i} $ $ {c_j} $ 均表示平均距离,两者能够描述簇类的离散程度;前者对应簇类 $ i $ 和数据点之间,后者对应簇类 $ j $ 和数据点之间。

为直观验证本文方法对于海上航行轨迹区域的提取效果,随机选择该船的10条航线为例,进行轨迹热点区域提取,提取结果如图2所示。可知,本文方法具有船舶海上轨迹热点区域提取效果,能够获取轨迹的热点区域,并且提取的轨迹热点区域均具有显著的时间维度特征和空间维度特征。

图 2 航行轨迹热点区域提取测试结果 Fig. 2 Test results of hot spot region extraction of ship navigation track

计算不同航行轨迹点之间的距离下,随着轨迹数量的逐渐增加,DB指标的结果,如表1所示。可知,在不同的轨迹点距离下,随着轨迹数量的逐渐增加DB指标的结果也存在不同程度的变化,但是其变化值均在1.5以内,其最大结果为1.37。因此,本文方法具有良好的聚类效果,能够可靠完成轨迹热点区域的聚类,以此提升轨迹跟踪精度。

表 1 DB指标的测试结果 Tab.1 Test results of DB index

为验证本文方法对于海上航行轨迹跟踪的应用性,以其中一个航行轨迹为例,对该轨迹进行跟踪,获取跟踪结果,如图3所示。可知,本文方法具有精准的航行轨迹跟踪效果,能够高精度实现指定航线轨迹的跟踪,在跟踪过程中没有发生明显的轨迹偏差情况。因此,本文方法具有良好的应用性,能够保证船舶的安全、可靠航行。

图 3 船舶海上航行轨迹高精度跟踪结果 Fig. 3 High precision tracking results of ship's maritime navigation track
3 结 语

船舶在海上航行过程中,对于其航行轨迹的跟踪效果,直接影响航行的安全性和可靠性,如果其航行轨迹跟踪发生较大偏差,则会导致航行方向发生偏差,增加航行风险。因此,本文提出基于数据挖掘的船舶海上航行轨迹高精度跟踪算法。对该算法进行测试后得出结论:其具有良好的聚类效果,能够有效提取海上航行轨迹热点区域,并且高精度实现航行轨迹跟踪。

参考文献
[1]
闫兆进, 杨慧. 基于多源数据和船舶停留轨迹语义建模的港口目标识别[J]. 地球信息科学学报, 2022, 24(9): 1662-1675.
YAN Zhaojin, YANG Hui. Harbor detection based on multi-source data and semantic modeling of ship stop trajectory[J]. Journal of Geo-Information Science, 2022, 24(9): 1662-1675.
[2]
庄素婕, 杨星, 刘克中, 等. 基于数据挖掘的耙吸式挖泥船行为辨识方法[J]. 中国航海, 2021, 44(4): 112-117.
ZHUANG Sujie, YANG Xing, LIU Kezhong, et al. Data-mining-based identification of behavior of drag suction dredger[J]. Navigation of China, 2021, 44(4): 112-117.
[3]
初庆栋, 尹羿博, 龚小旋, 等. 基于双偶极向量场的欠驱动无人船目标跟踪制导方法[J]. 中国舰船研究, 2022, 17(4): 32-37.
CHU Qingdong, YIN Yibo, GONG Xiaoxuan, et al. Method for target tracking and guidance of under-actuated unmanned surface vehicle based on two-dimensional dipolar vector field[J]. Chinese Journal of Ship Research, 2022, 17(4): 32-37.
[4]
李文魁, 周铸, 宦爱奇, 等. 自主水下航行器自适应S面三维轨迹跟踪的仿真验证[J]. 中国舰船研究, 2022, 17(4): 38-46+91.
LI Wenkui, ZHON Zhu, HUAN Aiqi, et al. Simulation and verification of an adaptive S-plane three-dimensional trajectory tracking control for autonomous underwater vehicles[J]. Chinese Journal of Ship Research, 2022, 17(4): 38-46+91.
[5]
杨家轩, 陈柏果, 马令琪. 基于交互式多模型平方根容积卡尔曼滤波的船舶轨迹跟踪[J]. 中国舰船研究, 2022, 17(4): 12-23.
YANG Jiaxuan, CHEN Baiguo, MA Lingqi. Ship trajectory tracking based on IMM-SCKF algorithm[J]. Chinese Journal of Ship Research, 2022, 17(4): 12-23.
[6]
吕国华, 胡学先, 张启慧, 等. 基于联邦学习的船舶AIS轨迹谱聚类算法研究[J]. 计算机应用研究, 2022, 39(1): 70-74+89.
LV Guohua, HU Xuexian, ZHANG Qihui, et al. Federated spectral clustering algorithm for ship AIS trajectory[J]. Application Research of Computers, 2022, 39(1): 70-74+89.