2. 重庆交通大学水利水运工程教育部重点实验室,重庆 400074
2. Key Laboratory of Hydraulic and Waterway Engineering of the Ministry of Education, Chongqing Jiaotong University, Chongqing 400074, China
随着船舶数量不断增长以及通航密度持续上升,内河、港口等典型水域的通航环境日趋复杂[1 - 2],船舶运行协调与通航保障需达到更高水平。船舶自动识别系统(AIS)作为获取航行轨迹数据的重要手段,为通行规律分析与智能交通研究提供了海量动态数据支持。如何从复杂轨迹中识别通行结构、提取行为模式[3],是当前水域交通研究中的核心问题之一。
针对航迹数据的聚类分析,国内外学者已开展了多种方法探索,广泛采用K-means[4]、DBSCAN[5]、OPTICS[6]等聚类方法对航迹数据进行结构提取,取得一定成果。然而,这些方法对参数较为敏感,难以适应密度差异大、轨迹形态复杂的实际数据,易出现边界模糊、聚类碎片化等问题,影响结构表达质量。
本文引入基于层次密度的HDBSCAN[7]聚类方法,具备无需预设簇数、自动识别噪声、适应不同密度结构等优势。以某典型内河航段AIS轨迹数据为研究对象,开展轨迹聚类分析,并从空间分布、方向一致性与簇的代表性等方面对结果进行评估。研究旨在构建稳定、连续的轨迹结构表达体系,为后续通行行为建模与智能交通分析提供稳定、高质量的数据基础。
1 船舶AIS数据预处理与聚类 1.1 AIS数据预处理AIS数据在传输过程中受多种因素影响,其一,AIS 数据或许涵盖异常值,比如位置漂移、速度突变等,预处理有利于辨别并矫正此类错误,保障数据的精准性与可靠性。其二,AIS 数据的传输频次颇高,或许会引发大量重复或近似的数据点,预处理能够删除冗余信息,降低数据量,提升后续分析的效率。预处理还能够借助插值等手段填补缺失数据,使轨迹得以保持连续。历经提取船舶轨迹关键特征点后展开预处理,留存轨迹的主要形态与样式,为后续分析给予有价值的内容。
1.1.1 异常数据预处理在针对船舶AIS数据进行预处理时,本研究首先着重于错误数据的识别与剔除,以确保后续分析的有效性和准确性。具体而言,错误数据包括以下几种情形:一是移动业务标识码(MMSI)异常,表现为其长度非标准的9位数字或存在明显的不合理性;二是船舶位置坐标超出合理的地理范围,即经度小于0°或大于180°,纬度小于0°或大于90°[8];三是航行参数异常,如航向超过360°或航速超出内河航行的合理范围(航速小于2 kn或大于20 kn)。由于本文主要研究船舶航行状态的特点,为了避免船舶停泊和抛锚的影响,故将航速小于2 kn也剔除掉。通过上述严格的数据筛选,可有效消除数据采集过程中产生的误差或异常干扰,为后续船舶轨迹分析提供高质量的数据基础。
1.1.2 轨迹平滑为提升轨迹的连续性和可靠性,对清洗后的AIS轨迹数据进行分段与平滑处理。
为剔除船舶轨迹数据中的冗余与无效点,本文结合AIS数据特性,引入基于时间阈值与空间间隔的双重条件,对原始轨迹进行分段处理。具体的轨迹划分方法如表1所示。
|
|
表 1 轨迹分割方法 Tab.1 Trajectory segmentation method |
在保留的轨迹段上,采用式(1)~式(9)对轨迹进行平滑与插补:经纬度插值基于测地线法(Geodesic)实现,航向(COG)、航速(SOG)的插值使用滑动窗口内指数加权平均法。这种方法可在尽量不改变航迹形态的前提下填补AIS报文漏播造成的空白,确保轨迹数据时空连续。一些研究已证明,插值处理能够有效提高AIS轨迹数据的完整性和质量,有助于后续分析的稳定性。
1)计算时间归一化比例
对于待插值时刻t,假设前后2个已知数据点P0、P1的时刻分别t0和t1,其中(t0 < t < t1),则插值比例α为:
| $ \alpha =\frac{t-{t}_{{{}_{0}}}}{{t}_{{{}_{1}}}-{t}_{{{}_{0}}}}。$ | (1) |
式中:t为待插值的目标时刻。
2)计算测地线距离与初始方位角
在球面近似条件下,轨迹段两端点之间的测地线长度 S 与起始航向角(方位角)θ为计算式为:
| $ {S=R\cdot \arccos \left[\begin{matrix}\sin {\phi }_{0}\sin {\phi }_{1}+ \cos {\phi }_{0}\cos {\phi }_{1}\cos \left({\lambda }_{1}-{\lambda }_{0}\right)\\ \end{matrix}\right],}$ | (2) |
| $ {\theta =\arctan \left(\frac{\sin \left({\lambda }_{1}-{\lambda }_{0}\right)\cdot \cos {\phi }_{1}}{\begin{matrix}[\cos {\phi }_{0}\cdot \sin {\phi }_{1}- \sin {\phi }_{0}\cdot \cos {\phi }_{1}\cdot \cos \left({\lambda }_{1}-{\lambda }_{0}\right)]\\ \end{matrix}}\right)。} $ | (3) |
式中:S为测地线插值距离,m;θ为初始方位角,(°);λ1、λ0均为代表轨迹点的经度;φ1、φ0均为代表轨迹点的纬度;R 为地球半径,m。
3)根据测地线正解公式计算插值点坐标
| $ {{\phi }_{\mathrm{{interp}}}=\arcsin \left[\begin{matrix}\sin {\phi }_{0}\cdot \cos \left(\displaystyle\frac{S}{R}\right)+ \cos {\phi }_{0}\cdot \sin \left(\displaystyle\frac{S}{R}\right)\cdot \cos \theta \\ \end{matrix}\right],}$ | (4) |
| $ {{\lambda }_{\mathrm{{interp}}}={\lambda }_{0}+\cot 2\left(\begin{matrix}\sin \theta \cdot \sin \left(\displaystyle\frac{S}{R}\right)\cdot \cos {\phi }_{0}+ \cos \left(\displaystyle\frac{S}{R}\right)-\sin {\phi }_{0}\cdot \sin \phi \\ \end{matrix}\right)。}$ | (5) |
式中:φinterp、λinterp分别为插值点经纬度。
4)航向(COG)、航速(SOG)的插值
| $ {\omega }_{{{}_{i}}}={e}^{{{}^{-\frac{\left| {t}_{{{}_{i}}}-t\right| }{{t}_{{{}_{1}}}-{t}_{{{}_{0}}}}}}},$ | (6) |
| $ {W}_{{{}_{i}}}=\frac{{\omega }_{{{}_{i}}}}{\displaystyle\sum \limits_{j}{\omega }_{{{}_{j}}}},$ | (7) |
| $ {\text{COG}}_{\mathrm{{interp}}}=\sum \limits_{i=1}^{n}{W}_{i}\times {\text{COG}}_{i},$ | (8) |
| $ {\text{SOG}}_{\mathrm{{interp}}}=\sum \limits_{i=1}^{n}{W}_{{{}_{i}}}\times {\text{SOG}}_{i}。$ | (9) |
式中:ti为滑动窗口中第i个数据点的时刻;COGi为第 i 个为数据点的航向,(°);SOGi为第 i 个数据点的航速,kn;ωi为第i个数据点的权重(未归一化);j为参与归一化加权计算的所有轨迹点的个数;Wi为第i个数据点的归一化后的权重;COGinterp为插值得到的轨迹点的航向,(°);SOGinterp为插值得到的轨迹点的航速,kn。
船舶轨迹如图1所示。
|
图 1 船舶轨迹 Fig. 1 Ship tracks |
聚类分析属于无监督机器学习范畴,其核心目的是依据数据中反映对象及其相互关系的属性信息,将样本划分为若干具有内在相似性的簇。在具体应用中,理想的聚类算法应具备良好的稳定性,以降低个别样本变动对整体聚类结构带来的干扰,同时减少人为设定参数的依赖,从而提升结果的客观可靠性。借助聚类技术,能够有效整合分布于同一区域、表现出相似属性的轨迹数据点,从而识别出具有代表性的类别结构。基于内河水域轨迹数据在点密度和空间分布方面存在显著差异的特点,本文选用了HDBSCAN算法,对该类数据进行聚类分析。
1.2.1 HDBSCAN 聚类算法HDBSCAN 算法是基于传统的 DBSCAN 算法所提出的一种拓展,其有效解决了 DBSCAN 于处置不同密度分布数据之际的缺陷。HDBSCAN 不单可以攻克传统 DBSCAN 对密度差异敏感之难题,而且能够在无需预设聚类数的状况下自动辨识簇结构,因此在诸多需要应对复杂数据结构与噪声点的应用场景中彰显出卓越之性能。
HDBSCAN的核心思想是基于密度的层次聚类,其核心机制通过互达距离的数学建模,构建多维数据点间的加权图模型,进而形成描述样本关联度的拓扑结构。该算法生成的层次聚类树状图不仅呈现数据间的层级关系,更重要的是揭示了数据集隐含的多尺度概率密度分布特性。通过引入树结构压缩算法与动态稳定性评估模型,系统能够自动辨识具有统计显著性的聚类模式。值得注意的是,相较于传统DBSCAN对密度参数的敏感性,该算法在保持高密度区域识别精度的显著增强了离群值检测的鲁棒性,特别是在处理复杂数据分布时展现出更强的适应性特征。
HDBSCAN工作流程如下:
步骤1 计算核心距离与互达距离:核心距离的计算依托于数据对象与其第g邻近样本(该参数由min_cluster_size设定)之间的空间间距,这一指标有效表征了局部区域的密度分布特征。互达距离的构建则聚焦于两点间的最大间距准则,具体而言取各自核心距离与直接欧氏距离中的极大值。值得注意的是,这种距离度量方式源于DBSCAN算法的核心思想,通过双重约束机制既能反映空间邻近性,又可捕捉密度可达性特征。实验研究表明,这种复合型距离模型在刻画非均匀分布数据集时,较传统单一距离量度具有更优的拓扑结构保持能力。
步骤2 构建最小生成树(MST):通过计算所有数据点间的互达距离,HDBSCAN 构建起一个最小生成树,以此表征数据点之间的连接关系。这一树状架构呈现了数据点之间的密度可达性,给后续的聚类分析奠定了基础。
步骤3 生成聚类树:在最小生成树的基础上,HDBSCAN算法采用层次聚类策略构建密度梯度树状拓扑。该过程遵循层次聚类的基本原理,通过逐步融合低密度样本点形成嵌套式簇结构,其构造机制有效映射了数据空间的密度梯度分布特征。这种分层架构不仅保留了原始数据的几何关系,更通过节点聚合路径直观呈现样本间的密度关联特性。
步骤4 聚类稳定性分析与簇提取:通过对聚类树进行压缩和稳定性分析,HDBSCAN 明确每一个簇的稳定性。具备稳定性的簇乃是那些于多个层级仍旧维持一致的聚类,此类聚类成果达到统计显著层级,并且当作聚类进程的终态予以输出。
综上所述,簇提取流程为:先把压缩后的聚类树中的各叶节点当成一个簇,从树底部向上进行遍历,要是当前节点稳定性比两子节点稳定性之和小,就把当前节点稳定性设为二者之和;若比之和大,就将当前节点定义为簇并抹除所有子节点,平面聚类结果是遍历到根节点时所选定的簇集合,然后返回该结果。
1.2.2 聚类指标当前用于评估聚类结果优劣的指标体系大致可归纳为两大类:一类为内部评价方式;另一类为基于外部标签的评价方法。外部评价主要依赖于将聚类结果与已知类别信息进行对比,从而判断分组效果;而内部指标则仅基于原始数据特性与聚类划分本身进行验证,能够在缺乏参考标签的情况下评估聚类结构的有效性。在实际应用场景中,往往缺少真实的类别信息,此时只能依靠内部指标对聚类质量进行判定。
聚类的目标是让属性相似的数据归于同簇,且保证簇间样本的可区分性,现有研究中的聚类验证方法主要采用2项基准:类内紧凑与类间分离,紧凑性参数刻画了簇内个体之间的空间密集关系,衡量紧凑性可采用不同指标,诸如采用簇内样本的变异程度衡量,或通过求取各点间距离的平均值;通过分离度可衡量各簇彼此间的区别程度或距离,针对内河航道中航迹数据体量巨大且分布密度不均的实际情况,本文选取HDBSCAN算法执行聚类操作。并且为了保证聚类效果,借助轮廓系数(SC)和CH指数对聚类效果开展双重评价。
1)轮廓系数:衡量每个样本点与其所在簇内其他点的平均距离(内聚度)与该样本点到邻近最近的其他簇所有点的平均距离(分离度)之差,然后除以两者中的较大值。对于1个轨迹样本集合,其轮廓系数是所有轨迹样本轮廓系数的平均值。取值范围 [−1,1] ,其中较高的正值表示较好的聚类效果。数据集T 有 N 个对象,假设T 被划分成k个簇C1,…,Ck,对象t∈Ci(1≤ i ≤k)则数据集T 轮廓系数 SC 计算方法如下:
| $ a\left(t\right)=\frac{\displaystyle\sum \limits_{{t}^{\prime}\in {C}_{t},t\neq {t}^{\prime}}\mathrm{dist}\left(t,{{t}}^{\prime}\right)}{\left| {C}_{i}\right| -1},$ | (10) |
| $ b\left(t\right)=\underset{{C}_{j}\colon 1\leqslant j\leqslant k,j\neq i}{\min }\left\{\frac{\displaystyle\sum \limits_{{t}^{\prime}\in {C}_{j}}\mathrm{dist}\left(t,{{t}}^{\prime}\right)}{\left| {C}_{j}\right| }\right\},$ | (11) |
| $ {SC}=\frac{1}{N}\sum \limits_{t=1}^{N}s\left(t\right)=\frac{1}{N}\sum \limits_{t=1}^{N}\frac{b\left(t\right)-a\left(t\right)}{\max \{a\left(t\right),b\left(t\right)\}} 。$ | (12) |
式中:s(t)为单一样本 t 的轮廓系数;a(t)为样本t与t所属簇内其他样本的平均距离,若簇内仅t 一个样本,则令s(t)=0;b(t)为样本 t 与其他簇的样本平均距离的最小值;dist(t,t´)代表样本 t 和
2)CH指数:CH 指数作为一种用于综合评估聚类结果优劣的内部指标,其核心要义在于体现类簇内部的紧凑程度以及类簇之间的分离程度。此指标借助计算簇间离差平方和(BGSS)与簇内平均离差平方和(WGSS)之间的比值来达成衡量目的。CH 指数的取值范围是[0,+∞),并且数值越高,所获取地聚类划分在结构区分性与内部一致性方面的表现越出色,聚类效果也越发优越。CH 指数计算式为:
| $ \begin{split}{\text{CH}}=&\dfrac{{BGSS}}{k-1}\left/\dfrac{{WGSS}}{n-k}\right.\\ =&\dfrac{\displaystyle\sum \limits_{i=1}^{k}{n}_{i}{\left|\left|{c}_{i}-c\right|\right|}^{2}}{k-1}\left/\dfrac{\displaystyle\sum \limits_{i=1}^{k}\displaystyle\sum \limits_{x\in {c}_{i}}{\left|\left|x-{c}_{i}\right|\right|}^{2}}{n-k} \right. 。\end{split}$ | (13) |
式中:n为样本集合的容量;k为样本集合的簇数;c 为样本集合的中心;ni 和 ci分别为第i个簇的样本数和其中心。
2 船舶行为模式挖掘实验分析为了验证该聚类方法对于船舶轨迹数据的有效性,本文以双山岛水域(120°31′E,31°93' N,120°70' E,32°00' N)2021年1月内AIS 轨迹数据作为对象进行了试验。该区域船舶通行量巨大,航道狭窄,水路交通环境较为复杂,对该航段进行聚类研究提取出船舶主要航迹具有一定的现实意义。
2.1 实验参数确定在数据库中筛出研究范围水域的全部数据,对数据进行错误数据删除、轨迹分割、轨迹插样平滑、噪声清洗等预处理。然后,采用Sliding Window 算法对航迹点进行了压缩。研究发现,通过结合 Sliding Window 算法,船舶航向偏差,位置偏差和 AIS 时空特征来确定关键点,得出最佳的距离阈值为[0.731,1.274]倍船宽[9 − 10]。本文选取的距离阈值为1.25倍船宽。
在聚类性能的评估过程中,本文依托 SC与CH 这2项指标,针对最小聚类规模的取值区间(100~300)实施了参数调优操作,以选择最优的最小聚类大小作为HDBSCAN算法的输入值。最小聚类簇大小的最优值是得分最高的SC和CH时对应的最小聚类簇值,最小样本采用默认方案,即最小样本值等于所选择的最小聚类簇值。从图2可以看出,SC和CH在最小聚类簇大小为160时值均为最大,此时SC值为
|
图 2 HDBSCAN聚类性能指标 Fig. 2 HDBSCAN clustering performance metrics |
聚类结果如图3(a)所示。为验证算法性能的适用性与优越性,本文同时引入DBSCAN算法作为对比,聚类结果如图3(b)所示。
|
图 3 聚类结果 Fig. 3 Clustering results |
通过HDBSCAN算法聚类,本次试验共得到21个聚类簇。根据实际航行情况及各类簇之间的空间连通性,本文将双山岛周边水域的船舶轨迹划分为2组,结果如图4所示。
|
图 4 上下行航线聚类结果 Fig. 4 Uplink and downlink route clustering result |
为验证聚类方法地适应性与效果,本文对比运用了 DBSCAN 与 HDBSCAN 这2种算法。由图3 可知,HDBSCAN 于低密度区域的识别能力显著强于 DBSCAN。DBSCAN算法依赖固定的全局距离阈值,难以同时适配高密度与低密度区域,致使大量稀疏轨迹点被误判作噪声,进而引发聚类结构的片段化与丢失。HDBSCAN 通过构建基于局部密度地层次结构,自适应地识别不同密度的簇,有效保留了边缘轨迹与稀疏区域,其聚类结果在结构完整性与连续性方面呈现更优态势,尤其适用于内河水域这类密度差异显著地轨迹数据。
尽管HDBSCAN整体聚类效果较好,但部分轨迹段仍表现出“间断”现象。这种现象主要由两方面因素共同造成:一是在数据预处理阶段采用了轨迹压缩方法,该方法在曲线段保留较多点,而平稳直线段则点数稀疏,导致原本连续的通行轨迹在密度空间中被稀释,平缓区域点密度不足,未达到最小簇规模,进而被判定为噪声;二是轨迹在部分段落存在航向突变,造成特征表现不连续,进一步削弱聚类连贯性。轨迹间断现象反映出HDBSCAN在保持聚类纯度与结构可靠性之间的取舍,也体现了轨迹压缩策略对局部密度变化的影响,具有方法层面的合理性与解释基础。
从聚类结构的分析角度出发,HDBSCAN能够有效揭示轨迹数据在空间上的通行模式与分布特征。聚类结果整体呈现出良好的空间解耦性,多个类簇沿主通航通道带状分布,走势自然,边界清晰,未出现明显重叠,体现出算法在轨迹段落划分上的高鲁棒性。聚类还实现了对上下行航线的有效区分,各自聚类簇分布相对独立、互不交叉,充分反映了航行方向的差异性和结构分离性。各簇内部轨迹方向一致性高,点密集度良好,说明聚类结果具备较强的航行一致性与代表性。尤其在弯曲航段和分流区域,类簇结构自然过渡,轨迹走向变化平滑,能够真实还原船舶在关键水域的动态特征。这种高质量聚类结构不仅为后续通行结构抽取奠定了坚实基础,也为上下行航迹建模、行为识别等应用提供了准确分层的数据支撑。聚类结果在覆盖性方面也表现出良好的完整性。主要航道区域被多个连续簇充分覆盖,轨迹骨架清晰、结构连贯,整体形态与水域几何结构高度吻合,进一步验证了HDBSCAN算法在复杂水域轨迹聚类分析中的适用性与实用性。
聚类结果不仅揭示了船舶在典型内河水域的行为模式,还进一步为路径提取、通行区域建模以及轨迹结构简化等提供了基础支撑。通过对轨迹簇结构的识别与归纳,判断出轨迹簇之间的连通性,从而建立轨迹簇有向图,构建主通行路径的骨架信息,为路径规划算法的结构输入、通行约束设置及路径优化提供重要支持。同时,聚类分析可辅助识别通行密集区域与交通瓶颈,为水域通航组织、航标布设与智能调度等任务提供数据参考。这一数据驱动的聚类方法增强了轨迹结构建模的工程适应性,也为后续路径规划系统的设计与部署奠定了坚实基础。
3 结 语本文基于实际轨迹数据,采用HDBSCAN算法对目标水域的历史航迹进行了聚类分析。实验结果表明,该方法能够有效提取轨迹的主通行结构。聚类过程还能有效剔除异常轨迹与离散点,提升了轨迹数据的整体稳定性与可用性。最终获得的聚类结果在空间覆盖范围、轨迹形态以及方向一致性等方面均表现出良好的代表性与连续性。该聚类结构为后续开展基于轨迹数据的路径提取、通行规律建模以及最优路径规划等研究任务提供了稳定、可靠且高质量的数据支撑。
| [1] |
HE Z, CHU X, LIU C, et al. A novel model predictive artificial potential field based ship motion planning method considering COLREGs for complex encounter scenarios[J]. ISA Transactions, 2023, 134: 58-73. DOI:10.1016/j.isatra.2022.09.007 |
| [2] |
GAO P, XU P, CHENG H, et al. Hybrid path planning for unmanned surface vehicles in inland rivers based on collision avoidance regulations[J]. Sensors, 2023, 23(19): 8326. DOI:10.3390/s23198326 |
| [3] |
甄荣, 邵哲平, 潘家财. 基于AIS数据的船舶行为特征挖掘与预测: 研究进展与展望[J]. 地球信息科学学报, 2021, 23(12): 2111-2127. ZHEN R, SHAO Z P, PAN J C. Advance in character mining and prediction of ship behavior based on AIS data[J]. Journal of Geo-information Science, 2021, 23(12): 2111-2127. |
| [4] |
韩保隆. 基于深度学习和改进K-means文本聚类算法研究[D]. 大连: 大连交通大学, 2023.
|
| [5] |
赵小强, 姚青磊. 基于DBSCAN聚类分解和过采样的随机森林不平衡数据分类算法[J]. 兰州理工大学学报, 2023, 49(6): 80-89. ZHAO X Q, YAO Q L. Classification algorithm of imbalanced data using DBSCAN decomposition and oversampling based random forest[J]. Journal of Lanzhou University of Technology, 2023, 49(6): 80-89. DOI:10.3969/j.issn.1673-5196.2023.06.012 |
| [6] |
周传华, 鲁勇, 于猜. 基于数据分区的OPTICS聚类算法[J]. 传感器与微系统, 2022, 41(10): 103-107. ZHOU C H, LU Y, YU C. OPTICS clustering algorithm based on data partitioning[J]. Sensors and Microsystems, 2022, 41(10): 103-107. DOI:10.13873/J.1000-9787(2022)10-0103-05 |
| [7] |
MCINNES L, HEALY J, ASTELS S. Hdbscan: hierarchical density based clustering[J]. Journal of Open Source Software, 2017, 2(11): 205. DOI:10.21105/joss.00205 |
| [8] |
YANG J, LIU Y, MA L, et al. Maritime traffic flow clustering analysis by density based trajectory clustering with noise[J]. Ocean Engineering, 2022, 249: 111001. DOI:10.1016/j.oceaneng.2022.111001 |
| [9] |
GAO M, SHI G Y. Ship spatiotemporal key feature point online extraction based on AIS multi-sensor data using an improved sliding window algorithm[J]. Sensors, 2019, 19(12): 2706. DOI:10.3390/s19122706 |
| [10] |
郝永志. 基于AIS大数据的船舶路径规划方法研究[D]. 上海: 上海海事大学, 2023.
|
2026, Vol. 48
