舰船科学技术  2025, Vol. 47 Issue (4): 168-172    DOI: 10.3404/j.issn.1672-7649.2025.04.027   PDF    
基于大数据的船舶会遇热点区域挖掘技术开发
陈麒龙1, 黄鹏飞2     
1. 集美大学 理学院,福建 厦门 361021;
2. 集美大学 航海学院,福建 厦门 361021
摘要: 船舶交通密度的增大会直接影响船舶航行的安全性,本文提出一种基于大数据挖掘技术的船舶会遇热点区域分析方法,首先将AIS数据、雷达数据以及图像数据作为船舶会遇热点区域分析的数据来源,并提出一种多源数据的预处理和融合方法。定义了3种船舶会遇基本特征,探讨了船舶属性、环境属性和船舶会遇之间的关联规则,在此基础上使用K-means聚类算法对船舶会遇热点区域进行分析,结果表明本文提出的方法可以有效对船舶会遇热点区域进行分析和标定,有效降低会遇热点区域的船舶碰撞概率。
关键词: 会遇     大数据挖掘     K-means     聚类分析    
Development of hot spot area mining technology for ship encounters based on big data
CHEN Qilong1, HUANG Pengfei2     
1. School of Science, Jimei University, Xiamen 361021, China;
2. Navigation College, Jimei University, Xiamen 361021, China
Abstract: The increase in ship traffic density will directly affect the safety of ship navigation. This article proposes a method for analyzing the hot spot areas of ship encounters based on big data mining technology. Firstly, AIS data, radar data, and image data are used as the data sources for analyzing the hot spot areas of ship encounters, and a preprocessing and fusion method for multi-source data is proposed. Three basic characteristics of ship encounters are defined, the association rules among ship attributes, environmental attributes and ship encounters are discussed. On this basis, the K-means clustering algorithm is used to analyze the hot spot areas of ship encounters. The results show that the method proposed in this article can effectively analyze and calibrate the hot spot areas of ship encounters and effectively reduce the probability of ship collisions in the encounter hot spot areas.
Key words: ship encounter     big data mining     K-means     cluster analysis    
0 引 言

全球贸易的蓬勃发展促使海上运输业日益繁荣,船舶数量持续攀升,船舶交通流量在各大海域呈现出显著的增长态势。在繁忙的马六甲海峡、地中海以及我国的长江口等海域,船舶交通密度不断增大。这种高密度的船舶交通状况导致船舶会遇事件频繁发生,极大地增加了海上航行的复杂性和危险性。通过准确地挖掘船舶会遇热点区域,能够提前识别出海上航行中潜在的高风险区域。海事管理部门可以据此制定更为科学合理的海上交通管制措施,在热点区域加强巡逻力度、优化船舶航行规则、合理规划航道等,从而有效降低船舶碰撞事故的发生概率,保障船员的生命财产安全以及海洋环境的保护。对于航运企业而言,掌握船舶会遇热点区域信息有助于优化船舶航线规划,船舶可以提前避开拥堵的热点区域,选择更为畅通、高效的航行路线,减少不必要的航行延误,降低燃油消耗和运营成本。

随着信息技术的飞速进步,船舶在航行过程中配备的自动识别系统(AIS)、雷达等设备能够实时采集海量的航行数据,包括船舶的位置、速度、航向、船型等丰富信息。与此同时,卫星遥感技术、海上监测平台以及海事部门的管理记录等也为船舶数据的获取提供了多种途径。这些海量且多源的数据为深入分析船舶会遇情况提供了良好的数据基础。然而如何从这些繁杂且规模庞大的数据中提取出有价值的信息,尤其是精准地挖掘出船舶会遇热点区域,成为了当前航海安全领域亟待解决的关键问题。

目前国内外对大数据挖掘技术的研究较为成熟,李东枫[1]提出对海量AIS数据进行分析,使用聚类算法对船舶危险会遇热点区域进行分析和研究,张哲[2]采用数据挖掘方法对船舶交通事故进行预测,将海上交通事故输入到预测模型,取得了不错的预测效果。安健鹏等[3]使用船舶轨迹聚类技术,研究了一种基于大数据的船舶轨迹规律挖掘方法,能够对船舶同类型的轨迹进行集中提取和识别。钟璐潞[4]使用大数据可视化分析技术对船舶进行监管,有效提升了航运管理效率。总结可以发现,大数据挖掘技术在船舶交通事故预测以及监管上都取得了不错的效果,但是使用大数据挖掘技术对船舶交通事故的预测仍然不够全面,李东枫的研究基于单一AIS数据,本文基于多源数据(包括AIS数据、雷达数据、图像数据等)对船舶的会遇热点区域进行分析,这样可以有效提升分析的准确性。

1 船舶会遇大数据来源与预处理 1.1 多源数据来源

对船舶会遇热点区域进行分析,需要首先对船舶各类数据进行收集,这些数据不仅包含常规的AIS数据,同时还包括雷达数据、图像数据等[56]

1)AIS 数据

AIS数据中包含信息较多,AIS系统作为船舶自动识别的核心设备,能够持续广播船舶的多项关键信息。包括但不限于船舶的静态数据,如海上移动业务识别码(MMSI),这是每艘船舶独一无二的身份标识,还有船名、呼号、船长、船宽等详细信息;动态数据方面,实时的经纬度坐标精确描绘船舶的位置信息,船速与航向数据则反映船舶的行驶状态与方向,此外,航行状态(如在航、锚泊、系泊等)以及转向率等信息也能通过AIS系统获取。这些AIS数据借助甚高频(VHF)通信频段进行传输,在一定范围内可被其他船舶或岸上基站接收,为船舶会遇分析提供了基础且全面的信息源。众多船舶的AIS数据不断更新,监管部门可以通过接收这些数据,清晰地掌握每艘船舶的基本情况和实时动态,为船舶会遇的预判和管理提供依据。

2)雷达数据

船用雷达通过发射电磁波并接收反射波来探测周围目标。它能够精确测定目标船舶相对于本船的距离,这一距离信息对于判断船舶之间的相对位置关系至关重要;方位角数据则明确了目标船舶所处的方向;同时,雷达还能获取目标的相对运动速度等信息。雷达以一定的扫描周期对周围海域进行扫描,形成一系列连续的扫描数据,这些数据能够反映出目标船舶在一段时间内的运动轨迹变化情况。在能见度不良的海域航行时,雷达数据成为船舶驾驶员了解周围船舶分布和运动态势的关键依据,对于避免船舶会遇时发生碰撞事故起着不可或缺的作用。

3)图像数据

随着光学成像技术在航海领域的应用,船舶上安装的摄像头以及岸基监控摄像头能够获取大量的图像数据。这些图像数据直观地呈现出船舶周围的海域场景、其他船舶的外观特征以及相对位置关系等信息。图像数据的分辨率、拍摄角度以及拍摄时间间隔等因素都会影响其对船舶会遇分析的价值。高分辨率的图像能够更清晰地识别船舶细节,多视角的拍摄则有助于全面了解船舶的空间位置关系。

1.2 多源数据预处理

在采集到的船舶数据中,由于设备故障、信号干扰或人为错误等原因,可能会出现异常值,AIS数据中可能会出现个别船舶的位置信息突然跳变到远离其正常航行区域的情况,或者船速数据出现远超船舶正常速度范围的极大值。对于这类异常值,可以基于统计学原理,设定合理的数据阈值范围,当数据超出该范围时,则将其判定为异常值。根据某一海域船舶的历史航行数据统计分析,确定船舶正常航速的阈值区间,若采集到的航速数据超出此区间,则对该数据进行进一步核实或修正[7]

由于数据采集设备的工作特性或数据传输过程中的问题,可能会产生重复的数据记录。AIS数据可能在短时间内多次重复发送相同的船舶信息,或者在数据存储过程中因操作失误导致同一数据被多次存储。为了减少数据冗余,提高数据处理效率,需要对重复数据进行剔除。可以通过比较数据记录中的关键信息(如MMSI、时间戳、位置信息等)来判断是否存在重复数据。若2条数据记录在关键信息上完全一致,则可认定为重复数据并删除其中一条。

船舶会遇分析所涉及的数据来源广泛,其数据格式也多种多样。AIS数据通常以特定的文本格式存储和传输,其中包含了以特定字符分隔的船舶各类信息字段;雷达数据则可能以二进制格式存储,其数据结构与AIS数据截然不同;图像数据一般为常见的图像文件格式(如JPEG、PNG等)。为了实现数据的综合利用,需要将这些不同格式的数据转换为统一的、便于处理的格式。可以将AIS数据和雷达数据中的关键信息提取出来,转换为结构化的表格数据格式(如 CSV格式),将图像数据进行特征提取后,以向量形式与其他数据进行关联整合。

除了格式差异外,不同来源的数据在语义、时间同步和空间参考系等方面也存在差异。AIS数据和雷达数据对于同一船舶的位置信息可能由于测量精度和方法的不同而存在一定偏差,图像数据所反映的船舶位置与AIS和雷达数据的空间坐标系统可能不一致,而且不同设备的数据采集时间可能不完全同步。为了实现数据的有效融合,需要建立统一的空间参考系和时间基准,对数据进行坐标转换和时间校准。同时,还需要对数据的语义进行统一理解和映射,确保不同来源的数据能够准确地关联和整合在一起。例如,通过建立地理信息系统(GIS)平台,将AIS数据、雷达数据和图像数据在统一的地图空间中进行展示和分析,实现数据在空间上的融合;通过时间戳的对齐和校准,确保不同来源数据在时间序列上的一致性。

2 船舶会遇特征分析 2.1 船舶危险会遇识别

船舶危险会遇是指2艘或多艘船舶在海上航行过程中,由于它们之间的距离、相对速度、航向等因素的综合作用,使得船舶之间存在碰撞危险或者处于一种不安全的接近状态。这种状态可能会导致船舶碰撞事故的发生,或者使船舶不得不采取紧急避让措施来避免碰撞。具体来说,从距离角度看,当船舶之间的距离小于一定的安全距离阈值时,就可能处于危险会遇状态。安全距离的确定会受到船舶大小、速度、航行环境(如能见度)等多种因素的影响。从相对运动角度,当船舶的相对航向使得它们有相互靠近的趋势,并且相对速度较快,无法保证在安全距离外通过时,也属于危险会遇。

本文提出基于最小会遇距离(DCPA)和会遇时间(TCPA)的船舶危险会遇识别办法,其中,最小会遇距离(DCPA)是指在没有采取任何避碰措施的情况下,2艘船舶在会遇过程中最接近时的距离。最小会遇时间(TCPA)是从当前时刻到船舶达到最小会遇距离时刻所需要的时间。

假设船舶A的位置为(xA, yA),速度为vA,航向为θA;船舶B的位置为(xB, yB),速度为vB,航向为θB,定义${{\Delta }}\theta = {\theta _A} - {\theta _B}$,则

$ \begin{split} {\rm{DCPA}} = & \sqrt {{{({x_A} - {x_B})}^2} + {{({y_A} - {y_B})}^2}} \cdot \\ & \sin \left( {\arctan \left( {\frac{{{v_A} \sin ({\theta _A} - {\theta _B})}}{{{v_B} - {v_A}\cos ({\theta _A} - {\theta _B})}}} \right)} \right), \end{split}$
${ {\rm{TCPA}} = \dfrac{\sqrt{\left(x_A - x_B\right)^2 + \left(y_A - y_B\right)^2}\cos\left(\arctan\left( \dfrac{v_A\sin\Delta\theta}{v_B - v_A\cos\Delta\theta}\right)\right)}{\sqrt{v_A^2 + v_B^2 - 2v_Av_B\cos\left(\theta_B - \theta_A\right)}}。} $

当DCPA小于设定的安全距离阈值,并且TCPA小于一定的时间阈值时,可判定船舶处于危险会遇状态。图1为船舶危险会遇识别示意图,船舶1和船舶2为对遇的状态,在一段时间内船舶1和船舶2必然进入危险会遇状态,此时船舶1和船舶2都需要调整航向才可避免撞击。船舶3和船舶4的会遇则需要考虑两船的航速、航向等,这种船舶会遇属于交叉会遇。AIS设备能够提供船舶的位置(经度和纬度)、速度、航向、船名、船舶类型等信息。通过实时接收和分析AIS数据,可以跟踪船舶的运动轨迹。根据船舶的当前位置、速度和航向信息,利用线性预测或者更复杂的船舶运动模型来预测船舶在未来一段时间内的运动轨迹。当多艘船舶的预测轨迹存在交叉点,并且在交叉点处船舶之间的距离和时间满足危险会遇的条件时,即识别为危险会遇。

图 1 船舶危险会遇识别示意图 Fig. 1 Diagram of ship dangerous encounter recognition
2.2 会遇特征

对船舶会遇热点的分析建立在船舶危险会遇识别的基础上,对船舶历史轨迹特征和时间特征的分析是船舶在针对当时存在危险会遇的情形下作出航速、航向等调整后形成的最终轨迹,因而对会遇热点区域的分析只需将DCPA和TCPA设定在一个合理区间时,即可认为两只船舶存在会遇。

1)轨迹特征:船舶的位置是其运动轨迹的基础要素,通过AIS或其他定位系统获取的经纬度数据,能够精确确定船舶在地球表面的坐标位置。在船舶会遇分析中,连续的位置点构成了船舶的航行轨迹。在特定时间段内,一艘船舶的位置序列可描绘出其从起始点到终点的航行路径,这些位置数据有助于判断船舶是否进入特定海域或靠近其他船舶的航线范围。通过对多艘船舶位置数据的对比,可以发现潜在的会遇趋势。

2)时间特征:船舶会遇在时间上呈现出一定的分布规律。某些海域在特定季节或时间段内船舶流量较大,会遇事件更为频繁。采用 ARIMA(自回归移动平均)模型、季节性 ARIMA 模型等时间序列分析方法,对长时间序列的船舶会遇数据进行建模。分析某港口的进出口航道船舶会遇情况,每天早晚高峰时段,由于船舶进出港集中,会遇频率呈现周期性峰值。以时间为横轴,船舶会遇频率为纵轴,构建船舶会遇时间序列,如图2所示。通过这些时间序列分析,能够准确把握船舶会遇频率随时间的变化规律,为海上交通流量管控提供依据,在不同时间段的合理配置巡逻船只。

图 2 某港口船舶会遇时间序列 Fig. 2 Time series encountered by ships in a port

3)空间特征:船舶会遇在空间上也有其特定的分布特征。某些海域由于地理位置、航道布局或资源分布等原因,成为船舶会遇的热点区域。在重要的海峡、航道交汇处或港口附近,船舶交通密度大,会遇频繁。通过对船舶位置数据的空间聚类分析,可以识别出这些船舶会遇热点区域。确定船舶会遇的空间分布有助于优化航道规划、设置导航设施以及合理配置海上救援力量。

2.3 船舶会遇关联规则挖掘

对船舶会遇热点区域挖掘不仅需要充分利用会遇特征,同时还需要制定船舶会遇的关联规则,才能最终确定船舶会遇的热点区域。

1)关联规则挖掘-船舶属性

从船舶航行数据中提取船舶的属性信息,如船型(集装箱船、油轮、散货船等)、船舶尺寸、载重吨等,以及航行状态信息(如航行、锚泊、作业等)。利用 Apriori 等关联规则挖掘算法,探寻船舶属性与会遇之间的内在联系。通过分析发现,大型油轮在特定海域与小型渔船的会遇概率较高,原因是该海域是渔业作业区,同时也是油轮的常用航道;在港口进出口航道,由于船舶频繁进出港,处于锚泊状态的船舶与航行状态的船舶会遇频繁,这些关联规则有助于针对性地制定不同类型船舶在不同区域的航行安全措施。

航速与会遇概率也会存在关联,在某些繁忙航道,航速较慢的船舶更容易与其他船舶发生会遇,这是由于航速差异导致船舶间距缩小,会遇风险增加。通过这些关联规则的挖掘,为船舶交通管理部门提供精细化的管理建议,如合理规划不同航速船舶的航道,降低会遇风险。

2)关联规则挖掘-环境因素

将海洋环境数据(如海浪、海流、风向风速等)纳入分析范畴,与船舶会遇数据进行关联挖掘。在某些海域,当海流流速较大且流向与船舶主要航线夹角较大时,船舶为了保持航向,需要频繁调整舵角,导致航迹发生变化,从而增加与其他船舶的会遇概率。在强风天气下,小型船舶受风力影响较大,航迹不稳定,容易与正常行驶的大型船舶发生危险会遇。通过揭示这些环境因素与会遇的关联,能够提前预警恶劣天气条件下的船舶会遇风险,为海上交通安全保障提供有力支持。

3 基于K-Means的船舶会遇热点区域仿真分析

K-Means算法是一种常用的基于划分的聚类算法,其基本思想是将数据集划分为K个不同的簇(cluster),使得同一簇内的数据点相似度尽可能高,而不同簇之间的数据点相似度尽可能低。在船舶会遇热点区域分析时,数据点通常是船舶在不同时刻的位置信息,且综合了位置、速度、航向等多种特征信息所构成的向量。K-Means算法的基本思想是先随机选择一个数据点作为第一个聚类中心,然后依次选择离已选聚类中心较远的数据点作为新的聚类中心,使得初始聚类中心在数据空间中分布更均匀,从而减少因初始中心选择不佳导致的局部最优问题,提高聚类结果的稳定性和准确性[8]

图3(a)为根据船舶轨迹特征、时间特征和空间特征获得的船舶会遇热点区域分布图,设定不同的船舶会遇条件,如船舶最小会遇距离、船舶会遇时间等,可以获得不同的聚类分析结果,如图3(b)和图3(c)所示,从而进一步确定船舶会遇的热点区域。

图 3 K-means聚类算法仿真 Fig. 3 Simulation of K-means clustering algorithm

图4为某一时间断内船舶会遇热点区域分析,轨迹存在交叉或重合的船舶则存在会遇的可能性,数量越多则说明该地区会遇热度越高。对这些轨迹进行初步分析后,结合AIS的时间数据即可进一步确定这些热点区域中的会遇情形,进而确定了船舶会遇的热点区域,并使用红色框进行标定。

图 4 某一时间断内船舶会遇热点区域分析 Fig. 4 Analysis of ship encounter hotspot areas within a certain time interval
4 结 语

本文的主要结论如下:

1)提出将AIS数据、雷达数据以及图像数据作为船舶会遇热点区域分析的数据来源,并提出了一种多源数据的预处理方法;

2)提出了3种船舶会遇特征,探讨了船舶属性、环境属性和船舶会遇之间的关联规则,并在此基础上使用K-means聚类算法对船舶会遇热点区域进行分析,设定不同的会遇条件会直接影响会遇热点区域的分析结果。

参考文献
[1]
李东枫. 基于AIS大数据的船舶危险会遇热点区域挖掘研究[D]. 广州: 华南理工大学, 2017.
[2]
张哲. 基于历史数据挖掘的海上船舶交通事故预测[J]. 舰船科学技术, 2024, 46(14): 174-177.
ZHANG Z. Prediction of marine ship traffic accidents based on historical data mining[J]. Ship Science and Technology, 2024, 46(14): 174-177.
[3]
安健鹏, 李海霞, 雷亚丽, 等. 基于大数据的船舶活动轨迹规律挖掘方法[J]. 火力与指挥控制, 2024, 49(4): 156-163. DOI:10.3969/j.issn.1002-0640.2024.04.024
[4]
钟璐潞. 大数据可视化分析及展现在珠江航运精准监管场景中的应用研究[J]. 中国水运, 2023(9): 45-47.
[5]
赵琳. 基于数据挖掘的船舶通信网络信号传输数学模型[J]. 舰船科学技术, 2023, 45(19): 169-172. DOI:10.3404/j.issn.1672-7649.2023.19.031
[6]
李朝阳. 基于大数据分析的船舶运输可持续性研究[J]. 珠江水运, 2023(13): 29-31.
[7]
马昊, 贾大山, 朱吉双. 基于AIS数据的港口船舶服务效率智能测算方法[J]. 中国航海, 2023, 46(2): 99-105. DOI:10.3969/j.issn.1000-4653.2023.02.014
[8]
钮晓浩. 大数据在船舶港内操纵避碰方面的应用[J]. 中国航务周刊, 2023(19): 46-48.