«上一篇
文章快速检索     高级检索
下一篇»
  哈尔滨工程大学学报  2020, Vol. 41 Issue (6): 840-845  DOI: 10.11990/jheu.201901017
0

引用本文  

雷进宇, 初秀民, 蒋仲廉, 等. 内河船舶自动识别系统异常数据的可视分析[J]. 哈尔滨工程大学学报, 2020, 41(6): 840-845. DOI: 10.11990/jheu.201901017.
LEI Jinyu, CHU Xiumin, JIANG Zhonglian, et al. Abnormal automatic identification system data by visual analytics[J]. Journal of Harbin Engineering University, 2020, 41(6): 840-845. DOI: 10.11990/jheu.201901017.

基金项目

国家自然科学基金项目(51479155);福建省自然科学基金项目(2018J0106);福建省教育厅中青年教师教育科研项目(JAT170439)

通信作者

郭涛, E-mail:1940856771@qq.com

作者简介

雷进宇, 男, 博士研究生; 初秀民, 男, 研究员, 博士生导师; 郭涛, 男, 博士研究生

文章历史

收稿日期:2019-01-05
网络出版日期:2020-04-14
内河船舶自动识别系统异常数据的可视分析
雷进宇 1,2, 初秀民 1,2,3, 蒋仲廉 1,2, 钟诚 1,2, 吴明洋 1,4, 郭涛 1,2     
1. 国家水运安全工程技术研究中心, 湖北 武汉 430063;
2. 武汉理工大学 能源与动力工程学院, 湖北 武汉 430063;
3. 闽江学院 物理与电子信息工程学院, 福建 福州 350108;
4. 武汉理工大学 物流工程学院, 湖北 武汉, 430063
摘要:内河水路运输由于其特殊的通航环境,导致内河船舶的自动识别系统数据中存在着大量异常数据。针对传统异常数据处理常用的数据剔除和数据恢复方法中对原始数据造成的资源浪费问题,本文利用可视分析方法实现资源重复利用,帮助分析人员对长江内河的"脏"数据存在的异常模式和导致其异常的内河环境因素进行探索。结合散点图来反映轨迹点间的时空距离的查分从而挑选船舶自动识别系统中存在数据丢失和偏移现象的"脏"数据,对所有被标记为脏数据的船舶自动识别系统轨迹点展示在OpenStreetMap地图,利用内河中的实际案例对可视分析方法进行实证测试。通过自动识别系统数据的基站覆盖范围分析,船舶自动识别系统的数据偏移致因分析等结果展示可视分析方法在船舶自动识别系统异常数据挖掘中具有适用意义价值。
关键词水路运输    异常数据    可视分析    自动识别系统    内河船舶    通航环境    脏数据    数据丢失    
Abnormal automatic identification system data by visual analytics
LEI Jinyu 1,2, CHU Xiumin 1,2,3, JIANG Zhonglian 1,2, ZHONG Cheng 1,2, WU Mingyang 1,4, GUO Tao 1,2     
1. National Engineering Research Center for Water Transport Safety, Wuhan 430063, China;
2. School of Energy and Power Engineering, Wuhan University of Technology, Wuhan 430063, China;
3. Department of Physics and Electronic Information Engineering, Minjiang University, Fuzhou 350108, China;
4. School of Logistics Engineering, Wuhan University of Technology, Wuhan 430063, China
Abstract: Due to the special navigation environment of inland waterway transportation, there are a number of abnormal data existing in the automatic identification system of inland waterways. In traditional automatic identification system data analysis procedures, these dirty data are eliminated or replaced by reasonable data via a restoration approach without further exploration. In this study, visual analytics is applied to reuse dirty data, which helps analyzers detect the pattern and gain the knowledge of automatic identification-system data anomalies in the Yangtze River. First, a scatter graph is applied to explore the missing data and deviation according to the spatial and temporal intervals between the consecutive position points of identical trajectories. Second, points labeled as the dirty data of the ship automatic identification system's trajectory points are clustered and displayed in OpenStreetMap. Finally, an empirical test is conducted for the visualization analysis on the basis of the actual data of inland vessels. The analysis of the automatic identification system base station's covering range and cause analysis of the malicious turnoff data of the system verify the applicability of the visualization analysis method in the abnormal data mining of ship automatic identification system.
Keywords: waterway transportation    abnormal data    visual analysis    automatic identification system    inland vessels    environment inland    dirty data    missing data    

自动识别系统(automatic identification system, AIS)是集现代通信、网络和信息科技于一体的多门类高科技新型助航设备和安全信息系统,广泛应用于海事通信及安全监测中。作为海事数据分析的主要数据源,大量的数据必然引起“脏”数据的产生。受制于通信链路、信道干扰以及器件自身固有误差等因素,伴随有数据异常、数据缺失等现象。上述现象产生的数据也被称之为“脏”数据。因此在自动识别系统数据分析前,数据往往需要对脏数据进行预处理,然后将处理后的数据导入模型进行交通流的分析。

目前,面对“脏”数据的主要预处理处理方法有数据清洗及数据重构。数据清洗通常是依据某种规则或多种规则的结合对原始数据进行筛选过滤。然后对筛选出不符合要求的数据直接剔除[1-2]。数据重构则是依据数据本身规律及特点,对原数据缺失部分进行修复还原等工作,文献[3]利用ER推理的方法过滤自动识别系统异常数据并结合船舶动力学对过滤的自动识别系统数据进行还原。这意味着其中的一些异常的原始数据和缺失的数据(也称作脏数据)将被完全滤除。

上述方法的主旨思想均在于如何将“脏”数据剔除或者是将“脏”数据变“好”,但是却忽略了“脏”数据本身蕴藏的价值。例如数据的丢失能反映出内河沿线基站的覆盖范围和其存在的盲区。“脏”数据中的信息及特征如果得到有效挖掘利用,对自动识别系统数据维护管理、错误数据产生致因等问题,可以提供重要的数据支撑。

可视分析方法已经成功的应用于众多领域,特别是数据分析以及地理信息GIS系统中。文献[4]提出了基于特征解选取的n维图表可视化技术有效去除了Pareto最优解集中性能相近的冗余解。文献[5]利用标签云可视化模型将文本信息和地理信息结合分析了位置关联信息中的总体特征和信息。WILLEMS等[6]通过对海上船舶轨迹进行可视化,分析船舶的异常行为和航行风险,证明可视分析方法在船舶异常行为模式方面也有广阔应用前景。

缺失数据经常被忽视,即使缺失数据很重要仍然有些可视分析仅仅利用剩余数据并得出相应的结论。文献[7]利用带有断层的折线图来可视化数据中的缺失。文献[8]采用的可视化方法是在保持轮廓光滑明亮的情况下通过调低色调来展示缺失数据。文献[9]则利用统计学方法计算出缺失数据的可能范围并采用类似盒图的方法来可视化缺失数据的不确定性。文献[10]则利用了空缺,模糊以及空缺加注释的方法来进行可视化展示,经过实践分析表明,空缺加注释的方法更有助于用户对缺失数据的理解。文献[11]提出一套利用可视分析来理解数据质量的流程和方法,并采用不同的可视化模型对移动数据进行展示分析,发现了其中一些数据的缺失并解释了其发生的原因。然而并没有对这些异常数据进行探索,未对异常数据的规律及其间接反映出来的周围环境特征进行深入研究。

异常值是指与大多数数据偏离较大的数据。交通定位数据可视分析中常见的统计、聚类等方法表达的则是海量数据的统计信息,无法揭开单个轨迹点中的脏数据信息。为了解决这种弊端,文献[12]利用最原始的地图路网信息,在经过后台的判断之后,将含有异常的轨迹映射到二维平面地图进行可视化。由于平行坐标可视化模型可以表征高维数据中各维度的隐含关系,因此文献[13]在网络安全异常检测中采用了平行坐标,结果表明该方法可及时发现网络入侵行为。文献[14]则提出一种基于3D多层球面空间可视化模型的异常行为识别模型,该方法能够更好地表现网络活动,服务于网络安全监督。文献[15-16]中结合可视化与人机交互的手段来从原始定位数据中选取出异常数据并利用机器学习的方法寻找更多的异常值,从而来发现数据质量问题进行数据质量的评估。然而并未对这些检测出的异常数据进行更深入的挖掘研究。

因此本文试图通过可视分析方法研究自动识别系统的动态数据从而对内河水路交通中存在的几种主要自动识别系统“脏”数据和其致因加以讨论分析并循环利用充分挖掘其中的价值。本文首先对几种常见的数据质量问题及其可视方法进行介绍,然后分别阐述了总体分析流程和各个可视化模型的具体功能及其交互手段。最后在实际内河的船舶交通流数据基础上结合典型的案例分析对可视分析方法进行实证测试。

1 异常数据可视分析方法 1.1 分析框架

本文通过综合自动识别系统数据可视化展示和人机交互手段来探索异常自动识别系统数据中的规律,具体的异常数据的分析框架如图 1所示。首先将原始数据进行相邻点间的时空距离差分计算,然后将计算结果投影在散点图中,其次用户可对散点图中的正常、异常、静止以及丢失等不同区域的轨迹数据进行交互筛选探索感兴趣的数据,然后通过对筛选出的轨迹数据聚类变换映射在OpenStreetMap(OSM)地图中,通过人机交互对不同轨迹进行标记存储进数据库进行下一步分析。

Download:
图 1 分析框架 Fig. 1 Analysis flow chart
1.2 系统设计

OSM开放平台提供了基础地图编辑组件,用户根据自身数据内容自由绘制点、线等数据,如图 2所示。因此本在此基础上,设计了一套可交互的散点图设计来对“脏”数据进行可视分析。散点图视图设计为一个横轴和纵轴分别为同一水上移动通信业务标识码(MMSI)船舶的相邻轨迹点的时间差和距离差如图 3所示。

Download:
图 2 基于开放街道地图的地图展示 Fig. 2 Map display based on open street map
Download:
图 3 轨迹点散点图示意 Fig. 3 Scatter plot of space-time difference

图中实线、点划线和虚线依次分别代表最大速度线、最小速度线和最大时间线,由这3条线则把散点图分为正常行驶区域、异常区域、船舶静止区域与自动识别系统数据丢失区域,实际效果如图 4所示,圆点和方框轨迹点分别代表选定的不同种类轨迹点。

Download:
图 4 轨迹点时空差分的散点 Fig. 4 Scatter plot of space-time difference of track point
2 可视化交互

可视化交互是对异常自动识别系统数据可视分析起着关键作用。总体的交互界面如图 5所示,主要由左、中、右3个部分组成。界面左边部分可通过MMSI列表或时间范围对异常数据实施筛选;界面中间部分可通过与地图的放大、缩小以及平移等基本操作交互来观察异常数据在航道中的位置分布;界面右边部分可通过对散点图的圈选,缩放等操作来进一步探索感兴趣的异常数据。

Download:
图 5 交互界面 Fig. 5 User interface
2.1 地图划选操作

地图部分除了放大、缩小、平移等基本操作外还包括:拉索圈选、方框圈选、方框放大等,其中拉索圈选可以更自由的对任意形状的轨迹进行筛选。如图 6中有多条轨迹且相对密集的情况下用拉索圈选更加自由方便。

Download:
图 6 地图圈选交互 Fig. 6 Circle the map selection interaction
2.2 散点数据圈选

散点图圈选操作与地图部分类似,被圈选的点用圆点,其中散点图选中的相应的点在地图中也以相同方式展示,例如图 7(a)图 7(b)中的相互对应圆点。

Download:
图 7 Gps漂移点 Fig. 7 The Gps drift points

此外,如图 8所示当选择提示工具时将鼠标悬停在对应的数据点上则可以展示该数据的具体信息,例如时间、水上移动通信业务标识码(MMSI),航速等。

Download:
图 8 信息悬停 Fig. 8 Information hover
2.3 时空特征过滤

时空过滤的系统部分由时间选择、水上移动通信业务标识码(MMSI)列表构成。由散点图圈选中的点所代表的船舶水上移动通信业务标识码(MMSI)以列表形式展现在左侧板块。当在列表选中一个水上移动通信业务标识码(MMSI)时,OSM地图和散点图对该水上移动通信业务标识码(MMSI)进行相应的展示如图 9。圆点为所有圈选中的水上移动通信业务标识码(MMSI)轨迹点,而当前选定的水上移动通信业务标识码(MMSI)点以方框以便区别。在OSM地图将其相邻轨迹点联结成轨迹线,这样便可以清楚识别出轨迹的漂移图 9左半部分。

Download:
图 9 交互工具 Fig. 9 Interactive tools
3 案例分析 3.1 基站盲区检测

通过散点图中选取位于自动识别系统数据丢失区域的数据,可以发现对应的轨迹点位于左边地图中的位置,如果某区域数据缺失点密集则认为是盲区。点击选择左侧相应的水上移动通信业务标识码则可以从自动识别系统轨迹更直观得展示出明显的数据缺失断层现象如图 10所示,由于长时间无自动识别系统信号发出而造成缺失数据的区域呈现出长条直线的模式。如果有多条轨迹线在某个区域出现这种模式,则可以认定该区域存在盲区。

Download:
图 10 缺失数据轨迹 Fig. 10 Missing data trajectory

图 11可以看出,左侧存在3处数据大量丢失的基站盲区。

Download:
图 11 基站盲区检测 Fig. 11 Base station blind area detection
3.2 船舶异常行为监测

船舶异常点可以通过观察散点图可得进行提取即其中时间间隔短但行驶距离过长的轨迹点则被认为是异常的船舶行为。首先圈选散点图中的异常轨迹点如图 12所示。

Download:
图 12 异常点圈选 Fig. 12 Selection of abnormal data

被圈选的轨迹点则在地图和散点图中皆被标记为圆点并且所属的水上移动通信业务标识码(MMSI)号出现在左侧列表中。通过点选水上移动通信业务标识码(MMSI),发现其中存在2种常见轨迹异常现象。

第1种是轨迹的跳变从而形成了Z字形的轨迹线如图 13所示,它是由一个运动和一个静止的船舶形成的轨迹图。经过分析,该异常是由于长江航道中存在的船员私自篡改水上移动通信业务标识码(MMSI)的现象,因此引发多个运行的船舶在同一时间段内发出了多条水上移动通信业务标识码(MMSI)相同的AIS数据因此产生蛇形轨迹。

Download:
图 13 船舶Z字形轨迹 Fig. 13 Zigzag trajectory

第2种异常轨迹通常是一段正常轨迹中间出现1、2处的轨迹偏移如图 14所示。经过调查该现象是由于长江内河信号经常受岸边无线电干扰以及通航建筑的遮蔽造成了行驶过程中的轨迹跳变。

Download:
图 14 轨迹跳变 Fig. 14 Trajectory jitter
4 结论

1) 在武汉段的实例测试中,通过对缺失数据分析,得到了武汉段基站覆盖盲区的分布。

2) 通过武汉段异常数据的可视分析得出该处异常轨迹发生往往是因为船舶串号现象和环境干扰。

当前研究中,可视化模型的展示略显单一,拟增加更为丰富的可视化模型对轨迹数据进行多元化的展示。此外,在后续研究中,将引入Web Graphics Library(webgl)技术,提升可视化图像生成的效果和效率,使得人机交互更为流畅高效。目前借助先进VR设备,开发的三维虚拟可视化系统能给用户提供一个更好的沉浸式显示环境。在水路交通监管中可为控制决策和预测风险等提供重要依据。

参考文献
[1]
陈金海, 陆锋, 彭国均. 海洋运输船舶轨迹分析研究进展[J]. 中国航海, 2012, 35(3): 53-57.
CHEN Jinhai, LU Feng, PENG Guojun. The progress of research in maritime vessel trajectory analysis[J]. Navigation of China, 2012, 35(3): 53-57. (0)
[2]
雷进宇, 初秀民, 何伟, 等. 桥区船舶交通流可视分析系统[J]. 上海交通大学学报, 2017, 51(7): 840-845.
LEI Jinyu, CHU Xiumin, HE Wei, et al. Visual analytic system of vessel traffic in bridge waterway[J]. Journal of Shanghai Jiao Tong University, 2017, 51(7): 840-845. (0)
[3]
刘兴龙, 初秀民, 马枫, 等. AIS报文异常动态信息甄别方法[J]. 交通运输工程学报, 2016, 16(5): 142-150.
LIU Xinglong, CHU Xiumin, MA Feng, et al. Discriminating method of abnormal dynamic information in AIS messages[J]. Journal of traffic and transportation engineering, 2016, 16(5): 142-150. (0)
[4]
毕晓君, 李博, 王珏. 基于特征解选取的高维多目标可视化研究[J]. 哈尔滨工程大学学报, 2013, 34(9): 1179-1187.
BI Xiaojun, LI Bo, WANG Jue. The visualization of high dimension multi-objective based on the characteristic solution selection[J]. Journal of Harbin Engineering University, 2013, 34(9): 1179-1187. (0)
[5]
华一新, 李响, 赵军喜, 等. 一种基于标签云的位置关联文本信息可视化方法[J]. 武汉大学学报(信息科学版), 2015, 40(8): 1080-1087.
HUA Yixin, LI Xiang, ZHAO Junxi, et al. A tag cloud-based visualization for geotagged text information[J]. Geomatics and Information Science of Wuhan University, 2015, 40(8): 1080-1087. (0)
[6]
SCHEEPENS R, WILLEMS N, VAN DE WETERING H, et al. Composite density maps for multivariate trajectories[J]. IEEE transactions on visualization and computer graphics, 2011, 17(12): 2518-2527. (0)
[7]
KANDEL S, HEER J, PLAISANT C, et al. Research directions in data wrangling:visualizations and transformations for usable and credible data[J]. Information visualization, 2011, 10(4): 271-288. (0)
[8]
TWIDDY R, CAVALLO J, SHIRI S M. Restorer: a visualization technique for handling missing data[C]//Proceedings of Visualization'94. Washington, DC, USA: IEEE, 1994: 212-216. (0)
[9]
BÖGL M, FILZMOSER P, GSCHWANDTNER T, et al. Visually and statistically guided imputation of missing values in univariate seasonal time series[C]//Proceedings of 2015 IEEE Conference on Visual Analytics Science and Technology. Chicago, IL, USA: IEEE, 2015: 189-190. (0)
[10]
ANDREASSON R, RIVEIRO M. Effects of visualizing missing data: an empirical evaluation[C]//Proceedings of 2014 18th International Conference on Information Visualisation. Paris, France: IEEE, 2014: 132-138. (0)
[11]
ANDRIENKO G, ANDRIENKO N, FUCHS G. Understanding movement data quality[J]. Journal of location based services, 2016, 10(1): 31-46. (0)
[12]
刘春辉.面向交通定位数据的可视清洗系统[D].杭州: 浙江工业大学, 2017.
LIU Chunhui. Visual cleaning system for traffic positioning data[D]. Hangzhou: Zhejiang University of Technology, 2017. http://cdmd.cnki.com.cn/Article/CDMD-10337-1017253162.htm (0)
[13]
LEE C P, TROST J, GIBBS N, et al. Visual firewall: real-time network security monitor[C]//Proceedings of IEEE Workshop on Visualization for Computer Security. Minneapolis, MN, USA: IEEE, 2005: 129-136. (0)
[14]
WANG Zuchao, YUAN Xiaoru, YE Tangzhi, et al. Visual data quality analysis for taxi GPS data[C]//Proceedings of 2015 IEEE Conference on Visual Analytics Science and Technology. Chicago, IL, USA: IEEE, 2015: 223-224. (0)
[15]
LIAO Zicheng, YU Yizhou, CHEN Baoquan. Anomaly detection in GPS data based on visual analytics[C]//Proceedings of 2010 IEEE Symposium on Visual Analytics Science and Technology. Salt Lake City, UT, USA: IEEE, 2010: 51-58. (0)
[16]
吴亚东, 蒋宏宇, 赵思蕊, 等. 网络安全数据3D可视化方法[J]. 电子科技大学学报, 2015, 44(4): 594-598, 604.
WU Yadong, JIANG Hongyu, ZHAO Silei, et al. 3D visualization method for network security data[J]. Journal of University of Electronic Science and Technology of China, 2015, 44(4): 594-598, 604. (0)
[17]
彭璇, 方艾芬, 裘晨璐, 等. 公路交通事故可视化分析关键技术研究[J]. 中国公共安全, 2019(2): 52-56.
PENG Xuan, FANG Aifen, QIU Chenlu, et al. Research on key technologies of highway traffic accidents visual analysis[J]. China public security, 2019(2): 52-56. (0)