交通事故点相关道路线形Web数据获取

引用本文

南春丽, 史潇, 裴勃丽. 交通事故点相关道路线形Web数据获取[J]. 应用科技, 2017, 44(6): 36-40. DOI: 10.11991/yykj.201701013.

NAN Chunli, SHI Xiao, PEI Boli. Web data collection of road alignment in traffic accident analysis[J]. Applied Science and Technology, 2017, 44(6): 36-40. DOI: 10.11991/yykj.201701013.

基金项目

国家自然科学基金项目(51278058)

通信作者

史潇，E-mail: shixiao0814@foxmail.com

作者简介

南春丽(1971−)，女，副教授，博士;
史潇(1990−)，男，硕士研究生

文章历史

收稿日期：2017-01-18
网络出版日期：2017-04-06

Contents Abstract Full text Figures/Tables PDF

交通事故点相关道路线形Web数据获取

南春丽, 史潇, 裴勃丽

长安大学信息工程学院，陕西西安 710064

收稿日期：2017-01-18；网络出版日期：2017-04-06

基金项目：国家自然科学基金项目(51278058)

作者简介：南春丽(1971−)，女，副教授，博士;
史潇(1990−)，男，硕士研究生.

通信作者：史潇，E-mail: shixiao0814@foxmail.com.

摘要：目前交通数据存在信息孤岛问题，基础数据不公开，科研人员一般通过现场实测的方式获取。为了方便研究人员采集数据以及扩大样本量，论文给出了一种Web数据获取方法。交通事故与道路线形相关性研究需要分别获取事故点文字信息和相关道路线形空间数据，然后整合。采用Deep Web数据采集方法，获取交通事故点文字描述。针对国内地图中文语义识别较好但坐标加密，国外开源平台中文语义识别较弱但数据公开的特点，给出了将两者优点相结合的方法，通过建立国内地图和国外开源平台坐标映射关系，调用地图和平台接口，获取事故点相关道路数据。根据自动机理论，建立了状态可选的自动机模型，便于从异构的事故点相关数据源中提取道路线形数据。通过获取北京市交通事故Web数据，验证了方法的正确性和实用性，道路线形拟合结果与实际基本一致，符合线形研究的基本要求。

关键词：数据处理 Web数据获取交通事故道路线形语义识别异构数据开源平台自动机模型

Web data collection of road alignment in traffic accident analysis

NAN Chunli, SHI Xiao, PEI Boli

School of Information Engineering, Chang’an University, Xi’an 710064, China

Abstract: At present, the researchers always collect traffic data through sensors by themselves because of the data island and privacy. In order to facilitate researchers to collect data and expand the sample size, this paper presents a Web data acquisition method. The relativity research of traffic accident and road alignment needs to acquire spacial data of both text and geographic information of road alignment, and then integrate them. The text information was collected from Deep Web. Because the Chinese map semantic recognition is better but the coordinates are encrypted, the Chinese semantic recognition of foreign open-source platform is weak but the data is open, a method combining their advantages was given to extract road alignment information. First, it got the road data by setting up the reflection between domestic map and foreign open source platform, call the map and platform interface. Then, a model of robot with optional state was established to extract alignment information from heterogeneous road data. The correctness and practicability of the methods were verified by traffic accident Web data in Beijing. The fitting results of road alignment are basically consistent with the actual situation, and conform to the basic requirements of the research.

Key words: data processing Web data collection traffic accident road alignment semantic recognition heterogeneous data open-source platform automaton model

道路交通事故影响因素较多，国内外目前研究现状主要集中在驾驶人因素、时间因素、环境因素、交通动态因素等方面^[1-4]，关于道路线形与交通事故关系方面的研究较少，已有成果主要集中在道路安全评价和影响分析方面^[5-7]。实际中，道路是引发交通事故的主要因素之一，道路线形是道路设计的主要方面。由美国的Treat和英国的Sabey对大量事故的研究结论可知，交通事故影响因素中，与道路相关的因素达到了28%~34%^[8]。研究道路线形与交通事故的关系，主要目的是为道路设计、道路改造及事故预防提供依据，而道路线形数据获取是该研究的前提和基础。目前国内关于交通事故和道路设计数据分别属于不同部门，数据相对不开放；政府数据公开平台相关工作尚在进行^[9]；空间数据坐标系统不同，部门之间数据不共享，形成信息孤岛；与全球坐标进行转换的参数涉密，难于和信息点(point of interest，POI)进行联动，研究者及普通用户一般通过现场实测的方式获得。

随着计算机及互联网技术的飞速发展，Web成为一个拥有海量数据的信息源。通过对大量交通信息网页的浏览参考发现，国内公布的交通事故数据存在数据嘈杂、信息短缺、格式混乱等特点，并且，对于专业领域数据的搜索，传统的通用搜索引擎存在定位模糊、检索结果排序不合理、表现形式单一等问题^[10]。网络中有一部分数据信息是存放在各网站站点数据库中的，这部分数据信息不能通过网页中的链接直接获取，而需要用户手动填写网站查询表单，提交查询命令才能访问，这些数据被称为Deep Web数据。相对于其他网站静态页面中提供的信息，Deep Web数据数据量更大, 专业性更强, 价值更高^[11]。

本文首先采用Deep Web数据采集方法，获取交通事故点文字描述，然后通过事故点文字描述获取相关道路数据，最后从相关道路数据中提取事故点道路线形空间数据，为城市交通事故与道路线形相关性研究提供基础数据。

1 交通事故点数据获取

国内公布的交通事故数据主要由交通管理部门以网页文本形式发布，一般包含时间、地点、车辆和事故描述等相关信息^[12]。随着电子地图的发展，国内的高德地图、百度地图、搜狗地图、腾讯地图等获得了极大地推广，这些地图面向客户，使用便利，中文识别精确度高，并且都提供有API接口，可以完成交通事故点文字描述到地理空间坐标的转换，但是对于一般研究人员存在数据不透明、价格昂贵等问题。随着开源思想的盛行与推广，国内外涌现了大量种类繁多的开源产品及相关应用^[13-14]，如操作系统Linux、Web服务器Apache、轻量级数据库MySQL等。

综上，文中提出先调用对中文语义识别较好的国内地图API处理交通事故点文字描述，获得该地点在地图中的地理空间坐标，并将空间坐标映射到开源平台支持的坐标系统中，然后使用映射后的坐标调用开源数据平台API获取事故点道路相关数据，技术路线如图1所示。

为了保证数据的真实可靠和权威性，需要确定专业网站获取可靠数据。通过选定的搜索关键词，根据不同的交通事故网站构建特定的URL进行访问，传递查询关键词，获取站点返回信息并进行处理，得到需求的交通事故点文字描述。调用国内地图API将文字描述转换为地理空间坐标，再由事故点地理空间坐标在开源数据平台获取道路相关数据。

图 1 交通事故点数据获取

2 事故点道路线形空间数据提取

从不同开源数据平台得到的道路数据可能存在异构性，常见的有dxf数据格式、xml数据格式以及提供序列化与反序列化库支持的protobuf、json等数据格式。异构数据源道路线形空间数据提取是问题的关键。本文根据自动机理论，提出一种解决方法，旨在为异构数据源提取提供一个统一的接口。提取方法如图2所示。

图 2 异构数据源道路线形空间数据提取方法

文件处理过程和编译原理中的有限自动机理论一致^[15]。有限自动机是处理信息简单有效的机器，通过对文本字符串T进行扫描，找出模式P的所有出现位置，它对每个文本字符只检查一次，并且检查每个字符所用时间为常数。因此，在模式预处理完成并建好自动机后进行匹配所需要的时间为Θ(n)。有限自动机又分为确定的有限自动机(deterministic finite automata，DFA)和不确定的有限自动机(nondeterministic finite automata，NFA)，DFA是NFA的特殊情况，并且NFA可以转换为DFA，因此，为简单起见，本文使用NFA。与一般状态不变的自动机建模不同的是，本文根据不同的文件结构及用户需求字段动态建立自动机模型，以完成异构数据源文件的数据提取。

模板匹配中的模板库是以文件形式存储的一种映射表，由若干行组成，一行对应一种文件格式，每一行由2个字段组成：字符串类型的文件扩展名和相应的解析函数名。不同的解析函数对应不同的数据格式，具体的函数实现保存在函数库文件中。文件扩展名和数据格式之间是多对一的关系。扫描时，先将模板库加载至缓冲区中，匹配过程实际上是根据文件扩展名查找相应解析函数名的过程。

数据源扫描器接收输入的源文件，匹配相应的模板，提取文件结构供用户选择，最终确定需求字段。根据文件结构及需求字段建立自动机模型，生成相应的自动机代码。编译执行自动机代码，从源文件中提取道路线形空间数据。其中，自动机模型包括状态表和转换表，状态表是所有自动机状态的集合，转换表记录状态转换及转换后的动作。

为便于论述，以从开放街道地图(OpenStreetMap，OSM)网站获取道路线形空间数据为例，对图2中方法进行说明。

开源wiki地图OSM，内容自由开放，是一个所有人协作编辑的世界地图。OSM网站的灵感来自维基百科等网站。经注册的用户可上传GPS路径及使用内置的编辑器编辑数据。OSM在2010年海地大地震中发挥了不可替代的作用，因为参与人员众多，它绘制出的海地灾区地图，几乎每一秒都是最新的。目前包括苹果、微软和维基百科在内都在使用OSM。OSM地图导出的是osm类型文件，文件内容为类xml结构的地理信息数据，由以下元素组成。

点(node)：空间中的点，最基本的元素，主要包含经纬度信息，是其他元素的组成部分。

线(way)：定义线形特征和区域边界，由若干点构成。

关联(relation)：用于解释其他元素如何协同工作。

xml指可扩展标记语言，由万维网联盟W3C设计，主要用来存储和传输数据。xml元素是xml文件内容的基本单元。从语法讲，一个元素包含一组起始、结束标记以及标记之间的数据内容。元素可包含其他元素、文本、属性或三者的组合。xml文档形成一种从“根部”扩展到“枝叶”的树状结构。

首先，从OSM官网获取事故点相关osm格式文件，输入至数据源扫描器，匹配xml模板并进行扫描，获取到文件结构(如图3)并展示给用户。其次，用户根据文件结构选择需求的字段(比如用户选择结果为node标签下的id、lat和lon属性)。再次，根据文件结构及用户需求字段动态建立自动机模型(状态表见表1，NFA见图4)。

图 3 osm文件结构示意图

表 1 自动机模型状态表

图 4 自动机模型实例

之后根据自动机模型自动生成相应的自动机代码文件。最后，编译执行自动机代码文件处理源文件，输出结果为道路线形空间数据，格式如下：

position1 lat: ×× lon: ××

flag: 0 segment: ××

((lat 1, lon 1), (lat 2, lon 2), (lat 3, lon 3)……(lat n, lon n))

position2 lat: ×× lon: ××

flag: 1 segment1: ××

((lat 1, lon 1), (lat 2, lon 2), (lat 3, lon 3)……(lat n, lon n))

segment2: ××

((lat 1, lon 1), (lat 2, lon 2), (lat 3, lon 3)……(lat n, lon n))

position1、position2为事故点文字描述；segment表示具体的路段名称；flag表示路网元素类型，取值为0或1，0表示事故点所处位置为路段，1表示事故点所处位置为segment1和segment2的交叉口；lat表示事故点纬度；lon表示事故点经度；lat i(i=1, 2, …, n)表示路段第i个采样点的纬度；lon i(i=1, 2, …, n)表示路段第i个采样点的经度。同一路段可能包含多组采样数据。

3 实例验证

本文以北京地区交通事故为例，对文中方法进行验证。采用网络爬虫技术从北京交通管理部门的权威网站获取交通事故点文字描述，调用国内使用率较高的百度地图API获取交通事故点文字描述相应的地理空间坐标。把该坐标转换为OSM使用的WGS-84国际通用坐标。通过采样及数据拟合发现，小范围内百度坐标与WGS-84坐标偏移量近似为常量。使用得到的WGS-84坐标调用开源地图OSM的API返回事故点道路相关数据，用来进行道路线形空间数据提取。

根据文中方法，提取到的其中2例道路线形数据如下。

1) 实例1数据。

大兴区中鼎南路与金时大街交叉口处

lat: 39.734 786 568 727 99 lon: 116.422 912 312 200 01

flag: 1 segment1：中鼎南路

((39.735 260 7, 116.427 404 2), (39.735 228 0, 116.427 181 3), (39.734 751 3, 116.424 203 6), (39.734 560 3, 116.422 954 3), (39.733 843 6, 116.418 424 5), (39.733 181 5, 116.414 476 4), (39.733 144 9, 116.414 258 3), (39.733 073 1, 116.413 618 4), (39.733 105 7, 116.413 220 0), (39.733 178 7, 116.412 496 2), (39.733 079 0, 116.410 917 0), (39.733 048 0, 116.410 301 1), (39.732 851 1, 116.406 748 8), (39.732 519 0, 116.401 820 7), (39.732 353 7, 116.399 295 4), (39.732 347 9, 116.399 117 2))

segment2：金时大街

((39.730 121 5, 116.424 184 0), (39.730 589 5, 116.424 038 6), (39.734 560 3, 116.422 954 3), (39.736 309 9, 116.422 489 8), (39.737 301 1, 116.422 221 1))

2) 实例2数据。

朝阳区水岸南街与清河营东路交叉口处

lat: 40.049 925 647 506 996 lon: 116.431 584 105 670 01:

flag: 1 segment1: 水岸南街

((40.049 798 1, 116.434 780 8), (40.049 867 4, 116.433 043 3), (40.049 867 4, 116.432 249 8), (40.049 867 4, 116.431 022 7), (40.049 925 5, 116.430 070 2), (40.049 938 3, 116.428 805 0))

segment2: 清河营东路

((40.045 025 3, 116.431 573 0), (40.045 869 6, 116.431 600 6), (40.046 425 4, 116.431 609 8), (40.046 614 2, 116.431 571 0), (40.047 370 8, 116.431 589 4), (40.048 278 3, 116.431 637 4), (40.049 256 2, 116.431 600 6), (40.049 640 6, 116.431 747 7), (40.049 710 9, 116.431 845 5), (40.049 867 4, 116.432 249 8))

((40.049 867 4, 116.431 022 7), (40.049 768 0, 116.431 301 4), (40.049 655 4, 116.431 420 8), (40.049 256 2, 116.431 600 6))

上面提取到的道路线形数据实质为一系列的WGS-84坐标，将其转换为平面坐标，并进行坐标平移，绘制出的散点及样条拟合曲线如图5所示。

将图5中的拟合曲线和实际道路线形相比较，相似性较好。

图 5 道路线形散点及样条拟合曲线实例

4 结论

1) 针对城市交通数据较难获取，论文主要从研究者对交通数据需求的角度出发，给出了一个与传统方式不同的Web数据获取方法，通过网络获取交通事故点及相关道路信息，并验证了其正确性及实用性。

2) 针对不同平台的异构数据源，给出了一种动态建立自动机模型的方法，实现了不同存储格式数据的处理。

实验结果表明，论文提出的Web数据获取方法降低了研究所需数据的获取难度，并有效解决了传统方法数据量小、样本缺少多样性、效率相对不高等问题，为下一步的城市交通事故与道路线形相关性研究提供了数据基础。

参考文献

[1]	孔令铮. 交通事故致因中的人为因素分析[J]. 中国安全科学学报, 2013, 23(1): 28-34. (0)
[2]	王文博, 陈红, 韦凌翔. 交通事故时间序列预测模型研究[J]. 中国安全科学学报, 2016, 26(6): 52-56. (0)
[3]	马壮林, 邵春福, 胡大伟, 等. 高速公路交通事故起数时空分析模型[J]. 交通运输工程学报, 2012, 12(2): 93-99. (0)
[4]	冯忠祥, 雷叶维, 张卫华, 等. 道路环境对绕城高速公路交通事故严重程度影响分析[J]. 中国公路学报, 2016, 29(05): 116-123. (0)
[5]	林声, 郭忠印, 周小焕, 等. 公路线形空间几何特性模型及其应用[J]. 中国公路学报, 2010, 23(S2): 47-52. (0)
[6]	黄艳国, 康裕荣, 许伦辉. 基于道路线形的加速度干扰与行车舒适性分析[J]. 中外公路, 2011, 31(3): 287-290. (0)
[7]	李显生, 李明明, 任有, 等. 城市不同道路线形下的驾驶人注视特性[J]. 吉林大学学报: 工学版, 2016, 46(5): 1447-1452. (0)
[8]	郭忠印. 道路安全工程[M]. 北京: 人民交通出版社, 2012: 9-10. (0)
[9]	岳丽欣, 刘文云. 国内外政府数据开放现状比较研究[J]. 图书情报工作, 2016, 60(11): 60-67. (0)
[10]	王文钧, 李巍. 垂直搜索引擎的现状与发展探究[J]. 情报科学, 2010, 28(03): 477-480. (0)
[11]	刘伟, 孟小峰, 孟卫一. Deep Web数据集成研究综述[J]. 计算机学报, 2007, 30(9): 1475-1489. (0)
[12]	康维新, 曹宇亭. 交通事件的语义理解[J]. 应用科技, 2013, 40(2): 5-10. (0)
[13]	MASSAD I, DALYOT S. Towards the production of digital terrain models from volunteered GPS trajectories[J]. Survey review, 2015, 47(344): 325-332. (0)
[14]	OLYAZADEH R, AYE Z C, JABOYEDOFF M, et al. Prototype of an open-source web-GIS platform for rapid disaster impact assessment[J]. Spatial information research, 2016, 24(3): 203-210. (0)
[15]	陈远斌. 一种基于扩展DOM树的Web数据自动抽取方法[J]. 应用科技, 2009, 36(8): 52-55. (0)