扩展功能
文章信息
- 徐福生, 黄中祥, 周葵, 刘清祥
- XU Fu-sheng, HUANG Zhong-xiang, ZHOU Kui, LIU Qing-xiang
- 基于运营数据的出租车违规行为研究
- Study on Irregularity of Taxi Based on Operational Data
- 公路交通科技, 2017, 34(5): 144-149
- Journal of Highway and Transportation Research and Denelopment, 2017, 34(5): 144-149
- 10.3969/j.issn.1002-0268.2017.05.020
-
文章历史
- 收稿日期: 2016-07-22
2. 深圳市易行网交通科技有限公司, 广东 深圳 518052
2. Shenzhen E-Traffic Technology Co., Ltd., Shenzhen Guangdong 518052, China
出租车作为城市公共交通的重要组成部分,在公众出行中扮演非常重要的角色。随着新技术的发展以及各界对公众出行的重视,很多城市出租车上都安装了GPS设备、计价器,同时电召服务也在普及,为出租车实现大范围、全天候数据采集提供了保障,为众多研究提供了海量数据。
为了增加收益,出租车中存在绕路和改装计价器等违规行为。出租车违规行为严重影响行业服务水平及声誉,使乘客蒙受金钱和时间损失。常见的计价器作弊方法有预先增加公里数、改动比值、改为小型号轮胎、偷改传感器、改装外围电路、外加非法脉冲等[1-2]。由于其改装行为具有隐蔽性强、操作便捷等特点[3],为相关部门监管带来较大挑战,而且仅有部分乘客会选择投诉,管理部门时常面临无法掌握证据且事后才能获知违规行为的窘境。因此通过研究GPS轨迹数据和计价器数据之间的关系,以此来判断是否绕路,是否存在违规改装,成为解决该问题的有效手段。
本文通过对出租车的海量GPS数据和计价器数据进行挖掘,分析GPS里程和最短路径、GPS里程与计价器里程、GPS里程计算费用与计价器费用的关系,经过连续一段时间内数据的统计分析,计算上述关系的比值,采用D-S证据理论方法判别其行为是否违规。该研究旨在为管理部门对出租车的监管提供支撑,有利于出租车监管部门和出租车企业发现和查办出租车违规行为,为出租车加强事前预防和管理决策提供有力保障。
1 GPS数据和计价器数据关系本文数据包括两类:第1类为GPS数据,第2类为计价器数据。出租车GPS数据包含车牌号、采集时间、经度、纬度、客运状态(空载状态和载客状态)、当前车速及行车方向等信息,计价器数据包含上(下)客时间和营运里程、计价金额等基本营运信息。通过在出租车计价器设备和GPS设备之间设置通讯接口,在通讯协议控制下可进行数据通讯[4],将两类独立数据进行关联。当上(下)客时按下计价器,计价器便通过接口将出租车当前状态信息(空车或载客)发送给GPS设备,GPS设备向监控中心上传位置信息,同时将此状态信息传回中心。根据计价器数据和GPS数据都含有时间信息的特点,通过将计价器数据与GPS数据进行时间序列匹配,检索出与计价器数据上(下)客时间紧邻的两个GPS数据记录,然后比较分析GPS数据信息,按照一定算法求出上(下)客点的准确或近似位置坐标,最后将上(下)客点的位置坐标信息添加到计价器数据表。根据出租车行业营运安全监管需要,GPS以一定时间间隔td向监控中心传送定位数据,td一般设置在20~60 s之间;出租车计价器记录的上(下)客时间则是随机分布,每个上(下)客时间点位于某两个相邻的GPS数据时间点之间,如图 1所示。
|
| 图 1 计价器时间与GPS时间关系 Fig. 1 Relationship between meter time and GPS time |
| |
图 1中t为上(下)客时计价器记录的时间点,t0和t1为与t时刻紧邻的两个GPS数据点时间,其对应坐标位置分别为p(x0,y0)和p(x1,y1),对应速度分别为v0和v1,p(x,y)为待计算的上(下)客点坐标位置。一般地,t1-t0=td。实际中,GPS系统一般存在数据丢失,因此,t1-t0=n·td,其中n=1, 2, 3, …。
GPS数据或计价器数据各自独立时无法发挥最大价值。通过GPS数据可获取出租车行驶轨迹、速度等,计价器数据可获取运营总里程、运行时间等。结合两种数据,可实现对出租车经营违规行为的判别,做到事前预防,提高出行服务水平。
2 里程计算方法GPS数据里程通过地图匹配方法获取准确的位置坐标,通过出租车运营起始点、连续的定位点、结束点匹配获取里程,最短路径里程通过Dijkstra算法获取,计价器里程通过计价器数据获取。
2.1 GPS数据地图匹配地图匹配通过一定的算法,将实际定位数据映射到地图上。地图匹配包括两个步骤:确定移动目标位置点所在路段,确定移动目标位置点位于匹配路段的具体位置[5]。匹配算法较为经典的有直接投影算法、相关性算法、概率统计算法、模糊逻辑算法、基于拓扑关系的算法、基于计算几何算法、基于曲线匹配算法等。
本文采取改进的基于投影的地图匹配算法。改进思路:对路网数据进行初步处理,形成3个主要文件,即道路节点数据文件Node.data、道路空间数据文件RoadGeometry.data、道路拓扑结构数据文件RoadEdge.data。以深圳市为例,道路节点30 994个,道路空间形状数据44 830条,道路拓扑结构数据67 605条,匹配步骤如下:
(1) 候选路段选定。通过判断GPS定位点到路段的投影距离与GPS定位误差的大小完成。路宽对候选路段筛选的影响示意图如图 2所示。
|
| 图 2 路宽对候选路段筛选的影响 Fig. 2 Influence of road width on road section selection |
| |
定义候选路段识别距离D0作为筛选路段的定量依据,采用式(1) 计算:
|
(1) |
式中,U为道路宽度;R为可接受的误差距离。
通过比较GPS定位点与路段之间的距离D,若无路段符合D<D0,则不能完成地图匹配;若有且仅有1条道路符合D<D0,则该道路为匹配路段;若不止1条道路符合D<D0,则暂时无法确定哪条候选路是匹配路段。
(2) 横向匹配。确定匹配路段。
用Da点代表组合系统输出的待匹配的定位点,L1,L2,L3表示定位点附近的路段,从点Da向所有路段作投影,计算Da点到各路段的距离及车辆行驶方向与相应路段间的夹角,并根据式(2) 计算各候选路段的度量值:
|
(2) |
式中,λi为第i条候选路段的匹配度;di为GPS定位点到第i条候选路段投影距离的权重;θi为GPS方向与第i条候选路段夹角的权重;Wd, Wθ分别为权重系数。
在所有候选路段中选取最小度量值所对应的路段作为匹配路段,即认为车辆在该路段上行驶。地图匹配路段图如图 3所示。
|
| 图 3 地图-路段匹配 Fig. 3 Map-road matching |
| |
(3) 纵向匹配。确定具体位置。
若点Da向所有路段作投影的点Di是某路段的端点,则该端点即为匹配位置;若Di不是某路段的端点,则根据式(3) 计算位置坐标(X, Y):
|
(3) |
式中,∂=(XD(i+1)-XDi);β=(YD(i+1)-YDi);(x,y)为GPS定位点的位置坐标;(XDi,YDi)为候选路段第i个形状线段端点位置坐标。
2.2 Dijkstra算法Dijkstra算法原理:自搜索起点开始,逐步更新当前节点隶属节点的费用,同时采用隶属节点中费用最小的点替换当前节点,直至达到目标点。Dijkstra算法的实现步骤如下:
(1) 将全部节点的里程都置为∞。
(2) 将起点的里程置为0,同时将其记为当前节点ia。
(3) 搜索ia的隶属节点ib, 并且依据式(4) 计算ib的费用:
|
(4) |
式中,w(ia)为当前节点ia的费用;a(ia, ib)为节点ia到节点ib的费用。
如果隶属节点的费用小于原来里程,则更新里程。
(4) 按照大小次序排列节点里程,确定里程最小的节点,将其记为当前节点。
(5) 执行步骤(3) 和(4),直至到达终点。
2.3 出租车计价器模型由于在实际出行过程中,出租车行驶里程远不一定费用就高(因为选择里程远的路径可能避免了等待红绿灯或其他因素而节省时间),从而降低了费用,因此,从多角度考虑来构建出租车计价器模型。
根据出租车的收费模式,其计价器收费为分段跳跃式三维数学模型[6-7],即:
|
(5) |
式中,Y为出租车计价器显示的收费金额;M为基本收费即起步价;x为行驶里程;x0为基本里程;v为当前时速;v0为限定时速;η为每公里费用;γ为单位等待时间费用;tw为等待时间。
3 基于D-S证据理论的违规行为检测针对海量数据,选取Dempster-Shafer(D-S)证据理论方法[8-12]对出租车违规行为进行挖掘分析。该方法利用约束指标能检验实际里程明显不同于正常情况下的异常轨迹,且不依赖单一OD对的轨迹数据,可快速处理海量数据。
3.1 约束指标(1) 里程约束
利用参数Rd作为最短路径LSDP与GPS里程LGT的比值或GPS里程LGT与计价器里程LJT的比值,则有:
|
(6) |
|
(7) |
分析过程中针对绕路行为采用对应的公式,Rd越接近1,说明实际行驶里程与最短里程或计价里程越接近;Rd越接近0,说明违规行为可能性越大。
(2) 时间约束
一般白天(6:00—22:00) 若出现交通拥堵时,驾驶员会选择绕路避开拥堵;夜晚(22:00—6:00) 道路一般都比较通畅,若在此时间段内某些出租车数据经常性地出现问题,则可判定其存在违规行为。
(3) 费用约束
根据出租车计价标准,利用GPS里程计算实际正常价格Pg,计价器价格为Pj,Rp为两者比值,则:
|
(8) |
分析过程中针对改装计价器计费问题采用对应的公式,Rp越接近1,说明实际正常价格与计价器价格越接近;Rp越接近0,说明违规行为可能性越大。
本文选取里程、时间、费用3个约束指标为证据判别出租车行为的异常程度,其中时间、费用为辅助指标。
3.2 D-S证据理论本文D-S证据理论的识别框架Θ包含所有的判别情况组成的集合,子集为A={正常},B={异常},则Θ={A, B},总共有4种子集,即{A},{B},{A,B},φ。
对于任意的数据情况X⊆Θ,存在基本概率分配(BPA)函数m(X),用于表示证据对该命题的信任程度,并且要满足
|
(9) |
|
(10) |
式中,Pl(X)为不怀疑X的程度;Bel(X)为怀疑X的程度。Pl(X)和Bel(X)分别表示证据对假设X为真信任程度的上下限,组成的信任区间为[Bel(X), Pl(X)];Y是属于X集合中的数据。
3.3 违规行为检测通过约束指标形成的多证据,可通过Dempster合成规则进行运算得到BPA函数,表明数据的联合作用。为避免证据冲突时会产生的Zadeh悖论[13],采用Yager合成规则[9, 14]。Bel(X)越大,表明违规行为可能性越大;Pl(X)越小,表明违规行为可能性越小。规则为:
|
(11) |
否则m(φ)=0。
式中,m1(Xi)和m2(Yj)为同一识别框架Θ上的不同基本概率分配函数;Xi与Yj为同一识别框架Θ的两个证据;k为冲突因子,反映证据Xi与Yj之间冲突的程度。
|
(12) |
具体流程如下:
(1) 通过前述方法获取GPS里程、计价器里程、最短路径等,计算Rd;计算实际正常价格与计价器价格的比值Rp。
(2) 将Rd和Rp结合时间指标,用Yager整合合成规则处理。
(3) 得到信任区间为[Bel(X),Pl(X)]。
(4) 根据Bel(X)和Pl(X)的值进行违规行为判别。
4 实例验证 4.1 数据来源由于出租车运营数据量大,为了保证结果的准确性,本文选取深圳市16 275辆出租车数据进行分析,时间跨度为2个月,即2015-09-08至2015-11-07,总记录为7 374 696条,以星期为单位,用大数据思维对连续一段时间的数据进行挖掘分析。
4.2 证据分析本文的证据为里程、时间、费用,时间和费用作为辅助证据。在海量数据中获取各相关数据,进行Rd和Rp的计算。初步统计结果如表 1所示。
| 指标 | Rd> 0.8 | 0.6≤Rd< 0.8 | Rd≤ 0.6 | Rp> 0.8 | 0.6≤Rp< 0.8 | Rp≤ 0.6 |
| 记录总数 | 6 836 337 | 390 858 | 147 501 | 6 921 557 | 403 452 | 49 687 |
| 百分比/% | 92.70 | 5.30 | 2.00 | 93.86 | 5.47 | 0.67 |
| Rd平均值 | 0.98 | 0.71 | 0.49 | 0.95 | 0.76 | 0.53 |
根据相关学者的研究及与管理部门的交流讨论,一般在Rd≤0.6时,初步认为有违规行为(绕路)的可能性比较大,可作为怀疑对象,特殊情况(如道路施工绕行)或其他不确定情况可酌情考虑。
根据表 1,以Rd为指标,可初步认为92.70%的数据是行为正常的,5.30%的数据存在违规行为的可能,2.00%的数据存在违规可能性较大。以Rp为指标,0.67%的车辆计价费用数据与根据GPS里程实际计算的费用存在一定差距,可将此类车辆列为怀疑对象。根据GPS数据和计价器数据的属性,通过与全市所有出租车情况对比分析,对怀疑违规车辆数据进行重点挖掘。首先,分析在连续一段时间内出现里程差值的次数,即GPS里程与最短里程差值频数图,如图 4所示(以重点怀疑车辆B19R01为例)。
|
| 图 4 GPS里程与最短里程的相对差值 Fig. 4 Relative difference between GPS mileage and shortest mileage |
| |
图 4中,横坐标表示GPS里程与最短里程的相对差值[(GPS里程-最短里程)/GPS里程]×100%,为相对差值,纵坐标表示车次。虚线为全市平均的分布情况,实线为B19R01的绝对差值分布情况。从图中可以看出相对误差的分布情况,B19R01与全市的情况产生一定的位移偏差,且相对差值为正值的比例占绝大多数,直接相差的距离达30%左右,说明该车的GPS里程大于最短里程约30%。
通过分析,进一步怀疑B19R01存在违规的可能。
分析费用时,GPS里程计算费用与计价器费用的相对差值如图 5所示。
|
| 图 5 GPS里程计算费用与计价器费用的相对差值 Fig. 5 Relative difference between GPS mileage calculation cost and meter cost |
| |
图 5表明,车辆B19R01最大集中度相对差值与参考值相差很大,说明根据GPS里程计算实际正常价格与计价器显示价格差值较大。
通过里程、费用分析,结合出现这些受怀疑行为的时间,用Yager整合合成规则,通过分析得到Bel(X)=68.7%,Pl(X)=83.1%,故其信任区间为[68.7%,83.1%],参考相关资料[8-14],一般地,当Bel(X)>50%时,可判定为行为异常;当Pl(X)<50%时,可判定为行为正常,因此判别车辆B19R01存在违规行为。
为了使分析产生价值,便于管理者直观识别出租车行为,结合GIS分析功能,将分析效果显示为图 6。
|
| 图 6 分析显示 Fig. 6 Analysis display |
| |
4.3 结果验证
深圳管理部门对出租车违规行为的查处通过乘客投诉或巡查等方式进行。将本文分析结果与管理部门日常出租车行业的管理情况对比,发现在深圳整治违规行为中查处的5辆出租车(其中包含B19R01) 属于本文分析出的45辆可能存在违规行为的出租车范围内,因此证明本文的分析方法有效。
5 结论通过对海量出租车GPS数据和计价器数据进行时间序列匹配,分析GPS里程和最短路径、GPS里程与计价器里程、GPS里程计算费用与计价器费用的关系,经过连续一段时间内数据的统计分析,计算上述关系的比值,采用D-S证据理论方法以里程的比值、时间、费用作为证据判别其行为是否违规,并将结果在地图上直观显示,供管理者查询决策。通过与管理部门的交流核对和实例证明,本文分析的结果与实际管理情况相符,说明该方法切实有效,能为管理部门对出租车加强事前预防和管理决策提供有力保障。
| [1] | 冯书恒. 具有智能诊断反作弊功能的出租车计价器研究[D]. 济南: 济南大学, 2013. FENG Shu-heng. Research on Intelligent Diagnostic and Anti-cheating Taximeter [D]. Jinan:University of Jinan, 2013. |
| [2] | 周恩伟. 出租车计价器检定工作中的问题及对策分析[J]. 计量与测试技术, 2016, 43(3): 42-43 ZHOU En-wei. Taxi Meter Calibration Problems at Work and Countermeasures[J]. Metrology & Measurement Technique, 2016, 43(3): 42-43 |
| [3] | 臧晓伟, 官洪运. 出租汽车计价器反作弊检测软件的设计与应用[J]. 上海计量测试, 2014(2): 34-36 ZANG Xiao-wei, GUAN Hong-yun. Design and Application of Taxi Meter Anti-cheating Detection Software[J]. Shanghai Measurement and Testing, 2014(2): 34-36 |
| [4] | 郑晓峰. 基于GPS车载技术功能与出租车计价器的应用[J]. 计量与测试技术, 2010, 37(8): 53-53 ZHENG Xiao-feng. Application of GPS Technology Function in Taxi Fee Register[J]. Metrology & Measurement Technique, 2010, 37(8): 53-53 |
| [5] | 张丹. 基于车载GPS信息的抚顺市出租车运价优化[D]. 吉林: 吉林大学, 2010. ZHANG Dan. Optimization for Taxi Transport Price of Fushun Based on GPS Equipped Information [D]. Jilin:Jilin University, 2010. |
| [6] | 张菊红. 改进出租车计价器的数学模型及敏感性分析[J]. 科技情报开发与经济, 2008, 18(15): 153-154 ZHANG Ju-hong. The Mathematical Model of Taximeter Improvement and Its Sensitivity Analysis[J]. Sci-Tech Information Development & Economy, 2008, 18(15): 153-154 |
| [7] | 杜延春, 吕惠政, 曹瑞基, 等. 具有智能诊断和防作弊功能的出租汽车计价器研究[J]. 计量与测试技术, 2012, 39(9): 3-4 DU Yan-chun, LÜ Hui-zheng, CAO Rui-ji, et al. Research on Intelligent Diagnostic and Anti-cheating Taximeter[J]. Metrology & Measurement Technique, 2012, 39(9): 3-4 |
| [8] | 周洋, 方志祥, 李清泉, 等. 利用经验约束规则和证据理论进行出租车异常轨迹检测[J]. 武汉大学学报信息科学版, 2016, 41(6): 797-802 ZHOU Yang, FANG Zhi-xiang, LI Qing-quan, et al. Anomalous Taxi Trajectory Detection Based on Experiential Constraint Rules and Evidence Theory[J]. Geomatics and Information Science of Wuhan University, 2016, 41(6): 797-802 |
| [9] | 孙锐. 基于D-S证据理论的信息融合及在可靠性数据处理中的应用研究[D]. 成都: 电子科技大学, 2011. SUN Rui. Research on D-S Evidence Theory Based Information Fusion and Its Application in Reliability Data Processing [D].Chengdu: University of Electronic Science and Technology of China, 2011. |
| [10] | 李月, 徐余法, 陈国初, 等. D-S证据理论在多传感器故障诊断中的改进及应用[J]. 东南大学学报:自然科学版, 2011, 41(增2): 102-106 LI Yue, XU Yu-fa, CHEN Guo-chu, et al. Improvement and Application of D-S Evidence Theory in Multi-sensor Fault Diagnosis System[J]. Journal of Southeast University: Natural Science Edition, 2011, 41(B09): 102-106 |
| [11] | 翁剑成, 赵晓娟, 荣建. 基于DS理论的城市快速路交通事件自动检测算法[J]. 公路交通科技, 2011, 28(12): 112-116 WENG Jian-cheng, ZHAO Xiao-juan, RONG Jian. Urban Expressway Automatic Incident Detection Algorithm Based on D-S Theory[J]. Journal of Highway and Transportation Research and Development, 2011, 28(12): 112-116 |
| [12] | 蔚晓丹. 基于改进D-S信息融合方法的发动机故障诊断[J]. 公路交通科技, 2012, 29(9): 146-151 WEI Xiao-dan. Fault Diagnosis of Engine Based on Improved Dempster-shafer Information Fusion Method[J]. Journal of Highway and Transportation Research and Development, 2012, 29(9): 146-151 |
| [13] | ZADEH L A. Review of a Mathematical Theory of Evidence[J]. AI Magazine, 1984, 5(3): 235-247 |
| [14] | YAGER R R. On the Dempster-Shafer Framework and New Combination Rules[J]. Information sciences, 1987, 41(2): 93-137 |
2017, Vol. 34
