自动化学报  2017, Vol. 43 Issue (11): 2033-2043   PDF    
基于混合模糊多人多目标非合作博弈的车道选择模型
王晓原1,2, 张敬磊1, 刘振雪1, 尹超1     
1. 山东理工大学交通与车辆工程学院 淄博 255000;
2. 清华大学汽车安全与节能国家重点实验室 北京 100084
摘要: 建立汽车安全驾驶辅助系统(包括安全驾驶预警系统)是保证交通安全的有效手段.准确预测车辆集群态势是汽车安全辅助驾驶的前提,车道选择是车辆集群态势发生转移最为根本的原因,也是交通流理论研究的基本内容.以往研究没有综合考虑车辆集群复杂态势下各运动实体特征及其操控者类型,以及多个车道间车辆的冲突对车道选择的影响.为此,本文综合考虑各运动实体特征及其操控者类型,基于混合模糊多人多目标非合作博弈方法,建立城市快速路基本路段上的驾驶员车道选择模型.通过分析各方驾驶员在不同车道选择策略下的收益,确定换道博弈的Nash均衡,得到驾驶员最优车道选择策略.研究结果表明:基于混合模糊多人多目标非合作博弈方法建构的驾驶员车道选择模型,其预测准确率可达到85.2%.
关键词: 智能交通系统     驾驶倾向性     车辆集群态势     多人多目标对策     混合模糊对策    
Drivers' Lane Choice Model Based on Mixed Fuzzy Multi-person and Multi-objective Non-cooperative Game
WANG Xiao-Yuan1,2, ZHANG Jing-Lei1, LIU Zhen-Xue1, YIN Chao1     
1. School of Transportation and Vehicle Engineering, Shandong University of Technology, Zibo 255000;
2. State Key Laboratory of Automotive Safety and Energy, Tsinghua University, Beijing 100084
Manuscript received : July 29, 2016, accepted: November 28, 2016.
Foundation Item: Supported by Opening Project of the State Key Laboratory of Automotive Safety and Energy (KF16232), Natural Science Foundation of Shandong Province (ZR2014FM027, ZR2017LF015), Social Science Planning Project of Shandong Province (14CGLJ27), National Natural Science Foundation of China (61074140, 61573009, 51508315, 51608313), and Project of Shandong Province Higher Educational Science and Technology Program (J15LB07)
Author brief: ZHANG Jing-Lei Associate professor at the School of Transportation and Vehicle Engineering, Shandong University of Technology. His research interest covers urban transportation, traffic behavior and security, and intelligent transportation systems;
LIU Zhen-Xue Master student at the School of Transportation and Vehicle Engineering, Shandong University of Technology. Her research interest covers controlling and cooperative intelligence of human-vehicle-environment;
YIN Chao Lecturer at the School of Transportation and Vehicle Engineering, Shandong University of Technology. He received his Ph. D. degree from Chang$'$an University in 2015. His research interest covers intelligent transportation systems and highway natural disaster prevention and control
Corresponding author. WANG Xiao-Yuan Professor at the School of Transportation and Vehicle Engineering, Shandong University of Technology. His research interest covers transportation planning and management, traffic information engineering and control, traffic behavior and security, traffic flow theory, traffic simulation, and controlling and cooperative intelligence of human-vehicle-environment. Corresponding author of this paper
Recommended by Associate Editor DONG Hai-Rong
Abstract: Vehicle safety driving assistance system (including driving safety alerting system) is an effective means to ensure traffic safety while accurate prediction of vehicle cluster situation is the premise of automobile safety assistant driving system. The drivers' lane choice process is not only the root cause of the transformation of vehicle cluster situation, but also the basic topic of traffic flow research. Previous studies do not synthetically consider the characteristics of individual traffic entities and the types of manipulators under the complex vehicle cluster situation, neither the influence of vehicles conflicts under multiple lanes on lane choice is taken into account. Therefore, in this paper, considering the types of vehicle manipulators and the characteristics of each movement entity, the model of drivers' lane choice on basic segment of urban expressway is built based on mixed fuzzy multi-person and multi-objective non-cooperative game. Drivers' profits under the different combinations of lane choice behaviors are analyzed, Nash equilibrium in the game process is confirmed, and the drivers' optimal lane choice strategy in a dynamic game is obtained. The results show that the model's prediction accuracy of lane change reaches 85.2%.
Key words: Intelligent transportation systems     driver's tendency     vehicle cluster situation     multi-person and multi-objective decision problems     mixed fuzzy game    

随着交通运输业的快速发展, 汽车保有量, 特别是私家车数量迅猛增加, 道路交通系统中人-车-环境矛盾日益突出, 道路交通事故频发.建立汽车安全驾驶辅助系统(包括安全驾驶预警系统)是保证交通安全的有效手段.准确预测车辆集群态势是汽车安全辅助驾驶的前提, 车道选择是车辆集群态势发生转移最为根本的原因, 也是交通流理论研究的基本内容.

早期的一些换道模型(例如Gipps[1]模型以及微观仿真软件SITRAS[2]和CORSIM[3]中的换道模型)将车道选择看作是基于特定规则的过程, 认为是驾驶员对车道集合中各车道依照特定的顺序和优先权规则进行重复的评估, 从而确定行驶车道.但是, 这些模型不能实时捕获和权衡不同刺激因素对车道变换的影响, 也不能考虑不同驾驶员间驾驶行为的相互影响, 模型的实用性不强. Yang和Koutsopoulos[4]首次把换道行为分为强制性换道和选择性换道, 并将Gipps模型归类为强制性换道.当车辆的速度低于驾驶员的期望速度时, 驾驶员就根据目前的驾驶环境, 在当前和相邻车道中选择最佳者实行选择性换道以满足驾驶期望.这个模型最主要的改进是引入了车道选择的随机效用框架.因此, 它能帮助捕获和权衡一些特定因素对车道选择的影响. Ahmed[5]将车道变换解析成三层的决策过程:考虑是否换道, 如果换道则进行目标车道的选择, 确定目标车道后进行可插车间隙的选择.模型存在的缺点是强制性换道和选择性换道情形仍需要分别处理, 并且需要获得驾驶员任意时刻的先验轨迹知识(包括强制性换道和选择性换道). Toledo[6]引入了综合驾驶行为模型, 综合考虑强制性换道和选择性换道, 并将它们在驾驶员车道选择过程层合并.车道选择的评估效用函数可以同时考虑影响强制性换道和选择性换道的相关因素. Keyvan-Ekbatani等[7]应用装备着摄像头的汽车在高速公路上开展两阶段的驾驶测试试验, 从而对换道决策过程分类.试验结束后要求被测试者在观看录像的同时评述他们在驾驶过程中对速度及车道的选择, 最终得出四种换道动机完全不同的驾驶策略, 此对换道模型及驾驶员行为的微观仿真具有促进作用. Balal等[8]提出了一种模糊推理系统, 基于驾驶员的问卷调查结果及主车上所安装传感器采集数据的分析结果确定系统输入变量, 从而为行驶在高速公路上的驾驶员是否进行任意性换道提供二元决策.

汽车的驾驶过程本质上是一个动态博弈过程, 许多学者从博弈论角度出发, 对驾驶员换道行为进行研究. Kita[9]利用博弈论方法对高速公路匝道附近车辆的交互影响进行了分析, 将汇入车辆和直行穿越车辆的交互作用解析为二人非零和非合作博弈.在这个博弈中, 汇入车辆有两种战略选择:汇入和不汇入; 直行穿越车辆也有两种战略选择:让行和不让行.通过例证分析, 提出的模型能够计算并重现匝道附近交织区驾驶员的决策行为.杨晓芳等[10]在完全信息的假设条件下, 基于驾驶员个人对速度的期望, 考虑速度收益、临道车辆、时间演化和安全间距等因素, 分析了驾驶过程中的博弈行为和相应驾驶行为意图的变化, 建立前后车之间的博弈矩阵模型.刘小明等[11]应用动态重复博弈方法建立了车辆换道模型, 对车辆的博弈过程以及车辆行为策略进行了描述.通过对不同交通流条件下实际调查的车辆换道次数与仿真值进行比较, 验证了模型的有效性. Talebpour等[12]提出了一种基于博弈论方法的车道变换模型.根据驾驶人车辆协同数据信息, 分析了完全信息下的二人合作和非合作博弈以及不完全信息下的二人合作和非合作博弈, 并建立了不同的换道模型. Wang等[13]基于最优控制和动态博弈理论提出了一种将车道变换和车辆跟驰统一控制的预测方法.通过预测确定车辆的离散期望车道序列和连续加速度最小化函数寻求均衡解.结果表明, 所提出的方法在满足安全性和舒适性要求的同时能够得到有效的换道策略.彭金栓等[14]将换道过程中目标车与预瞄车道后随车的行为模型化为非合作混合战略博弈, 对双方的收益以及Nash均衡解进行了研究.分析结果表明:两车非合作混合战略博弈的Nash均衡解由行车安全性、行车时间以及收益重要度因子共同决定.彭金栓等[15]为了明确车道变换决策形成机制以及此过程中交通冲突的诱发机制, 建立基于有限零和灰色博弈的车道变换决策模型, 研究了博弈双方驾驶员的策略选择和收益特性.结果表明, 当车道变换目标车与预瞄车道后随车的交通冲突不可避免时, 目标车的理想最优策略是减速等待, 而目标车道后随车的理想最优策略是加速通过临界冲突点.

以往研究大多是考虑两个驾驶员间的博弈行为, 没有考虑多人博弈.然而, 道路上的车辆集群行为并不能简单的拆分为二人博弈.此外, 以往研究没有综合考虑车辆集群复杂态势下各运动实体特征及其操控者类型, 以及多个车道间车辆的冲突对车道选择的影响.为此, 本文以城市快速路基本路段上的集群车辆为研究对象, 分析博弈各方所组成的车辆集群态势, 并利用模糊逻辑的方法创建数学表达方式.在此基础上, 计算各方驾驶员在不同车道选择策略下的收益, 确定集群车辆在换道博弈过程中的Nash均衡, 得到驾驶员最优车道选择策略.

1 车辆集群态势与车道选择 1.1 车辆集群态势

交通态势指驾驶员兴趣感应区域(对车辆安全影响较大, 驾驶员注意力分配较多的区域)内所有交通实体部署和行为构成的状态和形势, 包含交通实体能感知到的所有信息[16], 包括交通实体特征、车辆编组关系和“物景解释”信息等内容.交通实体特征主要通过车辆的车型、速度、加速度和驾驶员类型等指标来体现; 车辆编组关系指多个车辆为完成各自驾驶任务自行组织起来, 通过集群行为和自组织演化规律, 车辆间不断变更的位置关系; “物景解释”信息是对车辆所处自然环境、人造环境和社会环境的描述.本文重点以兴趣感应区域内驾驶员能感知的车辆集群态势(交通实体特征和车辆编组关系)为例, 对驾驶员车道选择行为进行研究.

1.1.1 车辆集群场景界定

为更好地分析车辆集群态势中驾驶员的博弈行为, 需要对研究的场景进行界定, 本文以三车道场景(如图 1所示)为例, 以目标车$n_1 $为研究主体, 根据目标车前保险杠所在位置将其兴趣感应区域划分为左前侧、左后侧、前侧、后侧、右前侧和右后侧各分区域.

图 1 三车道场景目标车所处车辆集群态势图 Figure 1 Vehicle cluster situation for target vehicle under the three-lane condition

图 1中, 目标车$n_1 $、左前车$n_2 $、左后车$n_3 $、前车$n_4 $、后车$n_5 $、右前车$n_6 $和右后车$n_7 $的速度分别记为$v_{n_i}$$(i=1, 2, 3, 4, 5, 6, 7)$.目标车与其他车的相对距离依次记为$\Delta d_2,\Delta d_3, \Delta d_4, \Delta d_5, \Delta d_6, \Delta d_7 $, 相对速度依次记为$\Delta v_2 =v_{n_2} -v_{n_1} $, $\Delta v_3= v_{n_1}$-$v_{n_3} $, $\Delta v_4 =v_{n_4} -v_{n_1} $, $\Delta v_5 =v_{n_1} -v_{n_5} $, $\Delta v_6=v_{n_6}$ -$v_{n_1} $, $\Delta v_7 =v_{n_1} -v_{n_7} $.目标车与其他车的车型依次记为$F_1, F_2, F_3, F_4, F_5, F_6, F_7 $, 车型的取值$F_i$ $\in${小型车, 中型车, 大型车}, $i= 1, 2, 3, 4, 5, 6, 7$.驾驶员的倾向性依次用$P_1, P_2, P_3, P_4, P_5 $, $P_6, P_7 $表示, 驾驶倾向性的取值$P_i \in $ {激进型, 普通型, 保守型}, $i$ = 1, 2, 3, 4, 5, 6, 7.

1.1.2 车辆集群态势的数学表达

车辆集群态势客观存在于整个交通环境, 并随各交通要素的动态变化而变化.围绕车道选择这一问题, 为了便于研究, 借用物理学中“力”的概念表述兴趣感应区域各分区域内车辆对目标车的作用效果, 而目标车所在的车辆集群态势, 则用这些“力”的集合抽象地表示.如果某一区域内车辆对目标车选择此区域所在的车道起到了正面影响, 那么此区域车辆对目标车施加的是引力, 反之为斥力.

综合考虑目标车与兴趣感应区域各分区域内车辆的车型、相对距离和相对速度, 利用模糊逻辑方法可以获取左前侧、左后侧、前侧、后侧、右前侧和右后侧区域内车辆对目标车的作用力, 力的大小用作用粒度描述:斥力最大的作用粒度用-1表示, 引力最大的作用粒度用1表示.

因此, 对于位于中间车道的车辆, 例如目标车辆$n_1 $, 可以用作用力的集合$F_1^o $ = [前车作用力, 后车作用力, 左前车作用力, 左后车作用力, 右前车作用力, 右后车作用力] = $[F_1^q, F_1^h, F_1^{zq}, F_1^{zh}, F_1^{yq}, F_1^{yh}]$表示目标车$n_1 $所处的车辆集群态势.对于位于左侧车道的车辆, 例如车辆$n_2 $, 可以用作用力的集合$F_2^o$ = [前车作用力, 后车作用力, 邻车道右前车作用力, 邻车道右后车作用力, 相隔车道右前车作用力, 相隔车道右后车作用力] = $[F_2^{ql}, F_2^{hl}, F_2^{lyq}, F_2^{lyh}, F_2^{gyq} $, $F_2^{gyh}]$表示目标车$n_2 $所处的车辆集群态势.对于位于右侧车道的车辆, 例如车辆$n_6 $, 可以用作用力的集合$F_6^o $=[前车作用力, 后车作用力, 邻车道左前车作用力, 邻车道左后车作用力, 相隔车道左前车作用力, 相隔车道左后车作用力] =$[F_6^{qr}, F_6^{hr}, F_6^{lzq} $, $F_6^{lzh} $, $F_6^{gzq}, F_6^{gzh}]$表示目标车$n_6 $所处的车辆集群态势.

1.2 车道选择博弈行为分析

驾驶员车道选择过程是一个复杂的思维过程, 离不开感知、逻辑、判断和因果推理, 更离不开分解与综合[16].驾驶员在多车道道路上行驶时, 都有保持车道或者变换车道(向左换道或者向右换道)两种选择.驾驶员在行车过程中, 综合考虑周边车辆集群态势对其利益与安全的影响, 根据当前的运行状态和车辆集群态势中其他车辆的动作, 确定车辆最优的运行车道.驾驶员车道选择过程是一个利益(包括安全、效率、时间空间及舒适性等)追求过程.

在三车道场景, 将目标车$n_1 $、左前车$n_2 $、左后车$n_3 $、前车$n_4 $、后车$n_5 $、右前车$n_6 $和右后车$n_7 $作为参与博弈的局中人(如图 1所示).位于中间车道的车辆有三种纯策略:保持(No change, NC)、向左换道(Change left, CL)和向右换道(Change right, CR); 位于左侧车道的车辆有两种纯策略:保持(NC)和向右换道(CR); 位于右侧车道的车辆有两种纯策略:保持(NC)和向左换道(CL).参与博弈的车辆纯策略集$\Lambda _i$ = {NC, CL, CR}.各个驾驶员在选择各自的驾驶策略时, 不仅要对各自策略空间中的决策变量(保持和换道)进行选择, 还要考虑其他驾驶员的策略选取, 各个驾驶员的策略选择是相互依赖和相互制约的.

各个驾驶员的策略一旦确定, 那么博弈的局势及各个驾驶员相应的驾驶收益函数也会同时被确定.车辆运行过程中, 驾驶员的驾驶收益函数不仅与驾驶员执行操作前后所处的车辆集群态势有关, 还与驾驶员执行操作过程中车辆间冲突程度有关.驾驶员的驾驶收益函数可以用行车安全收益、行车时间收益和行车冲突收益来体现.

1.2.1 行车安全收益

行车安全收益(用$\Delta P_i $表示)指驾驶员行车操作过程前后目标车所受的综合作用力$P_i $ (对各分区域车辆施加给目标车的作用力加权求和)的变化情况.用第2.1.2节的方法可以获得目标车位于不同车道时, 目标车所处的车辆集群态势(各分区域车辆施加给目标车作用力的集合).各分区域内车辆施加给目标车的作用力对目标车所受综合作用力的贡献程度存在着差异.例如, 当目标车位于左车道时, 相隔车道右前车施加给目标车的作用力对目标车所受综合作用力的贡献率要小于相邻车道右前车.当目标车位于中间车道时, 目标车所受的综合作用力$P_i$ = $\xi _i^q F_i^q +\xi _i^h F_i^h +\xi _i^{zq} F_i^{zq} +\xi _i^{zh} F_i^{zh} +\xi _i^{yq} F_i^{yq} +\xi _i^{yh} F_i^{yh} $; 当目标车位于左车道时, 目标车所受的综合作用力$P_i =\xi _i^{ql} F_i^{ql} +\xi _i^{hl} F_i^{hl} +\xi _i^{lyq} F_i^{lyq} +\xi _i^{lyh} F_i^{lyh} +\xi _i^{gyq} F_i^{gyq} +\xi _i^{gyh} F_i^{gyh} $; 当目标车位于右车道时, 目标车所受的综合作用力$P_i =\xi _i^{qr} F_i^{qr} +\xi _i^{hr} F_i^{hr} +\xi _i^{lzq} F_i^{lzq} +\xi _i^{lzh} F_i^{lzh} +\xi _i^{gzq} F_i^{gzq} +\xi _i^{gzh} F_i^{gzh} $; 其中, $\xi_i^\ast$表示位于分区域*内的车辆对目标车$n_i$综合作用力的贡献率, $i=1, 2, 3, 4, 5, 6, 7$.例如$\xi_1^q$表示位于目标车前侧区域的车辆对目标车$n_1$综合作用力的贡献率.通过问卷调查, 运用层次分析法, 得到不同类型驾驶员感知各分区域车辆对目标车综合作用力的贡献率如表 1所示.

表 1 不同类型驾驶员感知各分区域车辆对目标车综合作用力的贡献率 Table 1 Contribution rates of integrated force from different types of drivers in sub-area to the target vehicle
1.2.2 行车时间收益计算

行车时间收益(用$D_i $表示)可用各驾驶员执行操作前后前方道路通行状况改善的大小来表示, 可以通过各驾驶员执行操作后与执行操作前目标车前方两辆车累积作用力(目标车前车对目标车的作用力与目标车次前车对目标车前车的作用力的和)的差值来表示.对于目标车$n_1 $, 各个驾驶员执行操作前其前方两辆车的累积作用力为$F_1^q +F_4^q $, 各个驾驶员执行操作后其前方两辆车的累积作用力为$F_{{1}”}^{q'}$ + $F_{{4}”}^{q'} $ ($F_{{1}”}^{q'} $为各驾驶员执行操作后目标车前车$n_{{1}”} $对目标车的作用力, $F_{{4}”}^{q'} $为各驾驶员执行操作后目标车次前车$n_{{4}”} $对目标车前车的作用力); 计算$F_{{1}”}^{q'}$ + $F_{{4}”}^{q'}$ -$(F_1^q+F_4^q)$, 即可得到目标车的行车时间收益大小.同理, 其他博弈车辆在驾驶员执行操作前后的前方累积作用力及在此过程中的行车时间收益也可以获得.

1.2.3 行车冲突收益计算

行车冲突收益(用$C_i $表示)指驾驶员在执行策略过程中集群车辆间冲突程度的强弱.驾驶员在确定各自的行驶车道后, 会有执行换道(向左换道或者向右换道)或者保持车道两种策略(如图 2所示), 在各方驾驶员采取相应的策略时, 车辆间会增加或者减少各种冲突.车辆间冲突越严重, 车辆损失的行车冲突收益越多; 车辆间减少冲突越明显, 车辆得到的行车冲突收益越多.

图 2 三车道场景驾驶员车道选择博弈分析图 Figure 2 Game analysis of drivers' lane choice behavior under three-lane condition

图 2中, 对于异车道车辆$n_3$$n_5$, 若两车都选择换道(抢占换道, 如图 3(a)所示), 两车间的冲突非常严重, 冲突收益很差; 若车辆$n_3$选择换道、车辆$n_5$选择保持(挤压换道, 如图 3(b)所示), 两车间的冲突很严重, 冲突收益差; 若两车都选择保持车道(无冲突, 如图 3(c)图 3(f)所示), 两车间无冲突, 冲突收益非常好.对于异车道车辆$n_1$$n_3$, 如果车辆$n_3$选择换道, 车辆$n_1$选择保持(保持规避冲突, 如图 3(d)所示), 则它们较好地避开冲突, 冲突收益较好; 如果两车都选择换道(换道规避冲突, 如图 3(e)所示), 则它们会非常好地避开冲突, 冲突收益好.对于同车道车辆$n_1$$n_5$, 若两车都选择换道(换道冲突, 如图 3(g)所示), 则两车冲突严重, 冲突收益较差; 若车辆$n_1$选择换道, 车辆$n_5$选择保持(换道逃离冲突, 如图 3(h)所示), 则两车很好地避开冲突, 冲突收益很好; 若两车都选择保持(保持冲突, 如图 3(i)所示), 则两车冲突较严重, 冲突收益中等.设冲突收益的取值范围为[0, 1], 取值越大, 收益越好.不同类型的冲突(抢占换道、挤压换道、无冲突、换道规避冲突、保持规避冲突、换道冲突和保持冲突)情况下, 冲突收益评价语义项与三角形模糊数之间的对应关系如表 2所示.

图 3 车辆冲突类型示意图 Figure 3 Schematic of vehicle conflicts
表 2 冲突收益语义项与三角形模糊数之间的对应关系 Table 2 Correspondence between semantic driving conflict items and triangular fuzzy numbers

在车辆博弈中, 每辆车都会与其他车辆间存在着多个冲突.根据上述两辆车之间可能出现的冲突类型, 组合出各个博弈车辆在执行策略过程中可能出现的冲突, 并根据各自参与的冲突计算收益情况.

1.2.4 驾驶收益计算

为便于统一权衡, 将行车安全收益$\Delta P_i $、行车时间收益$D_i $和行车冲突收益$C_i $统一换算为驾驶收益$W_i $, 计算公式如下:

$ W_i =\not{\omega }_i^1 \Delta P_i +\not{\omega }_i^2 D_i +\not{\omega }_i^3 C_i $ (1)

式(1)中, $\not{\omega }_i^1 $, $\not{\omega }_i^2 $, $\not {\omega }_i^3 $表示局中人$n_i $关于行车安全收益、行车时间收益和行车冲突收益的模糊目标权重.不同类型的驾驶员对其行车安全收益、行车时间收益和行车冲突收益的认知重要程度存在着差异.例如, 激进的驾驶员比较注重行车时间收益, 而保守型的驾驶员比较注重行车安全收益.不同类型驾驶员对各收益的模糊权重情况见表 3.冲突收益隶属函数见图 4.

表 3 不同类型驾驶员对各收益的模糊权重情况 Table 3 Fuzzy weight of the beneflt for difierent types of drivers
图 4 冲突收益隶属函数 Figure 4 Membership function of conflict benefit

驾驶员的车道选择过程是一个综合考虑众多影响因素的多目标对策过程, 要从行车安全收益、行车时间收益和行车冲突收益方面综合考虑道路上参与博弈的多个车辆的驾驶收益.驾驶员博弈时所处的车辆集群态势信息和对策策略都具有一定的模糊性和主观性, 很难用精确的数学模型来描述.此外, 各个驾驶员的倾向性[17]存在差异且他们之间的利益和偏好结构等具有明显的冲突和对抗性.因此, 本文采用考虑驾驶员目标权重偏好的混合模糊多目标多人非合作对策理论来描述驾驶员的车道选择博弈行为.

2 基于混合模糊多人多目标非合作博弈的车道选择对策模型 2.1 模型描述

本文主要讨论的博弈类型是考虑驾驶员目标权重偏好信息的有模糊目标权重向量和模糊目标支付值向量的混合模糊多人($N$人)多目标($M$个目标)非合作对策[18-21], 可以用数学模型$\tilde{\not {\Gamma }}_{MN}^i =[I$; $\{X_i \}$, $\{\not{E}_{i'}^i (x)\}$ $(n_{i'} \in I)]$ $(n_i \in I)$表示.

通常用$I$表示参与人集合, 如果有$N$个参与人, 则$I=\{n_1, n_2, \cdots, n_i, \cdots, n_N \}$.设参加博弈的每一个参与人$n_i$ $(n_i\in I)$, 都有自己的策略集$S_i$, $S_i$ = $\{s_{j_i}| j_i\in\Lambda_i\}$, $\Lambda_i$是纯策略集的指标集.在每一局博弈中, 由各参与人选定的策略形成的策略组称为一个局势, 即若$s_{j_i}$是第$i$个参与人的一个策略, 则$N$个参与人的策略组$s=(s_{j_1}, s_{j_2}, \cdots, s_{j_N})$就是一个局势.全体局势的集合$S$可以用各参与人策略集的笛卡儿积表示, 即: $S=s_{j_1 } \times s_{j_2 } \times \cdots \times s_{j_N } $.

$X_i =\{x_i =(x_{j_i } | j_i \in \Lambda _i)^{\rm T}| \sum_{j_i \in \Lambda _i } x_{j_i }=1, x_{j_i }$ $\ge$ $0\} $是局中人$n_i$ $(n_i\in I)$的混合策略集, 其中$x_{j_i } $是局中人$n_i$ $(n_i\in I)$选取其纯策略集$S_i=\{s_{j_i } |j_i$ $\in$ $\Lambda _i \}$ ($\Lambda _i $是纯策略集的指标集)中的纯策略$s_{j_i } $的概率, $x_i =(x_{j_i } | j_i \in \Lambda _i)^{\rm T}$是局中人$n_i$ $(n_i\in I)$的混合策略.记$X=X_1 \times X_2\times\cdots\times X_i\times \cdots \times X_N $, 当局中人$n_i$ $(n_i\in I)$分别选取混合策略$x_i \in X_i $, 就形成了混合策略局势$x=(x_1, x_2, \cdots, x_N)\in X$.

局中人驾驶员并不知道其他驾驶员的目标权重偏好.在分析问题时, 局中人驾驶员只能将自己的目标权重向量也当作别人的目标权重向量来衡量别人, 从而做出自己的策略选择.这时, 每个局中人$n_i$ $(n_i$ $\in$ $I)$都以自己的目标权重向量给局中人$ n_{i'}$ $(n_{i'}$ $\in$ $I)$的模糊支付值进行加权综合.记各局中人$n_i$ $(n_i$ $\in$ $I)$加权得到的对策为

$ \tilde {\not{\Gamma }}_{MN}^{i} =[I;\{X_i \}, \{{\not{E}}_{i'}^{i} (x)\}(n_{i'} \in I)], \ \ n_i \in I $ (2)

其中,

$ \begin{align} &{\not{E}}_{i'}^{i}(x) =\sum\limits_{m=1}^M {{\not{\omega }}_i^{m} {\not {E}}_{i'}^{m} (x)}=\notag\\ &\ \ \sum\limits_{\begin{array}{c} j_k \in \Lambda _k \\ n_k \in I \end{array}} {\sum\limits_{m=1}^{M }{{\not{\omega }}_i^{m }{\not {u}}_{i'}^{m} (s_{j_1 }, s_{j_2 }, \cdots, s_{j_N } )\prod\limits_{n_k \in I} {x_{j_k } } } } =\notag\\ &\ \ \sum\limits_{\begin{array}{c} j_k \in \Lambda _k \\ n_k \in I \end{array}} {{\not{u}}_{i'}^{i} (s_{j_1 }, s_{j_2 }, \cdots, s_{j_N } )\prod\limits_{n_k \in I} {x_{j_k } } } \;(n_{i'} \in I) \end{align} $ (3)

是在局中人$n_i$ $(n_i\in I)$看来局中人$n_{i'}$ $(n_{i'}\in I)$在策略组合$x\in X$中获得的模糊加权支付值. ${\not {E}}_{i'}^{m}(x)$ $=\sum_{ {j_k \in \Lambda _k }, {n_k \in I}}{\not{u}}_{i'}^{m} (s_{j_1 }, s_{j_2 }, \cdots, s_{j_N })\prod_{n_k \in I} {x_{j_k } } $表示局中人$n_{i'}$ $(n_{i'} \in I)$在局势$x\in X$中关于目标$m$ $(m = 1, 2, \cdots, M)$的模糊支付值, 其中${\not{u}}_{i'}^{m} (s_{j_1 } $, $s_{j_2 }, \cdots, s_{j_N })$是局中人$n_{i'}$ $(n_{i'}\in I)$在纯策略局势$(s_{j_1 }, s_{j_2 }, \cdots, s_{j_N })$中关于目标$m$ $(m=1, 2, \cdots $, $M)$的模糊支付值.另外, 用${\not{\omega }}_i=({\not{\omega }}_i^{1}, {\not{\omega }}_i^{2}, \cdots $, ${\not{\omega }}_i^{m} $, $\cdots, {\not{\omega }}_i^{M})^{\rm T}$ $(n_i \in I)$表示局中人$n_i$ $(n_i \in I)$的模糊目标权重向量, ${\not {\omega }}_i^m $ (假定它已经规范化)表示局中人$n_i$ $(n_i\in I)$关于目标$m$ $(m=1, 2, \cdots, M)$的模糊权重.

2.2 模型求解

局中人$n_i (n_i\in I)$可以选择某个模糊排序函数$f$把对策$ \tilde {\not{\Gamma }}_{MN}^i =[I; \{X_i \}, ~\{{\not{E}}_{i'}^{i} (x)\}~(n_{i'} \in I)]$ $(n_i$ $\in$ $I)$清晰化处理成加权对策$\Gamma _{MN}^i =[I$; $\{X_i \}$, $\{E_{i'}^{i} (x)\}~(n_{i'} \in I)]$ $(n_i \in I)$, 其中$E_{i'}^{i} (x)$ = $f({\not{E}}_{i'}^{i} (x))$ $(n_{i'} \in I)$.

对策解的求解步骤[22]如下:

步骤1.  把$x_i' =(x_{j_i }' | j_i \in \Lambda _i)^{\rm T}$作为常量, 在紧集$X_1 \times X_2 \times \cdots \times X_{i-1} \times X_{i+1} \times \cdots \times X_N $上求函数$E_{i'}^{i} (x\| x_i')$ (其中, $x\| x_i' =(x_1, \cdots, x_{i-1}, x_i', x_{i+1} $, $\cdots$, $x_N))$的最小值, 记为$g_i (x_i')$ $(n_i \in I)$.

步骤2.  在紧集$X_i$ $(n_i \in I)$上求连续函数$g_i (x_i')$ $(n_i \in I)$的最大值点$x_i^{i} $ (可能有多个) ($n_i$ $\in$ $I$), 以及最大值$v_i =g_i (x_i^{i})$.

这样, 局中人$n_i$ $(n_i\in I)$可以按照上述的求解步骤得到期望的对策解, 记为$x^i=(x_1^{i} $, $x_2^{i}, \cdots, x_i^{i} $, $\cdots $, $x_N^{i})$ $(n_i \in I)$以及期望的模糊加权安全值

$ {\not{v}}^{i}=\mathop {\min }\limits_{x\in X}^\sim \not {E}_i^{i} (x\| x_i^{i}), \ \ {n_i \in I} $ (4)

然而, 每个局中人$n_i (n_i\in I)$都以自己的目标权重向量给对策进行加权综合并进行策略选择, 因此实际形成的对策局势应是$\dot {x}=(x_1^{1}, x_2^{2}, \cdots, x_i^{i }$, $\cdots $, $x_N^{N})$, 局中人$n_i$ $(n_i\in I)$实际获得的模糊加权支付值应是

$ \tilde {\dot {v}}_i = {\not{\bar E}}_i (\dot {x})=\sum\limits_{m=1}^{M} {\not{\omega }_i^{m} {\not{E}}_i^{m }(\dot {x})}, \ \ {n_i \in I} $ (5)
3 数据处理和模型标定

限于实验条件的影响, 无法大量获取集群车辆的运动特征, 因此, 采用NGSIM (Next generation simulation)[23-24]的实测交通数据进行模型参数标定与验证. NGSIM是由美国高速公路管理局联合微观交通仿真研究学者以及商业交通仿真软件开发商进行的研究计划, 提供通过视频检测采集的标准微观交通数据包, 供相关研究使用.

3.1 驾驶员倾向性辨识

参照文献[17]中的方法对驾驶员倾向性进行实时在线辨识.

3.2 数据处理

NGSIM数据中每一记录仅包含单一车辆和单一时刻的状态信息, 因此需要按照车辆编号和时间信息等关联查询周围车辆以及一定时间间隔后的状态信息, 并对这些记录中的项目进行组合, 利用视频及文档数据获取车型和目标车与周围车辆的相对距离和相对速度, 得到满足计算车辆集群态势所需的微观数据.对NGSIM数据预处理后的数据如表 4所示.

表 4 实验可采集数据 Table 4 Collected experiment data types
3.3 模型标定

在参考经验值的基础上, 通过对NGSIM数据进行科学分析和处理, 可以建立能够正确反映交通流运行特性的车道选择模型, 进行模型参数的标定和模型的验证.模型中部分参数标定情况如表 5所示.

表 5 车道选择模型参数标定 Table 5 Parameter calibration of lane choice model
4 模型的验证

为了保证路段仿真模型的可靠性, 需要用实测数据进一步验证模型.用实地调查的数据与模拟程序的运行结果进行对比分析, 判断模型是否能够客观地反映路段交通的实际情况.

4.1 基于道路驾驶实车实验的车道选择模型验证

选择淄博市内典型路段, 收集其道路、交通和环境条件资料, 然后进行道路实验(实验设备如图 5所示).选择不同类型的驾驶员, 分车型、分时间、分速度高低等进行实验, 存储实验数据并全程录像.实验结束后, 对照录像和收集整理的其他数据, 实时计算出各个驾驶员选择的车道, 并与录像中实际选择的车道对比核实, 以确定模型识别的有效性和可靠性, 并以此为依据修正模型参数, 形成最终的基于多人多目标博弈的驾驶员车道选择模型.模型预测结果与实车驾驶时的车道选择结果对比, 如表 6所示.

图 5 动态人车环境信息采集系统组成 Figure 5 Dynamic human-vehicle-environment information acquisition systems
表 6 道路实车实验结果 Table 6 Verification results of actual driving experiment
4.2 基于交互式并行驾驶模拟实验的车道选择模型验证

在汽车驾驶模拟器上设计多种典型交通场景, 在特定车路环境组合下, 选择不同类型的驾驶员进行驾驶模拟实验.应用日本FORUM8株式会社生产的驾驶模拟器进行模拟驾驶验证实验(如图 6所示), 该模拟器采用的仿真软件为UC-Win Road.验证实验中, 构建虚拟现实的三车道交通场景, 设置与实车实验中相同的道路环境(包括相同的道路设施、信号配时、交通量等), 实验前对驾驶员进行驾驶模拟器操作培训, 实验过程中避免对驾驶人员的干扰, 存储实验数据并全程录像.将交互式并行驾驶模拟实验数据输入所建车道选择模型, 进行实时计算, 输出实时计算得到的最优对策结果, 与实际的车道选择结果相对比, 结果分析如表 7所示.

图 6 驾驶模拟实验 Figure 6 Interactive parallel virtual driving experiment
表 7 驾驶模拟实验结果 Table 7 Verification results of virtual driving experiment

表 7可以看出, 所建车道选择模型在模拟实验中的预测结果与实测结果的契合度较高.

4.3 基于交通流微观仿真实验的车道选择模型验证

根据道路实验, 分别基于最优控制理论和模糊多目标决策理论构建车辆跟驰模型和车道变换决策模型.将实验得到的各类型驾驶员实验数据分别输入考虑(模拟1)和不考虑(模拟2)驾驶员车道选择博弈的微观仿真模型中, 将模拟出的交通流宏观规律(例如流量、密度、换道频率和换道次数等)和微观规律(例如速度、加速度和位移等)与道路实验情况相对比, 进行驾驶员车道选择推理效果的验证.

验证包括换道频率、换道次数、车道利用率, 验证结果如图 7~9所示. 图 7描述了不同类型的驾驶员在不同车辆密度下换道频率的分布.模拟1为考虑车道选择博弈并实时用于仿真过程的情况, 模拟2为仿真过程未动态考量驾驶员车道选择博弈的情况.

图 7 保守型、普通型、激进型驾驶员换道频率模拟结果 Figure 7 Simulation results of lane changing frequency for conservative, common, and radical drivers
图 8 换道次数仿真值与实际测量值对比图 Figure 8 Comparison of simulation and measured values in lane-changing times
图 9 左车道、中间车道和右车道利用率仿真值与实际测量值对比图 Figure 9 Comparison of simulation and measured values for left, middle, and right lanes in lane occupancy rate

通过上述模拟结果发现, 动态考量驾驶员车道选择博弈的模拟能在一定程度上提高驾驶员的换道频率, 并且在相同车辆密度下, 激进型驾驶员的换道频率高于普通型驾驶员的换道频率, 普通型驾驶员的换道频率高于保守型驾驶员的换道频率.

利用文中的模型进行仿真实验, 得到不同交通流量下车辆换道次数及各条车道的车道利用率与实际测量值的对比情况. 图 8描述了三车道场景不同交通流量下车辆换道次数的分布. 图 9描述了三车道场景不同车辆交通流量下各车道利用率的分布.模拟1为考虑车道选择博弈并实时用于仿真过程的情况, 模拟2为仿真过程未动态考量驾驶员车道选择博弈的情况.

采用平均速度、平均密度和平均延误指标作为宏观验证的评价指标, 利用在淄博市北京路进行交通调查得到的有关实测数据与模拟程序运行得到的结果进行对比分析, 误差在可接受的范围内, 详见表 8.

表 8 微观仿真结果与实测数据对比分析表 Table 8 Comparative analysis of microscopic simulation and measured values
5 结语

本文对城市快速路段上驾驶员博弈行为进行了分析, 通过一体化考虑影响驾驶员决策行为的驾驶倾向性、车辆集群态势以及驾驶员在不同换道策略组合下各驾驶员的收益, 建立了混合模糊多人多目标非合作博弈的驾驶员车道选择对策模型.通过驾驶员在车辆行进过程中的决策行为, 分析不同车道选择决策行为组合下各驾驶员的收益情况, 确定博弈过程中存在Nash均衡, 得到博弈中驾驶员的最优车道选择策略, 合理模拟出了路段上驾驶员的车道选择决策行为.但在建模过程中只是对三车道场景下的驾驶员行为进行模拟, 并且对影响模型的相关因素做了相应的简化.为了更好地适应更复杂的交通环境, 需要将模型扩展到四车道(或更多车道)场景下, 综合考虑驾驶员在路段、交叉口和匝道等处的博弈行为.此外, 为构建更为合理的多人博弈模型和更加安全高效的平行交通, 需要考虑驾驶倾向性的时变性、驾驶员的动态博弈、驾驶员情绪及驾驶行为的传染性(例如飙车行为)等特点.

参考文献
1
Gipps P G. A model for the structure of lane-changing decisions. Transportation Research Part B:Methodological, 1986, 20(5): 403-414. DOI:10.1016/0191-2615(86)90012-3
2
Hidas P. Modelling lane changing and merging in microscopic traffic simulation. Transportation Research Part C:Emerging Technologies, 2002, 10(5-6): 351-371. DOI:10.1016/S0968-090X(02)00026-8
3
Halati A, Lieu H, Walker S. CORSIM-corridor traffic simulation model. In:Proceedings of the 1997 Traffic Congestion and Traffic Safety in the 21st Century:Challenges, Innovations, and Opportunities. New York, USA:American Society of Civil Engineers, 1997. 570-576 https://www.mendeley.com/research-papers/corsim-corridor-traffic-simulation-model/
4
Yang Q, Koutsopoulos H N. A microscopic traffic simulator for evaluation of dynamic traffic management systems. Transportation Research Part C:Emerging Technologies, 1996, 4(3): 113-129. DOI:10.1016/S0968-090X(96)00006-X
5
Ahmed K I. Modeling Drivers' Acceleration and Lane Changing Behavior[Ph.D. dissertation], Massachusettes Institute of Technology, America, 1999. https://www.mendeley.com/research-papers/modeling-drivers-acceleration-lane-changing-behavior/
6
Toledo T. Integrated Driving Behavior Modeling[Ph.D. dissertation], Massachusettes Institute of Technology, America, 2003. http://dspace.mit.edu/handle/1721.1/29285
7
Keyvan-Ekbatani M, Knoop V L, Daamen W. Categorization of the lane change decision process on freeways. Transportation Research Part C:Emerging Technologies, 2016, 69: 515-526. DOI:10.1016/j.trc.2015.11.012
8
Balal E, Cheu R L, Sarkodie-Gyan T. A binary decision model for discretionary lane changing move based on fuzzy inference system. Transportation Research Part C:Emerging Technologies, 2016, 67: 47-61. DOI:10.1016/j.trc.2016.02.009
9
Kita H. A merging-giveway interaction model of cars in a merging section:a game theoretic analysis. Transportation Research Part A:Policy and Practice, 1999, 33(3-4): 305-312. DOI:10.1016/S0965-8564(98)00039-1
10
Yang Xiao-Fang, Zhang Sheng, Fu Qiang. Research of driving behavior under condition of complete information based on game theory. Journal of Highway and Transportation Research and Development, 2015, 32(7): 105-111.
( 杨晓芳, 张盛, 付强. 基于博弈论的完全信息下的驾驶行为研究. 公路交通科技, 2015, 32(7): 105-111.)
11
Liu Xiao-Ming, Zheng Shu-Hui, Jiang Xin-Chun. Lane changing model based on discrete dynamic game. Journal of Highway and Transportation Research and Development, 2008, 25(6): 120-125.
( 刘小明, 郑淑晖, 蒋新春. 基于动态重复博弈的车辆换道模型. 公路交通科技, 2008, 25(6): 120-125.)
12
Talebpour A, Mahmassani H S, Hamdar S H. Modeling lane-changing behavior in a connected environment:a game theory approach. Transportation Research Part C:Emerging Technologies, 2015, 59: 216-232. DOI:10.1016/j.trc.2015.07.007
13
Wang M, Hoogendoorn S P, Daamen W, van Arem B, Happee R. Game theoretic approach for predictive lane-changing and car-following control. Transportation Research Part C:Emerging Technologies, 2015, 58(Part A): 73-92.
14
Peng Jin-Shuan, Fu Rui, Shi Lei-Lei, Zhang Qiong. Research of driver's lane change decision-making mechanism. Journal of Wuhan University of Technology, 2011, 33(12): 46-50.
( 彭金栓, 付锐, 石磊磊, 张琼. 驾驶人车道变换决策分析. 武汉理工大学学报, 2011, 33(12): 46-50. DOI:10.3963/j.issn.1671-4431.2011.12.011)
15
Peng Jin-Shuan, Fu Rui, Guo Ying-Shi, Yuan Wei, Wang Chang. Analysis of lane change decision making based on the finite and zero-sum grey game theory. Science and Technology Review, 2011, 29(3): 52-56.
( 彭金栓, 付锐, 郭应时, 袁伟, 王畅. 基于有限零和灰色博弈的车道变换决策分析. 科技导报, 2011, 29(3): 52-56.)
16
Wu Lei, Wang Xiao-Hui, Yang Xin-Yue, Wang Xiao-Yuan. Study on the recognition of traffic situation and its state transition mechanism. Communications Standardization, 2007(2-3): 61-66.
( 吴磊, 王晓辉, 杨新月, 王晓原. 交通态势识别及状态转换机制研究. 交通标准化, 2007(2-3): 61-66.)
17
Wang X Y, Zhang J L, Ban X G, Tan D R. Dynamic feature extraction method of driver's propensity under complicated vehicle group. Advances in Mechanical Engineering, 2013, 2013: 1-10.
18
Zhang Qing, Wu Dong, Pan Xiao-Dong. Multi-objective N-person noncooperative fuzzy games with preference information and its solving method. Journal of Shandong University of Technology (Natural Science Edition), 2009, 23(2): 24-26.
( 张青, 武东, 潘小东. 有偏好信息的多目标N人非合作模糊对策及其解. 山东理工大学学报(自然科学版), 2009, 23(2): 24-26.)
19
Xiao M, Shao X Y, Gao L, Luo Z. A new methodology for multi-objective multidisciplinary design optimization problems based on game theory. Expert Systems with Applications, 2015, 42(3): 1602-1612. DOI:10.1016/j.eswa.2014.09.047
20
Chen Zhi-Wang, Bai Xin, Yang Qi, Huang Xing-Wang, Li Guo-Qiang. Strategy of constraint, dominance and screening solutions with same sequence in decision space for interval multi-objective optimization. Acta Automatica Sinica, 2015, 41(12): 2115-2124.
( 陈志旺, 白锌, 杨七, 黄兴旺, 李国强. 区间多目标优化中决策空间约束、支配及同序解筛选策略. 自动化学报, 2015, 41(12): 2115-2124.)
21
Gong Dun-Wei, Liu Yi-Ping, Sun Xiao-Yan, Han Yu-Yan. Parallel many-objective evolutionary optimization using objectives decomposition. Acta Automatica Sinica, 2015, 41(8): 1438-1451.
( 巩敦卫, 刘益萍, 孙晓燕, 韩玉艳. 基于目标分解的高维多目标并行进化优化方法. 自动化学报, 2015, 41(8): 1438-1451.)
22
Zhang Qing, Hu Zi-Xiang, Huang Tian-Min. Mixed fuzzy multi-objective many-person noncooperative games and its solving method. Journal of Southern Yangtze University (Natural Science Edition), 2005, 4(1): 94-96, 108.
( 张青, 胡子祥, 黄天民. 混合模糊多目标多人非合作对策及其解. 江南大学学报(自然科学版), 2005, 4(1): 94-96, 108.)
23
Hranac R, Margiotta R, Alexiadis V. Next Generation Simulation (NGSIM) High-level Verification and Validation Plan. Washington, DC, USA:Federal Highway Administration, 2004.
24
Montanino M, Punzo V. Trajectory data reconstruction and simulation-based validation against macroscopic traffic patterns. Transportation Research Part B:Methodological, 2015, 80: 82-106. DOI:10.1016/j.trb.2015.06.010