平均排队长度差最小的单交叉口在线Q学习模型

扩展功能

加入引用管理器

Email Alert

文章信息

卢守峰, 张术, 刘喜敏

LU Shou-feng, ZHANG Shu, LIU Xi-min

平均排队长度差最小的单交叉口在线Q学习模型

On-line Q Learning Model for Minimizing Average Queue Length Difference of Single Intersection

公路交通科技, 2014, Vol. 31 (11): 116-122

Journal of Highway and Transportation Research and Denelopment, 2014, Vol. 31 (11): 116-122

10.3969/j.issn.1002-0268.2014.11.019

文章历史

收稿日期：2013-11-27

引用本文

卢守峰, 张术, 刘喜敏. 平均排队长度差最小的单交叉口在线Q学习模型[J]. 公路交通科技, 2014, Vol. 31 (11): 116-122. 复制到剪切板

LU Shou-feng, ZHANG Shu, LIU Xi-min. On-line Q Learning Model for Minimizing Average Queue Length Difference of Single Intersection[J]. Journal of Highway and Transportation Research and Denelopment, 2014, Vol. 31 (11): 116-122. 复制到剪切板

平均排队长度差最小的单交叉口在线Q学习模型

卢守峰, 张术, 刘喜敏

长沙理工大学交通运输工程学院, 湖南长沙 410114

收稿日期:2013-11-27

基金项目：国家自然科学基金项目(71071024);湖南省自然科学基金项目(12JJ2025);长沙市科技局重点项目(K1106004-11).

作者简介: 卢守峰(1978-),男,汉,吉林磐石人,博士,副教授.

摘要：为改善交叉口排队长度管理,避免交叉口某个方向排队长度过长,采用强化学习理论建立了以平均排队长度差最小为优化目标的在线Q学习模型。针对控制性能指标相对于邻近的配时方案不敏感的特点,提出了以平均排队长度差作为基本单位重新构造奖励函数,目的是拉大各行为对应的Q值差距,提高模型的收敛速度和鲁棒性。集成Excel VBA,Vissim,Matlab建立了在线仿真平台,作为计算环境对算例进行了计算。算例中利用GPS数据对Vissim软件中车辆加减速度曲线进行了标定。计算结果表明以平均排队长度差作为优化目标能够提高各个方向排队长度的平衡性,优化整个交叉口的时空资源;建立的在线Q模型具有学习能力和较快的计算速度,模型能否收敛受到周期取值和可选行为数量的影响。

关键词：交通工程在线Q学习配时优化排队长度

On-line Q Learning Model for Minimizing Average Queue Length Difference of Single Intersection

LU Shou-feng, ZHANG Shu, LIU Xi-min

School of Traffic and Transportation Engineering, Changsha University of Science and Technology, Changsha Hunan 410114, China

Abstract:In order to improve the management of queue length and avoid long queue of a certain direction at intersection, we built an on-line Q learning model for minimizing average queue length difference by using reinforcement learning theory. Because the control performance indicator is insensitive to the adjacent signal timing scheme, we put forward a method of restructuring reward function using average queue length difference as the basic unit to increase the gap between the corresponding Q values of different behaviours to improve the convergence rate and robustness of the model. We built an on-line simulation platform by integrating Excel VBA, Vissim and Matlab. Using this platform, we analyzed some examples, in which we calibrated the acceleration and deceleration curves of vehicle in Vissim using GPS data. The calculation result shows that (1) the optimization goal of minimizing average queue length difference can improve the balance of queue lengths in different directions and optimize time and space resources of an intersection; (2) the established on-line Q model has learning ability and fast computation speed, and the convergence possibility of the Q model is influenced by cycle value and optional behaviour quantity.

Key words: traffic engineering on-line Q learning timing optimization queue length

0 引言

随着车辆保有量的增加，我国大中城市交通拥挤的时段和范围逐渐增大。对于城市的中心区，不仅是早晚高峰出现交通拥挤，而是多个时段出现交通拥挤。交通压力增大的直接体现是排队长度增加，过饱和交叉口在一个周期内不能够将排队清空。以长沙市SCATS控制系统为例，其控制原理是绿灯时间饱和度，即被车辆通行占用的绿灯时间与总绿灯时间的比值。对于过饱和交叉口，由于需要通行的交通需求较大，总绿灯时间扣除车间时距几乎均被占用。这种情况下，SCATS的配时方案等同于定周期配时，绿灯期间排队车辆被放行一部分，后面的排队车辆向前挪动一部分，工作效率较低。随着交通检测器技术的发展，视频检测技术在数据采集方面已得到发展，例如全景视频技术^[1]能够提供整个交叉口范围内的交通参数。排队长度较长是过饱和交叉口的主要特征，如何平衡交叉口不同相位的排队长度、综合优化整个交叉口的时间与空间资源是本文研究的重点。

交通系统的运行效率由供需两个方面决定，这两个方面都具有不确定性、动态性的特点，再加之驾驶员行为的不确定性，经过同一个交叉口的不同驾驶员具有不同的驾驶行为，即使同一个驾驶员在不同时间也会表现出不同的驾驶行为。这决定了状态集的数量很大，难以事先枚举出所有状态，为每种状态都存储一个最优方案很困难。提高交通控制系统的智能性是当前研究的一个趋势，本文认为对于交通控制系统而言，智能最重要的体现是具有学习能力。如果交通控制模型具有了学习能力，那么就可以记住经验、对未经历的状态采取经验复用。利用强化学习理论建立具有学习能力的交通控制模型最具代表性，该方法能够学习控制行为与其对环境作用效果之间的关系，近些年来被应用于交通控制系统研究。Oliveira^[2]，Ilva^[3]采用基于环境检测的强化学习方法对噪音环境下的配时优化进行了研究，噪音环境主要指驾驶员行为和流量需求波动，该文通过检测环境的改变来学习动态的流量模式，自动对流量模式进行识别，执行对应的策略，跟踪环境转换的预估误差和奖励。Cai^[4]研究了一种基于近似动态规划的自适应交通信号实时控制算法，具体地利用线性近似函数代替动态规划中的值函数，其中线性近似函数的参数由时间差分强化学习和扰动强化学习两种方法在线学习，结果表明极大地提高了模型的计算效率，而且模型优化的时间步长越小性能越优。Wiering^[5]研究了基于车辆投票的强化学习优化模型，通过估计每个车辆的等待时间决定配时方案，结果表明优于固定信号配时模型。Abdulhai^[6]建立了基于Q学习模型的配时优化模型，需要对所有连续状态进行整合加以描述，计算时间随着车道数量和交叉口数量指数增加，限制了该模型只能用于小型路网。随后，Prashanth和Shalabh^[7]基于函数近似的强化学习算法对信号配时优化进行了研究，提出了基于特征的状态描述方法，将状态离散为低、中、高三个区间，解决了状态—行为对的维数灾难问题。Bingham^[8]使用神经网络调整模糊交通信号控制器的成员函数，使用强化学习评估神经网络采用的行为的效用，改进了模糊控制的效果。马寿峰等^[9]将Agent与经验知识和Q学习算法相结合，研究单个路口的动态配时问题。承向军等^[10]采用Q学习方法以减少延误为目标对单路口进行信号配时的优化，并应用模糊控制规则改善信号控制，研究结果表明该方法优于定时控制、感应式控制。赵晓华，石建军，李振龙等^[11,12]将Q学习及BP 神经元网络应用于切换式的信号控制优化，结果表明该模型能够感知交通流变化，并能够自适应控制，比定时控制相比具有明显的优势。卢守峰等^[13,14]在周期、绿信比等概念的基础上，分别以等饱和度、延误最小为优化目标建立了单交叉口离线Q学习模型。Box等^[15,16]将具有人工干预的监督学习和时间差分强化学习应用于信号配时优化。本文以平均排队长度差最小为优化目标，研究交通控制的在线学习模型。

1 单交叉口在线Q学习模型

Q学习算法是强化学习的一种，被公认为强化学习算法发展过程中的一个里程碑，由Watkins^[17]于1989年提出。通过与外部环境交互取得状态到行为映射关系的学习，学习的目标是使得奖励回报函数值达到最大。Q学习模型选择当前状态下对应的一个行为作用于环境，环境接受该行为后状态发生变化，同时产生一个强化信号(奖或惩)反馈给Q学习模型，Q学习模型根据强化信号和环境当前状态再选择下一个动作，选择的原则是使受到正强化的概率增大。选择的行为不仅影响当前强化值，而且影响环境下一时刻的状态及最终的强化值，强化学习流程如图 1所示。

图 1 强化学习流程 Fig. 1 Reinforcement learning process

图选项

Q学习的公式^[18]为:

式中,α∈{0,1}为学习率;γ∈{0,1}为折扣因子;A为行为集；Q(s′,a′) 为状态s′、行为a′为对应的Q值；r为当前奖赏。

Q学习理论给出了一种迭代学习的框架，利用该理论建立信号配时模型的关键是如何选取状态s、行为a，以及如何构造奖赏函数r和值函数矩阵。

1.1 状态、行为、奖赏的建模

状态、行为、奖赏的建模是决定强化学习模型性能的关键。本文的优化目标是排队长度，因此选取排队长度作为状态。选取各相位的绿灯时间作为行为。定义同一相位内排队长度最大的流向为关键车流，定义关键车流的排队长度为关键排队长度。各相位的关键排队长度之差的绝对值为关键排队长度之差。多个周期的关键排队长度之差的平均值为平均关键排队长度。优化的目标函数定义为每两个相位的关键排队长度差的绝对值之和。研究中发现这个目标函数对于相近的配时方案的取值相差不大，即不敏感。为此，利用这个目标函数重新构造了奖赏。l为关键排队长度差的绝对值之和的当前值；l为关键排队长度差的绝对值之和的历史平均值；r为当前奖赏，k为正数。以l离散为五个部分为例说明奖赏函数的构建，k取100。

如果0≤l≤0.5l-,则r=0.5k；

如果0.5l-≤l≤l-,则 r=k；

如果 l-≤l≤1.5l-,则r=1.5k；

如果1.5l-≤l≤2l-,则r=3k；

如果l≥2l-,则r=5k。

离散的目的是拉大奖赏值的差距，从而强化学习模型能够区分行为之间的优劣。同时因为每个奖赏值对应关键排队长度差的一个区间，因此离散方法能够减少交通流随机性带来的不稳定性，提高鲁棒性。

1.2 行为选择函数

在学习过程中，行为选择机制要同时考虑两个相互矛盾的因素：探索和利用。探索是指智能系统要尽可能地经历所有的状态行为对，以获得充足而全面的经验知识，从而保证能够收敛到最优的Q值函数，但过度探索势必带来冗余信息，浪费存储资源和计算资源，从而影响了学习速度；利用则是指智能系统为了获取高的回报函数，宁愿根据当前的值函数矩阵选择可以获得高回报的动作，而不愿冒风险去尝试可能会产生更高回报，但也可能产生低回报的动作，过度利用也会导致系统总是沿着一个方向进行搜索，从而收敛不到最优解。因此行为选择函数要根据实际问题的特征进行选择。本文选择Pursuit函数^[18]更新行为选择概率。在第t+1个周期，选择最优行为a^*_t+1的概率为：

选择其他a≠a^*_t+1行为的概率为：

式中,π_ta为在周期为t时选择行为a的概率；a^*_t+1为最优行为。β取值范围是0<β<1。

通过调整β的大小Pursuit函数既能确保以较大的概率选择最优行为又能探索没被选中过的行为，使行为的探索与利用保持平衡。

2 集成Excel VBA,Vissim,Matlab的在线仿真平台

集成Excel VBA,Vissim,Matlab构建仿真平台的方法在文献^[19]中进行了研究。Excel VBA与Matlab的集成通过Excel link扩展接口实现，Excel VBA与Vissim之间通过COM接口集成。基于这个集成仿真平台，可以实施在线和离线两种学习方法。对于离线学习方法，Matlab存储已收敛的强化学习矩阵，Excel VBA基于这个矩阵和Vissim检测到的排队长度选择信号配时方案。对于在线学习方法，Matlab存储的强化学习矩阵在每个周期都被更新一次，Excel VBA基于强化学习矩阵的当前值和Vissim检测到的排队长度选择信号配时方案。随着程序的运行，通过不断对强化学习矩阵进行更新，使该矩阵逐渐收敛。因此离线方法和在线方法的主要区别在于强化学习矩阵是否被更新。对于前者，使用收敛的强化学习矩阵，适用于波动小的交通模式；对于后者，程序边运行边更新强化学习矩阵，适用于波动大的交通模式。本文采用在线学习方法，流程图如图 2所示。

图 2 仿真平台的功能模块 Fig. 2 Function module of simulation platform注：A为每个周期末的排队长度;B和D为新的配时方案;C为每个周期末关键排队长度差之和。

图选项

3 算例分析 3.1 模型性能测试

本例的目的是对建立的单交叉口在线Q学习模型和在线仿真平台的正确性和适应性进行验证。采用多次仿真测试的方法确定模型中的参数，对于信号配时优化问题参数α的范围取0.1~0.2、参数γ的范围取0.7~0.9效果最好。对于固定周期两相位的单交叉口，假设周期为70 s，东西方向车流为一个相位，南北方向车流为另一相位。设各相位的黄灯时间为3 s，全红时间为2 s，即总绿灯损失时间为10 s，最小绿灯时间为10 s，最大绿灯时间为50 s，所以各相位的绿灯时间范围为{10,50}。将绿灯时间以2 s为间隔，划分为21个行为，行为编号与绿灯时间秒数的转换关系式：(行为编号+4)×2=绿灯时间秒数。仿真中时间步长与周期相同，即每隔70 s提取一次各流向的最大排队长度以及优化配时方案。仿真总步长设为2 000步，前1 000步南北向流量设为400 veh/h,东西向流量设为1 800 veh/h；后1 000步南北向流量设为1 400 veh/h,东西向流量设为1 400 veh/h。各状态-行为对的初始Q值均设为35，行为的初始概率均设为1/21,仿真结果如图 3和图 4所示。

图 3 Q值变化图 Fig. 3 Curves of Q values

图选项

图 4 行为变化图 Fig. 4 Curves of behaviours

图选项

图 3中不同颜色和形状的线条代表不同的行为。一个时间步内只选择一次行为，被选中的行为Q值得到更新，其他行为的Q值则保持不变。收敛即意味着同一行为被连续选中，此行为对应的Q值不断被更新但始终比其他行为所对应的Q值小，其对应的图像是一条在直线下方不断振荡的曲线，直线表示未被选中的其他行为。图 3可以分为四个阶段：第一阶段为仿真开始至大约第500步，为未收敛阶段，此阶段中各行为都有被选中过，但由于奖励值过大使得更新的Q值变大从而使得再次被选中的概率减少，所以造成不同行为都有机会被选择但不会持续的状态；第二阶段为收敛阶段，由图可以看出前1 000步仿真在第500步时开始收敛，表现为一条带+号的黑色曲线及许多直线，对应的最优行为是第21号行为，即东西向绿灯时间为(21+4)×2=50 s，南北向绿灯时间为70-10-50=10 s。第三阶段为过渡阶段，第1000步时流量发生变化使得原来收敛状态被解除，与第一阶段相比过渡阶段时间很短，经过短暂的学习后在第1 100步时重新收敛；第四阶段为流量改变后重新收敛阶段，即带o号的蓝色曲线及许多直线，对应的最优行为是第11号行为，即东西向绿灯时间为(11+4)×2=30 s，南北向绿灯时间为70-10-30=30 s。图 4中横坐标表示运行步数，纵坐标表示行为。该算例表明：(1)本文建立的模型和仿真平台的计算结果是正确的；(2)在线仿真效率很高，预热时间很短。在第500步时就达到收敛，对于实时配时系统来说，收敛时间越短效率越高；(3)能迅速应对外部环境的改变。第1 000步流量改变后在第1 100步时重新收敛。

3.2 实际案例

长沙猴子石大桥进口连接主干道(三车道)和匝道(四车道)，现状采用固定周期两相位信号配时，周期时间为154 s，主干道绿灯时间100 s，匝道绿灯50 s，黄灯4 s。通过对17：00—18：00车流量高峰期间的实际调查，主干道流量为3 034 veh/h，匝道流量为1 665 veh/h。主干道交通压力很大，排队长度约950 m。匝道排队长度为140 m，匝道还有较大的排队空间。优化目标是综合利用主线和匝道的时空资源，减小主线排队长度、适当增加匝道排队长度。

首先我们利用车载GPS设备采集车辆的加减速行为数据，标定Vissim软件中的期望加速度和减速度曲线，标定结果如图 5所示。

图 5 实测的车辆加速度和减速度曲线 Fig. 5 Measured vehicle acceleration and deceleration curves

图选项

将调查的配时方案、流量、标定的加减速度曲线输入到Vissim中，仿真得到的排队长度与实测的排队长度基本一致，表明Vissim模型的参数标定效果较好。

猴子石大桥进口连接主干道和匝道，采用固定周期两相位信号配时。仿真中匝道绿灯时间选择范围设为{20,60}。以2 s为间隔，划分为21个行为，行为与绿灯时间的转换关系式为：(行为编号+9)×2=绿灯时间。仿真时间步长为周期时间。我们对五种周期的配时方案进行了优化，优化结果汇总如表 1所示。不同方案对应的排队长度如图 6所示，方案2、方案3、方案4三种方案的Q值和行为值变化如图 7~图 9所示。

表 1 不同配时方案的性能对比(单位:s) Tab. 1 Comparison of performance obtained by different timing schemes(unit:s)

信号配时方案	周期	Q学习模型是否收敛	主线方向和匝道方向的绿灯时间	主线平均排队长度	匝道平均排队长度	平均排队长度差	与现有方案的性能对比
现状实际运行的固定配时方案	154		主线100，匝道50，黄灯4	1 489	106	1 384
方案1	164	否	由于模型没有收敛，因此无优化结果	由于模型没有收敛，因此无优化结果	由于模型没有收敛，因此无优化结果	由于模型没有收敛，因此无优化结果
方案2	154	是	主线108，匝道42，黄灯4	240	161	116	优于现状配时方案
方案3	144	是	主线102，匝道38，黄灯4	183	183	78	优于现状配时方案，且性能最好
方案4	134	是	主线92，匝道38，黄灯4	279	101	179	优于现状配时方案
方案5	124	否	由于模型没有收敛，因此无优化结果	由于模型没有收敛，因此无优化结果	由于模型没有收敛，因此无优化结果	由于模型没有收敛，因此无优化结果

表选项

图 6 不同周期对排队长度的影响 Fig. 6 Effect of cycle on queue length

图选项

图 7 周期为154 s的Q值和行为值变化 Fig. 7 Curves of Q values and behaviour values with cycle of 154 s

图选项

图 8 周期为144 s的Q值和行为值变化 Fig. 8 Curves of Q values and behaviour values with cycle of 144 s

图选项

图 9 周期为134 s的Q值和行为值变化 Fig. 9 Curves of Q values and behaviour values with cycle of 134 s

图选项

4 结论

本文建立了单交叉口的在线Q学习模型，该模型集成了Vissim，Excel VBA，Matlab实现在线学习，具有较快的收敛速度。针对控制性能指标相对于邻近的配时方案不敏感的特点，提出了以平均排队长度差作为基本单位重新构造奖励函数，算例表明这种方法适用于信号配时优化问题。文中算例表明平均排队长度差最小的优化目标适合于近饱和、过饱和交通状况，能够优化整个交叉口的时空资源实际案例中有两个方案不收敛，这表明Q学习模型的鲁棒性有待进一步提高。

参考文献

[1]	王国林,萧德云.一种面向全景视频的交通状态检测方法[J],清华大学学报:自然科学版,2011,51(1):30-35.WANG Guo-lin,XIAO De-yun.Traffic State Detection Method for Full Scene Video[J]. Journal of Tsinghua University:Science and Technology Edition,2011,51(1):30-35.

[2]	OLIVEIRA D D,BAZZAN A L C,SILVA B C D,et al.Reinforcement Learning Based Control of Traffic Lights in Non-stationary Environments: A Case Study in A Microscopic Simulator[C] //Proceedings of the 4th European Workshop on Multi-agent Systems (EUMAS06). Lisbon: RWTH Aachen University,2006: 31-42.

[3]	ILVA B,OLIVEIRA D,BAZZAN A,et al. Adaptive Traffic Control with Reinforcement Learning[C] //Proceedings of the 4th Workshop on Agents in Traffic and Transportation,Hakodate: Association for Computing Machinery,2006: 80-86.

[4]	CAI C,WONG C K,HEYDECKER B G. Adaptive Traffic Signal Control Using Approximate Dynamic Programming[J]. Transportation Research Part C: Emerging Technologies,2009,17(5):456-474.

[5]	WIERING M,VEENEN J V,VREEKEN J,et al.Intelligent Traffic Light Control,UU-CS-2004-029[R].Utrecht: Institute of Information and Computing Sciences, 2004.

[6]	ABDULHAI B,PRINGLE R,KARAKOULAS G J. Reinforcement Learning for True Adaptive Traffic Signal Control[J].

[7]	LPRASHANTH L A,BHATNAGAR S. Reinforcement Learning with Function Approximation for Traffic Signal Control[J].

[8]	BINGHAM E. Reinforcement Learning in Neurofuzzy Traffic Signal Control[J].

[9]	马寿峰,李英,刘豹.一种基于Agent的单路口交通信号学习控制方法[J],系统工程学报,2002,17(6): 526-530.MA Shou-feng,LI Ying,LIU Bao. Agent-based Learning Control Method for Urban Traffic Signal of Single Intersection[J]. Journal of Systems Engineering,2002,17(6): 526-530.

[10]	承向军,常歆识,杨肇夏.基于Q学习的交通信号控制方法[J],系统工程理论与实践,2006,26(8): 136-140. CHENG Xiang-jun,CHANG Xin-shi,YANG Zhao-xia. A Traffic Signal Control Method Based on Q-Learning[J]. Systems Engineering-Theory and Practice,2006,26(8):136-140.

[11]	赵晓华,石建军,李振龙,等.基于Q-learning 和BP 神经元网络的交叉口信号灯控制[J],公路交通科技,2007,24(7):99-102. ZHAO Xiao-hua,SHI Jian-jun,LI Zhen-long,et al. Traffic Signal Control Based on Q-learning and BP Neural Network[J]. Journal of Highway and Transportation Research and Development,2007,24(7): 99-102.

[12]	赵晓华,李振龙,陈阳舟,等.基于混杂系统Q学习最优控制的信号灯控制方法[J],高技术通讯,2007,5(17): 498-502.ZHAO Xiao-hua,LI Zhen-long,CHEN Yang-zhou,et al. An Optimal Control Method for Hybrid Systems Based on Q-learning for an Intersection Traffic Signal Control[J]. Chinese High Technology Letters,2007,5(17): 498-502.

[13]	卢守峰,邵维,韦钦平,等.基于绿灯时间等饱和度的离线Q学习配时优化模型[J],系统工程,2012,30(7):117-122.LU Shou-feng,SHAO Wei,WEI Qin-ping,et al.Optimization Model of the Off-line Q Learning Timing Based on Green Time Equi-saturation[J]. Systems Engineering,2012,30(7):117-122.

[14]	卢守峰,韦钦平,刘喜敏.单交叉口信号配时的离线Q学习模型研究[J],控制工程,2012,19(6):987-992.LU Shou-feng,WEI Qin-ping,LIU Xi-min.The Study on Off-line Q-learning Model for Single Intersection Signal Timing[J]. Control Engineering of China,2012,19(6):987-992.

[15]	BOX S,WATERSON B. An Automated Signalized Junction Controller that Learns Strategies from a Human Expert[J].

[16]	BOX S,WATERSON B. An Automated Signalized Junction Controller that Learns Strategies by Temporal Difference Reinforcement Learning[J].

[17]	WATKINS C J C H,DAYAN P. Q-learning[J]. Machine Learning,1992,8(3-4): 279-292.

[18]	SUTTON R,BARTO A. Reinforcement Learning: An Introduction[M].Cambridge: MIT Press,1998.

[19]	卢守峰,韦钦平,沈文,等.集成Vissim、Excel VBA、Matlab的仿真平台研究[J]. 交通运输系统工程与信息,2012,12(4):43-48.LU Shou-feng,WEI Qin-ping,SHEN Wen,et al. Integrated Simulation Platform of VISSIM,Excel VBA,MATLAB[J]. Journal of Transportation Systems Engineering and Information Technology,2012,12(4):43-48.