自动化学报  2017, Vol. 43 Issue (7): 1220-1233   PDF    
基于MFD的城市区域过饱和交通信号优化控制
刘小明1,2, 唐少虎1,2,3, 朱凤华4, 陈兆盟1,2     
1. 城市道路交通智能控制技术北京市重点实验室 北京 100144;
2. 北方工业大学电气与控制工程学院 北京 100144;
3. 北京城市系统工程研究中心 北京 100035;
4. 中国科学院自动化研究所 北京 100190
摘要: 为了解决交通高峰时段城市区域路网过大的交通需求引起的路网通行效率下降以及区域内部交通流分布的异质性产生的道路资源浪费等问题.本文提出了基于区域路网固有属性宏观基本图(Macroscopic fundamental diagram,MFD)的过饱和区域控制优化模型,建立了边界控制信号和内部控制信号目标函数的双层规划优化,进一步设计了基于BP(Back propagation)神经网络的自适应动态规划(Adaptive dynamic programming,ADP)模型,对建立的双层规划区域交通信号进行求解,实例仿真结果验证了本文方法的有效性.通过本文的研究分析,对城市区域交通的需求管控、拥堵政策制定等城市区域交通管理具有一定的指导意义.
关键词: 区域交通信号优化     宏观基本图     双层规划     自适应动态规划     BP网络    
Urban Area Oversaturated Traffic Signal Optimization Control Based on MFD
LIU Xiao-Ming1,2, TANG Shao-Hu1,2,3, ZHU Feng-Hua4, CHEN Zhao-Meng1,2     
1. Beijing Key Laboratory of Urban Road Traffic Intelligent Technology, Beijing 100144;
2. College of Electrical and Control Engineering, North China University of Technology, Beijing 100144;
3. Beijing Research Center of Urban System Engineering, Beijing 100035;
4. Institute of Automation, Chinese Academy of Sciences, Beijing 100190
Manuscript received : March 4, 2016, accepted: August 31, 2016.
Foundation Item: Supported by National Natural Science Foundation of China (61374191), National Science and Technology Support Program (2014BAG03B01), and the Great Wall Scholars Program (CIT & TCD20150301)
Author brief: LIU Xiao-Ming Professor at the College of Electrical and Control Engineering, North China University of Technology. He received his Ph. D. degree in control theory and control engineering from the Institute of Automation, Chinese Academy of Sciences in 2004. His research interest covers traffic flow theory and intelligent traffic control;
ZHU Feng-Hua Associate professor at the Institute of Automation, Chinese Academy of Sciences. He received his Ph. D. degree from the Institute of Automation, Chinese Academy of Sciences in 2008. His research interest covers parallel transportation system, traffic signal control, and social transportation;
CHEN Zhao-Meng Assistant professor at the College of Electrical and Control Engineering, North China University of Technology. His research interest covers traffic signal control technology and intelligent traffic signal controllers
Corresponding author. TANG Shao-Hu Research associate at Beijing Research Center of Urban System Engineering. He received his Ph. D. degree from North China University of Technology in 2017. His research interest covers urban resilience, traffic control, and intelligent algorithm. Corresponding author of this paper.E-mail:tshaohu@163.com
Recommended by Associate Editor DONG Hai-Rong
Abstract: In order to solve traffic efficiency reduction of road network, which is caused by overlarge traffic demand of urban regions at peak hours, and resource waste of roads due to the heterogeneity of traffic distribution, this paper proposes an optimization model of control for oversaturated area based on inherent attributes macroscopic fundamental diagram (MFD) of regional road network, and builds up the bi-level programming optimization of objective function for boundary and internal signal control. Furthermore, an adaptive dynamic programming (ADP) model based on back propagation (BP) neural network is employed to solve the regional signal control of bi-level programming. Simulation results verify the validity of this method. The investigation of this paper has certain guidance for urban traffic management such as control and management of traffic demand, formulation of congestion policy, etc.
Key words: Regional traffic signal optimization     macroscopic fundamental diagram (MFD)     bi-level programming     adaptive dynamic programming (ADP)     back propagation (BP) neural network    

城市区域交通高峰时段过饱和及不均衡交通流严重制约了交通运输系统的运行效率, 由于区域内部部分路段交通需求远大于路段可承受的最佳车辆数, 而又存在其他路段交通需求还未达到最佳通行能力所要求的车辆数, 从而产生了两个方面的问题:1) 区域路网一些路段承受着较大的交通通行需求, 在交通需求远大于道路供给情况下, 车辆将逐步填满这些路段, 进而引起路段的交通拥堵, 如不进行有效管控, 拥堵将不断扩散最终导致交通瘫痪; 2) 区域内还存在一些路段在高峰时段使用率较低的情况, 没有起到分担交通通行压力的作用, 如不进行有效开发使用, 就会造成道路资源的浪费.如何有效治理上述城市交通问题, 已经成为现代城市交通可持续发展的现实课题和迫切需求[1].

城市区域交通信号优化控制是缓解区域交通拥堵和改善交通运输系统运行条件的重要措施[2].Girianna等基于路网的路径选择模型, 以路网交叉口的驶离量最大为控制目标建立了针对过饱和交通路网动态信号控制模型[3]; Aboudolas等针对城市大范围的交通拥堵, 以最小化和均衡路网排队长度为目标提出了一种基于Store-and-Forward(存储--转发)模型的实时信号控制模型[4].张勇等以堵塞路网上的累积车辆为变量建立了宏观交通流状态方程, 并用极小值原则优化求解该方程, 实现了堵塞路网的最优信号控制策略[5].王浩等基于交通流理论, 以减少排队溢出为目标、上下游交叉口通行能力相匹配为约束, 建立了针对过饱和交叉口群的协调控制模型, 并通过试验说明该模型能有效提高过饱和路网的可靠性[6].Xin等提出了一种分层自适应信号控制方法, 并通过设置控制策略集以平衡拥堵的关键交叉口的车辆排队增长率, 该算法被用到纽约最新的主动交通管理平台, 取得良好效果[7].Jang等针对过饱和城市网络提出了一种车辆排队增长均衡算法, 能够延缓局部路段的车辆排队溢出, 通过多种过饱和需求实验, 在输出流量、延误等指标对比上优于TRANSYT-7F的优化结果[8].邵海鹏等提出了路网过饱和状态判定及过饱和诱导控制策略启动时机的判定方法, 以路段饱和度最大值最小化为目标建立了交通诱导模型, 以路段饱和度方差最小化为目标建立了交通控制模型, 试验对比表明在过饱和路网的最大饱和度以及路段的均衡饱和度上有明显的降低[9].李轶舜等提出了以关键交叉口为中心的多层边界控制策略, 将超过通行能力的车辆控制在多层边界路段上, 缩小拥堵影响范围, 案例结果表明能有效减低停车延误和停车次数[10].陈娟等将过饱和路网控制问题描述为冲突的多目标控制问题, 提出一种新的非均匀自适应多目标优化控制算法用于过饱和路网的实时控制, 效果优于定时控制方案[11].Li等针对拥堵路网提出了边界信号控制策略, 用于在高峰时段决定进入路网的交通比例, 目标是最大化网络通行能力和防止排队溢出, 并在TRANSYT-7F上验证, 结果表明对缓解拥堵具有一定效果[12].上述工作有助于缓解过饱和区域的交通拥堵, 改善路网的运行状况.但由于交通网络系统复杂多变, 传统控制方法难以建立准确的数学模型, 且随着模型变量的增多, 导致模型求解更加困难.

为了解决上述问题, 智能控制方法因其具有较强的非线性逼近能力, 理论上可以找到交通系统问题的最优解或次优解, 一些学者基于智能控制算法设计多种过饱和区域交通信号优化及协调方法.Medina等建立了基于强化学习(Q-learning)的智能体, 综合协调多个交叉口信息优化交通信号, 并建立饱和路网进行验证分析, 结果证明了在高流量和高饱和度的条件下, 仍能保持路网交通的稳定性[13].Putha等针对过饱和网络交通信号协调问题, 提出了蚁群优化算法(Ant colony optimization, ACO)用于排队消散和消除拥堵, 并与遗传算法(Genetic algorithm, GA)的优化结果对比, 表明前者在多组实验方案上持续有效并且可靠[14].

上述工作都从一定方面改善了区域交通的运行条件, 但是对于过饱和区域所具有的交通特性, 如区域的最佳交通容量、最大通行能力等没有综合考虑, 一般是在设定的交通需求下进行区域信号优化, 只是找到符合一定交通状况的最佳信号配时或参数设定, 而不是使过饱和区域达到路网最佳交通量下的最大通行能力.为此, Geroliminis等提出了宏观基本图(Macroscopic fundamental diagram, MFD)来描述路网中的车辆数(Accumulation)和路网通行能力(Production)之间的关系, 从路网整体结构出发, 利用基本图形式量化描述道路或路网内宏观交通流参数之间关系的模型和方法[15].一些学者以此为基础, 分别从相邻子区协调控制、路网迭代学习信号控制、交通排放总量控制、快速路交通状态评价、路网周边交通控制、路网稳定性评价以及影响因素分析等方面做了大量的研究工作[16-22].

综上, 本文设计了过饱和区域交通信号MFD控制优化模型, 其中, 控制模块建立了过饱和区域边界需求控制策略和区域内部均衡控制策略, 优化模块建立了以提升区域边界通行能力和均衡区域内路段空间占有率为目标的双层规划模型, 求解模块建立了基于执行依赖启发式动态规划(Action dependant heuristic dynamic programming, ADHDP)和反传(Back propagation, BP)神经网络的ADP模型分别求解区域边界和内部交叉口控制信号, 通过上述过程实现对过饱和区域的控制信号进行全局优化和动态调整, 用以改善过饱和区域的交通运行效率.最后, 通过对实际路网的仿真验证, 结果分析表明了本文算法的有效性.

1 过饱和区域MFD控制优化模型 1.1 基本思路

为了预防区域交通产生过饱和现象, 缓解过饱和区域的交通拥堵, 对过饱和区域交叉口进行分类协同控制, 即将过饱和区域的相关交叉口分为内部交叉口和边界交叉口, 如图 1所示, 外层黑色圆点和内部灰色圆点分别代表过饱和区域的边界和内部交叉口, 按照不同的控制目标和策略分别进行控制和优化, 其基本思路和原理如下:1) 通过边界交叉口的优化控制, 即边界需求控制对进入过饱和区域的交通需求和通行压力进行总体控制并最大化区域的输出通行能力; 2) 通过内部交叉口的优化控制, 即内部均衡控制分配区域内部的交通需求以均衡区域内交通通行压力; 3) 通过实时监测区域内部的交通通行状态, 作为系统优化的反馈信号, 对边界和内部控制信号持续优化; 4) 针对系统优化目标, 建立智能求解算法准确快速实现控制信号的优化求解; 5) 将优化后的控制信号下发到区域交通控制系统, 使得过饱和区域保持在较高的通行能力和通行效率下, 逐步实现区域交通拥堵现象的缓解直至消失.

图 1 过饱和区域边界及内部交叉口示意图 Figure 1 Boundary of oversaturated area and internal intersection diagram

根据上述控制思想, 基于闭环反馈控制系统迭代优化原则, 设计过饱和区域信号控制优化模型框架, 如图 2所示.核心是MFD控制优化模型, 主要由控制模块、优化模块和求解模块三部分组成.其中, 控制模块主要由区域边界需求控制和区域内部均衡控制两部分构成; 优化模块建立了双层规划优化目标, 由以提升区域边界通行能力为控制目标的上层规划和以均衡区域内路段空间占有率为控制目标的下层规划构成, 并包含路网交通实际运行条件的约束关系; 求解模块以基于ADHDP结构的自适应动态规划(Adaptive dynamic programming, ADP)算法为基本求解方法, 采用误差反传神经网络(BP神经网络)搭建其中的评价网络和执行网络部分.上述三个模块以及控制区域之间的关系可简述为:基于控制模型整体的控制目标, 即提升过饱和区域的边界通行能力和均衡区域内的路段空间占有率, 优化模块针对双层控制目标进行区域信号的整体优化, 并将优化后的参数返回给控制模块.其中, 针对控制目标进行优化时, 通过求解模块的ADP算法分别求解最佳的边界和内部信号控制参数, 控制模块可依据优化后的控制参数对控制区域进行信号的动态调整, 通过实时检测区域内的交通需求、交通运行等数据信息对优化的控制信号进行效果评估, 并作为优化模块再次进行信号优化前的反馈信息.三个模块通过相互之间紧密的联合协作关系, 不断对区域交通信号进行迭代优化, 以逐步缓解交通拥堵现象, 提升区域交通的通行效率.

图 2 过饱和区域信号控制优化模型框架 Figure 2 Frame of oversaturated area traffic signal optimization control model
1.2 边界需求控制

对过饱和区域进行边界需求控制, 需提前对过饱和区域的边界进行判别.本文按照文献[23]中的方法对区域内部的交叉口进行交通状态判别, 在此基础上, 对处于各种交通状态的交叉口进行判定是否属于过饱和区域.

过饱和区域划分的基本方法为:对于干线信号交叉口, 如其处于临界饱和或过饱和状态, 则其相邻的上下游交叉口均在过饱和区域内; 如其相邻的上下游交叉口也处于临界饱和或过饱和状态, 则相邻的交叉口也在同一个过饱和区域内.以此类推, 直到相邻的交叉口处于欠饱和状态.对于处于临界饱和或过饱和状态的非干线交叉口, 如其上下游交叉口与干线过饱和区域相邻, 则与干线过饱和区域合并; 如有多个过饱和区域相邻, 则合并为同一个过饱和区域.依据上述方法可确定过饱和区域, 则其外围交叉口即为边界交叉口.

通过对MFD的分析, Cassidy等发现其基本曲线形式为抛物线, 但在实际的分析中常简化为三角形或梯形[24], 如图 3所示.

图 3 路网两种MFD关系模型 Figure 3 Two MFD relational models of network

将交通网络作为一个整体, 其内部交通流的变化主要由网络车辆流入量、车辆流出量以及内部产生的车辆这三部分决定, 如果以时间间隔为基本时间单元, 则上述网络交通流变化率可用数学公式表达为

$\begin{align}\frac{{\rm d}n(t) }{\mathrm{d} t}= q_{\rm in}(t)-q_{\rm out}(t)+v(t)\end{align}$ (1)

其中, $n(t)$为网络车辆数, $q_{\rm in}(t)$为网络车辆流入量, $q_{\rm out}(t)$为网络车辆流出量, $v(t)$为网络内部产生的车辆数.

网络车辆流入量可表示为

$\begin{align}q_{\rm in}(t)= \sum\limits_{i=1}^{I}q_{i\_{\rm in}}(t)=\sum\limits_{i=1}^{I}\sum\limits_{j=1}^{P}\pi _{ij}k_{ij}g_{ij\_{\rm in}}C_{\rm cap}\end{align}$ (2)

其中, $q_{i\_{\rm in}}(t)$为边界交叉口i输入路网的车流量, I为路网的全部边界交叉口数量, $k_{ij}$为交叉口i在配时方案所有相位中流入过饱和路网区域的相位j的全部进口车道数量, 包括在同一相位下的不同进口道的车道数, 此处假设不同进口道在共同相位下具有共同的绿灯通行时间, $g_{ij\_{\rm in}}$为交叉口i在流量输入相位j的有效绿灯时间, $ C_{\rm cap}$为交叉口单车道通行能力, $\pi_{ij}$为边界交叉口i在相位j的流量输入系数, 如该相位处于欠饱和状态有$0< \pi _{ij}\leq1$, 具体为相位饱和度的统计值, 特殊情况下, 如相位死锁则有$\pi_{ij}=0$.

根据MFD模型可知, 网络车辆通行能力$O_{\rm out}(t)$与网络内部车辆数$n(t)$呈现单峰函数形式, 当网络处于最大通行能力时(假设为$\bar{n}$), 网络内部车辆数保持不变, 即$\frac{{{\rm d}n(t)} }{{\rm d}t}=0$.

实际应用时, 路网中的车辆数不可能处于保持不变的理想状态, 采用如下公式确定路网是否处于最佳通行状态

$\left\{ {\begin{array}{*{20}{l}} {\mathop {\lim }\limits_{t \to T} ({Q_{{\rm{out}}}}) = \bar n}\\ {\mathop {\lim }\limits_{t \to T} (n(t) - n(t - 1)) = \psi } \end{array}} \right.$ (3)

其中, $\Psi$为网络内部车辆数扰动值, 该值的大小反映了网络内部车辆需求的稳定性, 需根据实际路网情况进行设置.此处, 为简化模型计算复杂度, 假设$\Psi$为一个极小值, 忽略其扰动作用.此时

$\begin{align}q_{\rm in}(t)-\bar{n}+{d} (t)=0\end{align}$ (4)

可得交通网络处于最大通行能力时的边界交叉口流量输入控制策略

$\left\{ {\begin{array}{*{20}{l}} {{{\bar g}_{i\_{\rm{in}}}} = {\alpha _i} \times \frac{{\bar n - d(t)}}{{\sum\limits_{i = 1}^I {\sum\limits_{j = 1}^P {{k_{ij}} \times {C_{{\rm{cap}}}}} } }}}\\ {{{\bar g}_{ij{\rm{\_in}}}} = {\beta _j} \times {{\bar g}_{i\_{\rm{in}}}}} \end{array}} \right.$ (5)

其中,

${\alpha _i} = \frac{{{{\bar q}_{i\_{\rm{in}}}}}}{{\sum\limits_{i = 1}^I {{{\bar q}_{i\_{\rm{in}}}}} }}$ (6)
${\beta _j} = \frac{{{{\bar q}_{ij{\rm{\_in}}}}}}{{\sum\limits_{j = 1}^P {{{\bar q}_{ij{\rm{\_in}}}}} }}$ (7)

其中, ${{\bar g}_{i\_{\rm{in}}}}$为路网区域最大通行能力时, 交叉口i车流输入相位的有效绿灯时间, $\bar{g}_{ij\_{\rm in}}$为相应的交叉口i在输入相位j的有效绿灯时间, $\alpha_{i}$为边界交叉口i周期有效绿灯时间的参考系数, $\beta_{j}$为交叉口相位j有效绿灯时间的参考系数, 即$\alpha_{i}$$\beta_{j}$分别是在网络最大通行能力时交叉口的周期和相位参考系数.$\bar{q}_{i\_{\rm in}}$为交叉口i的历史平均输入流量, $\bar{q}_{ij\_{\rm in}}$为交叉口i的输入相位j的历史平均输入流量.

同理, 路网边界交叉口车流输出控制策略

$\left\{ {\begin{array}{*{20}{l}} {{{\bar g}_{i\_{\rm{out}}}} = {\varepsilon _i} \times \frac{{\bar n}}{{\sum\limits_{i = 1}^I {\sum\limits_{j = 1}^P {{k_{ij}} \times {C_{{\rm{cap}}}}} } }}}\\ {{{\bar g}_{ij{\rm{\_out}}}} = {\sigma _j} \times {{\bar g}_{i\_{\rm{out}}}}} \end{array}} \right.$ (8)

其中,

${\varepsilon _i} = \frac{{{{\bar q}_{i\_{\rm{out}}}}}}{{\sum\limits_{i = 1}^I {{{\bar q}_{i\_{\rm{out}}}}} }}$ (9)
${\sigma _j} = \frac{{{{\bar q}_{ij\_{\rm{out}}}}}}{{\sum\limits_{j = 1}^P {{{\bar q}_{ij\_{\rm{out}}}}} }}$ (10)

其中, $\bar{g}_{i\_{\rm out}}$为路网区域最大通行能力时, 交叉口i车流输出相位的有效绿灯时间, $\bar{g}_{ij\_{\rm out}}$为相应的交叉口i在输出相位j的有效绿灯时间, $\varepsilon_{i}$为边界交叉口i周期有效绿灯时间的参考系数, $\sigma_{j}$为交叉口相位j有效绿灯时间的参考系数, $\bar{q}_{i\_{\rm out}}$为交叉口i的历史平均输出流量, $\bar{q}_{ij\_{\rm out}}$为交叉口i的输入相位j的历史平均输出流量.

需要指出的是, 针对边界交叉口的非输入输出相位的确定需根据实际交叉口相位设置和阶段放行方案情况进行设置, 基本原则为满足相位最小和最大绿时、不与输入输出相位冲突等约束条件下, 在多种不同的相位组合中综合选定交叉口延误最小、通行能力最大的相位时长和阶段放行方案.

根据上述路网交通MFD输入输出需求控制策略, 设计如下路网边界车流控制模型

$\left\{ {\begin{array}{*{20}{l}} {{g_i}(t) = {g_i}(t - 1) - {\tau _i}(t)[{g_i}(t - 1) - {{\bar g}_i}]}\\ {{\tau _i}(t) = {\tau _i}(t - 1) - {K_f}[n(t) - n(t - 1)] - }\\ {{K_s}[n(t) - \bar n]} \end{array}} \right.$ (11)

其中, $g_{i}(t)$为路网边界交叉口i信号控制器, 即全部输入、输出相位的有效绿时, $1< i< I_b$为路网边界交叉口数量, $\bar{g}_{i}$为网络最大通行能力时的网络边界交叉口i输入、输出相位控制策略, 即式(5) 和式(8) 得出的输入、输出相位的有效绿灯时间, $\tau_{i}(t)$为边界动态反馈控制参数, 该值设置根据网络内部车辆数的变化以及网络可承受的最佳车辆数有关, $K_{f}$$K_{s}$分别为相应的增益系数.

1.3 内部均衡控制

网络内部信号控制模型借鉴稳态控制[25-26], 满足MFD对交通网络内部同质性的要求.针对交通网路内部路段交通流状态可建立如下模型

${N_j}(t + 1) = {N_j}(t) + {Q_{j\_{\rm{in}}}}(t) - {Q_{j\_{\rm{out}}}}(t)$ (12)
${Q_{j\_{\rm{in}}}}(t) = \sum\limits_{{i_q} \in V_j^I} {{\alpha _{{i_q}j}}{\eta _{{i_q}}}(t){N_{{i_q}}}(t)} $ (13)
${Q_{j\_{\rm{out}}}}(t) = \sum\limits_{{k_q} \in V_j^D} {{\alpha _{j{k_q}}}{\eta _j}(t){N_j}(t)} $ (14)

其中, ${ N_j}(t)$为路段j在时间t内的车辆数, ${Q_{j\_{\rm in}}}(t)$为路段j在时间t内的输入车辆数, ${Q_{j\_{\rm out}}}(t)$为路段j在时间t内的输出车辆数, $\alpha$为交通流从上游路段到下游路段的转向比例, $\sum_{k \in V_i^D}{{\alpha _{jk}}} = 1$, ${\eta _i}$为路段i上交通流的消散比例, 是网络控制参数, ${\eta _i} =$ ${{Q_{i\_{\rm out}}}(t)} /{{N_i}(t)}$, $V_j^I$$V_j^D$分别为路段j的上游路段集合以及下游路段集合.

根据${\eta _i}$的定义可得

${\eta _i} = \frac{{\sum\limits_{j \in V_i^D} {{s_{ij}}{g_{ij}}(t)} }}{{{N_i}(t)}} = \frac{{{s_i}{g_i}(t)}}{{{N_i}(t)}}$ (15)

其中, ${s_{ij}}$为路段i到下游路段j的饱和交通流率, ${g_{ij}}$为路段i到下游路段j的有效绿灯相位时间, j $\in$ $V_i^D$, ${g_i}$为路段i的周期有效绿灯相位时间, ${g_{ij}}=$ ${\beta _{ij}}{g_i}$, ${\beta _{ij}}$为路段i到下游路段j的有效绿时比例因子, $\sum_{j\in V_i^D} {{\beta _{ij}} = 1} $, 定义${s_i}$为路段i的周期交通流率, ${s_i} = \sum_{j \in V_i^D}{{s_{ij}}} {\beta _{ij}}$, 此处假设路段i到路段j为饱和交通流率, 下游路段j没有发生车辆溢出现象并有空余路段容纳由路段i流入的车辆.

将式(13) 和式(14) 代入式(12), 可得

$\begin{array}{l} {N_j}(t + 1) = \;[1 - {\eta _j}(t)]{N_j}(t) + \\ \quad \quad \quad \quad \quad \sum\limits_{{i_q} \in V_j^I} {{\alpha _{{i_q}j}}{\eta _{{i_q}}}(t){N_{{i_q}}}(t)} \end{array}$ (16)

将式(16) 写成向量形式

$N(t + 1) = A(t)N(t)$ (17)

其中, $ N(t) = {[{ N_1}(t), \cdots, { N_n}(t)]^{\rm T}} \in {{\bf R}^n}$为状态向量, $A(t) = [{a_{ij}}(t)] \in {\bf R}^{n \times n}$为状态矩阵, 其对角线元素${a_{ii}}(t) = 1 - {\eta _i}(t)$, $i =1, \cdots, n$, 其余元素为

${a_{ij}}(t) = \left\{ {\begin{array}{*{20}{l}} {{\alpha _{ij}}{\eta _j}(t),}&{路段j{\rm{为路段}}i{\rm{的上游内部路段}}}\\ {0,}&{{\rm{其他}}} \end{array}} \right.$

将线性转换公式$x = LN$代入式(17), 可得

$\begin{align}x(t + 1) = { Z}(t)x(t)\end{align}$ (18)

其中, $x(t) = {[{x_1}(t), \cdots, {x_n}(t)]^{\rm T}} \in { N^n}$, ${x_i}(t) = {{N_i}(t)}/{{N_{i\_\max }}}$, $i = 1, \cdots, n$, ${x_i}(t)$为车辆在路段i的空间占有率, 反映了路段i交通拥挤水平, ${N_{i\_\max }}$为路段i的最大车辆承载量, ${Z}(t) = LA(t){L^{ -1}}$, L = ${\rm diag}\{ {{1/{{ N_{1\_\max }}, \cdots, {(1 / N)N_{n\_\max }}}}} \}$, ${L^{ - 1}}$L的逆矩阵.

网路内部控制的目标是通过信号控制, 使得内部所有路段车辆占有率趋向一致, 即

${{\bar x}^*} = {{\bar x}_1} = \cdots = {{\bar x}_n}$

其中, ${\bar x^ * }$称为路网占有率稳态值, ${\bar x_i}$为路段i的占有率稳态值, $i = 1, \cdots, n$.

网络稳态控制率$\eta (t) = {[{\eta _1}(t), \cdots, {\eta _n}(t)]^{\rm T}}$, $t $ $\in$ ${\bf N} $

$\left\{ {\begin{array}{*{20}{l}} {\frac{{{\eta _j}(t)}}{{{\eta _j}(t - 1)}} = h(t) + [1 - h(t)]\left[ {1 + \frac{{{x_j}(t) - {{\bar x}_j}}}{{{{\bar x}_j}}}} \right],}\\ {\quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad j = 1, \cdots ,n}\\ {h(t) = \frac{1}{{1 + {{\left\{ {\left[ {\frac{1}{{{r_j}}}} \right]\left| {{x_j}(t) - {{\bar x}_j}} \right|} \right\}}^m}}}} \end{array}} \right.$ (19)

其中, $0 < h(t) \leq 1$为动态调整参数, ${r_j} > 0$, $m \ge 1$.

根据式(15) 和${x_j} = {{{ N_j}(t)}/{{ N_{j\_\max }}}}$, 可将式(19) 转换为

$\begin{array}{l} \frac{{{g_j}(t)}}{{{g_j}(t + 1)}} = \\ \quad \left\{ {h(t) + [1 - h(t)]\left[ {1 + \frac{{{x_j}(t) - {{\bar x}_j}}}{{{{\bar x}_j}}}} \right]} \right\}\frac{{{x_j}(t)}}{{{x_j}(t - 1)}} \end{array}$ (20)

式(20) 即为交通网络内部路段j在一个信号周期的全部有效绿灯时间, 进一步, 各相位的有效绿灯时间为

$\left\{ {\begin{array}{*{20}{l}} {{g_{jk}}(t) = {\beta _{jk}}{g_j}(t)}\\ {{\beta _{jk}} = \frac{{\frac{{{q_{jk}}}}{{{q_j}}}}}{{\sum\limits_{{k_l} \in V_j^D} {\frac{{{q_j}{k_l}}}{{{q_j}}}} }}} \end{array}} \right.$ (21)

其中, ${\beta _{jk}}$代表下游各方向的有效绿时系数, ${{{q_{jk}}}/{{q_j}}}$代表下游各方向的交通流负荷.

上面得到的相位有效绿时不一定满足实际应用情况, 需要根据实际交叉口现场做出适当优化调整.假设路段j是交叉口a的相邻路段, 根据不同转向需求, 交叉口a给路段j上的交通流设置信号相位数为p, $p > 1$, 假定交叉口a其他方向的相邻路段设置相同的相位数为p, $p > 1$.根据交叉口交通流相位阶段设置原则, 将对等方向(东西或南北)的不冲突相位设置在一个放行信号阶段中, 即每个阶段包含了${f_i}$, $1 < {f_i} < 2p$个不冲突的交通流, 阶段数为n, $1 < n < lp$, l为交叉口进口道数量, 为简化模型计算复杂度, 右转交通流不设置单独相位.交叉口a各阶段有效绿灯时间优化条件如下:

$\left\{ {\begin{array}{*{20}{l}} {\min \phi = \frac{1}{2}\sum\limits_{i = 1}^n {\sum\limits_{k = 1}^{{f_i}} {{{\left[ {G_a^i - g_{ak}^i(t)} \right]}^2}} } }\\ {G_{ai}^{\min } \le G_a^i \le G_{ai}^{\max },\qquad \qquad i = 1, \cdots ,p}\\ {\sum\limits_{i = 1}^n {G_a^i = {C_a} - {L_a}} } \end{array}} \right.$ (22)

其中, $G_a^i$为现场实际应用的交叉口一个信号阶段的有效绿灯时间, $g_{ak}^i(t)$为模型计算得出的相同信号阶段中不同相位的有效绿灯时间, $G_{ai}^{\min }$$G_{ai}^{\max}$分别为相同信号阶段的最小和最大有效绿灯时间, ${C_a}$为交叉口的周期时长, ${L_a}$为交叉口相位周期损失时间.

1.4 双层规划优化

上层规划以区域边界需求控制为基础, 如图 1所示外层边界交叉口, 当网络达到最大通行能力时, 其内部车辆数保持在一个稳定状态, 可用数学表达式表示为

$\left\{ {\begin{array}{*{20}{l}} {\mathop {\lim }\limits_{t \to T} ({Q_{{\rm{out}}}}) = Q_{{\rm{out}}}^{\max }}\\ {\mathop {\lim }\limits_{t \to T} (n(t) - n(t - 1)) = \psi } \end{array}} \right.$ (23)

其中, $Q_{\rm out}^{\max}$为路网最大输出车流量(veh/h); $\psi$为网络内部车辆数扰动值.

将式(20) 转换为数学规划形式, 即上层规划模型目标函数为

${J_u}(t) = \frac{1}{{Q_{{\rm{out}}}^{\max }}} = \frac{1}{{\max \left[ {\sum\limits_{i = 1}^I {\sum\limits_{j = 1}^P {{k_{ij}}{g_{i{j\_{{\rm{out}}}}}}{C_{{\rm{cap}}}}} } } \right]}}$ (24)

上层规划约束关系为

$\left\{ {\begin{array}{*{20}{l}} {{g_{{\rm{out}}\_\min }} < {g_{i\_{\rm{out}}}} < {g_{{\rm{out}}\_\max }}}\\ {{g_{{\rm{in}}\_\min }} < {g_{i\_{\rm{in}}}} < {g_{{\rm{in}}\_\max }}}\\ {\sum {{g_{i\_{\rm{out}}}}} + \sum {{g_{i\_{\rm{in}}}}} + {L_{{\rm{lost}}}} = {C_i}}\\ {\sum\limits_{i = 1}^4 {{N_i} < {N_{{i\_{\max }}}}} }\\ {\mathop {\lim }\limits_{t \to T} (\left| {n(t) - n(t - 1)} \right|) = \varepsilon }\\ {\mathop {\lim }\limits_{t \to T} (\left| {n(t) - \bar n} \right|) = \delta } \end{array}} \right.$ (25)

其中, ${g_{i\_{\rm out}}}$为边界交叉口i的流出相位有效绿灯时间, ${g_{{\rm out}\_\min }}$${g_{{\rm out}\_\max}}$分别为流出相位的最小和最大有效绿灯时间, ${g_{i\_{\rm in}}}$为边界交叉口的流入相位有效绿灯时间, ${g_{{\rm in}\_\min}}$${g_{{\rm in}\_\max}}$分别为流入相位的最小和最大有效绿灯时间, ${L_{\rm lost}}$为周期损失时间, ${C_i}$为边界交叉口i的周期时间, $\delta$为路网处于最佳通行能力时的车辆数变化阈值.

下层规划以路网整体交通流均衡分布为控制目标, 通过内部交叉口信号协调控制, 如图 1内部交叉口, 进一步转换为路段车辆占有率最小且差异相近, 即下层规划模型目标函数为

$\begin{array}{l} {J_d}(t) = \min \left[ {\sum\limits_{i = 1}^n {{x_i}} + \frac{1}{2}\sum\limits_{i = 1}^n {{{\left| {{x_j} - {x_i}} \right|}^2}} } \right],{\rm{ }}\\ \qquad \qquad \qquad \qquad \qquad i = 1, \cdots ,n,\;i \ne j \end{array}$ (26)

下层规划约束关系为

$\left\{ {\begin{array}{*{20}{l}} {{x_i} = \frac{{{N_i}}}{{{N_{i\_\max }}}}}\\ {{N_i} = {N_{{\rm{left}}}} + {Q_{i\_{\rm{in}}}} - {Q_{i\_{\rm{out}}}}}\\ {{Q_{i\_{\rm{in}}}} = \left( {g_l^uk_l^u + g_s^uk_l^u + g_r^uk_l^u} \right)s}\\ {{Q_{{i\_{{\rm{out}}}}}} = \left( {g_l^dk_l^d + g_s^dk_l^d + g_r^dk_l^d} \right)s}\\ {{N_i} < {N_{{i\_{\max }}}}}\\ {\left( {g_l^uk_l^u + g_s^uk_l^u + g_r^uk_l^u} \right)s + {N_{{\rm{left}}}} < {N_{i\_\max }}}\\ {g_l^u + g_s^u + g_r^u < {G^u}}\\ {g_l^d + g_s^d + g_r^d < {G^d}} \end{array}} \right.$ (27)

其中, ${ N_{\rm left}}$为路段i的剩余排队车辆数, $g_l^u$, $g_s^u$$g_r^u$分别为上游交叉口左转、直行和右转的有效绿灯时间, $g_l^d$, $g_s^d$$g_r^d$分别为下游交叉口左转、直行和右转的有效绿灯时间, 为单车道饱和流率, k为车道数, ${G^u}$为上游交叉口周期有效绿灯时间, ${G^d}$为下游交叉口周期有效绿灯时间.

1.5 模型分析

上层模型中的网络车辆数应与下层模型中所有路段中的车辆总数相一致, 即

$n(t) = \sum\limits_{j \in V_j^I} {{N_j}(t)} $ (28)

交叉口之间的相位差对于路网性能有着重要的影响作用, 对于车队到达下一个交叉口的时刻起着决定性因素.不同的交通状态下的相位差应是不同的, 相位差的大小应根据路网通行状态进行自适应调整.协调相位确定后, 合理的相位差应考虑当下游交叉口有车辆排队时, 上游放行的车辆到达下游交叉口排队车辆的时间应于下游排队车辆的消散波到达时刻相一致.根据上述内容, 相位差设置条件为

$\left\{ {\begin{array}{*{20}{l}} {{O_{j,j + 1}}(t) = \frac{{{L_j} - \frac{{{N_j}(t){L_j}}}{{{N_{j,\max }}}}}}{{{v_j}}} - \frac{{{L_j}{N_j}(t)}}{{\lambda {N_{j,\max }}}}}\\ {0 < \max {x_j} < A,\;j > 0} \end{array}} \right.$ (29)

式中, ${L_j}$为路段j的长度, ${v_j}$为路段j的车辆平均速度, $\lambda $为排队车辆的消散波速, ${x_j}$为干线协调路段j的车辆占有率, A为干线协调路段占有率阈值, 是符合干线协调的路段车辆占有率的最大值, 如不满足上述条件则不进行干线协调.

为了防止下游路段车辆蔓延到上游交叉口, 形成车辆溢流现象, 妨碍交叉口的通行效率, 甚至导致路网交通死锁, 上游交叉口任意相位放入下游交叉口的车辆应该不大于下游路段剩余路段容量, 对于任意的流入相位需满足如下条件, 即

${s_i}{k_i}{g_i}(t + 1) + {N_j}(t) \le {N_{j\_\max }},\;\;\forall i \in V_j^I$ (30)

式中, ${s_i}$, ${k_i}$, ${g_i}$, ${ N_j}$${ N_{j\_\max}}$分别为车道饱和流率、车道数、相位有效绿时、车道排队长度和最大车道排队长度.

2 模型求解 2.1 求解框架

自适应动态规划(ADP)模拟人通过环境反馈进行学习, 被认为是一种非常接近人脑智能的方法[27], 其主要原理利用函数近似结构, 如神经网络来逼近动态规划中的代价函数和控制策略, 以满足最优性原理求解最优控制及性能指标函数, 从而实现非线性系统最优控制的求解问题[28], ADP方法作为一种近似求解最优控制问题的新方法, 结合了神经网络、自适应评价设计、增强学习和经典动态规划等理论, 克服了动态规划方法的"维数灾"问题, 能够获得近似最优的闭环反馈控制律, 因而被认为是解决非线性系统最优控制的有效方法, 为高维复杂系统的最优控制提供了一种切实可行的理论和方法[29].ADP在各种复杂控制领域得到了广泛应用, 包括电力系统发电机控制、飞行器控制、电梯调度控制、通讯网络控制、智能交通信号控制、智能电网控制等[30-36].

ADP网络结构有多种, 本文应用了基于ADHDP结构模型, 如图 4所示, 主要为执行网络、评价网络和模型对象三部分, 实线表示网络相关数据信息传递路径, 虚线表示更新执行网络和评价网络权值的反传路径.两个评价网络的构成一致, 代表了两个连续阶段, 其权值更新同步.

图 4 基于ADHDP结构的自适应动态规划框架 Figure 4 Adaptive dynamics programming frame based on ADHDP

根据控制和优化目标, 控制律表达式设计为

$\begin{array}{*{20}{l}} {{g_{k + 1}}({x_t}) = }&{\arg \mathop {\min }\limits_{{u_k}} \{ U({x_k},{u_k})\hat J({x_{k + 1}},{g_{k + 1}})\} } \end{array}$ (31)

其中, 效用函数$U({x_k}, {u_k})$和评价函数$\hat J({x_{k + 1}}, {g_{k+ 1}})$分别设计为

$\begin{array}{l} U({x_k},{u_k}) = \frac{1}{2}{\left[ {\frac{{n(k) - n(k - 1)}}{{\bar n}}} \right]^2} + \\ \qquad \qquad \quad \;\frac{1}{2}{\left[ {\bar x(k) - \bar x(k - 1)} \right]^2} \end{array}$ (32)
$\hat J({x_{k + 1}},{g_{k + 1}}) = {J_u}({x_{k + 1}},{g_{k + 1}}){J_d}({x_{k + 1}},{g_{k + 1}})$ (33)

其中, 评价网络和执行网络采用误差反传算法或其变化形式的网络模型(BP网络), 如图 5所示.评价网络的输入设为${I_c}$, 包括区域交通状态量${s_i}$和控制量${u_j}$, 即${I_c} = [{x_i}, {u_j}]$.状态量${s_i}$由网络内部车辆数$n(t)$、网络输入车流量${q_{\rm in}}(t)$、网络输出车流量${q_{\rm out}}(t)$以及路段占有率${x_i}(t)$等组成, 即${s_i}=[n(t)$, ${q_{\rm in}}(t), {q_{\rm out}}(t), {x_i}(t)]$.控制量${u_j}$由边界控制量${u_b}$ (周期${C_b}$、绿信比${\gamma_b}$和相位差${O_b}$)、内部控制量${u_n}$ (周期${C_n}$、绿信比${\gamma _n}$和相位差${O_n}$)组成, 即${u_j}=[{u_b}$, ${u_n}]$$= [{C_b}, {\gamma _b}, {O_b}, {C_n}, {\gamma _n}, {O_n}]$.需要指出的是, 内部控制又分为干线控制和非干线控制, 非干线控制交叉口的周期和相位差设置受与之邻近干线控制量的约束.评价网络的输出${T_c}$为评价函数的输出值$J(k)$.

图 5 评价网络结构图 Figure 5 Valuation network diagram

执行网络如图 6所示, 其输入$I_a$为区域交通状态量$s_i$, $i = 1, \cdots, n$, $s_i=[n(t), {q_{\rm in}}(t), {q_{\rm out}}(t)$, ${x_i}(t)]$, 输出为区域交通控制量$u_j$, $j = 1, \cdots, m$, $u_j$= $[{u_b}, {u_n}]$ = $[{C_b}, {\gamma _b}, {O_b}, {C_n}, {\gamma _n}, {O_n}]$.

图 6 执行网络结构图 Figure 6 Executive network diagram
2.2 求解步骤

以上述求解框架为基础, 给出基于ADP结构的过饱和区域信号控制方案求解步骤如下:

步骤 1. 初始化算法参数, 算法开始执行.

步骤 2. 根据选定区域路网MFD模型特性, 设定区域内部最佳可容纳车辆数$\left[{{V_{{\rm opt}\_d}}, {V_{{\rm opt}\_u}}} \right]$及最大通行能力${O_{\max }}$等路网性能参数.

步骤 3. 在设定的时间间隔$\Delta t$内, 实时监测路网内部车辆数$ N_{\rm veh}$,路网输入车流量${q_{\rm in}}$和输出车流量${q_{\rm out}}$.

步骤 4. 利用实时监测的路网状态数据, 通过ADHDP结构的执行网络求解下一步区域边界控制优化方案.

步骤 5. 分别对边界进口和内部交叉口的当前执行方案和优化方案进行可行性判定, 判断是否实施优化方案, 如果满足条件则实施方案, 否则, 返回执行步骤3, 具体判断条件为

$\left\{ {\begin{array}{*{20}{l}} {{{\left[ {1 - \frac{{{C_i}(t - 1)}}{{{C_i}(t)}}} \right]}^2} + {{\left[ {1 - \frac{{{r_i}(t - 1)}}{{{r_i}(t)}}} \right]}^2} \le {p_i},}\\ {\quad \quad \quad \quad \forall x_i^r(t - 1) < 1,\;r = 1,2,3,4}\\ {\frac{{\sum {{n_i}} }}{N} \le e} \end{array}} \right.$ (34)

其中, ${C_i}$${r_i}$分别为交叉口i的周期和绿信比, ${p_i}$为交叉口i优化方案实施阈值, $x_i^r$为交叉口i连接的四个路段占有率, ${n_i}$为满足第一式的路口数目, N为同一属性的路口总数目, e为区域交通稳定阈值.

步骤 6. 执行优化方案后, 通过ADHDP结构的评价网络对方案进行效果评估, 并将评价信息反馈到执行网络作为下步优化方案改进的基础信息.

步骤 7. 返回步骤3.

3 实例验证

ADP模型的学习率影响系统学习过程的稳定性, 大的学习率可能使网络权值每一次的修正量过大, 甚至会导致权值在修正过程中超出某个误差的极小值呈不规则跳跃而不收敛; 但过小的学习率导致学习时间过长, 不过能保证收敛于某个极小值.为保证学习过程的收敛性(稳定性), 通常设置在0.01 ~ 0.8之间.本文考察了不同初始权、阈值的赋值范围对网络收敛速度的影响, 确定神经网络模型的初始权和阈值随机赋值范围为-0.5 ~ $+0.5$.当收敛误差${E_{\min}}$值选择较小时, 学习效果好, 但收敛速度慢, 训练次数增加.如果${E_{\min}}$值取得较大时则相反.综合上述, 设置学习率$z = 0.1$, 误差界值${E_{\min}}$ = $0.001$, 即在迭代计算时误差值$E < 0.001$时, 则认为学习完成, 停止计算, 输出结果.

数据预处理通过归一化, 防止神经元进入饱和状态, 限制与其相连的其他神经元的输出幅值, 并加快学习.其中, 归一化公式如下:

$\left\{ {\begin{array}{*{20}{l}} {{I_{\max }} = \max \left\{ {{I_{{\rm{in}}}}} \right\}}\\ {{O_{\max }} = \max \left\{ {{O_{{\rm{out}}}}} \right\}}\\ {\hat I = \frac{{{I_{{\rm{in}}}}}}{{{I_{\max }}}}}\\ {\hat O = \frac{{{O_{{\rm{out}}}}}}{{{O_{\max }}}}} \end{array}} \right.$ (35)

其中, I, O分别为网络输入量和输出量, $\hat I$, $\hat O$分别为归一化处理后的数据.

3.1 模型验证

本文对山西临汾部分城区道路建立VISSIM仿真路网, 如图 7所示.

图 7 山西临汾部分城区仿真路网 Figure 7 Urban area simulation network in Linfen, Shanxi

图 7所示的路网中, 包括15个车辆输入路段$I_1$, $\cdots$, $I_{15}$, 12个边界交叉口, 用正方形表示, 100个内部路段, 19个内部信号交叉口, 用圆形表示, 其中, #1和#2干线路段长度之和为1 770 m, #3和#4干线路段长度之和为2 075 m.依据山西临汾路网实际交通特性和现场调查数据, 采用文献[37]中的方法对所建仿真路网进行模型参数标定.选定路网内部和边界等两类交叉口分别进行参数的标定.其中, 内部交叉口模型参数标定的选择原则为干线相交的交叉路口进行标定, 同一干线上再选择一个非干线相交的交叉口进行标定, 若无干线相交至少选择两个交叉口进行标定, 同时选择与该交叉口相邻的支线交叉口进行标定; 边界交叉口模型参数标定的选择原则为干线交叉口进行标定, 如无干线交叉口则选择具有交通流量最大、最小和中间值的至少三个交叉口进行标定.不同交叉口的同一参数标定结果一般不同, 设定参数确定公式为

$\theta = \frac{1}{2}\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^M {\frac{{M{\theta _i} + N{\theta _j}}}{{MN}}} } $ (36)

其中, ${\theta _i}$${\theta _j}$分别为路网边界交叉口i和内部交叉口j的同一参数标定结果, $1 < i < N$, $1 < j < M$.

根据调查数据和标定结果, 仿真参数设置如下:平均停车间距为1 m, 安全距离的附加部分为2.4 m, 安全距离的倍数部分为3.4, 单车道的饱和流量值为1 800 veh/h, 交叉口信号周期为120 s, 交叉口损失时间设置为阶段数$\times$ 4 s, 车辆平均长度为6.5 m, 仿真时间为4 500 s.

区域交通仿真条件设置如下:区域边界交叉口输入路段的交通需求设置为随仿真周期增加逐步增长, 上下阈值为$\left ( 0.3 {C_{{\rm cap}\_ij}}, 0.8 {C_{{\rm cap}\_ij}} \right )$, ${C_{{\rm cap}\_ij}}$代表交叉口i的进口道j的通行能力, 各交叉口开始流量均初始化为$0.3 {C_{ij}}$; 其后每周期交通流量参考实际交通流的随机不确定性进行设置, 即每次增长流量设为一定范围内的随机数, 且流量最大值不超过上界.

模型学习后, 为了验证ADP模型的有效性, 通过对比路网通行能力的标准值和训练值结果, 以确定经训练后模型的准确性和可行性.图 8即是路网MFD模型的训练值与标准值对比及误差, 其中, 网络通行能力标准值为在不同输入流量下对仿真路网分别进行10次仿真后的平均值, 并设为ADP模型的标准值, 即图中圆形折线, 星号折线为ADP模型学习后的训练值, 对应左纵坐标.根据标准值和训练值可得绝对误差, 即图中叉号折线, 对应右纵坐标值.

图 8 ADP模型训练值与标准值对比及误差 Figure 8 Comparison and deviation between training value and standard value of ADP model

图 8可以看出, 绝对误差较大的前两个值分别为11.4 %和9.1 %, 分别对应网络内部车辆数200 veh和373 veh, 其后13个值均在4 %以内, 说明ADP模型在低路网车辆数时学习效果相对较差, 当路网车辆数增加后, 学习效果较好.本文主要解决路网在较高输入流量下路网处于过饱和状态的信号控制优化问题, 此条件下模型具有较低的学习误差, 所以模型能够反映路网真实的通行能力.

3.2 结果分析

本文针对高峰时段的过饱和交通条件对路网进行交通信号优化, 路网边界各车流量输入路段均保持前述设置条件以模拟高峰时段的交通需求, 不考虑边界输入路段流量溢出因素.应用固定配时法和本文设计ADP求解模型对该路网进行区域信号实时优化控制, 其中各交叉口固定配时采用Webster方法进行离线计算得到.选定路网的平均延误、路网内部车辆数、车辆占有率以及车辆平均停车次数作为路网的性能指标, 分别统计每种方法十次仿真后的相关指标数据的平均值, 且每次仿真随机设定不同的种子数, 得到以下对比分析结果.

图 9~12分别为路网的四个性能指标在两种方法下的结果对比, 图中六角折线和星号折线分别为固定配时法和本文方法的仿真数据.可以看到随着仿真时间的推移, 本文方法在车辆平均延误、车辆数、车辆占有率以及平均停车次数等四个指标上均逐步低于固定配时法的结果.其中, 固定配时法的路网车辆平均延误、路网车辆数、车辆占有率随着时间推移一直在持续增大, 分别对比本文方法分析结果, 平均延误小于650 s, 且逐步趋近平稳状态, 路网车辆数逐步增加到4 300 veh后, 车辆数在可控范围内波动, 从图 7的路网MFD可以得出在此车辆数范围内路网通行能力最大, 此时路网车辆占有率位于39 %附近, 路网车辆平均停车次数增加到6.2次左右后趋近稳定.需要指出的是, 在固定配时法仿真后期, 路网车辆数已经远超过路网能够容纳的最佳车辆数, 此时由于路网交通处于拥堵状态, 车辆停车等待时间逐步增加, 平均停车次数出现下降的趋势.综上四个指标对比结果, 本文方法在路网的整体优化控制效果方面要好于固定配时方法, 通过控制路网内部车辆数并使之保持在一定范围内, 进一步优化路网内部交叉口控制信号, 降低了路网车辆的平均延误, 减少了车辆平均停车次数, 改善了路网交通运行状态, 使得路网的通行能力保持在最大值附近, 从而提高了路网车辆的通行效率.上述从路网整体角度分析了本文方法的改善效果, 为了更好地分析路网内部路段的优化效果, 选取其中四条干线路径, 如图 7所示.即路径1到路径4, 分别记为#1, #2, #3, #4.其中, #1和#2, #3和#4分别互为反向路径, #1包含路段44, 46, 48, 50, 52和54, #2包含路段43, 45, 47, 49, 51和53, #3包含路段18, 32, 58, 84和94, #4包含路段17, 31, 57, 83和93.

图 9 路网车辆平均延误对比 Figure 9 Comparison of network vehicle average delay
图 10 路网车辆数对比 Figure 10 Comparison of network vehicle number
图 11 路网车辆占有率对比 Figure 11 Comparison of network vehicle occupancy
图 12 路网车辆平均停车次数对比 Figure 12 Comparison of network vehicle average stops

图 13~16分别为#1和#2, #3和#4的平均延误和平均停车次数对比.其中, 图 13图 14分别为#1和#2, #3和#4的车辆平均延误对比, 图中的六角星折线(#1, #3) 和星号折线(#2, #4) 为固定配时法的车辆平均延误, 圆形折线(#1, #3) 和叉号折线(#2, #4) 为本文方法的车辆平均延误. 图 15图 16分别为#1和#2, #3和#4的车辆平均停车次数对比, 图中的六角星折线(#1, #3) 和星号折线(#2, #4) 为固定配时法的车辆平均停车次数, 圆形折线(#1, #3) 和叉号折线(#2, #4) 为本文方法的车辆平均停车次数.从图 13图 15可以看出, 本文方法下#1和#2的车辆平均延误和平均停车次数随着仿真时间推移都远低于固定配时法两个对应指标, 两组数据在仿真时间内都在一定范围内波动, 趋于稳定, 而固定配时法的两组数据一直处于上升趋势, 结果对比改善效果明显.从图 14图 16可以看出, #3和#4的数据对比, 本文方法在两个指标上比固定配时法都有较好的改善效果, 平均延误和平均停车次数同样都稳定在一定范围内, 而固定配时法的两个指标总体趋势依然是增长, 通行效率逐渐降低.综上四图结果分析, 通过本文方法的内部稳态控制和协调约束等, 降低了路网干线的平均延误和平均停车次数, 提高了路径通行能力, 改善了干线路径的通行效率, 取得了良好的改善效果.

图 13 路径1和路径2平均延误对比 Figure 13 Comparison of average delay between Route 1 and Route 2
图 14 路径3和路径4平均延误对比 Figure 14 Comparison of average delay between Route 3 and Route 4
图 15 路径1和路径2平均停车次数对比 Figure 15 Comparison of average stops between Route 1 and Route 2
图 16 中路径3和路径4平均停车次数对比文标题 Figure 16 Comparison of average stops between Route 3 and Route 4
4 结论

城市部分区域交通早晚高峰期间通行需求较大, 而有限的道路资源条件短时间内无法满足所有的需求, 如不进行有效的交通管控, 将会逐步引起交通拥挤, 甚至严重的堵塞, 导致路网死锁现象的发生, 致使区域交通通行能力和效率直线下降.针对上述问题, 本文从过饱和路网边界需求控制和内部均衡控制两个方面出发, 首先给出了基于路网边界需求控制和内部均衡控制的MFD控制优化模型, 针对两个控制目标采用双层规划对区域控制信号进行优化, 上层规划以提升路网通行能力为目标和下层规划以均衡路网空间占有率为目标, 并进一步分析了约束条件.然后通过建立ADHDP模型给出了问题求解流程, 并采用BP神经网络进行具体计算和动态优化.最后通过真实路网的仿真模型对本文方法进行验证分析, 一方面, 从整体路网性能相关指标上验证了本文方法能有效降低车辆平均延误和平均停车次数, 提高了路网的通行能力, 改善了整体路网的交通运行效率, 另一方面, 针对内部路径的交通性能进行了分析, 本文方法对比固定配时方法在平均延误和平均停车次数两个指标上均有明显改善, 缓解了交通高峰时段的拥堵态势, 降低了交通出行的时间和经济等成本, 有效的改善了路径通行条件.上述分析结果证明了本文方法在区域交通信号优化控制方面的有效性, 缓解了高峰时段路网交通的拥挤态势, 能够明显改善区域交通的运行效率.下一步的研究, 一方面, 针对算法的实时性和可行性上进一步细化分析和探索试验, 以提升算法运行效率和鲁棒性, 另一方面, 针对关联区域的交通影响展开进一步的调查、分析, 并给出分布式管控策略和效果验证.

参考文献
1
Papageorgiou M, Diakaki C, Dinopoulou V, Kotsialos A, Wang Y B. Review of road traffic control strategies. Proceedings of the IEEE, 2003, 91(12): 2043-2067. DOI:10.1109/JPROC.2003.819610
2
Gao Yun-Feng, Hu Hua, Han Hao, Yang Xiao-Guang. Multi-objective optimization and simulation for urban road intersection group traffic signal control. China Journal of Highway and Transport, 2012, 25(6): 129-135.
( 高云峰, 胡华, 韩皓, 杨晓光. 城市道路交叉口群信号协调控制多目标优化与仿真. 中国公路学报, 2012, 25(6): 129-135.)
3
Girianna M, Benekohal R F. Dynamic signal coordination for networks with oversaturated intersections. Transportation Research Record:Journal of the Transportation Research Board, 2002, 1811: 122-130. DOI:10.3141/1811-15
4
Aboudolas K, Papageorgiou M, Kouvelas A, Kosmatopoulos E. A rolling-horizon quadratic-programming approach to the signal control problem in large-scale congested urban road networks. Transportation Research Part C:Emerging Technologies, 2010, 18(5): 680-694. DOI:10.1016/j.trc.2009.06.003
5
Zhang Yong, Bai Yu, Yang Xiao-Guang. Strategy of traffic gridlock control for urban road network. China Journal of Highway and Transport, 2010, 23(6): 96-102.
( 张勇, 白玉, 杨晓光. 城市道路交通网络死锁控制策. 中国公路学报, 2010, 23(6): 96-102.)
6
Wang Hao, Wu Ao-Xiang, Yang Xiao-Guang. Reliability optimization of signalized intersection coordinated control under oversaturated condition. Journal of Highway and Transportation Research and Development, 2012, 29(11): 86-91.
( 王浩, 吴翱翔, 杨晓光. 过饱和条件下信号交叉口协调控制可靠性优化. 公路交通科技, 2012, 29(11): 86-91. DOI:10.3969/j.issn.1002-0268.2012.11.016)
7
Xin W P, Chang J, Muthuswamy S, Talas M, Prassas E. Multiregime adaptive signal control for congested urban roadway networks. Transportation Research Record:Journal of the Transportation Research Board, 2013, 2356: 44-52. DOI:10.3141/2356-06
8
Jang K, Kim H, Jang I G. Traffic signal optimization for oversaturated urban networks:queue growth equalization. IEEE Transactions on Intelligent Transportation Systems, 2015, 16(4): 2121-2128. DOI:10.1109/TITS.2015.2398896
9
Shao Hai-Peng, Wu Su-Feng, Li Zhou-Feng. Preventive signal control for over-saturated road network under traffic guidance. Journal of Chang'an University (Natural Science Edition), 2014, 34(5): 129-137, 174.
( 邵海鹏, 伍速锋, 李宙峰. 诱导条件下的路网交通过饱和预防性控制. 长安大学学报(自然科学版), 2014, 34(5): 129-137, 174.)
10
Li Yi-Shun, Xu Jian-Min, Wang Lin-Hong. Active multi-layer perimeter control strategy of oversaturated traffic networks. Journal of South China University of Technology (Natural Science Edition, 2012, 40(7): 27-32.
( 李轶舜, 徐建闽, 王琳虹. 过饱和交通网络的多层边界主动控制方法. 华南理工大学学报(自然科学版), 2012, 40(7): 27-32.)
11
Chen Juan, Hu Qing-Song. Non-even adaptive compatible optimization control for urban oversaturated traffic network. Information and Control, 2012, 41(5): 637-643.
( 陈娟, 胡庆松. 城市过饱和路网的非均匀自适应相容优化控制. 信息与控制, 2012, 41(5): 637-643.)
12
Li Y S, Xu J M, Shen L. A perimeter control strategy for oversaturated network preventing queue spillback. Procedia-Social and Behavioral Sciences, 2012, 43: 418-427. DOI:10.1016/j.sbspro.2012.04.115
13
Medina J C, Benekohal R F. Reinforcement learning agents for traffic signal control in oversaturated networks. In:Proceedings of the 1st Congress of Transportation and Development Institute. Chicago IL:American Society of Civil Engineers, USA, 2011. 132-141
14
Putha R, Quadrifoglio L, Zechman E. Comparing ant colony optimization and genetic algorithm approaches for solving traffic signal coordination under oversaturation conditions. Computer-aided Civil and Infrastructure Engineering, 2012, 27(1): 14-28. DOI:10.1111/mice.2012.27.issue-1
15
Geroliminis N, Daganzo C F. Existence of urban-scale macroscopic fundamental diagrams:some experimental findings. Transportation Research Part B:Methodological, 2008, 42(9): 759-770. DOI:10.1016/j.trb.2008.02.002
16
Zhao Jing, Ma Wan-Jing, Wang Tao, Liao Da-Bin. Coordinated perimeter flow control for two subareas with macroscopic fundamental diagrams. Journal of Transportation Systems Engineering and Information Technology, 2015, 16(1): 78-84.
( 赵靖, 马万经, 汪涛, 廖大彬. 基于宏观基本图的相邻子区协调控制方法. 交通运输系统工程与信息, 2015, 16(1): 78-84.)
17
Yan F, Tian F L, Shi Z K. Effects of iterative learning based signal control strategies on macroscopic fundamental diagrams of urban road networks. International Journal of Modern Physics C, 2016, 27(4): 1650045. DOI:10.1142/S0129183116500455
18
Du Yi-Man, Jia Yu-Han, Wu Jian-Ping, Xu Ming, Yang Sen-Yan. Dynamic traffic control model based on traffic environment capacity. Journal of Transportation Systems Engineering and Information Technology, 2015, 15(2): 36-41.
( 杜怡曼, 贾宇涵, 吴建平, 许明, 杨森炎. 基于交通环境容量的区域交通动态调控模型. 交通运输系统工程与信息, 2015, 15(2): 36-41.)
19
Yue Yuan-Yuan, Yu Lei, Zhu Lin, Song Guo-Hua, Chen Xu-Mei. Macroscopic model for evaluating traffic conditions on the expressway based on speed-special VKT distributions. Journal of Transportation Systems Engineering and Information Technology, 2014, 14(4): 85-92.
( 岳园圆, 于雷, 朱琳, 宋国华, 陈旭梅. 基于速度里程分布的快速路宏观交通状态评价模型. 交通运输系统工程与信息, 2014, 14(4): 85-92.)
20
Lin Xiao-Hui. Road network perimeter control strategy and simulation based on MFD. Journal of China and Foreign Highway, 2014, 34(4): 353-356.
( 林晓辉. 基于MFD的路网周边交通控制策略与仿真. 中外公路, 2014, 34(4): 353-356.)
21
Gayah V V, Gao X Y, Nagle A S. On the impacts of locally adaptive signal control on urban network stability and the macroscopic fundamental diagram. Transportation Research Part B:Methodological, 2014, 70: 255-268. DOI:10.1016/j.trb.2014.09.010
22
Xu Fei-Fei, He Zhao-Cheng, Sha Zhi-Ren. Impacts of traffic management measures on urban network microscopic fundamental diagram. Journal of Transportation Systems Engineering and Information Technology, 2013, 13(2): 185-190.
( 许菲菲, 何兆成, 沙志仁. 交通管理措施对路网宏观基本图的影响分析. 交通运输系统工程与信息, 2013, 13(2): 185-190.)
23
Tang Shao-Hu, Liu Xiao-Ming, Chen Zhao-Meng. State discriminant and queue length estimation of an intersection based on video data. Road Traffic & Safety, 2015, 15(1): 58-64.
( 唐少虎, 刘小明, 陈兆盟. 基于视频数据的交叉口状态判别及排队长度估计. 道路交通与安全, 2015, 15(1): 58-64.)
24
Cassidy M J, Jang K, Daganzo C F. Macroscopic fundamental diagrams for freeway networks:theory and observation. In:Proceedings of the 2011 Transportation Research Record:Journal of the Transportation Research Board. Washington, DC:Transportation Research Board, USA, 2011. 8-15
25
Ma Xu-Hui, Li Dai, He Zhong-He. Study on urban traffic network consistency control algorithm and simulation. Highway, 2014, 60(4): 189-193.
( 马旭辉, 李岱, 何忠贺. 城市交通网络一致性控制算法及仿真研究. 公路, 2014, 60(4): 189-193.)
26
Wang Li, Li Dai, He Zhong-He, Ma Xu-Hui. Urban traffic network control based on cluster consensus of multi-agent systems. Control Theory and Application, 2014, 31(11): 1448-1456.
( 王力, 李岱, 何忠贺, 马旭辉. 基于多智能体分群同步的城市路网交通控制. 控制理论与应用, 2014, 31(11): 1448-1456.)
27
Werbos P J. Using ADP to understand and replicate brain intelligence:the next level design. In:Proceedings of the 2007 IEEE International Symposium on Approximate Dynamic Programming and Reinforcement Learning. Honolulu, USA:IEEE, 2007. 209-216
28
Powell W B. Approximate Dynamic Programming:Solving the Curses of Dimensionality. New York:John Wiley and Sons, 2007.
29
Zhang Hua-Guang, Zhang Xin, Luo Yan-Hong, Yang Jun. An overview of research on adaptive dynamic programming. Acta Automatica Sinica, 2013, 39(4): 303-311.
( 张化光, 张欣, 罗艳红, 杨珺. 自适应动态规划综述. 自动化学报, 2013, 39(4): 303-311.)
30
Liu W X, Venayagamoorthy G K, Wunsch Ⅱ D C. A heuristic-dynamic-programming-based power system stabilizer for a turbogenerator in a single-machine power system. IEEE Transactions on Industry Applications, 2005, 41(5): 1377-1385. DOI:10.1109/TIA.2005.853386
31
Zhao Dong-Bin, Liu De-Rong, Yi Jian-Qiang. An overview on the adaptive dynamic programming based urban city traffic signal optimal control. Acta Automatica Sinica, 2009, 35(6): 676-681.
( 赵冬斌, 刘德荣, 易建强. 基于自适应动态规划的城市交通信号优化控制方法综述. 自动化学报, 2009, 35(6): 676-681.)
32
Balakrishnan S N, Biega V. Adaptive-critic-based neural networks for aircraft optimal control. Journal of Guidance, Control, and Dynamics, 1996, 19(4): 893-898. DOI:10.2514/3.21715
33
Liu D R, Zhang Y, Zhang H G. A self-learning call admission control scheme for CDMA cellular networks. IEEE Transactions on Neural Networks, 2005, 16(5): 1219-1228. DOI:10.1109/TNN.2005.853408
34
Bazzan A L C. A distributed approach for coordination of traffic signal agents. Autonomous Agents and Multi-Agent Systems, 2005, 10(1): 131-164. DOI:10.1007/s10458-004-6975-9
35
Ferrari S, Stengel R F. Online adaptive critic flight control. Journal of Guidance, Control, and Dynamics, 2004, 27(5): 777-786. DOI:10.2514/1.12597
36
Wang Cheng, Liu De-Rong, Wei Qing-Lai, Zhao Dong-Bin, Xia Zhen-Chao. Iterative adaptive dynamic programming approach to power optimal control for smart grid with energy storage devices. Acta Automatica Sinica, 2014, 40(9): 1984-1990.
( 王澄, 刘德荣, 魏庆来, 赵冬斌, 夏振超. 带有储能设备的智能电网电能迭代自适应动态规划最优控制. 自动化学报, 2014, 40(9): 1984-1990.)
37
Tang Shao-Hu, Liu Xiao-Ming. VISSIM model calibration based on IAGSO algorithm. Journal of Transportation Systems Engineering and Information Technology, 2014, 14(5): 74-80.
( 唐少虎, 刘小明. 基于IAGSO算法的VISSIM模型校正研究与实现. 交通运输系统工程与信息, 2014, 14(5): 74-80.)