王龐偉 馮 月 鄧 輝 汪云峰 王 力
(北方工業(yè)大學城市道路交通智能控制技術北京市重點實驗室 北京100144)
隨著汽車保有量的逐年增加,人民生活水平逐漸提高,同時帶來的交通擁堵、能源消耗、環(huán)境污染和交通事故等問題日益突出,不僅影響人們的出行效率和生命安全,而且導致巨額的財力和物力損失。近年來,隨著互聯(lián)網(wǎng)、信息通信和環(huán)境感知等相關技術的快速發(fā)展,車聯(lián)網(wǎng)技術成為解決交通問題的新方案。王龐偉等[1]提出1 種利用車路信息融合的實時交通狀態(tài)評價方法,用實時交通狀態(tài)評價得分表示交通狀態(tài)變化趨勢,運用信息融合方法提高了交通狀態(tài)評價結果的實時性與客觀性,同時為車路協(xié)同技術應用于實時交通誘導,緩解城市交通擁堵提供了理論依據(jù)。趙盼明等[2]研究了基于模糊控制的信號協(xié)調(diào)優(yōu)化方案,通過一級和二級模糊控制器分別對區(qū)域交叉口群信號進行協(xié)調(diào)控制,達到減少區(qū)域最大排隊長度和平均行車延誤的目的。隨著深度學習的出現(xiàn),交通信號控制系統(tǒng)通過車聯(lián)網(wǎng)獲取路況信息,同時通過深度強化學習網(wǎng)絡[3-4](deep q-learning network,DQN)無模型數(shù)據(jù)驅(qū)動的方法控制交叉口,使車輛快速通過交叉口,緩解城市道路擁堵,提高道路通行能力。
目前國內(nèi)外學者已在該研究領域積累了顯著科研成果。曹建峰[5]提出了分段優(yōu)化的數(shù)解法智能交通綠波帶算法,在控制連續(xù)交叉口中取得較好效果,但在一定程度上不能適應多變的交通流特征。常玉林等[6]提出了1 種實現(xiàn)雙向綠波信號控制的改進圖解法。結果表明該圖解法設計的雙向綠波可有效提高干線道路的通行率,緩解交通擁堵情況。宋現(xiàn)敏等[7]構建信號協(xié)同優(yōu)化模型,提升信號交叉口時空資源利用率。Mousavi等[8]和Li[9]等將強化學習應用在交通信號燈控制系統(tǒng)中,通過自適應控制,信號燈配時可以根據(jù)實際交通狀況發(fā)生變化。文峰等[10]提出深度強化學習策略并應用各種神經(jīng)網(wǎng)絡的優(yōu)化方法及引入經(jīng)驗池、貪婪策略。結果表明,相比于傳統(tǒng)Q學習策略,可以更好的疏通交通擁堵,提高交通系統(tǒng)效率。劉義等[11]提出分布式、自適應的信號控制方案,通過在線學習各種流量負荷,實時推理計算控制參數(shù),并得了一定改進效果。Xu等[12]和Touhbi等[13]通過收集道路數(shù)據(jù),采用將整個交叉口劃分為網(wǎng)格的方法將復雜交通場景量化為狀態(tài),提出了1 種深度強化學習模型來控制交通信號燈配時,并通過仿真實驗驗證了該模型在交通信號控制方面的有效性。Wu 等[14]提出了基于深度學習的串聯(lián)-并聯(lián)方案,并對公交車進行分配。Arel 等[15]使用價值函數(shù)來預測交通交叉口的最佳交通信號,并基于利用智能體之間的交互達到更優(yōu)控制效果。Jin等[16]將常用信號控制策略與強化學習技術相結合來預測路口的最佳交通信號配時。Zhao等[17]提出了帶有動態(tài)折現(xiàn)因子的Q-learning 模型。并將該模型與普通模型進行對比。Wan 等[18]對比了神經(jīng)網(wǎng)絡,模糊系統(tǒng)和遺傳算法在交通信號控制的效果。Tan 等[19]將每個路口建模為智能體,并讓各智能體間進行協(xié)作來控制交通信號。
綜上所述,在交通信號控制技術中應用DQN可以對復雜的交通情況進行配時疏導,并且可以在深度強化學習的過程中找到最優(yōu)信號規(guī)劃方案。然而,目前深度學習方法應用于交叉信號控制通常是將單個路口圖像化,利用卷積神經(jīng)網(wǎng)絡對交叉口交通流進行預測,然后對預測結果進行相應預測配時控制。此外,對于連續(xù)交叉口信號控制處理問題,由于交叉口過多致使狀態(tài)空間模型復雜化,同時需要處理不同狀態(tài)的多交叉口空間模型,導致傳統(tǒng)強化學習的復雜性呈指數(shù)增長,增加了狀態(tài)獲取及反饋評價的復雜度,使其較難應用于多交叉口。
針對上述問題,采用上下層Agent 網(wǎng)絡的DQN策略對連續(xù)交叉口交通信號進行控制,以減少狀態(tài)獲取及反饋評價的復雜度,解決連續(xù)交叉口信號控制問題。此外,為保證訓練目標的平穩(wěn)性,避免其訓練陷入目標值與預測值的反饋循環(huán)中震蕩發(fā)散,采用Adam 優(yōu)化算法和Double 和Dueling 優(yōu)化方法對DQN優(yōu)化訓練,相比于傳統(tǒng)DQN控制模型,該方法可根據(jù)不同道路環(huán)境和交通狀態(tài)實時切換路口相位,增加了交叉口之間的協(xié)作能力,保障交叉口行車暢通,提高交叉口通行能力,為緩解交通擁堵、提高出行效率并減少安全事故提出了新的解決方案和理論依據(jù)。
通過車聯(lián)網(wǎng)技術和各交通傳感器實時獲取交通信號配時數(shù)據(jù)、車輛行駛狀態(tài),以及道路實際狀況等信息建立深度強化學習方法,基于神經(jīng)網(wǎng)絡預測當前交通狀態(tài)實現(xiàn)交通信號控制。
對連續(xù)交叉口信號燈的控制分為上下層控制:下層Agent 為各個路口的交通信號控制器,各控制器都有獨自的學習策略;上層Agent 主要用來調(diào)整下層Agent的臨時策略。上層與下層控制器共同控制整個區(qū)域的信號燈,多主體系統(tǒng)模型見圖1。
首先將路口上游車輛的環(huán)境信息分別構建為位置矩陣和速度矩陣;然后采用卷積神經(jīng)網(wǎng)絡來匹配狀態(tài)和預期的未來反饋值,并采取優(yōu)化后的深度強化學習進行訓練;最后結合實際交通場景,通過SUMO交通仿真建模進行實驗,驗證該模型的可行性。
圖1 連續(xù)交叉口上下層信號控制模型框架Fig.1 Frame of upper-and-lower signal control model for continuous intersections
2.1.1 下層神經(jīng)網(wǎng)絡的狀態(tài)空間定義
為了準確描述交叉口的交通信息,將交叉口每個方向的車輛等待時間W、車輛延誤時長D以及信號燈相位變化C作為狀態(tài)輸入。此外,為準確表示交叉口車輛的位置和速度信息的具體分布,對交叉路口區(qū)域進行離散化建模。
見圖2,整個交叉口被劃分成大小相同的矩形網(wǎng)格,為減小計算量,節(jié)約計算資源,將車輛的速度與位置信息儲存在矩陣里面。其中將各個車道分成網(wǎng)格并看作1個元胞,檢測器檢測車輛狀態(tài)信息,對于每個小方塊區(qū)域都用單通道卷積Q表示時間t內(nèi)檢測到的速度及位置信息;若檢測器未檢測到車輛,則將該區(qū)塊補0。將得到的速度與位置矩陣作為整個路網(wǎng)的狀態(tài)信息。
圖2 路口矩陣化離散建模Fig.2 Intersection matrix discrete modeling
2.1.2 下層神經(jīng)網(wǎng)絡的動作選取
交通信號燈根據(jù)當前的交通狀態(tài)選擇適當?shù)膭幼鱽硪龑Ы徊媛房诘能囕v。本文把階段間的切換作為動作空間,并將相位之間做切換的過程建模為馬爾可夫決策過程(Markov decision process,MDP)。MDP 是序貫決策(sequential decision)的數(shù)學模型,用于在系統(tǒng)狀態(tài)具有馬爾可夫性質(zhì)的交通場景中模擬智能體可實現(xiàn)的隨機性策略與反饋值,然后通過深度強化學習中的反復試驗,結合MDP控制策略來學習反饋值最低的切換策略。
MDP循環(huán)見圖3。
圖3 MDP循環(huán)流程圖Fig.3 Flow of the MDP cycle
在圖3中,各回路表示在1個相位周期內(nèi)路口信號燈相位轉(zhuǎn)換情況,本文將循環(huán)的單位時間離散化為5 s,在切換后,當前所處相位將更新為所選擇的相序狀態(tài)。此外,為實現(xiàn)模型切換相位,分別設置最大和最小燈色持續(xù)時間,將最大和最小信號燈相位持續(xù)時間設置為60 s和5 s,即若某一相位綠燈時間達到60 s之后將強制切換到下一相位,或最小持續(xù)時間為5 s,并以原始控制方案為基礎不斷迭代更新。
2.1.3 下層神經(jīng)網(wǎng)絡反饋值定義
為向強化學習模型提供關于先前行為表現(xiàn)的反饋,需定義反饋值來幫助交通信號采取最佳行動策略。以降低車輛的平均延誤為目標,同時確保模型更易收斂,將Reward定義為1 個時間段之內(nèi)的車輛平均延誤減少值,故在訓練時應確保Reward>0。
由式可知,若ri變大,則平均等待時間比以前增加,為達到使車輛延誤不斷減少的目的,要保證ri盡量取最大。
2.1.4 下層神經(jīng)網(wǎng)絡建模
使用2 個參數(shù)一致的主網(wǎng)絡和目標網(wǎng)絡,其中主網(wǎng)絡θ用于實時更新權重,目標網(wǎng)絡θ-在主網(wǎng)絡y次更新后更新,用狀態(tài)值函數(shù)V(s) 和動作優(yōu)勢函數(shù)A(a)聯(lián)合更新下層神經(jīng)網(wǎng)絡的最大累積反饋Q值。優(yōu)化器選擇自適應矩陣估計Adam,之后在學習過程中采取?-greedy 策略和經(jīng)驗回放策略提升收斂速度與訓練準確率,從而使車輛延誤進一步降低。
底層CNN 由3 個卷積層和3 個完全連接層組成,并使用Leaky ReLU函數(shù)作為激活函數(shù)
式中:x為單位的輸出;β為避免負側(cè)的零梯度產(chǎn)生死亡神經(jīng)元的常數(shù)。Leaky ReLU函數(shù)可以比其他激活函數(shù)(如,tanh 和sigmod)更快地收斂,從而加快訓練時車輛延誤的收斂速度。神經(jīng)網(wǎng)絡結構見圖4。
圖4 處理車輛信息的圖卷積神經(jīng)網(wǎng)絡Fig.4 Graph convolutional neural network for processing vehicle information
圖4 為車輛速度與位置信息矩陣在圖卷積神經(jīng)網(wǎng)絡中的處理過程,首先把通過車聯(lián)網(wǎng)技術獲取到的信息矩陣化處理,其次通過3 個卷積層處理數(shù)據(jù)。3 個卷積層和完全連接層構造如下:第1 個卷積層包含32 個濾鏡,每個濾鏡的大小為4*4,每次通過輸入的數(shù)據(jù)移動步幅為4*4;第2 個卷積層有64 個濾鏡,每個濾鏡的大小為2*2,移動步幅為2*2,2 個卷積層后輸出的大小為30*30*64;第3 個卷積層有128 個濾波器,大小為2*2,移動步幅大小為1*1,第3 個卷積層的輸出是30*30*128 張量,1 個全連接層將張量轉(zhuǎn)換成128*1 矩陣。在全連接層之后,數(shù)據(jù)被分成大小相同的2 個部分,為64*1。其中第1 部分代表狀態(tài)值函數(shù)V(s),表示當前路網(wǎng)的靜態(tài)狀態(tài)本身具有的價值函數(shù);第2 部分代表依賴狀態(tài)的動作優(yōu)勢函數(shù)A(a),表示選擇某個Action 額外帶來的路網(wǎng)延誤變化值,因可能的Action 數(shù)是合法相位的數(shù)量k,故A(a)的大小是k*1,把這2 個部分再次組合得到每個動作的Q值,其 中CNN 中 的 參 數(shù) 表 示 為θ,Q(s,a) 轉(zhuǎn) 變 為Q(s,a,θ-) ,表示網(wǎng)絡參數(shù)為均方誤差損失,該Q函數(shù)表示從狀態(tài)s開始,使用a作為第1 個行為的最大累積反饋值,通過當前路網(wǎng)交通狀態(tài),預測得出平均期望值r,并由控制器執(zhí)行當前神經(jīng)網(wǎng)絡下的最優(yōu)信號切換策略。
2.1.5 下層強化學習網(wǎng)絡的優(yōu)化
DQN 模型的核心為卷積神經(jīng)網(wǎng)絡。將輸入的原始路網(wǎng)數(shù)據(jù)矩陣,通過Q-learning進行訓練得到輸出為最優(yōu)策略的估計Q值。
圖5為DQN的框架圖,車輛位置矩陣和速度矩陣經(jīng)過卷積層和全連接層,再通過輸入的狀態(tài)和動作輸出包含每1 個動作Q值的向量,從而得出下一步的執(zhí)行動作。
圖5 DQN的模型框架圖Fig.5 Framework of the DQN model
1)深度強化學習網(wǎng)絡。在DQN訓練過程中,讓Qtarget(s,a,θ)表示狀態(tài)s下的目標Q值,用均方誤差(MSE)更新神經(jīng)網(wǎng)絡,其損失函數(shù)J見式(3)。
式中:P(s)為1 個訓練批次中出現(xiàn)狀態(tài)s的概率。為了在每次迭代中提供穩(wěn)定的更新,采用單獨的目標網(wǎng)絡θ-來生成Q值。
主神經(jīng)網(wǎng)絡中的參數(shù)通過反向傳播進行更新,其中θ-基于以下等式中的θ進行更新。
式中:α為更新速率,表示新參數(shù)對目標網(wǎng)絡的影響程度;Q(s,a;θi)為當前網(wǎng)絡評估當前狀態(tài)動作對應的Q值;Q(s,a;θi)為目標值網(wǎng)絡的輸出。通過當前值網(wǎng)絡的參數(shù)θ更新復制給目標值網(wǎng)絡θ-,再最小化當前Q值和目標網(wǎng)絡Qtarget值之間的均方誤差來更新網(wǎng)絡參數(shù),從而將網(wǎng)絡的誤差項縮小到有限區(qū)間,并且使Q值和梯度值均處于合理的范圍,從而使路網(wǎng)延誤穩(wěn)步下降。
2)Dueling DQN 優(yōu)化方法。在特殊狀態(tài)st時,如路網(wǎng)內(nèi)車輛過少或過多的情況下,執(zhí)行動作at將不影響下1 個狀態(tài)st+1的延誤,易導致路網(wǎng)延誤在當前狀態(tài)下無法收斂。為解決這一問題,采用Dueling DQN提升DQN的學習效果與收斂速度。
在原始網(wǎng)絡的基礎上,用深度網(wǎng)絡擬合強化學習中的Q值,并將Q值函數(shù)分為狀態(tài)V值和動作V值,Q值通過狀態(tài)V值和動作V’值相加更新。
在神經(jīng)網(wǎng)絡中,狀態(tài)V(s;θ)值表示在未來步驟中采取概率動作的總體預期反饋值,對于每個動作A(s,a;θ),Q值是基于狀態(tài)V和狀態(tài)相關的A(a)函數(shù)之和,函數(shù)A(a)是當前實際動作相比于最優(yōu)動作多帶來的累積折扣回報,Q值計算見式(5)。
式中:A(s,a;θ)為采取的動作對值函數(shù)的重要性,若A>0,則該動作能更好地降低延誤,反之則表示該動作的潛在反饋值小于平均值。
3)Double DQN優(yōu)化方法。傳統(tǒng)DQN存在過估計的缺點,由于估值的不均勻性,在參數(shù)更新和迭代時,會產(chǎn)生過估計問題,從而導致當前相位切換方案不是最優(yōu)方案,為防止Q值被高估,Qtarget值由Double DQN算法更新。
式(6)中的2個Q網(wǎng)絡內(nèi)。其中:Q決定狀態(tài)Reward值最大項;Q'函數(shù)負責選取動作,以減輕過高估計的問題,從而有效降低路網(wǎng)上車輛的平均延誤的情況。
4)神經(jīng)網(wǎng)絡參數(shù)。本文采用1 種基于排序的優(yōu)先經(jīng)驗回放結構方法以增加學習效率。通過增加平均延誤更低樣本的重放概率,以基于排序的方法來計算體驗樣本的優(yōu)先概率,其中樣本m的誤差δ定義為
將誤差δ排序,設這些經(jīng)驗的優(yōu)先級pm為其排序的倒數(shù),Pm為對樣本m進行采樣的概率
式中:τ為使用多少優(yōu)先級,當τ為0 時,采取隨機抽樣。
神經(jīng)網(wǎng)絡模型的優(yōu)化器選擇Adam(自適應矩陣估計)方法。設J(θ)為損失函數(shù),計算參數(shù)梯度g。
分別用指數(shù)移動平均值更新一階和二階偏置矩s和r。
式中:ρs和ρr分別為一階和二階指數(shù)衰減率,使用時間步長t,對一階和二階偏置矩進行校正。
式中:?,分別為校正后的一階偏置矩和二階偏置矩。計算梯度更新(逐元素)
最終參數(shù)更新
表1 神經(jīng)網(wǎng)絡參數(shù)表Tab.1 Parameters of the neural network
上層Agent 對連續(xù)交叉口進行控制時,首先基于原始方案對下層每個路口的動作進行調(diào)整,最后根據(jù)每個路口平均排隊長度更新控制方案。
2.2.1 上層狀態(tài)空間定義
多主體系統(tǒng)建模見圖6。
圖6 上層狀態(tài)空間定義圖Fig.6 Definition of the upper state space
系統(tǒng)中每個主體均是路口的交通信號控制器,網(wǎng)絡分層控制的上層控制器能夠控制下層多個路口信號控制器一起形成的區(qū)域。設各路口編號分別為1,2,……其中每個下層路口的Agent均有獨自的學習策略,并由上層Agent 提供指導。信號的二次調(diào)整過程將各路口的延誤進行排序,將上層的狀態(tài)空間為延誤最高的路口編號數(shù)據(jù),見圖7。
圖7 上層狀態(tài)空間示意圖Fig.7 Upper state space
2.2.2 上層動作空間定義
為減少車輛平均延誤,各路口的信號燈相位時間需要重新合理分配。設j為綠燈調(diào)整時間,其具體值由每個路口車輛的平均延誤rˉ決定。若當前路口ζ的平均延誤是rζ,則該路口的相位綠燈時間調(diào)整為
2.2.3 上層神經(jīng)網(wǎng)絡反饋值定義
將上層Agent的反饋值rk定義為所有路口車輛的平均延誤。
式中:m為路口的總數(shù)量;Nn為車輛的總數(shù)量。
模型執(zhí)行框架見圖8。
主卷積神經(jīng)網(wǎng)絡選擇當前路口狀態(tài)和暫定相位切換動作為反饋值,以選擇最有價值的動作。首先系統(tǒng)生成1 個訓練批次的數(shù)據(jù),將當前狀態(tài)和動作以及收到的反饋值作為四元組(s,a,r,s’)存儲在存儲器中。目標網(wǎng)絡θ-是增加學習穩(wěn)定性的單獨神經(jīng)網(wǎng)絡,通過選擇具有最大Q值的動作來獲得最優(yōu)策略,并在每次訓練后更新樣本的優(yōu)先級,接著通過Adam 反向傳播更新神經(jīng)網(wǎng)絡中的學習率。模型根據(jù)?和具有最大Q值的Action選擇操作得出初始控制方案。最后根據(jù)全局車輛平均延誤和每個路口的車均延誤對所有路口相位綠燈時長進行二次調(diào)整,模型通過學習可以對不同交通場景做出相應反應,從而降低車輛延誤。
介紹了實驗所用的仿真環(huán)境及相關參數(shù)設置,基于SUMO 對分布式深度強化學習算法在交通信號控制中的應用效果進行評估,并與傳統(tǒng)綠波控制和普通DQN網(wǎng)絡配時方案進行對比分析。
圖8 上下層網(wǎng)絡的全局模型框架Fig.8 Global model framework of upper and lower networks
為驗證本文信號控制算法的性能及有效性,基于SUMO 進行仿真模擬車聯(lián)網(wǎng)環(huán)境,將本研究提出的上下層交叉口信號控制算法與傳統(tǒng)數(shù)解法綠波帶算法、未采用上下層網(wǎng)絡優(yōu)化的DQN算法模型進行對比。其仿真流程及環(huán)境搭建見圖9。
圖9 SUMO仿真平臺示意圖Fig.9 SUMO Simulation platform
以典型連續(xù)3 交叉口為例,通過仿真得出評估指標,分別統(tǒng)計車均延誤和車輛排隊長度。
仿真實驗基于SUMO 軟件中的Python 接口完成。實時獲取車聯(lián)網(wǎng)信息并自適應調(diào)整信號燈控制策略。其中,算法模型通過深度學習框架Tensorflow實現(xiàn)。
3.2.1 交叉口設置
以3 個連續(xù)交叉口作為仿真實例(見圖10),每個交叉口取300 m×300 m的區(qū)域,其中每個交叉路口均由4條相互垂直的道路組成,每條道路為雙向2車道,沿著進口道的內(nèi)到外依次是直左車道和右轉(zhuǎn)車道,每個交叉口均由4個相位控制,黃燈持續(xù)時間設置為3 s,全紅時間設置為2 s。
3.2.2 車輛參數(shù)設置
模擬車輛的參數(shù)設置見表2。
圖10 連續(xù)交叉口仿真場景Fig.10 Simulation scenario for continuous intersections
表2 車輛參數(shù)表Tab.2 Parameters of vehicles
3.2.3 交通參數(shù)設置
車輛到達方式及流量大小對交通仿真的質(zhì)量會產(chǎn)生重要的影響。為了更符合現(xiàn)實情況,場景中車輛的到達符合隨機過程分布,車輛隨機進入交叉口并選擇車道。在實驗中,選擇3 種不同車流密度進行模型訓練,仿真持續(xù)7 200 s,表3為不同車流量下各交叉口和車道的平均車輛到達率,其中車輛的到達率符合泊松分布。
表3 車流到達率Tab.3 Traffic arrival rates
為了驗證基于上下層的強化學習在交通信號控制時的有效性,將本文方法與傳統(tǒng)數(shù)解法綠波帶控制和基于單層的強化學習網(wǎng)絡控制方案在平均車輛延誤,路口車輛平均排隊長度2 方面進行對比。在設定的時間內(nèi),平均累計反饋值越大,表明算法表現(xiàn)越好;其余3 種交通衡量指標值越小,表示車輛在交叉口的通行情況越好,模型可達到更優(yōu)控制效果。
3.3.1 平均延誤
本節(jié)將平均車輛延誤作為評估值,在2 400,3 600,4 800 veh/h 這3 種不同的車流量下,統(tǒng)計3種算法下所有車輛的平均延誤時長并進行比較,以驗證本文控制模型的可行性。
由圖11 和表4 可知,其中實線為本文的模型,粗虛線為單層神經(jīng)網(wǎng)絡控制模型,細虛線為數(shù)解法綠波帶信號控制模型,在不同車流量時,本文模型的車輛延誤下降趨勢大致相同,同時控制效果強于單層DQN 控制模型與數(shù)解法綠波帶模型。通過圖12(a)~(c)對比可知隨著車流量的減小,各模型的車均延誤也隨之降低,并且本文的上下層神經(jīng)網(wǎng)絡模型優(yōu)于其余2 種模型,對比數(shù)解法綠波算法和單層DQN 控制模型其降低比例分別為26%和7.8%,說明基于上下層神經(jīng)網(wǎng)絡的控制下,車輛的平均延誤更低,更好地保障車輛的通行能力。
3.3.2 平均排隊長度
圖11 各流量下的車均延誤Fig.11 Vehicle average delay at different circumstances
表4 各模型在不同流量下的車均延誤統(tǒng)計Tab.4 Vehicle delay under different flow rates
本節(jié)將平均排隊長度設置為評估值。在2 400 veh/h,3 600 veh/h,4 800 veh/h這3種不同的車流量下,統(tǒng)計對比車輛的平均排隊長度,以驗證本文控制模型的可行性。
由圖12和表5可知,經(jīng)過模型的訓練,基于上下層控制的神經(jīng)網(wǎng)絡模型比數(shù)解法綠波帶算法平均減少了19.7%,同時控制效果強于單層DQN控制模型的26.3%。圖12(a)~(c)對比可知在車流量為4 800 veh/h 時排隊長度的降比最大,其數(shù)值為32.1%。由此可知,本文的上下層神經(jīng)網(wǎng)絡模型數(shù)據(jù)優(yōu)于其余2 種模型,說明基于上下層神經(jīng)網(wǎng)絡的控制下,車輛的平均排隊長度更低,且在車流量較高時的控制效果更好,從而更好地保障車輛的通行能力。
圖12 各流量下的平均排隊長度Fig.12 Average queue length at different circumstances
表5 各模型在不同流量下的排隊長度統(tǒng)計Tab.5 Average queue length under different flow rates
3.3.3 車流量變化時的延誤
由于實際情況下路網(wǎng)的流量是不斷變化的,以車流量在2 400~3 600 veh/h 為前提訓練,統(tǒng)計對比車輛的平均延誤,以驗證在車流量變化下模型的控制效果。
圖13 流量為2 400~3 600 veh/h的車均延誤Fig. 13 Vehicle average delay at 2 400~3 600 veh/h
由圖13 可知,其中實線為本文的模型,粗虛線為單層神經(jīng)網(wǎng)絡控制模型,細虛線為數(shù)解法綠波帶信號控制模型,可知在車流量不斷變化時,本文模型的車輛延誤曲線與流量固定時呈相同趨勢,同時控制效果介于2 400 veh/h 和3 600 veh/h 之間且強于其余2 種模型。對比數(shù)解法綠波算法和單層DQN 控制模型其降低比例分別為27.3%和9.9%,說明本文的算法模型可以適用于車流量不斷變化的情況。
1)以車聯(lián)網(wǎng)環(huán)境為前提,在獲取道路和車輛信息的基礎上,以降低交叉口車均延誤為研究內(nèi)容和目的。選取了上下層Agent對多個交叉口進行信號控制,并建立了上下層Agent的交叉口控制模型,并且在不同車流量的前提,對比該方法對信號的控制效果。
2)提出了使用深度強化學習模型來解決交通燈控制問題,搭建了Dueling Double DQN 模型來進行訓練。其中交通信息用車輛檢測器以及車聯(lián)網(wǎng)技術來收集,車輛檢測器收集車輛的各種信息,將信號燈切換的行為建模為馬爾可夫決策過程,將2 個周期之間的平均等待時間之差作為反饋值,同時,為了處理復雜的交通場景,本文的模型應用了各種訓練神經(jīng)網(wǎng)絡優(yōu)化方法。
3)建立的連續(xù)交叉口信號控制方法可應用于實際不同交通場景中,根據(jù)不同的路口結構和車流量分類訓練,并在車流量適中的前提下有著較好控制能力,為車聯(lián)網(wǎng)環(huán)境下的信號控制的相關技術的應用提供理論依據(jù)和實現(xiàn)方案。