倪 茹
(中國科學技術大學 信息科學技術學院,安徽 合肥 230026)
在城市交通網(wǎng)絡中,信號交叉口是削弱道路路網(wǎng)通行能力的 “滯點”,因此交叉口運行狀態(tài)評估是城市交通的研究重點。交叉口處交通運行狀況十分復雜,大部分交通問題均會產(chǎn)生在交叉口處,如交叉口阻塞嚴重,交通事故率上升,車輛通行效率低等。由此,精確實時地評估交叉口運行狀態(tài),并將狀態(tài)信息作為城市交通控制管理的指導依據(jù),相應交叉口處的交通流便能得到較好的時空協(xié)調(diào),助力城市路網(wǎng)平穩(wěn)運行,提升市民幸福感。
國內(nèi)外在交叉口信號控制方面評價交叉口運行狀態(tài)的主要指標有通行時間、排隊長度[1]、交通流量、平均延誤、平均速度、停車次數(shù)、停車等待時間[2]等。目前并沒有完整的交叉口運行狀態(tài)評估系統(tǒng)是結合機動車和行人需求而建立的,無法客觀地判斷交叉口的真實運行效果,導致實際工作的實用性非常受限。
由此,本文以交叉口運行狀態(tài)評估為基礎,在充分考慮融合機動車和行人出行感受的前提下,進行交叉口運行狀態(tài)評估,確定了包括平均延誤、平均排隊長度、平均停車次數(shù)、空間占有率、行人最大相位綠燈間隔時間和行人過街平均等待時間的評估指標體系,達到主觀賦權和客觀賦權的綜合平衡,以信號周期為評估單位,建立了基于多維交叉口運行狀態(tài)在線評估方法,結合已建立的評估模型,以評分最高為目的,提出了一種基于深度Q 學習算法的改良模型NoisyNet DQN 強化學習模型,該模型可以自適應地探索參數(shù),加快智能體訓練效率,從而達到實時的交叉口信號配時優(yōu)化。
如今城市信號交叉口的影響因素數(shù)量巨大,在以往的研究中,國內(nèi)外大部分學者在評估指標的選取時僅僅考慮機動車相關指標[3],然而行人的通行效率也應該是實際生活中需要考慮的重要因素之一。本文分別選擇代表機動車和行人需求的評估指標,基于層次分析法(AHP)和變異系數(shù)法構建城市交叉口運行狀態(tài)的實時評估模型。
評估方法整體流程包括以下4 步[4],如圖1 所示。
本文綜合各指標的相互獨立性及意義,選取了6 個代表性指標,包括平均延誤時間、平均停車次數(shù)、平均排隊長度、空間占有率、行人最大相位綠燈間隔時間和行人過街平均等待時間,分別說明如下:
圖1 評估方法整體流程圖
(1)平均延誤時間。該指標定義為一個周期內(nèi)車輛通過路口范圍的延誤時間的平均值,反映交叉口信號控制對交通流的阻礙程度[5-6]。
(2)平均停車次數(shù)。該指標定義為一周期內(nèi)車輛每個進口的停車次數(shù)的平均值,直觀反映了交叉口運行效率和服務水平。
(3)平均排隊長度。該指標定義為一周期內(nèi)從路口信號燈轉(zhuǎn)為綠燈時刻,該路口進口道各轉(zhuǎn)向車流排隊最后一輛車距離停車線的距離的平均值。其反映了交叉口信號配時方案與車流特性的匹配度。
(4)空間占有率。該指標定義為一周期內(nèi)道路機動車長度之和與道路長度之比,該指標反映了交叉口的運行效率。
(5)行人最大相位綠燈間隔時間。該指標定義為一周期內(nèi)行人相位中最長的綠燈間隔時間,其反映了行人過交叉口的最大忍耐值。
(6)行人過街平均等待時間。該指標定義為一周期內(nèi)行人等候時間的平均值,反映了行人相位方案針對行人分布特性匹配度。
利用AHP-變異系數(shù)雙層模型法對評估指標體系中各評估指標進行綜合賦權。
1.3.1 基于變異系數(shù)法的客觀權重計算
本文選用C.V 變異系數(shù)法來確定各評估指標權重,并根據(jù)各個評估指標在城市交叉口運行狀態(tài)上的變異程度[7]來對各個評估指標確定權重。各評估指標的變異系數(shù)σj為:
式中,μj為評估指標Aj的特征值的平均值。
由此,利用該方法計算的指標Aj的權重為:
1.3.2 基于AHP 的主觀權重計算
利用專家打分的AHP 法主要步驟[8]如圖2 所示。
(1)構造判斷矩陣。由本文提出的6 個代表性指標構造的判斷矩陣如下:
式中,aij為第i 行指標比第j 行指標的相對重要度。
圖2 層次分析法賦權流程圖
本文基于專家打分確定判斷矩陣的相對重要度,參考9 級評分標準,1~9 級分別從小到大表示了一個指標相對于另一個指標的重要程度。
(2)確定待定指標權重。最終指標權重的計算結果是用判斷矩陣的最大特征根對應的特征向量來定義的。
(3)一致性檢驗。一致性檢驗的目的在于防止邏輯錯誤影響打分結果。計算得到一致性比率CR,當條件CR <0.1(CR 的計算公式見 式(4)~(6))滿足時,則由此計算出的權重是具有意義的;若不滿足,需再構造判斷矩陣,持續(xù)到結果符合要求。
式中,一致性指標CI 的運算方法見公式(5);RI 可由學者Saaty[9]提出的一致性指標RI 對應不同階數(shù)下的數(shù)值分布結果來確定。
1.3.3 AHP-變異系數(shù)雙層模型
由此,根據(jù)AHP-變異系數(shù)雙層模型的綜合集成賦權方法可以確定各指標的最終權重W。
各評估指標得分與等級映射情況如表1 所示。
各指標分為六個等級,從一級到六級分別對應分值100,80,60,40,20,0,用于統(tǒng)一各評價指標量級。
通過AHP-變異系數(shù)雙層模型計算出綜合權重后,可計算出交叉口運行狀態(tài)評估得分值:
式中,η 是交叉口運行狀態(tài)得分值;n 為指標數(shù)量,wj為j 指標的綜合權重值,yj為j 指標得分值。
強化學習算法是一種以智能體在環(huán)境互動中基于最大回報為目標選擇采取最優(yōu)動作的算法。DQN 是一種使用深度卷積網(wǎng)絡逼近最優(yōu)策略中值函數(shù)的強化學習算法。NoisyNet DQN 是一種改進的DQN 強化學習算法[10],該算法通過在梯度更新網(wǎng)絡權重參數(shù)的同時給網(wǎng)絡添加噪聲,使模型可自動地探索參數(shù),達到相較于傳統(tǒng)的啟發(fā)式算法更優(yōu)的結果。結合上述搭建好的評價模型,通過將交叉口得分最大為優(yōu)化目標,可實現(xiàn)交叉口信號配時的實時優(yōu)化。
表1 評估指標得分映射
經(jīng)典的DQN 方法中,利用梯度下降方法訓練網(wǎng)絡中的θ 參數(shù):
其中α 是學習率。
NoisyNet DQN 通過在DQN 神經(jīng)網(wǎng)絡參數(shù)θ 中加入噪聲參數(shù),利用梯度下降法對θ 進行改進。噪聲參數(shù)可以定義為:
式中,μ 和Σ 表示訓練過程中需要學習的參數(shù)矢量,ε 表示零均值噪聲矢量,☉表示一種逐元素的懲罰計算方式。參數(shù)θ 的隨機性打破了傳統(tǒng)的ε 貪婪策略的探索方式,加強了智能體對環(huán)境的探索強度?;诖?,神經(jīng)網(wǎng)絡更新可以寫為:
NoisyNet DQN 的結構如圖3 所示。
圖3 NoisyNet DQN 結構圖
本文選取固定周期內(nèi)檢測器采集的上一周期交叉口各進道口車流量作為當前強化學習模型的狀態(tài)。因此對于n 相位的交叉口,模型狀態(tài)空間為:
式中si表示第i 相位的車流量。
動作空間中每種行為在作用于交通環(huán)境中時會得到不同的回報,針對于當前交通配時方案會產(chǎn)生不同的交叉口運行狀態(tài)評分。將動作空間定義為交通信號燈的配置操作空間,即表示一組車道上的交通信號為綠燈放行,并保持固定周期時間。智能體采取的所有可能的配時操作包括:東西直行、東西左轉(zhuǎn)、南北直行以及南北左轉(zhuǎn)。
結合本文已建立的交叉口運行狀態(tài)評估模型,將評價模型評估結果作為模型的獎勵函數(shù)定義。智能體根據(jù)上一周期狀態(tài)計算得到的最高評分選擇相應配時操作方案。
巢湖市位于安徽省合肥市,是安徽省轄縣級市,近年來機動車數(shù)量增長迅速,巢湖市道路老舊,交通擁堵問題日益嚴重。為驗證本文評估方法的有效性,選擇巢湖居巢區(qū)人民路-天河路、人民路-東河商業(yè)街和人民路-東風路3 個交叉口作為研究對象,其概況如圖4 所示。
圖4 實例交叉口平面圖
3.2.1 仿真參數(shù)設置
SUMO 是一個開源的、微觀的、多模式的交通仿真軟件,通過設定車道形式、車輛信息、信號配時方案、檢測器等交通條件進行仿真,可獲得交叉口運行狀態(tài)的可視化結果,并得到各種交叉口的統(tǒng)計數(shù)據(jù),如排隊長度、平均速度、平均延誤、平均停車次數(shù)等。本文將SUMO 仿真軟件作為進行模型效果評估驗證的平臺。
為驗證評估方法的泛化性能,定義了三種不同的交通狀態(tài),在SUMO 中進行搭建。如圖4 所示,路網(wǎng)包括3 個交叉口,涵蓋共8 個進口路段,分別編號A~H,將其交通流輪流設定為100,500 及1 200(單位pcu/h),依次表示暢通、 一般擁堵和非常擁堵狀態(tài)下的交叉口運行態(tài)。3 個交叉口信號配時方案均采用4 相位,方案設置見圖5,其中顏色由深至淺分別為紅、綠、黃。由此得到對應狀態(tài)的交通仿真運行數(shù)據(jù)。
圖5 交叉口信號配時方案
3.2.2 仿真數(shù)據(jù)統(tǒng)計
運行SUMO 交通參數(shù)檢測功能,同時開啟仿真數(shù)據(jù)采集模式[11]。在上述交叉口的所有車道上添加相應種類的檢測器,開啟采集模式,同時將計數(shù)周期設置為信號配時周期,得到每條車道的長度,同時獲得了所需交通數(shù)據(jù)。在仿真過程中,觀察到檢測器位置會對參數(shù)產(chǎn)生細微影響,由于其影響極其有限,故直接忽略。本文所做實驗中,涉及3 個交叉口5 個信號周期共45 份采集信息。
3.2.3 指標固定權重確定
借鑒文獻[12]和文獻[13]的研究成果,采用十位專業(yè)人員的打分結果并通過層次分析法依次得到十組指標權重,進行簡單加權平均作為最后的指標權重。以下是通過運行層次分析法得到指標權重的完整過程。
以某一領域?qū)<掖蚍纸Y果為例,依照9 級評分標準,針對評估指標進行兩兩排序打分,構成判斷矩陣如下式(13):
接著計算平均延誤時間、平均排隊長度、平均停車次數(shù)、空間占有率、行人最大相位綠燈間隔時間以及行人過街平均等待時間待定指標權重,結果分別為0.38,0.14,0.04,0.10,0.07,0.25。
最終進行判斷矩陣的一致性驗證實驗。根據(jù)式(4)~(6) 可 得 一 致 性 比 率CR=CI/RI=0.019 711<0.1,證明待定指標權重滿足一致性檢驗要求。因此,該專家打分指標是可靠的。
領域?qū)<覇柧矸答伣Y果總結歸納出的指標權重如表2 所示,通過整合數(shù)據(jù)進行平均值計算,可以計算出本文層次分析法模型的權重系數(shù),分別為0.238,0.176,0.124,0.145,0.127,0.19。
表2 各項指標權重
3.2.4 評估模型結果
根據(jù)上述方法,針對涵蓋3 個交叉口以及3 種不同的交通擁堵狀態(tài),按周期平均后,由式(8)計算可得到各個交叉口在不同擁堵水平下的評估得分,結果見表3。
表3 交叉口評估得分
由表3 可以得到,本文提出的評估方法基于信號配時周期,可迭代地進行周期性評估,為接下來的交通配時優(yōu)化提供了前提條件。且實驗驗證了當各路段交通量分別在不同狀態(tài)時,其評估結果與仿真設定一致,表明此評估方法有顯著的有效性。再比較各交叉口的評估得分,發(fā)現(xiàn)同等條件下,人民路-東河商業(yè)街的運行狀態(tài)評分最低。實際中分析此交叉口的交通環(huán)境特性,發(fā)現(xiàn)其由于車道較窄,易導致交通擁堵,影響交叉口的運行。表明本文提出的評估方法可行性較高。
通 過 SUMO 提 供 的 TraCI (Traffic Control Interface)仿真接口,可獲取仿真中實時參數(shù),與運行中的智能體進行交互操作,通過每個時間步的數(shù)據(jù)收集交叉口實時狀態(tài)。以擁堵情況較嚴重的人民路-東河商業(yè)街交叉口為實驗對象,基于PyTorch 框架搭建模型,并使用了以下超參數(shù)進行訓練:
神經(jīng)網(wǎng)絡:5 層,每層包含400 個神經(jīng)元;折扣因子為0.25。
圖6 為可視化的模型訓練過程。
圖6 模型訓練過程
為證明NoisyNet DQN 算法的有效性,將實驗結果與經(jīng)典信號配時算法Webster 算法[14]進行仿真結果的比較,結果如表4 所示。
表4 兩種算法實驗結果
由表4 可知,在交通量狀態(tài)為暢通、一般擁堵和非常擁堵的情況下,相較于Webster 算法,經(jīng)過NoisyNet DQN 算法優(yōu)化交叉口運行得分分別提升了4.71%,3.39%和21.05%,交通擁堵情況明顯得到改善,尤其在交通量為非常擁堵狀態(tài)下格外顯著。
本文經(jīng)過調(diào)研國內(nèi)外針對交叉口運行狀態(tài)評估使用的各評價指標以及現(xiàn)有的評估方法,綜合考慮了機動車和行人的通行感受,確定了具有代表機動車和行人需求的評價指標體系。接著,運用AHP-變異系數(shù)雙層模型確定各指標的權重,構建了多維交叉口運行狀態(tài)在線評估模型。最后,基于該評價模型提出了一種實時性較高的NoisyNet DQN 算法的信號控制配時優(yōu)化模型。
在上述研究下,本文選擇了合肥市巢湖市的3個實際交叉口作為研究對象,交叉口交通量在不同水平下的指標參數(shù)由仿真軟件SUMO 進行采集,通過評估該交叉口的實際運行狀態(tài),驗證了本文提出評價方法可行性較高,拓展性較強,能適用于不同的交通狀態(tài)。在此基礎上,針對較擁堵的人民路-東河商業(yè)街交叉口進行信號控制配時優(yōu)化,驗證結果顯示,較經(jīng)典的Webster 配時算法,基于NoisyNet DQN 算法的信號配時優(yōu)化模型的性能更優(yōu)。