陳 驍
(陜西交通職業(yè)技術(shù)學(xué)院,陜西 西安 710018)
隨著我國經(jīng)濟社會的快速發(fā)展,我國的汽車保有量持續(xù)快速增長,交通擁擠問題顯得越發(fā)嚴(yán)峻,特別是在高度動態(tài)的復(fù)雜十字路段[1],進一步加劇了交通資源浪費及環(huán)境污染,一定程度上增加了交通事故發(fā)生的概率,開展高度動態(tài)復(fù)雜路段交通疏導(dǎo)需求下的大規(guī)模交通信號燈協(xié)同控制模式研究具有重要的理論和實踐價值[2]。目前主流應(yīng)用的交通信號燈控制模型主要包括基于最優(yōu)觸發(fā)算法和基于最長隊列優(yōu)先配時算法等,但在高度動態(tài)復(fù)雜路段交通疏導(dǎo)實踐中逐漸顯露出緩解交通擁堵的效率較低、無法實現(xiàn)與動態(tài)環(huán)境實時交互、解決交叉路口擁堵問題時失效等諸多不足[3],開展具備與環(huán)境實時交互功能的新型大規(guī)模交通信號燈協(xié)同控制模式成為當(dāng)務(wù)之急。伴隨著我國交通路況的動態(tài)復(fù)雜性加大,交通信號燈的規(guī)模也越來越大,對高度動態(tài)復(fù)雜路段交通運行態(tài)勢自主感知的依賴性越來越強,大規(guī)模交通信號燈協(xié)同控制內(nèi)部邏輯規(guī)模呈指數(shù)增長,由于內(nèi)部邏輯混亂或者外部條件突變觸發(fā)故障發(fā)生的概率大大提高,大規(guī)模交通信號燈協(xié)同控制核心進程一旦發(fā)生故障[4],往往造成重大的損失。提出了一種基于多智能體深度強化學(xué)習(xí)的大規(guī)模交通信號燈控制模型,選擇西安市某高度動態(tài)復(fù)雜路段交通疏導(dǎo)為工程實踐分析載體,開展了大規(guī)模交通信號燈協(xié)同控制模型工程應(yīng)用實踐驗證,基于交通及市政部門現(xiàn)有的軟硬件設(shè)備,輔以高清CCD矩陣群,搭建了模型仿真驗證環(huán)境,從定性與定量兩個層面對模型開展了典型需求場景下的仿真驗證及應(yīng)用實踐定量分析,多維度驗證了模型的可行性及優(yōu)越性。
以基于多智能體深度強化學(xué)習(xí)的大規(guī)模交通信號燈控制模型典型需求為控制流頂層設(shè)計指導(dǎo),著重改善基于最長隊列優(yōu)先配時算法的大規(guī)模交通信號燈協(xié)同控制模式在高度動態(tài)復(fù)雜路段交通疏導(dǎo)實踐中顯露的諸多不足,把大規(guī)模交通信號燈協(xié)同控制模型完整控制流邏輯進行目標(biāo)導(dǎo)向下的任務(wù)分解[5],著重關(guān)注高度動態(tài)復(fù)雜路段交通運行態(tài)勢經(jīng)驗池構(gòu)建、大規(guī)模交通信號燈與多智能體之間的物理映射、復(fù)雜路段大規(guī)模交通信號燈最優(yōu)協(xié)同控制等三個耦合子架構(gòu),構(gòu)建了基于多智能體深度強化學(xué)習(xí)的大規(guī)模交通信號燈控制模型體系架構(gòu),具體如圖1所示。其中,高度動態(tài)復(fù)雜路段交通運行態(tài)勢經(jīng)驗池構(gòu)建子架構(gòu)主要完成目標(biāo)高度動態(tài)復(fù)雜路段交通疏導(dǎo)態(tài)勢的采集與池化處理[6],對數(shù)據(jù)池進行學(xué)習(xí)集和應(yīng)用集分區(qū)劃分,為大規(guī)模交通信號燈與多智能體之間的物理映射構(gòu)建提供統(tǒng)一的數(shù)據(jù)集支撐;大規(guī)模交通信號燈與多智能體之間的物理映射構(gòu)建子架構(gòu)主要利用深度長短期神經(jīng)網(wǎng)絡(luò)對態(tài)勢經(jīng)驗池進行高度動態(tài)復(fù)雜路段較長周期內(nèi)的大規(guī)模交通信號燈協(xié)同控制收益產(chǎn)出進行預(yù)測,建立時間正序下的大規(guī)模交通信號燈與多智能體之間的物理映射關(guān)系;復(fù)雜路段大規(guī)模交通信號燈最優(yōu)協(xié)同控制子架構(gòu)主要利用深度確定性策略梯度算法構(gòu)建大規(guī)模交通信號燈協(xié)同控制與交通疏導(dǎo)效率之間的耦合模型,實現(xiàn)復(fù)雜路段大規(guī)模交通信號燈最優(yōu)協(xié)同控制。
圖1 大規(guī)模交通信號燈控制模型架構(gòu)示意圖
基于大規(guī)模交通信號燈控制模型邏輯架構(gòu),分階段對基于多智能體深度強化學(xué)習(xí)的大規(guī)模交通信號燈控制模型核心算法進行設(shè)計,首先給出大規(guī)模交通信號燈協(xié)同控制收益產(chǎn)出預(yù)測子算法,然后給出復(fù)雜路段大規(guī)模交通信號燈最優(yōu)協(xié)同控制子算法,最后給出模型典型需求場景下的仿真驗證,詳細(xì)給出基于多智能體深度強化學(xué)習(xí)的大規(guī)模交通信號燈控制模型定量化實現(xiàn)過程,為工程化效能分析提供理論支撐。
(1)
(2)
(3)
利用高清CCD矩陣搭建高度動態(tài)復(fù)雜路段交通運行態(tài)勢快速獲取裝置,形成融合經(jīng)驗學(xué)習(xí)集和實踐應(yīng)用集的高度動態(tài)復(fù)雜路段交通運行態(tài)勢經(jīng)驗池。利用深度確定性策略梯度算法構(gòu)建大規(guī)模交通信號燈協(xié)同控制與交通疏導(dǎo)效率之間的耦合模型,實現(xiàn)復(fù)雜路段大規(guī)模交通信號燈最優(yōu)協(xié)同控制[10]。由于復(fù)雜路段大規(guī)模交通信號燈數(shù)據(jù)源與數(shù)據(jù)結(jié)構(gòu)具有多維特性,因此引入經(jīng)驗緩沖因子降低參數(shù)復(fù)雜度,根據(jù)深度卷積神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)原理,需形成策略網(wǎng)絡(luò)并形成評估指標(biāo),設(shè)μ為特征識別策略,利用(s,a)衡量識別性能,定義γ表示累計折扣因子,其本質(zhì)為價值信息,因此可形成如下的交通信號燈最優(yōu)協(xié)同控制評價函數(shù):
J(θμ)=Eθμ[r1+γr2+γ2r3+…]
(4)
由于參數(shù)多維特性將導(dǎo)致收斂次數(shù)激增,因此引入訓(xùn)練機制,利用經(jīng)驗緩沖因子預(yù)處理數(shù)據(jù),從數(shù)據(jù)集合中按一定比例進行采樣[11],根據(jù)策略安排形成多個訓(xùn)練集合并存儲相關(guān)數(shù)據(jù),基于多個存儲集中的參數(shù)特性求解交通信號燈最優(yōu)協(xié)同控制評價函數(shù)的梯度,從而提升了優(yōu)化迭代效率,其收斂次數(shù)大幅下降,設(shè)回報的數(shù)學(xué)期望為Q,則全交通信號燈最優(yōu)協(xié)同控制如式(2)所示,其中符號?表示求高階偏導(dǎo),其具備自主進化功能。
(5)
自主進化功能來源于多重網(wǎng)絡(luò)中的參數(shù)θQ,因其存在融合效應(yīng),可利用數(shù)據(jù)的互通特性自動識別物理量信息[12],降低了參數(shù)多維特性導(dǎo)致的數(shù)據(jù)處理復(fù)雜度,提升交通信號燈最優(yōu)協(xié)同控制評價函數(shù)的進化性能,且具備一定的智能化,可以實現(xiàn)經(jīng)驗學(xué)習(xí)自主演進,求解如下積分。
(6)
基于公式(6),進而構(gòu)造了大規(guī)模交通信號燈協(xié)同控制與交通疏導(dǎo)效率之間的耦合模型,為交通信號燈最優(yōu)協(xié)同控制提供收斂依據(jù)。機制原理為利用數(shù)據(jù)交集的存儲與訓(xùn)練形成數(shù)學(xué)期望,具體的,在每個時間點上提取特征數(shù)據(jù)[13],與經(jīng)驗數(shù)據(jù)進行交互,將交互結(jié)果輸入樣本(st,at,rt,st+1)中進行存儲,其具備時移特性,可動態(tài)調(diào)整學(xué)習(xí)行為,且實現(xiàn)了顯性的物理映射,進而提取部分?jǐn)?shù)據(jù)采用策略形成訓(xùn)練集,加快了感知進程,因此復(fù)雜路段大規(guī)模交通信號燈最優(yōu)協(xié)同控制可表征為如下的數(shù)學(xué)期望:
(7)
模型典型需求場景為西安市某高度動態(tài)復(fù)雜路段,利用該文模型對大規(guī)模交通信號燈控制模型展開工程效能分析,模型搭建與算法設(shè)計是基于Geatpy開源工具箱[14],并在PyCharm集成開發(fā)環(huán)境下進行,驗證該文模型的合理性。采集了2021年01月~06月期間的某高度動態(tài)復(fù)雜路段的交通疏導(dǎo)數(shù)據(jù),數(shù)據(jù)采集設(shè)備為高清CCD矩陣群,通過池化處理形成經(jīng)驗池進行仿真。該文抽取池中78600組數(shù)據(jù)進行訓(xùn)練,將其中28600組數(shù)據(jù)作為學(xué)習(xí)集,剩余50000例數(shù)據(jù)則為應(yīng)用集??紤]到交通態(tài)勢圖像的采集是在不間斷策略下進行,因此該文引入了融合經(jīng)驗緩沖因子的深度卷積神經(jīng)網(wǎng)絡(luò)提高原有LSTM模型的判讀效率,其網(wǎng)絡(luò)層數(shù)目選取為16層保證交通態(tài)勢感知的時效性。實驗過程中始終激活I(lǐng)nception V3,保障交通態(tài)勢圖像實時輸入,將神經(jīng)網(wǎng)絡(luò)類型設(shè)為Target-action Value與Action Value,利用前者神經(jīng)網(wǎng)絡(luò)處理當(dāng)前狀態(tài)s,可得Next Q值,利用后者神經(jīng)網(wǎng)絡(luò)處理當(dāng)前狀態(tài)s,可得eval Q值,實現(xiàn)較長周期內(nèi)的大規(guī)模交通信號燈協(xié)同控制收益產(chǎn)出精準(zhǔn)預(yù)測。將該文所提算法與單純BP神經(jīng)網(wǎng)絡(luò)算法、單純確定性策略梯度法以及改進的深度信念網(wǎng)絡(luò)法進行大規(guī)模交通信號燈協(xié)同控制收益產(chǎn)出預(yù)測對比,得出算法的收斂性能對比結(jié)果如圖2所示;將該文所提算法與單純確定性策略梯度法、改進深度信念網(wǎng)絡(luò)法進行改善高度動態(tài)復(fù)雜路段交通疏導(dǎo)的效率對比,算法收斂性能的對比結(jié)果如圖3所示。
圖2 大規(guī)模交通信號燈協(xié)同控制收益產(chǎn)出預(yù)測子算法仿真圖
圖3 復(fù)雜路段大規(guī)模交通信號燈最優(yōu)協(xié)同控制子算法仿真圖
對利用高清CCD矩陣群采集到的融合經(jīng)驗學(xué)習(xí)集和實踐應(yīng)用集的高度動態(tài)復(fù)雜路段交通運行態(tài)勢經(jīng)驗池展開研究,搭建實踐平臺并對該文模型進行訓(xùn)練,驗證方法的工程實用性?;诮煌笆姓块T現(xiàn)有的軟硬件設(shè)備,輔以高清CCD矩陣群,搭建了模型應(yīng)用實踐定量分析環(huán)境,其分析邏輯示于圖4中。該文在正在使用的配套軟件基礎(chǔ)上利用所提核心算法增加了高度動態(tài)復(fù)雜路段交通運行態(tài)勢經(jīng)驗池構(gòu)建、大規(guī)模交通信號燈與多智能體之間的物理映射、復(fù)雜路段大規(guī)模交通信號燈最優(yōu)協(xié)同控制等3個子模塊,其運行進程與主模塊始終保持時間同步性,并利用通信端口保證數(shù)據(jù)互通,且在可視控制界面上進行實時更新,保障應(yīng)用實踐定量分析能夠有效進行。采用運行態(tài)勢經(jīng)驗池構(gòu)建子模塊采集交通態(tài)勢圖像,經(jīng)過預(yù)處理池化,并篩選出預(yù)先訓(xùn)練數(shù)據(jù)形成集合,余下則為測試集;將數(shù)據(jù)池模塊的集合作為原始變量,利用深度長短期神經(jīng)網(wǎng)絡(luò)對態(tài)勢經(jīng)驗池進行高度動態(tài)復(fù)雜路段較長周期內(nèi)的大規(guī)模交通信號燈協(xié)同控制收益產(chǎn)出進行預(yù)測,建立時間正序下的大規(guī)模交通信號燈與多智能體之間的物理映射關(guān)系;在大規(guī)模交通信號燈最優(yōu)協(xié)同控制子模塊中,進而利用GoogLeNet深度神經(jīng)網(wǎng)絡(luò)結(jié)合Inception V3模型實現(xiàn)圖像智能化學(xué)習(xí)[15],利用深度確定性策略梯度算法構(gòu)建大規(guī)模交通信號燈協(xié)同控制與交通疏導(dǎo)效率之間的耦合模型,實現(xiàn)復(fù)雜路段大規(guī)模交通信號燈最優(yōu)協(xié)同控制。三個子模塊針對數(shù)據(jù)處理進程有一定的輔助分析效果,且具備耦合獨立控制性能,可獨立控制數(shù)據(jù)集合的形成、收益預(yù)測與協(xié)同控制行為。
圖4 大規(guī)模交通信號燈控制模型應(yīng)用實踐定量分析邏輯圖
圖4給出了大規(guī)模交通信號燈控制模型應(yīng)用實踐定量分析邏輯框架,利用該平臺對實際應(yīng)用實踐效果進行分析,對大規(guī)模交通信號燈控制模型的效能分析中引入了定量化指標(biāo)。利用高清CCD矩陣搭建高度動態(tài)復(fù)雜路段交通運行態(tài)勢快速獲取裝置,在收集形成數(shù)據(jù)樣本的基礎(chǔ)上進行參數(shù)設(shè)定,考慮到高度動態(tài)復(fù)雜路段交通疏導(dǎo)參數(shù)的多源異構(gòu)特性,采取差異化的參數(shù)設(shè)定方式,保證大幅度改善高度動態(tài)復(fù)雜路段交通疏導(dǎo)的效率等核心參數(shù),該文的對照系統(tǒng)選為西安市市政部門采購的交通信號燈運行狀態(tài)可視化實時監(jiān)測及預(yù)警平臺。為了驗證模型與方法的合理性,設(shè)置交通信號燈運行狀態(tài)可視化實時監(jiān)測及預(yù)警平臺為跟隨系統(tǒng),對原始訓(xùn)練數(shù)據(jù)進行預(yù)處理并池化,將數(shù)據(jù)池根據(jù)成像特性劃分為訓(xùn)練與測試集合,其中的訓(xùn)練集具有先驗特性,測試集則具備動態(tài)進化功能[16]。該文提出了高度動態(tài)復(fù)雜路段交通疏導(dǎo)的總體有效率、正常交通流下復(fù)雜路段交通疏導(dǎo)平均等待時間、正常交通流下復(fù)雜路段交通疏導(dǎo)平均隊列長度等3項指標(biāo)對工程效益進行表征,并仿真得出這3項指標(biāo)的定量數(shù)據(jù),實現(xiàn)精準(zhǔn)評判。該文提出大規(guī)模交通信號燈控制模型工程實踐效能分析驗證環(huán)境人機交互友好性(YH)、大規(guī)模交通信號燈控制模型便捷化程度(ZH)、大規(guī)模交通信號燈控制模型異常信息互聯(lián)推送(YJ)等3項指標(biāo),并對其進行定性分析。大規(guī)模交通信號燈控制模型應(yīng)用實踐效能分析對比表如表1所示。
表1 大規(guī)模交通信號燈控制模型應(yīng)用實踐效能分析對比表
研究了利用多智能體深度強化學(xué)習(xí)算法改善基于最長隊列優(yōu)先配時算法的大規(guī)模交通信號燈協(xié)同控制模式在高度動態(tài)復(fù)雜路段交通疏導(dǎo)實踐中顯露的諸多不足,提出了一種基于多智能體深度強化學(xué)習(xí)的大規(guī)模交通信號燈控制模型并進行了典型需求場景下的仿真驗證。首先把大規(guī)模交通信號燈協(xié)同控制模型完整生命周期運行邏輯進行目標(biāo)導(dǎo)向下的任務(wù)分解,給出了大規(guī)模交通信號燈協(xié)同控制模型邏輯架構(gòu);然后利用深度長短期神經(jīng)網(wǎng)絡(luò)對態(tài)勢經(jīng)驗池進行高度動態(tài)復(fù)雜路段較長周期內(nèi)的大規(guī)模交通信號燈協(xié)同控制收益產(chǎn)出進行預(yù)測,建立時間正序下的大規(guī)模交通信號燈與多智能體之間的物理映射關(guān)系;最后利用深度確定性策略梯度算法構(gòu)建大規(guī)模交通信號燈協(xié)同控制與交通疏導(dǎo)效率之間的耦合模型,實現(xiàn)復(fù)雜路段大規(guī)模交通信號燈最優(yōu)協(xié)同控制。選擇西安市某高度動態(tài)復(fù)雜路段交通疏導(dǎo)為工程實踐分析載體,開展了大規(guī)模交通信號燈協(xié)同控制模型工程應(yīng)用實踐驗證,基于交通及市政部門現(xiàn)有的軟硬件設(shè)備,輔以高清CCD矩陣群,搭建了模型仿真驗證環(huán)境,從定性與定量兩個層面對模型開展了典型需求場景下的仿真驗證及應(yīng)用實踐定量分析,多維度驗證了模型的可行性及優(yōu)越性。