• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      深度強(qiáng)化學(xué)習(xí)在城市交通信號(hào)控制方法中的應(yīng)用綜述

      2022-06-15 07:50:30吳曉東馬東方邱紅桐
      現(xiàn)代交通與冶金材料 2022年3期
      關(guān)鍵詞:交通信號(hào)交通車(chē)輛

      周 斌 ,吳曉東 ,馬東方 ,邱紅桐

      (1.浙江大學(xué)海洋學(xué)院,浙江 舟山 316021;2.鵬城實(shí)驗(yàn)室,廣東 深圳 518000;3.公安部交通管理科學(xué)技術(shù)研究所,江蘇 無(wú)錫 214151)

      引 言

      交通擁堵已成為影響城市環(huán)境和制約經(jīng)濟(jì)發(fā)展的嚴(yán)重瓶頸。隨著信息檢測(cè)技術(shù)和智能優(yōu)化技術(shù)的不斷發(fā)展,交通研究逐漸向智能化轉(zhuǎn)變,衍生了智能交通系統(tǒng)(ITS)。ITS的主要目標(biāo)是為出行者提供安全、高效和可靠的交通系統(tǒng),提高居民出行品質(zhì)。信號(hào)控制是ITS的重要組成部分,愈發(fā)受到研究者關(guān)注。按其控制策略,交通信號(hào)控制方法可分為定時(shí)控制、感應(yīng)控制、半驅(qū)動(dòng)控制、綠波控制、區(qū)域靜態(tài)控制和區(qū)域動(dòng)態(tài)控制等。一個(gè)完善的城市區(qū)域交通信號(hào)協(xié)調(diào)控制系統(tǒng)應(yīng)及時(shí)響應(yīng)交通需求,在線優(yōu)化配時(shí)方案,實(shí)現(xiàn)“適應(yīng)性”特征,如代表性的SCOOT[1]和 SCATS[2]等系統(tǒng)。然而,這些系統(tǒng)主要依靠線圈檢測(cè)的斷面數(shù)據(jù)推演離散化節(jié)點(diǎn)的狀態(tài)趨勢(shì),進(jìn)而驅(qū)動(dòng)優(yōu)化算法輸出執(zhí)行方案;這種優(yōu)化策略無(wú)法把控交通流的宏觀特性,致使控制效果欠佳。同時(shí),城市交通系統(tǒng)具有很強(qiáng)的時(shí)變性、非線性、模糊性和不確定性,采用以多類(lèi)理想假設(shè)為前提的傳統(tǒng)數(shù)學(xué)模型很難有效保障系統(tǒng)性能。

      近年來(lái),隨著新型傳感器的大規(guī)模部署,融合多視角和跨領(lǐng)域的各式交通傳感器數(shù)據(jù)引發(fā)了一系列互補(bǔ)性的創(chuàng)新和專(zhuān)用技術(shù)積累,為研究者和管理者提供了更加清晰地描述城市交通的動(dòng)態(tài)信息,ITS的應(yīng)用環(huán)境正由少量、貧乏、少維度的模型驅(qū)動(dòng)時(shí)代向海量、豐富、多維度的大數(shù)據(jù)時(shí)代轉(zhuǎn)變[3]。海量多源交通大數(shù)據(jù)對(duì)交通流的態(tài)勢(shì)推演提供了新的機(jī)遇,利用循環(huán)神經(jīng)網(wǎng)絡(luò)、圖網(wǎng)絡(luò)、注意力機(jī)制網(wǎng)絡(luò)等可以充分挖掘網(wǎng)絡(luò)交通流的時(shí)空關(guān)聯(lián)模式,對(duì)于控制策略的選擇和方案優(yōu)化均起到了極大的正向作用。

      同時(shí),云端計(jì)算能力的提升使得利用機(jī)器學(xué)習(xí)技術(shù)直接從觀測(cè)數(shù)據(jù)中學(xué)習(xí)信號(hào)優(yōu)化決策已成為可能,無(wú)需對(duì)模型做出任何假設(shè);諸多研究者嘗試將模糊邏輯、神經(jīng)網(wǎng)絡(luò)、進(jìn)化算法和強(qiáng)化學(xué)習(xí)等人工智能方法應(yīng)用于信號(hào)優(yōu)化[4]。然而,典型的監(jiān)督學(xué)習(xí)并不適用于信號(hào)優(yōu)化決策,其原因在于信號(hào)控制系統(tǒng)應(yīng)遵循預(yù)定義的優(yōu)化規(guī)則和方案,且信號(hào)方案的優(yōu)化變量是連續(xù)變量,可行方案組合無(wú)法窮盡,致使沒(méi)有足夠的訓(xùn)練數(shù)據(jù)區(qū)分信號(hào)優(yōu)化策略的優(yōu)劣。相反,實(shí)際應(yīng)用中可以先采取行動(dòng)而后改變信號(hào)方案,逐漸從結(jié)果中學(xué)習(xí)狀態(tài)和方案的關(guān)系。這種基于試錯(cuò)的策略即為強(qiáng)化學(xué)習(xí)(RL)的核心思想[5]。從控制論的角度來(lái)看,RL可根據(jù)控制效果的反饋信息自主學(xué)習(xí)并優(yōu)化策略知識(shí),是一種真正的閉環(huán)反饋控制。本質(zhì)上,RL系統(tǒng)首先根據(jù)當(dāng)前環(huán)境生成并執(zhí)行不同策略(如信號(hào)控制方案等),而后根據(jù)環(huán)境反饋學(xué)習(xí)并調(diào)整優(yōu)化策略;上述過(guò)程也揭示了傳統(tǒng)模型類(lèi)優(yōu)化方法與RL方法之間顯著差異,即:在傳統(tǒng)信號(hào)控制中,優(yōu)化模型是靜態(tài)的;在RL中,模型是在真實(shí)環(huán)境中通過(guò)反復(fù)試驗(yàn)動(dòng)態(tài)學(xué)習(xí)的。

      傳統(tǒng)的RL方法由于其基本范式為表格或簡(jiǎn)單線性函數(shù),存在狀態(tài)空間小、僅適用于離散動(dòng)作空間等問(wèn)題。因此當(dāng)面向輸入包含圖像、視頻等高維度數(shù)據(jù)的復(fù)雜真實(shí)場(chǎng)景時(shí),其任務(wù)往往具有較大的狀態(tài)空間和連續(xù)的動(dòng)作空間,傳統(tǒng)的RL很難進(jìn)行處理。而深度強(qiáng)化學(xué)習(xí)(DRL)是深度學(xué)習(xí)(DL)與強(qiáng)化學(xué)習(xí)的結(jié)合[6],將狀態(tài)和動(dòng)作當(dāng)做神經(jīng)網(wǎng)絡(luò)的輸入、輸出值,利用深度學(xué)習(xí)的強(qiáng)表征能力完成原始數(shù)據(jù)到動(dòng)作的端對(duì)端映射。

      DRL技術(shù)近幾年得到了迅猛發(fā)展,并促生了學(xué)術(shù)界和工業(yè)界對(duì)融合DRL技術(shù)以改善信號(hào)控制的興趣。本文首先全面回顧DRL方法在交通信號(hào)控制中的研究和應(yīng)用,討論基于DRL的交通信號(hào)控制前沿方法及優(yōu)缺點(diǎn),為進(jìn)一步研究該領(lǐng)域的新技術(shù)和新方法提供一定的思路參考。

      1 RL基本概念

      1.1 RL定義

      為闡述RL在交通信號(hào)控制的應(yīng)用,本文首先簡(jiǎn)要介紹RL的相關(guān)基本概念,而后介紹交通信號(hào)控制如何適應(yīng)RL設(shè)置。

      RL是獨(dú)立于監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的一類(lèi)特殊學(xué)習(xí)模式,三者的主要范式如圖1所示。RL受行為心理學(xué)啟發(fā),主要關(guān)注智能體如何在環(huán)境中采取不同的行動(dòng),以最大限度的提高累積獎(jiǎng)勵(lì)[7]。

      圖1 機(jī)器學(xué)習(xí)分類(lèi)圖

      RL的整個(gè)系統(tǒng)架構(gòu)主要由智能體(Agent)、環(huán)境(Environment)、狀態(tài)(State)、動(dòng)作(Action)和獎(jiǎng)勵(lì)(Reward)組成。智能體執(zhí)行某動(dòng)作后,環(huán)境會(huì)轉(zhuǎn)換至一個(gè)新的狀態(tài),并根據(jù)狀態(tài)的變化給出上一動(dòng)作的獎(jiǎng)勵(lì)值(正獎(jiǎng)勵(lì)或者負(fù)獎(jiǎng)勵(lì)),其交互過(guò)程如圖2所示。其中,智能體根據(jù)環(huán)境信息構(gòu)建狀態(tài)的過(guò)程如下:

      式中Ht代表從初始時(shí)刻到當(dāng)前時(shí)刻t為止,由每個(gè)時(shí)刻對(duì)環(huán)境的觀察On、智能體的行動(dòng)An、環(huán)境反饋的獎(jiǎng)勵(lì)Rt的所組成的序列;St代表時(shí)刻t的狀態(tài)函數(shù),由Ht決定。

      隨后,智能體根據(jù)新的狀態(tài)和環(huán)境反饋獎(jiǎng)勵(lì),按照一定的策略執(zhí)行新的動(dòng)作。其中獎(jiǎng)勵(lì)根據(jù)下式不斷累計(jì)直到終止條件,即為累計(jì)回報(bào):

      式中Gt代表累計(jì)回報(bào),Rt+n代表從當(dāng)前時(shí)刻t開(kāi)始計(jì)算,第n個(gè)時(shí)刻的獎(jiǎng)勵(lì)值,γ為折扣因子,用于表示當(dāng)前獎(jiǎng)勵(lì)對(duì)未來(lái)長(zhǎng)期累積回報(bào)的重要性。

      上述過(guò)程為智能體和環(huán)境通過(guò)狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)進(jìn)行交互的方式,如圖2所示。通常,單智能體RL問(wèn)題會(huì)被建模為馬爾可夫決策過(guò)程(MDP)<S,A,P,R,γ>,其中S,A,P,R,γ分別是狀態(tài)表示集、動(dòng)作集、狀態(tài)轉(zhuǎn)移函數(shù)、獎(jiǎng)勵(lì)函數(shù)和折扣因子。π是當(dāng)前智能體在狀態(tài)s下采取動(dòng)作a的策略,表示智能體在當(dāng)前狀態(tài)下采取各個(gè)動(dòng)作的方案:

      圖2 RL交互示意圖

      式中P為狀態(tài)轉(zhuǎn)移函數(shù),即在t時(shí)刻的狀態(tài)St下采取動(dòng)作At后通過(guò)式(4)轉(zhuǎn)移到狀態(tài)St+1的概率。

      智能體的最終目標(biāo)是尋找一個(gè)最佳的策略方案,使得累計(jì)回報(bào)最大化,策略可以通過(guò)如下?tīng)顟B(tài)值函數(shù)式更新:

      式中V(s)為狀態(tài)s下的值函數(shù)。

      智能體狀態(tài)值函數(shù)迭代遵循貝爾曼方程,可以通過(guò)下式進(jìn)行簡(jiǎn)化:

      簡(jiǎn)化后為:

      式(7)中的Pπ和Rπ可以根據(jù)下式進(jìn)一步進(jìn)行展開(kāi):

      展開(kāi)后為:

      進(jìn)一步明確了狀態(tài)值函數(shù)與當(dāng)前狀態(tài)與動(dòng)作之間的關(guān)系。

      1.2 深度強(qiáng)化學(xué)習(xí)

      RL的優(yōu)化目的是尋求最優(yōu)策略使得累積期望回報(bào)最大。以Q-learning[8]為代表的傳統(tǒng)RL方法利用表格或簡(jiǎn)單線性函數(shù)的方式來(lái)估計(jì)狀態(tài)-動(dòng)作值函數(shù),適用于狀態(tài)空間有限的情況。而實(shí)際的交通場(chǎng)景復(fù)雜多變,很容易導(dǎo)致?tīng)顟B(tài)空間或動(dòng)作空間劇增,產(chǎn)生“維數(shù)災(zāi)難”,致使表格或簡(jiǎn)單線性函數(shù)的方式估計(jì)狀態(tài)-動(dòng)作值函數(shù)存在很大的局限性。為解決這一問(wèn)題,很多研究在強(qiáng)化學(xué)習(xí)中引入深度學(xué)習(xí)(DL),利用復(fù)雜、非線性、帶參數(shù)的深度神經(jīng)網(wǎng)絡(luò)來(lái)逼近強(qiáng)化學(xué)習(xí)中的狀態(tài)-動(dòng)作值函數(shù),抽取高維數(shù)據(jù)的抽象特征,以實(shí)現(xiàn)降維。這種將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)聯(lián)合起來(lái)的方式稱為深度強(qiáng)化學(xué)習(xí)(DRL),其中的典型代表為谷歌旗下DeepMind公司提出的深度Q網(wǎng)絡(luò)(DQN)[9]。DRL很好地結(jié)合了DL的感知能力和強(qiáng)化學(xué)習(xí)的決策能力,且根據(jù)其最優(yōu)策略的獲得方法可將DRL分為三類(lèi):值函數(shù)(Valuebased)、策略梯度(Policy Gradient)和值函數(shù)與策略梯度相結(jié)合的演員-評(píng)論家算法(Actor-Critic)。后面提及的關(guān)于交通結(jié)合RL的算法,如無(wú)特殊說(shuō)明,均是基于DRL網(wǎng)絡(luò)。

      2 基于DRL的交通信號(hào)控制方法

      2.1 信號(hào)控制中DRL的基本組成單元

      在上述DRL基本概念的框架下,本節(jié)將重點(diǎn)解釋DRL與信號(hào)控制相結(jié)合的原理。在信號(hào)控制中,環(huán)境是道路上的交通狀況,智能體用于控制交通信號(hào)燈。在任意時(shí)刻t,環(huán)境向智能體發(fā)送當(dāng)前時(shí)刻的狀態(tài)st,狀態(tài)st包含當(dāng)前時(shí)刻的交通環(huán)境描述(如信號(hào)相位、車(chē)輛等待時(shí)間、車(chē)輛隊(duì)列長(zhǎng)度、車(chē)輛位置等,通常忽略行人、非機(jī)動(dòng)車(chē)輛等因素對(duì)交通的影響)。智能體將根據(jù)當(dāng)前時(shí)刻的狀態(tài)st和當(dāng)前優(yōu)化策略確定動(dòng)作at;動(dòng)作at將在環(huán)境中執(zhí)行,生成一個(gè)即時(shí)獎(jiǎng)勵(lì)rt,其中獎(jiǎng)勵(lì)可根據(jù)路口交通狀況和優(yōu)化目標(biāo)進(jìn)行不同的定義:

      式中Gt為從當(dāng)前時(shí)刻一直到終止時(shí)刻的累計(jì)回報(bào),即期望收益;rt+i為從當(dāng)前時(shí)刻往后第i個(gè)時(shí)刻的獎(jiǎng)勵(lì)值。

      并通過(guò)不斷優(yōu)化策略使式(11)中定義的期望收益最大化,進(jìn)而使得路口的擁堵最小化,其流程如圖3所示。

      圖3 RL交通信號(hào)控制流程圖

      此外,能否實(shí)現(xiàn)對(duì)解空間的全面搜索以及對(duì)自身經(jīng)驗(yàn)的充分利用,是決定DRL能否取得最大累計(jì)回報(bào)的關(guān)鍵因素,在DRL中也被稱為探索和利用的平衡問(wèn)題,主要由RL的決策機(jī)制決定。目前常用的決策機(jī)制有ε貪婪法和玻爾茲曼探索法。

      2.2 信號(hào)控制中DRL的主要影響因素

      在DRL框架下,信號(hào)控制存在如下三方面主要影響因素:

      ?狀態(tài)設(shè)計(jì):交通狀態(tài)用以描述道路上的狀況,其指標(biāo)選擇應(yīng)充分反映當(dāng)前的交通環(huán)境。

      ?獎(jiǎng)勵(lì)設(shè)計(jì):由于DRL的目標(biāo)是最大化累積回報(bào),根據(jù)式(1)的定義可知,獎(jiǎng)勵(lì)的選擇決定了信號(hào)控制的傾向性,如通行效率最大、停車(chē)次數(shù)最少等。

      ?動(dòng)作方案設(shè)計(jì):不同的動(dòng)作方案也會(huì)對(duì)交通信號(hào)控制策略性能產(chǎn)生影響。如果智能體的動(dòng)作被定義為“要改變到哪個(gè)相位”,則相位相序?qū)⒈欢x為自適應(yīng)模式。

      在最近的研究中,信號(hào)控制的狀態(tài)特征包括等待時(shí)間、隊(duì)列長(zhǎng)度、車(chē)輛數(shù)量和當(dāng)前交通信號(hào)階段等要素,而隨著新型傳感器的逐步普及和卷積神經(jīng)網(wǎng)絡(luò)(CNN)[10]的快速發(fā)展,道路上的車(chē)輛位置圖像也被作為狀態(tài)特征之一。典型的獎(jiǎng)勵(lì)定義是隊(duì)列長(zhǎng)度、等待時(shí)間和延遲時(shí)間等幾個(gè)分量的加權(quán)線性組合。而對(duì)于動(dòng)作方案的設(shè)計(jì)則主要圍繞相位的切換和相位持續(xù)時(shí)長(zhǎng)展開(kāi)。后續(xù)我們將從狀態(tài)設(shè)計(jì)、獎(jiǎng)勵(lì)設(shè)計(jì)和動(dòng)作方案設(shè)計(jì)三個(gè)方面進(jìn)行詳細(xì)說(shuō)明。

      2.2.1 狀態(tài)設(shè)計(jì)

      在任意時(shí)刻t,智能體接收一些環(huán)境信息的定量描述來(lái)構(gòu)造狀態(tài)空間,這些定量指標(biāo)包括:

      ■隊(duì)列長(zhǎng)度。即車(chē)道上的等待車(chē)輛總數(shù)。目前不同的研究者對(duì)于車(chē)輛的“等待”狀態(tài)存在差異化定義。其中 Bakker等[11]、Kuyer等[12]將速度為 0 的車(chē)輛視為等待車(chē)輛,而Wei等[13]則將車(chē)速小于0.1 m/s的車(chē)輛視為等待車(chē)輛。

      ■ 等待時(shí)間。定義為車(chē)輛處于“等待”狀態(tài)的時(shí)間長(zhǎng)度。不同研究者對(duì)于等待時(shí)間的開(kāi)始時(shí)刻也有不同的定義。Wei等[13]、van等[14]認(rèn)為等待時(shí)間是從車(chē)輛上一次移動(dòng)的最后一個(gè)時(shí)間戳開(kāi)始到下一次移動(dòng)的第一個(gè)時(shí)間戳結(jié)束,而 Bry 等[15]、Wiering等[16]則將車(chē)輛進(jìn)入路網(wǎng)作為起始節(jié)點(diǎn),累計(jì)疊加車(chē)輛在整個(gè)網(wǎng)絡(luò)上等待時(shí)間。

      ■延誤時(shí)間。通常被定義為實(shí)際行程時(shí)間與預(yù)期行駛時(shí)間(可用距離除以限速表示)的差值[13]。

      ■路網(wǎng)承載車(chē)輛數(shù)。通常被定義為車(chē)道上排隊(duì)車(chē)輛與行駛車(chē)輛之和[17-18]。

      ■行程速度。速度用來(lái)衡量車(chē)輛行駛狀況時(shí)受預(yù)先定義的速度限值影響很大。由于不同的車(chē)道具有差異化限速,大部分研究多采用比例的方式表征速度,即車(chē)輛實(shí)際速度與路段限速的比值[19-20]。

      ■相位與相位持續(xù)時(shí)間。相位信息通常通過(guò)預(yù)定義的相位索引來(lái)表示,并將其集成至狀態(tài)空間[14];相位持續(xù)時(shí)間定義為當(dāng)前相位從開(kāi)始到當(dāng)前時(shí)刻的持續(xù)時(shí)間[15]。

      ■擁堵情況。一些研究將車(chē)道的擁塞情況融入狀態(tài)空間,提升對(duì)擁堵特征的有效學(xué)習(xí)[21-22]。車(chē)道擁堵可以定義為擁堵指標(biāo)(0表示不擁堵,1表示擁堵)或者量化的擁堵程度。

      除了基于特征的值向量之外,近年來(lái)RL驅(qū)動(dòng)的信號(hào)控制算法呈現(xiàn)出愈發(fā)復(fù)雜的狀態(tài)空間趨勢(shì),典型代表是用圖像作為狀態(tài)的元素之一,期望更加全面的描述交通狀況,通常用類(lèi)似圖像的狀態(tài)格式進(jìn)行表示[13-14,23],稱為離散流量狀態(tài)編碼(DTSE)。Mousavi等[23]、Garg等[24]認(rèn)為原始 RGB 圖像也可作為一種狀態(tài)表示方法,遵循與原始DQN[9]相同的處理方法。此外,也有研究基于交叉口的動(dòng)態(tài)圖像提取車(chē)輛的位置、速度及混合加速度等信息,并結(jié)合信號(hào)相位組合形成多樣化狀態(tài)圖像[24-27]。

      如此高維的學(xué)習(xí)通常需要大量的訓(xùn)練樣本,意味著訓(xùn)練智能體需要很長(zhǎng)的時(shí)間。然而,高維數(shù)據(jù)下的智能體很難從狀態(tài)表示中提取有用信息,過(guò)長(zhǎng)時(shí)間的學(xué)習(xí)不一定帶來(lái)性能提升。

      2.2.2 獎(jiǎng)勵(lì)設(shè)計(jì)

      深度強(qiáng)化學(xué)習(xí)中的回報(bào)為一標(biāo)量值,是速度、延誤等交通數(shù)參數(shù)的加權(quán)值。從區(qū)域整體角度考慮,所有車(chē)輛的行駛時(shí)間最小化通常被選做信號(hào)控制的優(yōu)化目標(biāo),但卻很難直接作為獎(jiǎng)勵(lì)參數(shù),其原因如下:1.車(chē)輛的行駛時(shí)間不僅受信號(hào)影響,還受其他因素的制約,如車(chē)輛的自由流速度等。2.當(dāng)信號(hào)控制器無(wú)法感知車(chē)輛目的地信息時(shí),優(yōu)化網(wǎng)絡(luò)中所有車(chē)輛的行駛時(shí)間將變得異常困難。為此,獎(jiǎng)勵(lì)函數(shù)通常被定義為排隊(duì)長(zhǎng)度[13,28-29]、等待時(shí)長(zhǎng)[13,30]、累積延誤[31]、速度[19]、車(chē)輛等待數(shù)[14]、通行量[17,32]、相位變化頻數(shù)[14]、事故發(fā)生數(shù)[13-14]和背壓系數(shù)[33]等部分或全部因素的調(diào)和加權(quán)值。

      2.2.3 動(dòng)作方案設(shè)計(jì)

      強(qiáng)化學(xué)習(xí)算法在接收狀態(tài)信息后從所有可能的動(dòng)作方案中選取一個(gè)最佳動(dòng)作并加以執(zhí)行;采取的動(dòng)作對(duì)強(qiáng)化學(xué)習(xí)的性能和效果有著決定性影響。依據(jù)相位相序切換機(jī)制的不同,最常見(jiàn)的動(dòng)作優(yōu)化策略可分為自適應(yīng)式和固定順序式兩類(lèi)。前者依據(jù)狀態(tài)變化從所有可能的動(dòng)作方案中挑選最佳動(dòng)作[34-36],后者先將相位相序按照一定結(jié)構(gòu)進(jìn)行排序,然后將優(yōu)化問(wèn)題轉(zhuǎn)化為當(dāng)前綠燈否切換至下一相位的決策問(wèn)題[14,16-17]。

      此外,亦有學(xué)者以周期時(shí)長(zhǎng)為基本優(yōu)化單位,在固定周期時(shí)長(zhǎng)的前提下,同步優(yōu)化單周期內(nèi)所有相位階段的持續(xù)時(shí)間[18-19]。為減少交通狀態(tài)隨機(jī)擾動(dòng)帶來(lái)方案的短時(shí)劇烈波動(dòng),可首先從歷史方案數(shù)據(jù)庫(kù)中篩選動(dòng)作的候選持續(xù)時(shí)間,進(jìn)而通過(guò)環(huán)境、方案與回報(bào)的學(xué)習(xí)建立狀態(tài)與候選方案的匹配關(guān)系。

      2.3 信號(hào)控制中DRL的神經(jīng)網(wǎng)絡(luò)架構(gòu)

      深度神經(jīng)網(wǎng)絡(luò)是DRL網(wǎng)絡(luò)中的重要組成部分,本小節(jié)對(duì)其進(jìn)行歸納總結(jié)。多層感知器,即標(biāo)準(zhǔn)的全連接神經(jīng)網(wǎng)絡(luò)模型[37],是經(jīng)典的數(shù)據(jù)挖掘工具。由于交通控制的狀態(tài)空間包含圖像信息,因此需要采用包含核濾波器的多層感知器即卷積神經(jīng)網(wǎng)絡(luò)(CNN)[10];CNN一般由卷積層,匯聚層和全連接層組成,具有局部區(qū)域連接、權(quán)值共享、降采樣的結(jié)構(gòu)特點(diǎn)。然而,信號(hào)控制問(wèn)題中的狀態(tài)空間維度很高,且圖像復(fù)雜,許多學(xué)者從均衡效率和功能的角度進(jìn)行了大量探索[38]。

      交通流量及信號(hào)方案均為時(shí)序數(shù)據(jù),本身有很強(qiáng)的時(shí)間關(guān)聯(lián)性,將遞歸神經(jīng)網(wǎng)絡(luò)RNN融入基于DRL的信號(hào)控制中可以更好的挖掘信號(hào)方案之間的時(shí)序變化特征[39-41],減少因交通狀態(tài)隨機(jī)短時(shí)急劇波動(dòng)而帶來(lái)信號(hào)方案的失穩(wěn)性[42-43]。此外,自動(dòng)編碼器可以在低維子空間中智能學(xué)習(xí)高維輸入數(shù)據(jù)的編碼,并通過(guò)解碼重建輸入,自動(dòng)清除輸入數(shù)據(jù)上的噪聲干擾,提高信號(hào)方案的魯棒性[44-45]。推薦對(duì)深度神經(jīng)網(wǎng)絡(luò)感興趣的讀者閱讀Alom等[46]的研究成果。

      2.4 實(shí)驗(yàn)設(shè)計(jì)

      本節(jié)將重點(diǎn)介紹驗(yàn)證信號(hào)控制策略性能的實(shí)驗(yàn)設(shè)置:仿真軟件和仿真環(huán)境。

      2.4.1 仿真軟件

      信號(hào)控制策略的部署和測(cè)試成本高,勞動(dòng)強(qiáng)度大。因此,在實(shí)地測(cè)試之前,利用交通仿真軟件模擬潛在應(yīng)用效果是一種有效的替代方案。信號(hào)控制的模擬往往涉及大量異構(gòu)場(chǎng)景,需要考慮車(chē)輛環(huán)境中一些特定的移動(dòng)模型,包括車(chē)輛跟馳模型、換道模型和路徑選擇模型等。由于移動(dòng)模型對(duì)仿真結(jié)果的影響很大,因此這些模型參數(shù)的設(shè)置必須盡可能接近真實(shí)情況。最早用于DRL的交通仿真軟件是基于Java開(kāi)發(fā)的Green Light District(GLD)模擬器[47],可以很好地滿足車(chē)輛導(dǎo)航與信號(hào)控制的協(xié)同學(xué)習(xí)等需求。為適應(yīng)未來(lái)自動(dòng)駕駛的迫切需求,德克薩斯大學(xué)奧斯汀分校開(kāi)發(fā)了用于車(chē)輛混行情況下的The AutonomousIntersectionManagement(AIM)軟件[15];該軟件支持車(chē)輛導(dǎo)航、加速和減速等行為,并包含車(chē)輛尺寸在內(nèi)的微觀細(xì)節(jié)。目前最為流行的開(kāi)源仿真軟件為Simulation Urban Mobility(SUMO)[48];該軟件使用Python與環(huán)境進(jìn)行交互,并允許用戶通過(guò)流量控制接口庫(kù),模擬不同的交通對(duì)象,包括小汽車(chē)、公交車(chē)和行人,其仿真環(huán)境示例如圖4所示。同時(shí),SUMO還允許從OpenStreetMap中導(dǎo)入真實(shí)的道路網(wǎng)絡(luò),可在網(wǎng)絡(luò)的任意位置設(shè)置駛?cè)腭傠x模塊。SUMO還支持其他高級(jí)計(jì)算框架,包括C++、JAVA等,可以快速適配各種應(yīng)用場(chǎng)景。在SUMO 的基礎(chǔ)上,CityFlow[49]針對(duì)大規(guī)模城市交通場(chǎng)景的MARL做了更好的適配,能夠多線程模擬城市級(jí)別的交通網(wǎng)絡(luò)運(yùn)行,大幅提升了仿真速率。其他還有一些仿真軟件如 AIMSUN[50]、Paramics[51]和VISSIM[52]等也可以支撐DRL下的信號(hào)控制優(yōu)化。

      圖4 SUMO交通仿真模擬圖

      交通系統(tǒng)是個(gè)復(fù)雜的動(dòng)態(tài)系統(tǒng),且基于DRL的信號(hào)控制策略需要不斷與環(huán)境交互并實(shí)時(shí)作出決策,因此面向DRL的交通仿真軟件應(yīng)當(dāng)具備以下的條件:(1)可以結(jié)合二維或三維模型,真實(shí)且直觀地完成對(duì)于真實(shí)道路網(wǎng)絡(luò)的精細(xì)化模擬。(2)擁有軟件開(kāi)發(fā)環(huán)境或編程接口,允許用戶通過(guò)C、C++、JAVA、Python等編程語(yǔ)言調(diào)用或控制對(duì)應(yīng)的交通對(duì)象,為信號(hào)機(jī)等智能交通設(shè)備等在環(huán)運(yùn)行提供可能性。(3)具有良好的數(shù)據(jù)處理和圖表可視化能力,并提供并行運(yùn)算功能,滿足大規(guī)模城市路網(wǎng)模擬需求。

      2.4.2 仿真環(huán)境

      仿真環(huán)境主要包括兩個(gè)層面,一是路網(wǎng)拓?fù)浣Y(jié)構(gòu),二是適配于生成路網(wǎng)的交通流數(shù)據(jù)集。

      路網(wǎng)拓?fù)浣Y(jié)構(gòu)可表示為有向圖,其中節(jié)點(diǎn)代表交叉口,邊代表道路。大部分軟件采用文本格式的數(shù)據(jù)來(lái)描述諸如節(jié)點(diǎn)、路段等路網(wǎng)信息,也有如VISSIM、SUMO等少數(shù)軟件支持圖形輸入界面。路網(wǎng)節(jié)點(diǎn)的規(guī)模一般支持幾十個(gè)到上百個(gè)之間。但由于現(xiàn)實(shí)道路所要考慮的因素非常復(fù)雜,如車(chē)道位置、形狀和限速等,目前大部分研究均使用簡(jiǎn)化版的人工模擬路網(wǎng)[19,53];部分使用真實(shí)路網(wǎng)的研究也會(huì)忽略如行人過(guò)街等過(guò)于復(fù)雜的因素[13,33]。因此,目前的軟件仿真與實(shí)地驗(yàn)證還存在著不小差距。

      在流量設(shè)置方面,對(duì)于車(chē)輛的配置有兩種普遍的方法:一種是基于輸入的交通流和轉(zhuǎn)向比例,該方法的車(chē)輛按照交通流的需求隨機(jī)分布在路網(wǎng)。另一種是基于OD和路徑選擇,車(chē)輛在OD之間被分配了固定的路徑。但上述兩種方案缺少對(duì)動(dòng)態(tài)路徑選擇行為的考慮,尤其缺乏突發(fā)事件下出行者對(duì)路徑選擇行為的描述,致使仿真軟件很難真實(shí)再現(xiàn)實(shí)際交通流運(yùn)行。

      在仿真環(huán)境運(yùn)行過(guò)程中,目前的主要軟件均支持動(dòng)畫(huà)演示輸出和數(shù)據(jù)庫(kù)格式輸出,并可在運(yùn)行過(guò)程中通過(guò)信息接口實(shí)時(shí)獲取所需的交通信息,如行駛速度、行駛時(shí)間、擁堵情況、道路排隊(duì)長(zhǎng)度、車(chē)輛沖突次數(shù)、尾氣排放量等。在將獲取的交通信息進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理的基礎(chǔ)上,根據(jù)DRL的優(yōu)化目標(biāo)進(jìn)行相應(yīng)的狀態(tài)和獎(jiǎng)勵(lì)設(shè)計(jì)。

      3 問(wèn)題與挑戰(zhàn)

      盡管研究者對(duì)基于DRL的交通信號(hào)優(yōu)化產(chǎn)生了極大的興趣并做出了很多努力,且到目前為止也取得了卓有成效的研究成果,但仍有許多重大挑戰(zhàn)和亟待解決的技術(shù)問(wèn)題。

      3.1 安全問(wèn)題

      目前基于DRL的信號(hào)控制技術(shù)均基于仿真軟件,對(duì)一些安全性要素進(jìn)行了簡(jiǎn)化處理。例如在回報(bào)函數(shù)中,事故等安全要素通常定義為一個(gè)很大的負(fù)值,但這種定義無(wú)法避免事故;同時(shí),過(guò)大的負(fù)回報(bào)會(huì)導(dǎo)致學(xué)習(xí)模型無(wú)限傾向于局部方案,降低方案實(shí)施效果。因此,如何將風(fēng)險(xiǎn)管理引入到目前的DRL體系中,使得DRL在物理環(huán)境中具有可接受的安全性是未來(lái)研究的一個(gè)重要方向。

      3.2 基準(zhǔn)問(wèn)題

      不同的路網(wǎng)和交通流量條件往往會(huì)對(duì)最終的實(shí)驗(yàn)結(jié)果帶來(lái)巨大的差異,然而目前在基于DRL的信號(hào)控制領(lǐng)域缺乏被行業(yè)廣泛認(rèn)可的標(biāo)準(zhǔn)環(huán)境和公開(kāi)數(shù)據(jù)集。同時(shí),目前許多基于DRL的方法缺乏與韋伯斯特、背壓等傳統(tǒng)的交通控制方法[54]的比較,在一定程度上減弱了基于DRL的方法可信度。因此,如何構(gòu)建一個(gè)標(biāo)準(zhǔn)的公開(kāi)仿真平臺(tái)是未來(lái)研究的一個(gè)重要方向,該平臺(tái)需要滿足在路網(wǎng)層面接近真實(shí)交通物理環(huán)境,仿真交通流情況其數(shù)據(jù)集滿足城市交通流變化規(guī)律,同時(shí)提供包含傳統(tǒng)交通控制和基于DRL的信號(hào)控制的基準(zhǔn)方法。

      3.3 獎(jiǎng)勵(lì)設(shè)計(jì)問(wèn)題

      現(xiàn)有研究普遍將獎(jiǎng)勵(lì)定義為多個(gè)因素的線性加權(quán)組合,存在如下兩點(diǎn)問(wèn)題:一是這些分布式的獎(jiǎng)勵(lì)要素在交通流理論中并沒(méi)有直接聯(lián)系,不能保證最大限度的獎(jiǎng)勵(lì)等同于網(wǎng)絡(luò)運(yùn)行效率最大化;二是調(diào)整這些要素的權(quán)重系數(shù)相當(dāng)棘手,且交通流運(yùn)行結(jié)果對(duì)這些參數(shù)高度敏感。雖然所有獎(jiǎng)勵(lì)因素都與路網(wǎng)狀態(tài)及交通流運(yùn)行態(tài)勢(shì)有關(guān),但不同的加權(quán)組合會(huì)產(chǎn)生顯著性差異的結(jié)果。不幸的是,目前還沒(méi)有精確選擇這些權(quán)重基準(zhǔn)的方法或者策略。

      3.4 狀態(tài)問(wèn)題

      狀態(tài)特征的細(xì)節(jié)優(yōu)化如同獎(jiǎng)勵(lì)設(shè)計(jì)一樣,非常顯著的影響方案結(jié)果。在目前基于DRL的信號(hào)控制中,對(duì)狀態(tài)的數(shù)據(jù)格式?jīng)]有統(tǒng)一的規(guī)范,高度依賴于設(shè)備的原始輸出,帶來(lái)很大的數(shù)據(jù)處理工作,尤其是圖像類(lèi)等高維數(shù)據(jù)的處理工作。因此,研究者需要關(guān)注不同硬件系統(tǒng)(如攝像機(jī)、環(huán)路檢測(cè)器、微波傳感器等)的數(shù)據(jù)形式,在數(shù)據(jù)部分可測(cè)和噪聲數(shù)據(jù)影響下設(shè)計(jì)狀態(tài)空間的表達(dá)方法。

      同時(shí),由于交通狀態(tài)特征高度依賴于傳感器、控制器等硬件的功能集成,如何及時(shí)識(shí)別偶發(fā)性設(shè)備故障、容忍某些部件故障、保障系統(tǒng)的魯棒性和穩(wěn)定性是另一個(gè)關(guān)鍵問(wèn)題。

      3.5 車(chē)路協(xié)同控制

      隨著自動(dòng)駕駛與網(wǎng)聯(lián)車(chē)技術(shù)的不斷發(fā)展,車(chē)車(chē)之間的通信被引入智能交通系統(tǒng)。在此背景下需要針對(duì)信號(hào)燈、自動(dòng)駕駛車(chē)輛等多個(gè)平臺(tái)采用統(tǒng)一的管理和自適應(yīng)控制策略,探索更加高效的車(chē)輛和信號(hào)燈協(xié)同模式;未來(lái)的交通控制可能會(huì)呈現(xiàn)如圖5所示的復(fù)雜趨勢(shì)。

      圖5 RL交通信號(hào)控制流程圖

      4 結(jié) 語(yǔ)

      本文概述了基于深度強(qiáng)化學(xué)習(xí)的交通信號(hào)控制技術(shù),剖析了存在的主要問(wèn)題及挑戰(zhàn)。首先以一些成熟的信號(hào)控制技術(shù)為引入,簡(jiǎn)要介紹了強(qiáng)化學(xué)習(xí)的相關(guān)基本概念及深度強(qiáng)化學(xué)習(xí)技術(shù)。此外,以交通信號(hào)控制為需求牽引,探討了信號(hào)控制下的深度強(qiáng)化學(xué)習(xí)狀態(tài)空間、回報(bào)函數(shù)、動(dòng)作空間等智能體單元的設(shè)計(jì)過(guò)程以及仿真實(shí)驗(yàn)流程。最后,簡(jiǎn)要討論了基于深度強(qiáng)化學(xué)習(xí)的交通信號(hào)控制方法所面臨的一些主要問(wèn)題與挑戰(zhàn)。希望本文可為信號(hào)控制領(lǐng)域的研究人員和技術(shù)人員提供一定的參考。

      猜你喜歡
      交通信號(hào)交通車(chē)輛
      繁忙的交通
      童話世界(2020年32期)2020-12-25 02:59:14
      《城市軌道交通信號(hào)圖冊(cè)》正式出版
      《城市軌道交通信號(hào)設(shè)備》正式出版
      城市軌道交通信號(hào)設(shè)備監(jiān)測(cè)技術(shù)探討
      小小交通勸導(dǎo)員
      車(chē)輛
      冬天路滑 遠(yuǎn)離車(chē)輛
      車(chē)輛出沒(méi),請(qǐng)注意
      交通信號(hào)智能指揮模型
      提高車(chē)輛響應(yīng)的轉(zhuǎn)向輔助控制系統(tǒng)
      蒙自县| 泰安市| 绍兴县| 荔浦县| 同心县| 平乐县| 辽中县| 新竹县| 建平县| 云浮市| 永胜县| 丰县| 阿坝| 泊头市| 海阳市| 南投市| 永川市| 公主岭市| 山阳县| 乐清市| 晋中市| 高密市| 海门市| 兴文县| 浮山县| 炎陵县| 唐河县| 肇源县| 浦县| 桂阳县| 田林县| 金堂县| 津南区| 左权县| 固始县| 临江市| 宁德市| 积石山| 新闻| 明光市| 延安市|