丁世飛 杜 威 郭麗麗 張 健 徐 曉
1(中國礦業(yè)大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院 江蘇徐州 221116)
2(礦山數(shù)字化教育部工程研究中心(中國礦業(yè)大學(xué))江蘇徐州 221116)
強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)作為一種機(jī)器學(xué)習(xí)方法,其主要思想是使智能體通過最大化從環(huán)境中獲得的累積獎勵來學(xué)習(xí)最優(yōu)策略.Q-learning是單智能體強(qiáng)化學(xué)習(xí)領(lǐng)域中的經(jīng)典方法之一,但其難以應(yīng)對動作空間和狀態(tài)空間維數(shù)較高的環(huán)境.深度Q網(wǎng)絡(luò)(deepQ-network,DQN)利用深度神經(jīng)網(wǎng)絡(luò)逼近價值函數(shù)來解決這個困難.得益于DQN 在高維空間中展現(xiàn)出的優(yōu)越性能,學(xué)者們基于此方法提出諸多深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)[1-4]方法.
隨著DRL 在機(jī)器控制[5-7]、人機(jī)游戲[8-10]等單智能體領(lǐng)域取得顯著成功,許多工作將單智能體DRL方法擴(kuò)展到多智能體設(shè)置并應(yīng)用到真實環(huán)境中,如自動駕駛[11-12]、交通控制[13-14].然而,實現(xiàn)高效的多智能體強(qiáng)化學(xué)習(xí)通常會面臨2 個主要困難:可擴(kuò)展性問題和部分可觀測性限制.一方面,利用環(huán)境的所有信息進(jìn)行決策可能會導(dǎo)致大規(guī)模的聯(lián)合狀態(tài)動作空間.隨著智能體的數(shù)量增加,狀態(tài)動作空間規(guī)模將呈指數(shù)增長,這導(dǎo)致智能體的規(guī)模難以擴(kuò)展,即產(chǎn)生可擴(kuò)展性問題.另一方面,部分可觀測性限制要求智能體只根據(jù)自己的局部觀測歷史來選擇動作和做出決策.這雖然提高了決策效率,但也嚴(yán)重限制智能體探索最優(yōu)動作的能力,同時造成了環(huán)境的不穩(wěn)定性.
為應(yīng)對部分可觀測性限制帶來的問題,Lowe 等人[15]提出了多智能體深度確定性策略梯度(multiagent deep deterministic policy gradient,MADDPG)方法.該方法引入集中訓(xùn)練和分散執(zhí)行(centralized training with decentralized execution,CTDE)框架:在集中訓(xùn)練階段,智能體可以訪問全局信息;在分散執(zhí)行階段智能體只根據(jù)局部觀測歷史選擇動作[16-18].隨著MADDPG 方法在應(yīng)對部分可觀測限制情況時展現(xiàn)出的優(yōu)越性能,基于CTDE 框架的多智能體強(qiáng)化學(xué)習(xí)(multi-agent reinforcement learning,MARL)方法不斷涌現(xiàn),CTDE 框架也成為MARL 中最常用的框架之一.此外,為了解決CTDE 范式的可擴(kuò)展性問題,學(xué)者們提出了各種價值函數(shù)分解方法[19-22].盡管MADDPG 已成為MARL 中最常用的基線方法之一,以MADDPG 為代表的CTDE 方法存在的Q值高估問題沒有得到廣泛研究.Q值高估問題源于bootstrapping 目標(biāo)中常用的max 算子.具體地,Qlearning 中的max 算子用最大估計值逼近最大期望值,這將導(dǎo)致價值高估:其中表示給定狀態(tài)下動作ai的Q值的隨機(jī)變量.Q值高估問題會損害智能體的行為,導(dǎo)致智能體學(xué)得次優(yōu)的策略[23-24].
在CTDE 方法中,Q值高估問題同樣存在.具體地,假設(shè)有n個智能體,每個智能體有L個動作,每個動作的Q值獨(dú)立地由均勻分布U(0,1)得到,則1/2.同時=Ln/(Ln+1),由于聯(lián)合動作空間的大小L隨智能體的數(shù)量呈指數(shù)增長,趨向于1,且大于,由此可得CTDE 方法存在Q值高估問題.在CTDE 方法中,個體智能體的決策質(zhì)量取決于集中訓(xùn)練的評論家網(wǎng)絡(luò),評論家網(wǎng)絡(luò)的價值函數(shù)高估問題可能會造成更嚴(yán)重的影響.因此,研究MADDPG 為代表的CTDE 方法中存在的價值高估問題顯得尤為必要和具有挑戰(zhàn)性.
為應(yīng)對這個挑戰(zhàn),本文提出基于雙評論家的多智能體深度確定性策略梯度(multi-agent deep deterministic policy gradient method based on double critics,MADDPG-DC)方法來避免價值函數(shù)的過高估計.本文的核心思想是通過在雙評論家網(wǎng)絡(luò)上的最小值操作來避免價值高估.此外,為保證學(xué)習(xí)的穩(wěn)定性和效率,本文采用延遲策略更新技術(shù).通過延遲行動者網(wǎng)絡(luò)更新,減少了使用沒變化的評論家網(wǎng)絡(luò)得到的Q值來指導(dǎo)行動者網(wǎng)絡(luò)重復(fù)更新的可能性,從而實現(xiàn)更高質(zhì)量的策略更新.本文的主要貢獻(xiàn)和創(chuàng)新點有3 點:
1)從理論和實驗層面上分別證明了MADDPGDC 存在嚴(yán)重的高估問題,并通過引入雙評論家網(wǎng)絡(luò)結(jié)構(gòu)避免價值高估,從而促進(jìn)更好的策略學(xué)習(xí).
2)為保證策略學(xué)習(xí)的效率和穩(wěn)定性,在提出的MADDPG-DC 中引入延遲行動者網(wǎng)絡(luò)更新的方法,進(jìn)一步提高策略更新的質(zhì)量,使智能體更高效地學(xué)習(xí)最優(yōu)策略.
3)在多智能體粒子環(huán)境和交通信號控制環(huán)境上對所提出的MADDPG-DC 方法進(jìn)行了實驗評估,實驗結(jié)果表明提出的方法在仿真環(huán)境和實際系統(tǒng)上都具有可行性和優(yōu)越性.
MARL 問題一般建模為去中心化部分可觀測馬爾可夫決策過程(decentralized partially observable Markov decision process,Dec-POMDPs)[25].具體地,Dec-POMDPs 用元組G=〈S,A,P,R,O,n,γ〉表示,其中部分可觀測環(huán)境的狀態(tài)記為s∈S,智能體i可獲得的局部觀測值記為oi∈Oi.智能體i根據(jù)其局部觀測值oi決定其動作ai∈A,聯(lián)合動作表示為a=(a1,a2,…,aN)∈A,環(huán)境狀態(tài)基于狀態(tài)轉(zhuǎn)移函數(shù)P:S×A→S和聯(lián)合動作轉(zhuǎn)移至下一個狀態(tài).智能體i的學(xué)習(xí)目標(biāo)是最大化其累計折扣獎勵值,其中γ ∈[0,1]為折扣因子,rit表示智能體i在時間步t獲得的獎勵值.
MADDPG 方法的關(guān)鍵思想是:在訓(xùn)練階段,每個智能體都接收全局信息來學(xué)習(xí)一個集中的Q函數(shù);在執(zhí)行階段,每個智能體只使用局部信息來選擇動作.MADDPG 利用CTDE 框架與行動者-評論家結(jié)構(gòu),其中集中訓(xùn)練的評論家網(wǎng)絡(luò)獲得了全局信息,而分散的行動者網(wǎng)絡(luò)只能獲得個體的局部觀測歷史.
具體地,假設(shè)一個包含N個智能體的環(huán)境,智能體的策略是連續(xù)的,用μ={μ1,μ2,…,μN(yùn)}表示,策略的參數(shù)是φ={φ1,φ2,…,φN},智能體i的策略梯度J(φi)=E[Ri]表示為
在本節(jié)中,首先通過理論和實驗證明,MADDPG存在過高估計價值函數(shù)的問題,然后介紹提出的改進(jìn)方法,即基于雙評論家網(wǎng)絡(luò)的多智能體深度確定性策略梯度方法.
首先,給出理論證明以論證MADDPG 中存在價值函數(shù)的過高估計問題.定義策略參數(shù) φ,表示智能體i的由對應(yīng)評論家網(wǎng)絡(luò)指導(dǎo)的行動者網(wǎng)絡(luò)的近似參數(shù),并用表示由真實價值函數(shù)指導(dǎo)的行動者網(wǎng)絡(luò)的參數(shù):
MADDPG 中存在的價值函數(shù)過高估計一般會導(dǎo)致2 個問題:一方面,價值高估會在多次更新后導(dǎo)致顯著的偏差;另一方面,價值估計偏差會進(jìn)一步導(dǎo)致策略更新的不準(zhǔn)確.評論家網(wǎng)絡(luò)對次優(yōu)動作進(jìn)行過高的評估,從而導(dǎo)致在接下來的策略更新中引導(dǎo)行動者網(wǎng)絡(luò)對次優(yōu)動作的選擇.
在降低單智能體深度強(qiáng)化學(xué)習(xí)中的價值函數(shù)過高估計問題方面,已有多項工作取得了成功,其中深度雙Q網(wǎng)絡(luò)采用目標(biāo)值網(wǎng)絡(luò)和當(dāng)前值網(wǎng)絡(luò)結(jié)構(gòu)來進(jìn)行獨(dú)立的價值估計,利用當(dāng)前值網(wǎng)絡(luò)的價值估計來選擇最優(yōu)動作,利用目標(biāo)值網(wǎng)絡(luò)的價值估計來評估最優(yōu)動作,將最優(yōu)動作的選擇和價值估計分開,降低了對次優(yōu)動作過高估計價值的可能性[2].
MADDPG 方法中的評論家網(wǎng)絡(luò)也采取相似的目標(biāo)值網(wǎng)絡(luò)和當(dāng)前值網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行更新:
然而,由于MADDPG 方法的策略變化緩慢,導(dǎo)致目標(biāo)值網(wǎng)絡(luò)與當(dāng)前值網(wǎng)絡(luò)過于相似,難以進(jìn)行有效的獨(dú)立的價值估計,過高估計的問題仍然存在.如圖1 所示,本文實驗評估了MADDPG 中存在的估計偏差問題.
Fig.1 Comparison of estimation biases for MADDPG and MADDPG-DC圖1 MADDPG 和MADDPG-DC 的估計偏差對比
在多智能體粒子環(huán)境(multi-agent particle environment)中的捕食者獵物(predator-prey)環(huán)境上,測量MADDPG 和MADDPG-DC 在學(xué)習(xí)過程中的價值估計的估計偏差、采樣狀態(tài)和經(jīng)驗回放池的動作,確定真實的和估計的Q值.結(jié)果如圖1 所示,一個非常明顯的過高估計偏差發(fā)生在MADDPG 的學(xué)習(xí)過程中,而MADDPG-DC 在學(xué)習(xí)過程中不存在明顯的估計偏差.
MADDPG-DC 使用雙評論家網(wǎng)絡(luò)結(jié)構(gòu)來避免價值高估,2 個評論家網(wǎng)絡(luò)的目標(biāo)函數(shù)分別為
MADDPG-DC 通過在雙評論家網(wǎng)絡(luò)上進(jìn)行最小值操作,能夠避免價值估計過高的問題.雖然該更新規(guī)則可能會導(dǎo)致價值低估,但價值低估不會在策略更新過程中顯式傳播[26-28].MADDPG-DC 方法的評論家網(wǎng)絡(luò)的目標(biāo)函數(shù)為
MADDPG-DC 方法利用目標(biāo)網(wǎng)絡(luò)來減少目標(biāo)更新過程中的誤差.由于高誤差狀態(tài)下的策略更新會導(dǎo)致智能體動作的發(fā)散,MADDPG-DC 方法引入延遲行動者網(wǎng)絡(luò)更新的方法,將行動者網(wǎng)絡(luò)的更新頻率設(shè)置為低于評論家網(wǎng)絡(luò)的更新頻率,以使得行動者網(wǎng)絡(luò)的策略更新前的誤差最小化.具體地,設(shè)定評論家網(wǎng)絡(luò)每更新3 次后,行動者網(wǎng)絡(luò)更新1 次.同時為確保誤差最小,緩慢地更新目標(biāo)網(wǎng)絡(luò):
在評論家網(wǎng)絡(luò)每3 次迭代后,對于智能體i,基于評論家網(wǎng)絡(luò)利用確定性策略梯度方法更新行動者網(wǎng)絡(luò).通過延遲行動者網(wǎng)絡(luò)更新,MADDPG-DC 方法減少了使用沒變化的評論家網(wǎng)絡(luò)得到的Q值來指導(dǎo)行動者網(wǎng)絡(luò)重復(fù)更新的可能性,從而實現(xiàn)更高質(zhì)量的策略更新.
圖2 展示了MADDPG-DC 的網(wǎng)絡(luò)結(jié)構(gòu),在訓(xùn)練階段,只對行動者網(wǎng)絡(luò)和雙評論家網(wǎng)絡(luò)進(jìn)行訓(xùn)練,而行動者目標(biāo)網(wǎng)絡(luò)和評論家目標(biāo)網(wǎng)絡(luò)用于穩(wěn)定行動者網(wǎng)絡(luò)和雙評論家網(wǎng)絡(luò)的學(xué)習(xí)效果.算法1 給出了MADDPG-DC 的偽代碼.
Fig.2 Network structure of MADDPG-DC圖2 MADDPG-DC 的網(wǎng)絡(luò)結(jié)構(gòu)
算法1.MADDPG-DC.
MADDPG-DC 方法使用神經(jīng)網(wǎng)絡(luò)來促進(jìn)評論家的訓(xùn)練,其中神經(jīng)網(wǎng)絡(luò)使用多層感知器(multilayer perceptron,MLP)架構(gòu).首先,對于使用MLP 架構(gòu)的單智能體強(qiáng)化學(xué)習(xí)方法而言,其訓(xùn)練復(fù)雜度是O(M×T(S×H+H×A)).其中M為回合數(shù),T是每回合的時間步數(shù);S表示輸入層的大小,也表示智能體的觀測集合的大小,H表示神經(jīng)網(wǎng)絡(luò)隱藏層的大??;A表示輸出層的大小,也表示智能體的動作集合的大小.
對于MADDPG-DC 的訓(xùn)練階段,每個評論家網(wǎng)絡(luò)用單一的值來評估多個智能體的聯(lián)合動作和觀測結(jié)果,其復(fù)雜度為O(M×T(N×(A+S)×H+H×1)),N表示智能體的數(shù)量.在執(zhí)行階段的復(fù)雜度方面,由于每個智能體都是獨(dú)立行動,不需要評論家網(wǎng)絡(luò)和其他智能體的交互,因此每個智能體在給定時間步數(shù)上執(zhí)行1 個動作的復(fù)雜度為O(S×H+H×A).MADDPG方法的復(fù)雜度與MADDPG-DC 一致.
本節(jié)在各種復(fù)雜的平臺和任務(wù)上進(jìn)行了實驗,以驗證MADDPG-DC 方法的優(yōu)越性和有效性.首先在MARL 領(lǐng)域中廣泛使用的多智能體粒子環(huán)境進(jìn)行了仿真實驗;然后在交通信號控制環(huán)境的真實系統(tǒng)中評估MADDPG-DC 方法,以證明該方法在真實環(huán)境中應(yīng)用的可行性.
首先使用MARL 中常用的多智能體粒子環(huán)境進(jìn)行實驗.實驗配置如表1 所示.環(huán)境是2 維連續(xù)的,包含K個相互協(xié)作的智能體、Z個地標(biāo)和L個敵對的智能體.本文在多智能體粒子環(huán)境中的3 個環(huán)境上進(jìn)行了實驗,以驗證所提方法的有效性.
Table 1 Experimental Configuration for Multi-Agent Particle Environments表1 多智能體粒子環(huán)境的實驗配置
1)捕食者-獵物環(huán)境.如圖3 所示,這個環(huán)境包含了3 個合作的捕食者,即智能體1,2,3;1 個移動速度更快的獵物,即敵方智能體和2 個阻礙前進(jìn)的障礙.捕食者需要協(xié)作來追趕獵物,如果捕食者成功捕獲獵物,捕食者得到獎勵,而獵物得到懲罰.
2)物理欺騙(physical deception)環(huán)境.該環(huán)境包括2 個合作的智能體、1 個敵對的智能體和2 個地標(biāo)物體.2 個合作智能體的目標(biāo)是在敵對智能體不知道地標(biāo)物體的情況下,從一個地標(biāo)到達(dá)另一個地標(biāo).合作智能體的獎勵取決于其中一個智能體到達(dá)目的地的最小距離.
3)世界(world)環(huán)境.在包含4 個移動較慢的智能體和2 個移動較快的敵對智能體的世界環(huán)境中,較慢的智能體的目標(biāo)是學(xué)會合作以捕獲2 個移動較快的敵對智能體.
本文將提出的MADDPG-DC 方法與多種基線方法在以上3 個環(huán)境中進(jìn)行對比實驗.實驗選擇了MADDPG[15]、反事實的多智能體策略梯度[18](counterfactual multi-agent policy gradient,COMA)、值分解網(wǎng)絡(luò)[19](value-decomposition networks,VDN)方法、QMIX[20]這4 種基于CTDE 框架的方法作為基線方法.COMA使用一個基于反事實基線的評論家網(wǎng)絡(luò)結(jié)構(gòu)來推導(dǎo)智能體學(xué)習(xí)策略的優(yōu)勢函數(shù).VDN 和QMIX 是價值函數(shù)分解方法的代表性方法,使用個體價值函數(shù)的組合來估計聯(lián)合價值函數(shù).
由于這些基線方法全部基于CTDE 框架,于是都存在價值函數(shù)高估問題.所有實驗在CPU Intel Xeon Silver 4210 和GPU Nvidia RTX 2080 上使用5 個隨機(jī)種子構(gòu)建.對于MADDPG 和COMA,使用與MADDPGDC 相同的參數(shù),如表2 所示.VDN 和QMIX 包括更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),參數(shù)如表3 所示.
Table 3 Hyperparameters of VDN and QMIX on Multi-Agent Particle Environments表3 VDN 和QMIX 在多智能體粒子環(huán)境上的超參數(shù)
圖4~6 展示了各方法的平均獎勵值.在捕食者-獵物環(huán)境中,在參數(shù)相對一致的情況下,MADDPG和QMIX 方法下的智能體未學(xué)得穩(wěn)定的策略,導(dǎo)致平均獎勵呈下降狀態(tài).本文提出的MADDPG-DC 方法在訓(xùn)練一開始的表現(xiàn)低于價值函數(shù)分解方法VDN,但最終收斂到更高的平均獎勵值.在物理欺騙環(huán)境下,MADDPG-DC 收斂得最快且學(xué)得的平均獎勵值最高,而MADDPG,COMA,VDN 方法未能學(xué)得最優(yōu)的策略.在世界環(huán)境下,除了QMIX 以外的大部分方法都采用收斂到穩(wěn)定的策略,而MADDPG-DC 同樣取得了最好的表現(xiàn).綜上,對比其他存在價值高估問題的基線方法,MADDPG-DC 方法取得了更好的性能.
Fig.4 Performance comparison on predator-prey environment圖4 捕食者-獵物環(huán)境下的性能比較
Fig.6 Performance comparison on world environment圖6 世界環(huán)境下的性能比較
此外,為探討雙評論家網(wǎng)絡(luò)結(jié)構(gòu)和延遲行動者網(wǎng)絡(luò)更新這2 個因素對性能提升的影響,本文設(shè)計了消融實驗.實驗中使用2 個變體:使用雙評論家網(wǎng)絡(luò)結(jié)構(gòu)但不延遲行動者網(wǎng)絡(luò)更新的MADDPG-D 和不使用雙評論家網(wǎng)絡(luò)結(jié)構(gòu)但延遲行動者網(wǎng)絡(luò)更新的MADDPG-C.將這2 個變體與原始MADDPG 方法以及同時使用雙評論家網(wǎng)絡(luò)結(jié)構(gòu)和延遲行動者網(wǎng)絡(luò)更新的MADDPG-DC 進(jìn)行了比較.首先,比較MADDPGD 與MADDPG 的性能表現(xiàn).圖7~9 展示了不同多智能體粒子環(huán)境環(huán)境下的消融實驗.實驗結(jié)果表明,在捕食者-獵物環(huán)境和世界環(huán)境下,MADDPG-D 的學(xué)習(xí)性能顯著,并持續(xù)優(yōu)于MADDPG 且收斂到穩(wěn)定的策略.在物理欺騙環(huán)境下,雖然MADDPG-D 的表現(xiàn)持續(xù)優(yōu)于MADDPG,但其學(xué)習(xí)曲線在后期也呈現(xiàn)下降趨勢.
Fig.7 Ablation experiment on predator-prey environment圖7 捕食者-獵物環(huán)境下的消融實驗
Fig.8 Ablation experiment on physical deception environment圖8 物理欺騙環(huán)境下的消融實驗
Fig.9 Ablation experiment on world environment圖9 世界環(huán)境下的消融實驗
進(jìn)一步,為驗證延遲行動者網(wǎng)絡(luò)的有效性,首先對比MADDPG,MADDPG-C,MADDPG-D 在3 個環(huán)境中,MADDPG-C 的性能相比MADDPG 有一定的提升,但無法超過MADDPG-D 的性能.接下來,對比MADDPG-D 和MADDPG-DC 的表現(xiàn).如圖7~9 所示,在捕食者-獵物環(huán)境和世界環(huán)境下,MADDPG-DC 收斂更快,且收斂至更高的獎勵值.在物理欺騙環(huán)境下,MADDPG-DC 相比MADDPG-D,其可以收斂到穩(wěn)定的最優(yōu)策略.由此可見雙評論家網(wǎng)絡(luò)結(jié)構(gòu)和延遲行動者網(wǎng)絡(luò)更新這2 個因素對方法的性能都有提升作用,且同時使用2 個改進(jìn)因素的效果大于單獨(dú)使用任意1 個的效果.
隨著城市化的快速發(fā)展,車輛數(shù)量的增加不可避免地導(dǎo)致交通擁堵程度的增加.通過優(yōu)化管理方法可以實現(xiàn)交通系統(tǒng)的可持續(xù)發(fā)展[29].交通信號控制(traffic signal control,TSC)是一種有效的優(yōu)化策略,它有助于改善交通狀況、減少擁堵、縮短出行時間[30-31].為了應(yīng)對TSC 的規(guī)模需求,學(xué)者們嘗試在多智能體系統(tǒng)中使用RL.
在局部觀測和通信受限的情況下,將TSC 定義為由分散的強(qiáng)化學(xué)習(xí)智能體控制交叉口的協(xié)作MARL 問題是一種有效且通用的方法.其中一種思路是使用獨(dú)立Q學(xué)習(xí)(independentQ-learning,IQL)方法建模[32],在這種方法中,分散的強(qiáng)化學(xué)習(xí)智能體獨(dú)立地學(xué)習(xí)各自的策略,并將其他智能體當(dāng)作環(huán)境的一部分.IQL 方法可以解決可擴(kuò)展性問題,但當(dāng)其他智能體改變自己的策略[33]時,IQL 會出現(xiàn)不收斂和不穩(wěn)定性問題.
然而,現(xiàn)有的工作包括IQL 方法通常采用分散訓(xùn)練和分散執(zhí)行框架,這個框架通常會存在環(huán)境不穩(wěn)定性問題[34].基于CTDE 框架的MARL 是一種有效的改進(jìn),如MADDPG 方法.然而,在TSC 中,MADDPG方法的性能表現(xiàn)一般[35].其原因可能是在復(fù)雜環(huán)境下,MADDPG 中價值估計的不準(zhǔn)確導(dǎo)致了智能體行為的發(fā)散或者智能體學(xué)得了次優(yōu)的策略.同時,MADDPG在分散執(zhí)行階段缺乏通信學(xué)習(xí)機(jī)制[36-38],而通信學(xué)習(xí)機(jī)制對于保證整體交通狀態(tài)的控制穩(wěn)定性和效果具有重要意義.
本文應(yīng)用MADDPG-DC 和CTDE 框架來處理TSC 問題.為驗證MADDPG-DC 在實際系統(tǒng)中的可行性和有效性,本文在成都市實際交通網(wǎng)絡(luò)[39-40]上進(jìn)行了實驗.利用城市交通平臺模擬真實的交通狀況.實驗將每個交叉口的交通信號控制器建模為一個智能體,將網(wǎng)絡(luò)交通狀態(tài)建模為全局狀態(tài).
在真實的交通信號控制環(huán)境中,為證明MADDPDC 方法的有效性,選擇IQL[32]、MADDPG[15]和最大壓力控制(max pressure control)[41]等3 種方法作為基線方法.IQL[32]基于分散訓(xùn)練分散執(zhí)行框架,分散的智能體獨(dú)立地學(xué)習(xí)各自的策略,而MADDPG 利用CTDE 框架.最大壓力控制是TSC 領(lǐng)域最先進(jìn)的控制方法之一,通過選擇信號相位,最大化通過交叉口的車輛數(shù)量.
評價結(jié)果以各交叉口的交通擁堵情況和車輛通行效率為主要評價指標(biāo),包括3 個主要指標(biāo): 平均隊列長度、平均延遲和平均行駛時間.平均隊列長度是指在交叉口的所有車輛的平均等待隊列長度.平均延遲是指交通路口的所有車輛的平均等待時間除以隊列長度.這二者的值越高,表示方法的性能越差.平均行駛時間是指整個交通網(wǎng)絡(luò)中車輛從起點行駛到終點所花費(fèi)的平均時間.同樣地,平均行駛時間的值越高,表示該方法的性能越差.
首先,本文從合成道路數(shù)據(jù)集中隨機(jī)選取合成交通網(wǎng)絡(luò)來訓(xùn)練MADDPG-DC 方法以及其他基線方法,仿真實驗運(yùn)行了8 000 回合.交通信號控制環(huán)境下的MADDPG-DC 的超參數(shù)如表4 所示.基線MADDPG和MADDPG-D 也設(shè)置相同的超參數(shù)進(jìn)行訓(xùn)練.IQL的超參數(shù)如表5 所示.最大壓力控制不是一種MARL方法,其參數(shù)設(shè)置保持和文獻(xiàn)[41]一致.
Table 4 Hyperparameters of MADDPG,MADDPG-D,MADDPG-DC Under Traffic Signal Control Environments表4 交通信號控制環(huán)境下MADDPG,MADDPG-D,MADDPG-DC 的超參數(shù)
Table 5 Hyperparameters of IQL Under Traffic Signal Control Environments表5 交通信號控制環(huán)境下IQL 的參數(shù)
然后,在真實交通網(wǎng)絡(luò)中對訓(xùn)練后的方法分別進(jìn)行1h 的時變交通流訓(xùn)練.考慮到計算成本,實驗在1h 后停止評估.圖10 和圖11 分別展示了各方法下的真實交通網(wǎng)絡(luò)中的平均隊列長度和平均延遲.從圖11 可以看出,MADDPG-DC 方法的平均隊列長度小于其他基線方法.在模擬時間為2 700 s 時,MADDPG-DC 方法下的平均隊列長度達(dá)到峰值,約為0.63 輛.而對于其他基線方法,MADDPG 方法在2 980 s時達(dá)到約為1.41 輛的峰值,MADDPC-D 方法在2 980 s時的峰值在0.92 輛以上,IQL 方法在3 010 s 時的峰值在2.69 輛以上,最大壓力控制方法在2 730 s 時的峰值在1.65 輛左右.
Fig.10 Average queues for different methods in real traffic networks圖10 真實交通網(wǎng)絡(luò)中不同方法的平均隊列
Fig.11 Average delay of different methods in real traffic networks圖11 真實交通網(wǎng)絡(luò)中不同方法的平均延遲
對比圖10 和圖11 可以發(fā)現(xiàn),不同方法的曲線大部分都有相似的趨勢.大多數(shù)曲線在前期增加,然后在不同的時間到達(dá)峰值,最后趨于下降.因此,可以推斷這2 個指標(biāo)是相關(guān)的.隨著車輛隊列的增加,交叉口的平均延遲也會增加.值得注意的是,所有方法通過積累的交通數(shù)據(jù)進(jìn)行學(xué)習(xí)后,都不同程度地減少了隊列長度.
表6 給出了不同方法在實際 下的表現(xiàn).可以發(fā)現(xiàn),MADDPG-DC 的表現(xiàn)優(yōu)于MADDPG-D,說明延遲行動者網(wǎng)絡(luò)更新的有效性.同時MADDPG-D 的表現(xiàn)其次,證明雙評論家網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)了更準(zhǔn)確的價值估計,進(jìn)而促進(jìn)更高質(zhì)量的策略學(xué)習(xí).
Table 6 Performance of Different Methods in Real Traffic Networks表6 不同方法在真實交通網(wǎng)絡(luò)中的性能
圖11 展示了所有方法的平均隊列長度變化曲線.如圖11 所示,MADDPG-DC 方法在所有方法中表現(xiàn)最好,且MADDPG-D 的表現(xiàn)其次.2 種變體方法在初期的曲線非常接近,但MADDPG-DC 在3 050 s 達(dá)到約26.42 s/輛的峰值,而MADDPG-D 在時間3 250 s達(dá)到的峰值超過44.02 s/輛.MADDPG曲線雖然在模擬時間1 700~1 900 s 之間有所下降,但之后一直呈現(xiàn)上升趨勢.IQL 方法和最大壓力控制方法都直到結(jié)束時才出現(xiàn)一定程度的下降.
此外,值得注意的是,所有平均延遲曲線在前期均呈平穩(wěn)上升趨勢.最大壓力控制方法和IQL 方法在后期仍然呈上升趨勢,而MADDPG-D 方法和MADDPG-DC 方法在前期達(dá)到峰值,但在后期趨于下降.無論是IQL 方法還是最大壓力控制方法都不能依靠一種可持續(xù)的策略來快速恢復(fù)擁堵的交通網(wǎng)絡(luò). 與 MADDPG 相比,MADDPG-D 受益于更準(zhǔn)確的價值估計可以學(xué)得更好的策略.與MADDPG-D相比,MADDPG-DC 傾向于一種更穩(wěn)定和可持續(xù)的策略,能夠?qū)崿F(xiàn)更快的交通擁堵恢復(fù).MADDPG-DC的平均隊列長度趨于0,說明該方法對于減少交叉口擁堵,提高車輛行駛效率發(fā)揮了重要作用.
為更好地估計MARL 方法中的價值函數(shù),本文提出基于雙評論家網(wǎng)絡(luò)的多智能體深度確定性策略梯度方法.通過理論和實驗論證MADDPG 存在價值高估問題,并提出雙評論家網(wǎng)絡(luò)結(jié)構(gòu)來避免價值高估.此外,為提高策略更新的質(zhì)量,延遲行動者網(wǎng)絡(luò)更新.實驗結(jié)果表明,本文提出的方法在多智能體粒子環(huán)境的多個環(huán)境上的表現(xiàn)顯著優(yōu)于MADDPG 等其他基線方法.此外,交通信號控制環(huán)境上的實驗結(jié)果證明所提方法在真實環(huán)境中的可行性.
然而,大多數(shù)基于CTDE 框架的MARL 方法可能都存在價值高估或低估的問題,本文沒有對其他基于CTDE 的MARL 方法進(jìn)行深入研究,這是未來的一個有趣且有價值的研究方向.同時,在價值函數(shù)分解方法和其他CTDE 方法中實現(xiàn)更好的價值估計將是我們下一步的工作.
作者貢獻(xiàn)聲明:丁世飛提出論文的研究方向及指導(dǎo)論文寫作;杜威負(fù)責(zé)論文的撰寫及研究框架設(shè)計;郭麗麗、張健、徐曉負(fù)責(zé)實驗指導(dǎo)及論文寫作指導(dǎo).