張?chǎng)纬?,?軍,劉元盛,路 銘,謝龍洋
1.北京聯(lián)合大學(xué) 北京市信息服務(wù)工程重點(diǎn)實(shí)驗(yàn)室,北京 100101
2.北京聯(lián)合大學(xué) 機(jī)器人學(xué)院,北京 100101
3.北京聯(lián)合大學(xué) 應(yīng)用科技學(xué)院,北京 100101
無(wú)人駕駛技術(shù)可以使人們的出行更加方便、安全,同時(shí)也可以減少因人為因素導(dǎo)致的交通事故。而無(wú)人車換道決策問(wèn)題是無(wú)人駕駛技術(shù)中的重要問(wèn)題之一[1],因此,如何在保證安全的前提下使無(wú)人車更有效率的行駛成為了研究者聚焦的重點(diǎn)[2]。目前,無(wú)人車換道決策算法主要分為兩部分:基于規(guī)則的算法和基于機(jī)器學(xué)習(xí)的算法?;谝?guī)則的換道決策算法模型主要有間隙接受模型[3]、勢(shì)場(chǎng)模型[4-5]、模糊邏輯模型[6]等,這些算法較基于機(jī)器學(xué)習(xí)的算法相比,泛化能力較弱,且往往得到二元的換道決策結(jié)果(換道、不換道),無(wú)法處理較為復(fù)雜和隨機(jī)的動(dòng)態(tài)道路場(chǎng)景中的問(wèn)題。
針對(duì)基于規(guī)則換道決策算法存在的不足,基于機(jī)器學(xué)習(xí)的算法被逐漸應(yīng)用于無(wú)人車換道決策的研究中。文獻(xiàn)[7-8]使用支持向量機(jī)將數(shù)據(jù)集中無(wú)人車和無(wú)人車周圍的環(huán)境車的車輛參數(shù)作為模型輸入,最終對(duì)無(wú)人車的換道行為決策結(jié)果進(jìn)行分類,這種方法雖然可以解決在高維的數(shù)據(jù)下的輸入問(wèn)題,但是由于數(shù)據(jù)量較大,算法的時(shí)間復(fù)雜度較高,導(dǎo)致效率較低。文獻(xiàn)[9]使用隨機(jī)森林和決策樹(shù)對(duì)數(shù)據(jù)集進(jìn)行分析,并分別輸出了直行和換道的決策結(jié)果,然而這種方法需要收集車輛駕駛員的標(biāo)簽數(shù)據(jù),這種標(biāo)簽數(shù)據(jù)的采集十分困難并且數(shù)據(jù)中的噪聲會(huì)直接影響分類結(jié)果的準(zhǔn)確性。當(dāng)使用以上監(jiān)督學(xué)習(xí)算法來(lái)解決無(wú)人車換道決策問(wèn)題時(shí),往往需要大規(guī)模數(shù)據(jù)集作為算法輸入,導(dǎo)致算法訓(xùn)練時(shí)間較長(zhǎng),同時(shí)在訓(xùn)練時(shí)將數(shù)據(jù)集的標(biāo)簽數(shù)據(jù)當(dāng)作“真值”,使得算法缺乏探索能力。文獻(xiàn)[10]使用進(jìn)化策略(evolution strategy,ES)對(duì)無(wú)人車換道決策算法進(jìn)行研究,提出了基于ES的神經(jīng)網(wǎng)絡(luò)算法,使用并輸出了保持原道,左換道,右換道三種結(jié)果。此方法雖然解決了梯度下降法易使模型收斂到局部最優(yōu)的問(wèn)題,但是優(yōu)化速度較慢,計(jì)算成本較高。上述算法與基于強(qiáng)化學(xué)習(xí)的換道決策方法相比,往往需要大量的數(shù)據(jù)集作為輸入用于模型訓(xùn)練,同時(shí)數(shù)據(jù)集中的噪聲會(huì)直接影響模型訓(xùn)練的準(zhǔn)確性,最終影響模型的測(cè)試結(jié)果。針對(duì)上述問(wèn)題,研究者提出基于強(qiáng)化學(xué)習(xí)的無(wú)人車換道決策算法。該方法現(xiàn)已成功應(yīng)用在人工智能領(lǐng)域中,例如Atari游戲[11-12]、圍棋比賽[13]、機(jī)器人路徑規(guī)劃[14]、無(wú)人車車道保持問(wèn)題[15]等。文獻(xiàn)[16]使用Q-learning對(duì)高速公路車輛的換道決策進(jìn)行研究,但該研究?jī)H考慮簡(jiǎn)單的雙車道場(chǎng)景,且當(dāng)輸入狀態(tài)維數(shù)過(guò)高時(shí),該算法會(huì)消耗大量時(shí)間,計(jì)算效率很低。文獻(xiàn)[17-19]使用DQN對(duì)高速公路場(chǎng)景中的車輛建模,并對(duì)決策成功率和平均獎(jiǎng)勵(lì)等評(píng)價(jià)指標(biāo)進(jìn)行了分析,但由于DQN存在過(guò)度估計(jì)的問(wèn)題,使得估計(jì)的Q值大于真實(shí)Q值,使得在模型測(cè)試時(shí)不能得到準(zhǔn)確的結(jié)果,算法往往會(huì)收斂到局部最優(yōu),同時(shí)DQN每次都是從經(jīng)驗(yàn)回放單元中等概率抽樣,導(dǎo)致一些重要的經(jīng)驗(yàn)樣本被忽略,進(jìn)而降低了算法的收斂速度和網(wǎng)絡(luò)參數(shù)更新的效率。
為了更好地解決無(wú)人車換道決策問(wèn)題,本文提出了一種基于改進(jìn)深度Q網(wǎng)絡(luò)的無(wú)人車換道決策模型。首先將算法的狀態(tài)值輸入到兩個(gè)結(jié)構(gòu)相同的神經(jīng)網(wǎng)絡(luò)中,并分別計(jì)算出估計(jì)值和目標(biāo)值,以此來(lái)減少經(jīng)驗(yàn)樣本之間的相關(guān)性,進(jìn)而提升算法的收斂性;然后將隱藏層輸出的無(wú)人車狀態(tài)信息同時(shí)輸入到狀態(tài)價(jià)值函數(shù)流和動(dòng)作優(yōu)勢(shì)函數(shù)流中,更好地平衡了無(wú)人車狀態(tài)與動(dòng)作的關(guān)系;最后采用PER的方式從經(jīng)驗(yàn)回放單元中抽取經(jīng)驗(yàn)樣本,以此提升樣本的利用率,使得無(wú)人車更好地理解周圍環(huán)境變化,進(jìn)而得到更加合理的換道決策結(jié)果。
雙深度Q網(wǎng)絡(luò)[20](double deep Q network,DDQN)針對(duì)DQN過(guò)度估計(jì)的問(wèn)題,將動(dòng)作的選擇和評(píng)估進(jìn)行解耦。首先通過(guò)參數(shù)為w的主網(wǎng)絡(luò)選擇最大的Q值對(duì)應(yīng)的動(dòng)作,再使用參數(shù)為w′的目標(biāo)網(wǎng)絡(luò)計(jì)算此動(dòng)作所對(duì)應(yīng)的目標(biāo)值,進(jìn)而對(duì)選擇的動(dòng)作進(jìn)行評(píng)估,再根據(jù)評(píng)估值Q(s j-1,a j-1,w)和目標(biāo)值計(jì)算損失函數(shù)L j(w),并通過(guò)誤差反向傳遞的方式更新主網(wǎng)絡(luò)的參數(shù)w,如公式(1)和(2)所示:
其中為目標(biāo)值,Q(s j-1,a j-1,w)為評(píng)估值,γ為衰減因子,r j為獎(jiǎng)勵(lì)值,損失函數(shù)L j(w)根據(jù)評(píng)估值和目標(biāo)值的均方誤差(mean square error,MSE)計(jì)算得到。
基于競(jìng)爭(zhēng)結(jié)構(gòu)的深度Q網(wǎng)絡(luò)(dueling deep Q network,dueling DQN)[21]和基于競(jìng)爭(zhēng)結(jié)構(gòu)的雙深度Q網(wǎng)絡(luò)(dueling double deep Q network,dueling DDQN)分別從DQN和DDQN的基礎(chǔ)上在主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)中加入競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)(dueling network architecture),以便更準(zhǔn)確的估計(jì)Q值,上述兩個(gè)模型的主網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Dueling network structure
無(wú)人車在行駛過(guò)程中從周圍環(huán)境獲取狀態(tài)值作為網(wǎng)絡(luò)輸入,通過(guò)隱藏層的狀態(tài)信息分別被輸入到狀態(tài)價(jià)值函數(shù)流和動(dòng)作優(yōu)勢(shì)函數(shù)流中進(jìn)行進(jìn)一步的數(shù)據(jù)處理,然后將兩個(gè)函數(shù)流的輸出相加,最后輸出Q(s,a)的值。Q(s,a)的計(jì)算方式如公式(3)所示:
其中Q(s,a|θ,α,β)為輸出的Q值,V(s|θ,β)為狀態(tài)價(jià)值函數(shù),A(s,a|θ,α)為動(dòng)作優(yōu)勢(shì)函數(shù),θ為公共隱藏層的網(wǎng)絡(luò)參數(shù),α為動(dòng)作優(yōu)勢(shì)網(wǎng)絡(luò)的參數(shù),β為狀態(tài)價(jià)值網(wǎng)絡(luò)的參數(shù),a′為所有可能采取的動(dòng)作,average則是對(duì)所有動(dòng)作優(yōu)勢(shì)函數(shù)取均值。
在無(wú)人車與環(huán)境不斷交互的過(guò)程中,經(jīng)驗(yàn)樣本被不斷的存儲(chǔ)到經(jīng)驗(yàn)回放單元中用于模型的訓(xùn)練,但不同經(jīng)驗(yàn)樣本之間的重要性是不同的,隨著經(jīng)驗(yàn)回放單元中樣本的不斷更新,如果采取均勻隨機(jī)取樣的方式從經(jīng)驗(yàn)回放單元中抽取小批量樣本作為模型輸入,那么一些重要性較高的經(jīng)驗(yàn)樣本就無(wú)法被充分利用甚至被直接覆蓋,導(dǎo)致模型訓(xùn)練效率降低。為提升模型的訓(xùn)練效率,使用一種優(yōu)先級(jí)經(jīng)驗(yàn)回放[22]的方式從經(jīng)驗(yàn)回放單元中抽取樣本,以此增加重要性較高的樣本被抽取的概率。即用δj表示樣本j的時(shí)間差分誤差(temporal differenceerror,TD-error),并以此來(lái)衡量每個(gè)經(jīng)驗(yàn)樣本的重要性,如公式(4)所示:
其中p j為樣本j的優(yōu)先級(jí),ε為很小的正常數(shù)進(jìn)而保證TD-error幾乎為0的樣本也有較低的概率被抽取。P(j)為樣本j的優(yōu)先級(jí)權(quán)重,α為經(jīng)驗(yàn)回放時(shí)優(yōu)先級(jí)權(quán)重所占的比例,若α為0,則采用均勻隨機(jī)抽樣,否則根據(jù)歸一化后的權(quán)重w j抽樣。如公式(5)~(7)所示,N為經(jīng)驗(yàn)回放單元的大小,β為抽樣權(quán)重系數(shù),取值范圍為β∈[0,1]。在抽取樣本時(shí)通過(guò)采用優(yōu)先級(jí)經(jīng)驗(yàn)回放的方式,提升了主網(wǎng)絡(luò)誤差反向傳遞時(shí)更新參數(shù)的效率以及網(wǎng)絡(luò)的收斂速度。
為了使無(wú)人車在決策過(guò)程中得到更優(yōu)的駕駛策略,使用改進(jìn)的深度Q網(wǎng)絡(luò)建立換道決策算法。此算法先將DDQN與競(jìng)爭(zhēng)結(jié)構(gòu)結(jié)合,并用于主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)中來(lái)解決DQN過(guò)度估計(jì)問(wèn)題,同時(shí)更好地平衡了狀態(tài)價(jià)值函數(shù)和動(dòng)作優(yōu)勢(shì)函數(shù)的關(guān)系。然后采用優(yōu)先級(jí)經(jīng)驗(yàn)回放的方式抽取小批量數(shù)據(jù)作為模型輸入,進(jìn)一步提升了TD-error的絕對(duì)值較大的樣本利用效率。基于改進(jìn)深度Q網(wǎng)絡(luò)的無(wú)人車換道決策算法結(jié)構(gòu)圖如圖2所示,在無(wú)人車的行駛過(guò)程中,首先無(wú)人車獲取自身以及周圍車輛的參數(shù)信息作為當(dāng)前時(shí)刻的狀態(tài)值,同時(shí)將動(dòng)作值、無(wú)人車與環(huán)境交互得到的獎(jiǎng)勵(lì)值、以及下一時(shí)刻的狀態(tài)值作為一個(gè)元組,即(s,a,r,s′),存儲(chǔ)到經(jīng)驗(yàn)回放單元D中,然后使用優(yōu)先級(jí)經(jīng)驗(yàn)回放的方式進(jìn)行抽取樣本,并將狀態(tài)值分別輸入到主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)中,根據(jù)兩個(gè)網(wǎng)絡(luò)的輸出結(jié)果以及獎(jiǎng)勵(lì)值r對(duì)損失函數(shù)進(jìn)行計(jì)算,進(jìn)而更新主網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),直到算法完成迭代。
圖2 改進(jìn)深度Q網(wǎng)絡(luò)的無(wú)人車換道決策算法結(jié)構(gòu)Fig.2 Structure diagram of autonomous vehicle lane change strategy algorithm based on improved deep Q network
實(shí)驗(yàn)場(chǎng)景搭建分為數(shù)據(jù)預(yù)處理和環(huán)境車輛模型搭建兩部分。如圖3所示,通過(guò)數(shù)據(jù)預(yù)處理對(duì)道路環(huán)境中的車流量、車輛速度及初速度范圍、車輛初始位置進(jìn)行提取,同時(shí)結(jié)合環(huán)境車輛模型,對(duì)真實(shí)道路環(huán)境進(jìn)行還原,并將此場(chǎng)景作為算法的訓(xùn)練和測(cè)試場(chǎng)景。
圖3 US-101高速場(chǎng)景Fig.3 US-101 highway scene
實(shí)驗(yàn)中選用NGSIM數(shù)據(jù)集中US-101高速公路的車輛數(shù)據(jù)進(jìn)行車輛及道路參數(shù)的提取。US-101高速公路場(chǎng)景如圖3所示,高速路全長(zhǎng)約640 m,共有8條車道,其中1~5號(hào)車道為主車道,6號(hào)車道為輔路道,7、8號(hào)車道分別為車流匯入車道和匯出車道。實(shí)驗(yàn)中選用主車道(1~5號(hào))中的車輛數(shù)據(jù)搭建5車道道路實(shí)驗(yàn)場(chǎng)景。
首先對(duì)主車道車輛數(shù)據(jù)進(jìn)行預(yù)處理,剔除轎車外的其他車輛類型數(shù)據(jù),并篩選出主車道前300 m的車輛數(shù)據(jù),該段數(shù)據(jù)對(duì)應(yīng)的道路中的車流量適中。由于5號(hào)車道中的車輛受6~8號(hào)車道內(nèi)車輛匯入和匯出的影響,故分別統(tǒng)計(jì)1~4號(hào)車道的車輛與5號(hào)車道的車流量、車輛速度及初速度范圍、車輛初始位置等參數(shù),以便更好地還原真實(shí)環(huán)境中的道路場(chǎng)景。統(tǒng)計(jì)后的車輛數(shù)據(jù)信息如表1所示,1~5車道車輛速度分布如圖4所示,車輛初速度分布如圖5所示。
表1 車輛數(shù)據(jù)信息Table 1 Information of vehicle data
圖4 車輛速度分布Fig.4 Vehicle speed distribution
圖5 車輛初速度分布Fig.5 Initial vehicle speed distribution
根據(jù)表1可知,在900 s內(nèi),1~4號(hào)車道共有1 502輛車,即車流量約為每分鐘100輛;5號(hào)車道共有389輛車,即車流量約為每分鐘26輛。
根據(jù)圖4、5可知,1~4號(hào)車道的車輛速度范圍和初速度范圍主要分布在7~19 m/s和6~14 m/s,比例分別達(dá)到99.75%和99.51%;5號(hào)車道的車輛速度范圍和初速度范圍主要分布在1~19 m/s和10~12 m/s,比例分別達(dá)到99.98%和91.89%。為適應(yīng)絕大多數(shù)車輛的駕駛規(guī)律,故使用上述車輛的初速度和速度范圍作為車輛仿真環(huán)境參數(shù)。車輛初始位置可通過(guò)數(shù)據(jù)集直接獲取。同時(shí),對(duì)主車道車輛的長(zhǎng)度寬度進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果為:長(zhǎng)度為12 ft(約3.6 m),寬度為6 ft(約1.8 m)的車輛所占比例最大,故選用長(zhǎng)3.6 m、寬1.8 m的車輛作為實(shí)驗(yàn)仿真車輛。仿真車輛參數(shù)如表2所示。
表2 仿真環(huán)境參數(shù)設(shè)定Table 2 Simulation environment parameters setting
為了更好地模擬真實(shí)道路環(huán)境中車輛的駕駛行為,分別使用車輛橫向和縱向模型對(duì)實(shí)驗(yàn)場(chǎng)景中的環(huán)境車輛進(jìn)行建模。其中橫向模型采用MOBIL(minimizing overall braking induced by lane change)模型,使用此策略模型對(duì)環(huán)境車輛的換道行為進(jìn)行建模,如公式(8)~(10)所示:
上述公式中,Δa為加速度增益,alc、aold、anew分別為執(zhí)行換道車輛、換道前原車道的后方車輛以及目標(biāo)車道后方車輛的加速度,alc'、aold'、anew'分別為以上換道車輛換道后的加速度,p為禮貌因子,該參數(shù)描述了環(huán)境車輛駕駛的激進(jìn)程度,取值范圍為0~1,b s為保證安全的最大減速度,Δath為決策閾值。若anew'大于-b s,同時(shí)加速度增益Δa大于決策閾值Δath時(shí),環(huán)境車輛進(jìn)行換道操作。
車輛縱向模型采用IDM(intelligent driver model),此模型描述了環(huán)境車輛的跟車行為,如公式(11)和(12)所示:
上述公式中,d×(v,Δv)為最小期望間距,d0為最小安全間距,v為車輛當(dāng)前速度值T為期望安全時(shí)距,Δv為同車道當(dāng)前車輛與前車的速度差,amax為期望最大加速度值,b為期望減速度值,vd為期望速度值,δ為加速度指數(shù)。
實(shí)驗(yàn)中環(huán)境采用Python3.7語(yǔ)言作為編程語(yǔ)言,使用gym庫(kù)創(chuàng)建實(shí)驗(yàn)場(chǎng)景,神經(jīng)網(wǎng)絡(luò)框架使用PyTorch1.4.0;計(jì)算機(jī)配置為:顯卡NVIDIA GTX1060,操作系統(tǒng)為Ubuntu16.04,處理器為i7-8750H,內(nèi)存為16 GB。
設(shè)定訓(xùn)練最大回合數(shù)為10 000,單回合最大步長(zhǎng)為30,道路環(huán)境刷新周期為1 s,同時(shí)根據(jù)上一章節(jié)2.1中主車道車流量信息,可知1~4車道的單回合車流量為每回合50輛,5車道的單回合車流量為每回合13輛,單回合終止條件為無(wú)人車單回合執(zhí)行步數(shù)達(dá)到最大或無(wú)人車與環(huán)境車發(fā)生碰撞,且在實(shí)驗(yàn)過(guò)程中設(shè)定無(wú)人車均保持在可行使區(qū)域內(nèi)行駛。算法參數(shù)設(shè)定如表3所示。
表3 算法參數(shù)設(shè)定Table 3 Algorithm parameters setting
表3中的衰減因子γ描述的是未來(lái)得到的獎(jiǎng)勵(lì)值對(duì)當(dāng)前狀態(tài)的影響,通過(guò)分析實(shí)驗(yàn)所有回合中累計(jì)步數(shù)的分布確定當(dāng)γ=0.98時(shí),算法的收斂性最好,同時(shí)平均獎(jiǎng)勵(lì)值達(dá)到最大。學(xué)習(xí)率的選取通過(guò)網(wǎng)絡(luò)誤差和網(wǎng)絡(luò)的收斂速度確定,實(shí)驗(yàn)結(jié)果顯示當(dāng)學(xué)習(xí)率為2.5×10-4時(shí)網(wǎng)絡(luò)的收斂速度最快(算法的平均獎(jiǎng)勵(lì)值在訓(xùn)練2 400回合左右基本穩(wěn)定),同時(shí)算法的成功率最高。記憶庫(kù)容量和批尺寸的大小通過(guò)獲得的平均獎(jiǎng)勵(lì)值的網(wǎng)絡(luò)收斂速度確定,記憶庫(kù)容量的大小會(huì)對(duì)網(wǎng)絡(luò)參數(shù)更新效率產(chǎn)生影響;而在批尺寸的大小選取方面:若采取較大的批尺寸則算法容易收斂到局部最小值,若較小時(shí)則不利于算法的收斂。實(shí)驗(yàn)中分別采用了批尺寸為16、32、64這3個(gè)超參數(shù)分別進(jìn)行網(wǎng)絡(luò)的訓(xùn)練,結(jié)果表明當(dāng)記憶庫(kù)容量大小為8×104,批尺寸為32時(shí),算法的收斂速度最快,同時(shí)獲得的平均獎(jiǎng)勵(lì)值最高。優(yōu)先級(jí)權(quán)重占比α用來(lái)確定從經(jīng)驗(yàn)回放單元中抽取樣本時(shí)樣本優(yōu)先級(jí)所占的比例,而抽樣權(quán)重β用來(lái)修正優(yōu)先級(jí)回放所帶來(lái)的誤差,實(shí)驗(yàn)結(jié)果顯示當(dāng)α=0.8,β=0.5時(shí),算法的魯棒性最好,此超參數(shù)組合增加了重要性樣本被采樣的概率,同時(shí)模型的魯棒性也得到提升。
結(jié)合具體的換道決策場(chǎng)景,分別設(shè)定狀態(tài)空間、動(dòng)作空間以及獎(jiǎng)勵(lì)函數(shù)如下所示。
狀態(tài)空間:狀態(tài)空間S描述了無(wú)人車與周圍環(huán)境車輛的駕駛行為信息,以無(wú)人車和無(wú)人車感知范圍內(nèi)最近的6輛環(huán)境車狀態(tài)值的集合作為狀態(tài)空間,具體定義如公式(13)所示:
其中vhost為無(wú)人車的速度,s1~s6為無(wú)人車周圍環(huán)境車輛的狀態(tài)值,s={exist,x,y,v x,v y},exist表示為是否存在此環(huán)境車輛,若此車存在,則exist=1,否則exist=0。x為無(wú)人車相對(duì)于此環(huán)境車的橫向距離,y為無(wú)人車相對(duì)于此環(huán)境車的縱向距離,v x為無(wú)人車相對(duì)于此環(huán)境車的橫向速度,v y為無(wú)人車相對(duì)于此環(huán)境車的縱向速度。
動(dòng)作空間:動(dòng)作空間描述了無(wú)人車行駛過(guò)程中可以采取的動(dòng)作,具體描述如表4所示。
表4 動(dòng)作空間表示Table 4 Action space representation
獎(jiǎng)勵(lì)函數(shù):為使無(wú)人車學(xué)習(xí)到最佳的換道決策策略,獎(jiǎng)勵(lì)函數(shù)定義如下所示。
若無(wú)人車與環(huán)境車發(fā)生碰撞,則設(shè)定碰撞懲罰函數(shù):
設(shè)定速度獎(jiǎng)勵(lì)函數(shù):
其中vhost為無(wú)人車速度,vmax和vmin分別為1~4號(hào)車道的最高速度(19 m/s)和最低速度(7 m/s),vmax'和vmin'分別為5號(hào)車道的最高速度(19 m/s)和最低速度(1 m/s),即若無(wú)人車行駛在1~4車道,則取1~4號(hào)車道對(duì)應(yīng)的速度獎(jiǎng)勵(lì)值;若無(wú)人車行駛在5車道,則取5號(hào)車道對(duì)應(yīng)的速度獎(jiǎng)勵(lì)值。
為避免無(wú)人車在行駛過(guò)程中頻繁的變更車道,設(shè)定換道懲罰函數(shù):
如果無(wú)人車在單個(gè)步長(zhǎng)內(nèi)未發(fā)生碰撞,則設(shè)定單步獎(jiǎng)勵(lì)函數(shù):
如果無(wú)人車在整回合內(nèi)未發(fā)生碰撞,則設(shè)定回合獎(jiǎng)勵(lì)函數(shù):
單回合總獎(jiǎng)勵(lì)函數(shù)R為:
上述公式中,T為單回合執(zhí)行總步數(shù),p為執(zhí)行步數(shù)。
分別使用DQN、DDQN、Dueling DDQN與本文算法進(jìn)行實(shí)驗(yàn)對(duì)比,且4種算法的狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)以及實(shí)驗(yàn)參數(shù)均保持一致,訓(xùn)練過(guò)程中設(shè)定環(huán)境車輛橫向模型參數(shù)的禮貌因子p=1。通過(guò)分析決策成功率、平均獎(jiǎng)勵(lì)、平均累計(jì)步數(shù)來(lái)描述模型訓(xùn)練結(jié)果,4種算法訓(xùn)練的結(jié)果隨回合數(shù)變化趨勢(shì)如圖6~8以及表5所示。
圖6 訓(xùn)練過(guò)程中各算法的決策成功率對(duì)比Fig.6 Comparison of strategy success rate of each algorithm during training process
表5 訓(xùn)練過(guò)程中各算法平均獎(jiǎng)勵(lì)分布對(duì)比Table 5 Comparison of average reward distribution of each algorithm training process
由圖6可知,在算法訓(xùn)練開(kāi)始階段,4種算法的成功率不斷增加,訓(xùn)練10 000回合后,DQN、DDQN、Dueling DDQN、本文方法的成功率依次為:81.43%、84.48%、86.30%、87.09%。本文方法在訓(xùn)練過(guò)程中的決策成功率更高。
結(jié)合圖7和表4可知:在算法訓(xùn)練過(guò)程中所獲得的平均獎(jiǎng)勵(lì)方面:本文方法在訓(xùn)練結(jié)束后的得到的總平均獎(jiǎng)勵(lì)最高,為10.14,且平均獎(jiǎng)勵(lì)值在2 400回合左右基本穩(wěn)定,而其他方法均在5 500回合后逐漸趨于穩(wěn)定狀態(tài),算法穩(wěn)定時(shí)的回合數(shù)約為本文方法的2.29倍。同時(shí)該方法在1 001~2 000回合內(nèi)的平均獎(jiǎng)勵(lì)達(dá)到最高,為10.85,Dueling DDQN、DDQN、DQN依次降低,分別為9.74、9.29、8.95,且平均獎(jiǎng)勵(lì)峰值均分布在3 001~4 000回合范圍內(nèi)。由此可見(jiàn),本文方法可以在更少的訓(xùn)練回合數(shù)內(nèi)完成對(duì)算法的訓(xùn)練并獲得更高的平均獎(jiǎng)勵(lì)值。同時(shí)由于改進(jìn)的深度Q網(wǎng)絡(luò)在經(jīng)驗(yàn)回放時(shí)提高了重要程度較高的樣本的利用率,增加這些樣本的抽樣概率。本文方法與DQN、DDQN、Dueling DDQN相比提升了網(wǎng)絡(luò)的收斂速度和參數(shù)更新的效率,同時(shí)提高了智能體的學(xué)習(xí)速度。
圖7 訓(xùn)練過(guò)程中各算法的平均獎(jiǎng)勵(lì)對(duì)比Fig.7 Comparison of average reward of each algorithm during training process
由圖8可知,在1 000回合訓(xùn)練后,本文方法的平均累計(jì)步數(shù)均高于DQN等網(wǎng)絡(luò)模型,說(shuō)明本文方法單回合執(zhí)行步數(shù)最高,同時(shí)結(jié)合圖6可知,本文方法在保持決策成功率最高的同時(shí),平均累計(jì)步數(shù)較DQN、DDQN、Dueling DDQN分別高出3.14、2.17、1.60,由此說(shuō)明本文方法具有更好的學(xué)習(xí)能力和更強(qiáng)的適應(yīng)性。
圖8 訓(xùn)練過(guò)程中各算法的平均累計(jì)步數(shù)對(duì)比Fig.8 Comparison of average cumulative steps of each algorithm during training process
針對(duì)不同道路場(chǎng)景中環(huán)境車輛,通過(guò)改變環(huán)境車輛車流量,以及環(huán)境車輛橫向模型中的禮貌因子p,進(jìn)而搭建車輛環(huán)境不同的實(shí)驗(yàn)場(chǎng)景,設(shè)定測(cè)試回合數(shù)為1 000,同時(shí)保持其他仿真環(huán)境參數(shù)和網(wǎng)絡(luò)參數(shù)不變。其中p∈[0,1],該參數(shù)越接近0說(shuō)明環(huán)境車輛駕駛風(fēng)格越激進(jìn)。通過(guò)改變上述兩個(gè)參數(shù),設(shè)定兩個(gè)道路環(huán)境不同的測(cè)試場(chǎng)景,具體描述如下所示。
3.4.1 算法測(cè)試場(chǎng)景一
測(cè)試場(chǎng)景一使用與算法訓(xùn)練時(shí)相同的場(chǎng)景,即1~4車道和5車道的單回合車流量分別為50輛/回合,和13輛/回合,禮貌因子p=1。4種算法在場(chǎng)景一中測(cè)試成功率和平均獎(jiǎng)勵(lì)如圖9、10所示,測(cè)試1 000回合后的結(jié)果如表6、7所示。
圖9 場(chǎng)景一測(cè)試過(guò)程中各算法的決策成功率對(duì)比Fig.9 Comparison of strategy success rate of each algorithm during test processin scenario one
圖10 場(chǎng)景一測(cè)試過(guò)程中各算法的平均獎(jiǎng)勵(lì)對(duì)比Fig.10 Comparison of average reward of each algorithm during test processin scenario one
表6 場(chǎng)景一各算法測(cè)試結(jié)果對(duì)比Table 6 Comparison of test results of each algorithm in scenario one
由圖9、10和表6可知,在場(chǎng)景一的測(cè)試過(guò)程中,本文方法較Dueling DDQN、DDQN、DQN在成功率方面分別高出0.9、1.7、4.4個(gè)百分點(diǎn),在平均獎(jiǎng)勵(lì)、平均累計(jì)步數(shù)、平均速度方面本文方法也均高于其他方法。4種算法在測(cè)試1 000回合中的成功次數(shù)分別是:DQN為905次、DDQN為932次、Dueling DDQN為940次、本文方法為949次;同時(shí)結(jié)合表7分析可得:在各算法測(cè)試成功回合中,本文方法的單回合獎(jiǎng)勵(lì)值高于11.3的回合所占百分比最高,為78.29%。而單回合獎(jiǎng)勵(lì)值低于11.3的原因是由于無(wú)人車在一段時(shí)間內(nèi)為避免碰撞而保守行駛,使得在單回合內(nèi)獲得的獎(jiǎng)勵(lì)值較低。由此說(shuō)明本文方法可以更好地根據(jù)經(jīng)驗(yàn)回放單元中的經(jīng)驗(yàn)樣本來(lái)理解測(cè)試環(huán)境中車輛的狀態(tài)變化,在保證決策成功率的前提下減少了保守行駛的回合數(shù),使得無(wú)人車獲得更優(yōu)的決策策略。
表7 場(chǎng)景一各算法成功回合中獎(jiǎng)勵(lì)值分布比例Table 7 Proportion of reward value distribution in successful rounds of each algorithm in scenario one
3.4.2 算法測(cè)試場(chǎng)景二
測(cè)試場(chǎng)景二設(shè)定禮貌因子p=0.4,環(huán)境車輛的車流量采用US-101道路中車流量較大的部分,即1~4號(hào)車道和5號(hào)車道的車流量分別約為126輛/min和48輛/min,即單回合車流量分別為63輛/回合和24輛/回合。4種算法在場(chǎng)景二中測(cè)試成功率和平均獎(jiǎng)勵(lì)如圖11、12所示,測(cè)試1 000回合后的結(jié)果如表8、9所示。
圖11 場(chǎng)景二測(cè)試過(guò)程中各算法的決策成功率對(duì)比Fig.11 Comparison of strategy success rate of each algorithm during test processin scenario two
圖12 場(chǎng)景二測(cè)試過(guò)程中各算法的平均獎(jiǎng)勵(lì)對(duì)比Fig.12 Comparison of average reward of each algorithm during test processin scenario two
表8 場(chǎng)景二各算法測(cè)試結(jié)果對(duì)比Table 8 Comparison of test results of each algorithm in scenario two
結(jié)合圖11、12和表8分析可知,在場(chǎng)景二的測(cè)試過(guò)程中,本文方法較Dueling DDQN、DDQN、DQN在成功率方面分別高出4.2、7.7、15.1個(gè)百分點(diǎn),在平均獎(jiǎng)勵(lì)、平均累計(jì)步數(shù)、平均速度方面本文方法也均高于其他方法,且4種算法在測(cè)試1 000回合后的平均獎(jiǎng)勵(lì)為10.85、10.12、9.51、9.09,與場(chǎng)景一中的測(cè)試結(jié)果相比,各算法的平均獎(jiǎng)勵(lì)分別下降了0.06、0.30、0.53、0.63,成功率分別下降了2.5、5.8、8.5、13.2個(gè)百分點(diǎn)。其中DQN下降幅度最大,原因是DQN使用最大化的方法來(lái)計(jì)算目標(biāo)值,這樣的計(jì)算方式往往使得算法得到次優(yōu)的決策策略,同時(shí)DQN等概率的抽樣方式使得一些重要性較高的經(jīng)驗(yàn)樣本被忽略,從而降低了訓(xùn)練過(guò)程中網(wǎng)絡(luò)參數(shù)的更新效率,最終導(dǎo)致DQN在更復(fù)雜的場(chǎng)景中的測(cè)試結(jié)果的成功率和平均獎(jiǎng)勵(lì)較低。
由表9可知,在各算法發(fā)生碰撞的回合中,本文方法單回合執(zhí)行步數(shù)小于10的回合數(shù)(單回合執(zhí)行步數(shù)為30)所占比例最低,為6.58%,Dueling DDQN、DDQN、DQN依次升高,為16.10%、59.48%、66.08%。其中DQN和DDQN單回合執(zhí)行步數(shù)小于10的比例分別是本文方法的10.04倍和9.04倍,由此可見(jiàn),DDQN和DQN的碰撞相對(duì)集中發(fā)生測(cè)試過(guò)程的前三分之一階段,說(shuō)明這兩種算法的適應(yīng)性較差,無(wú)法根據(jù)測(cè)試過(guò)程中環(huán)境車輛的狀態(tài)變化做出最優(yōu)的動(dòng)作。
表9 場(chǎng)景二各算法碰撞回合中單回合步數(shù)分布比例Table 9 Proportion of reward value distribution in successful rounds of each algorithm in scenario two%
對(duì)比場(chǎng)景一和場(chǎng)景二的測(cè)試結(jié)果可知,4種算法的得到平均獎(jiǎng)勵(lì)均有所下降,原因是隨著測(cè)試場(chǎng)景的復(fù)雜程度增加,導(dǎo)致無(wú)人車換道決策的成功率和平均速度的下降,同時(shí)無(wú)人車發(fā)生碰撞的次數(shù)增多,使得單回合內(nèi)獲得的步數(shù)獎(jiǎng)勵(lì)減少,最終導(dǎo)致平均獎(jiǎng)勵(lì)的下降。
3.4.3 算法測(cè)試場(chǎng)景三
測(cè)試場(chǎng)景三設(shè)定禮貌因子p=0,環(huán)境車輛的車流量采用US-101道路中車流量最大的部分,即1~4號(hào)車道和5號(hào)車道的車流量分別約為144輛/min和64輛/min,即單回合車流量分別為72輛/回合和32輛/回合。4種算法在場(chǎng)景三中測(cè)試1 000回合后的結(jié)果如表10所示。
表10 場(chǎng)景三各算法測(cè)試結(jié)果對(duì)比Table 10 Comparison of test results of various algorithm in scenario three
由表10可知,在場(chǎng)景三的測(cè)試過(guò)程中,本文方法較Dueling DDQN、DDQN、DQN在成功率方面分別高出6.9、13.3、24.0個(gè)百分點(diǎn),在平均獎(jiǎng)勵(lì)、平均累計(jì)步數(shù)、平均速度方面本文方法也均高于其他方法,且4種算法在測(cè)試1 000回合后的平均獎(jiǎng)勵(lì)為10.76、9.89、9.04、8.54,與場(chǎng)景二中的測(cè)試結(jié)果相比,各算法的平均獎(jiǎng)勵(lì)分別下降了0.09、0.23、0.47、0.55,成功率分別下降了2.2、4.9、7.8、11.1個(gè)百分點(diǎn)。隨著測(cè)試場(chǎng)景環(huán)境車輛車流量的增大,場(chǎng)景的復(fù)雜程度增加,本文方法的成功率和平均獎(jiǎng)勵(lì)下降幅度最小,說(shuō)明該方法對(duì)于復(fù)雜環(huán)境的適應(yīng)性更強(qiáng),這是由于加入了優(yōu)先級(jí)經(jīng)驗(yàn)回放的機(jī)制,使得重要性更高的樣本被抽取的概率增加,進(jìn)而增加了算法訓(xùn)練時(shí)的網(wǎng)絡(luò)參數(shù)的更新效率,同時(shí)競(jìng)爭(zhēng)結(jié)構(gòu)的存在使得該算法在更新主網(wǎng)絡(luò)參數(shù)時(shí)價(jià)值函數(shù)被優(yōu)先更新,導(dǎo)致在當(dāng)前狀態(tài)下所有的Q值均被更新,從而更準(zhǔn)確地得到了每個(gè)動(dòng)作所對(duì)應(yīng)的Q值。
對(duì)比3種場(chǎng)景中各算法的測(cè)試結(jié)果,如表11所示。
表11 3種場(chǎng)景中各算法測(cè)試的平均結(jié)果對(duì)比Table 11 Comparison of average results of each algorithm test in three scenarios
由表11可知,在3種場(chǎng)景的平均測(cè)試成功率方面,本文方法最高,為92.50%,比Dueling DDQN、DDQN和DQN算法的分別高出4.0、7.6、14.5個(gè)百分點(diǎn);在平均獎(jiǎng)勵(lì)方面,本文方法最高,為10.84。由此說(shuō)明,本文方法可以更好地理解外部環(huán)境狀態(tài)的變化,同時(shí)具有更好的魯棒性和更強(qiáng)的適用性。
針對(duì)傳統(tǒng)DQN在高速公路場(chǎng)景下的無(wú)人車換道決策中存在過(guò)估計(jì)且收斂速度較慢的問(wèn)題,本文提出一種基于改進(jìn)深度Q網(wǎng)絡(luò)的無(wú)人車換道決策模型。首先將得到的無(wú)人車與環(huán)境車的狀態(tài)值分別輸入到主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)中,進(jìn)而將動(dòng)作的選擇和評(píng)估解耦,提高了網(wǎng)絡(luò)的穩(wěn)定性,解決了網(wǎng)絡(luò)的過(guò)估計(jì)問(wèn)題;然后在網(wǎng)絡(luò)中加入競(jìng)爭(zhēng)結(jié)構(gòu),使模型對(duì)動(dòng)作價(jià)值的估計(jì)更加準(zhǔn)確;最后通過(guò)增加重要樣本被回放的概率,提升網(wǎng)絡(luò)的更新效率和收斂速度。實(shí)驗(yàn)結(jié)果表明,相比于傳統(tǒng)DQN等算法,改進(jìn)的深度Q網(wǎng)絡(luò)在訓(xùn)練和測(cè)試的決策成功率、平均獎(jiǎng)勵(lì)、平均累計(jì)步數(shù)方面上均有提升;測(cè)試結(jié)果也表明,該方法的魯棒性更強(qiáng),在車流量更大、環(huán)境車輛駕駛風(fēng)格更激進(jìn)的測(cè)試場(chǎng)景中仍能保持92%以上的換道決策成功率。
雖然本文算法在不同場(chǎng)景的測(cè)試結(jié)果中均能保持較高的換道決策成功率,但只能應(yīng)對(duì)離散的動(dòng)作空間問(wèn)題,接下來(lái)的研究將聚焦于使用Actor-Critic的強(qiáng)化學(xué)習(xí)方法,以此來(lái)應(yīng)對(duì)連續(xù)動(dòng)作空間中的無(wú)人車換道決策問(wèn)題。