改進(jìn)深度Q網(wǎng)絡(luò)的無(wú)人車換道決策算法研究

2022-04-08 03:43:04張?chǎng)纬?/span>劉元盛謝龍洋

計(jì)算機(jī)工程與應(yīng)用 2022年7期

張?chǎng)纬?，?軍，劉元盛，路銘，謝龍洋

1.北京聯(lián)合大學(xué) 北京市信息服務(wù)工程重點(diǎn)實(shí)驗(yàn)室，北京 100101

2.北京聯(lián)合大學(xué) 機(jī)器人學(xué)院，北京 100101

3.北京聯(lián)合大學(xué) 應(yīng)用科技學(xué)院，北京 100101

無(wú)人駕駛技術(shù)可以使人們的出行更加方便、安全，同時(shí)也可以減少因人為因素導(dǎo)致的交通事故。而無(wú)人車換道決策問(wèn)題是無(wú)人駕駛技術(shù)中的重要問(wèn)題之一[1]，因此，如何在保證安全的前提下使無(wú)人車更有效率的行駛成為了研究者聚焦的重點(diǎn)[2]。目前，無(wú)人車換道決策算法主要分為兩部分：基于規(guī)則的算法和基于機(jī)器學(xué)習(xí)的算法?；谝?guī)則的換道決策算法模型主要有間隙接受模型[3]、勢(shì)場(chǎng)模型[4-5]、模糊邏輯模型[6]等，這些算法較基于機(jī)器學(xué)習(xí)的算法相比，泛化能力較弱，且往往得到二元的換道決策結(jié)果（換道、不換道），無(wú)法處理較為復(fù)雜和隨機(jī)的動(dòng)態(tài)道路場(chǎng)景中的問(wèn)題。

針對(duì)基于規(guī)則換道決策算法存在的不足，基于機(jī)器學(xué)習(xí)的算法被逐漸應(yīng)用于無(wú)人車換道決策的研究中。文獻(xiàn)[7-8]使用支持向量機(jī)將數(shù)據(jù)集中無(wú)人車和無(wú)人車周圍的環(huán)境車的車輛參數(shù)作為模型輸入，最終對(duì)無(wú)人車的換道行為決策結(jié)果進(jìn)行分類，這種方法雖然可以解決在高維的數(shù)據(jù)下的輸入問(wèn)題，但是由于數(shù)據(jù)量較大，算法的時(shí)間復(fù)雜度較高，導(dǎo)致效率較低。文獻(xiàn)[9]使用隨機(jī)森林和決策樹(shù)對(duì)數(shù)據(jù)集進(jìn)行分析，并分別輸出了直行和換道的決策結(jié)果，然而這種方法需要收集車輛駕駛員的標(biāo)簽數(shù)據(jù)，這種標(biāo)簽數(shù)據(jù)的采集十分困難并且數(shù)據(jù)中的噪聲會(huì)直接影響分類結(jié)果的準(zhǔn)確性。當(dāng)使用以上監(jiān)督學(xué)習(xí)算法來(lái)解決無(wú)人車換道決策問(wèn)題時(shí)，往往需要大規(guī)模數(shù)據(jù)集作為算法輸入，導(dǎo)致算法訓(xùn)練時(shí)間較長(zhǎng)，同時(shí)在訓(xùn)練時(shí)將數(shù)據(jù)集的標(biāo)簽數(shù)據(jù)當(dāng)作“真值”，使得算法缺乏探索能力。文獻(xiàn)[10]使用進(jìn)化策略（evolution strategy，ES）對(duì)無(wú)人車換道決策算法進(jìn)行研究，提出了基于ES的神經(jīng)網(wǎng)絡(luò)算法，使用并輸出了保持原道，左換道，右換道三種結(jié)果。此方法雖然解決了梯度下降法易使模型收斂到局部最優(yōu)的問(wèn)題，但是優(yōu)化速度較慢，計(jì)算成本較高。上述算法與基于強(qiáng)化學(xué)習(xí)的換道決策方法相比，往往需要大量的數(shù)據(jù)集作為輸入用于模型訓(xùn)練，同時(shí)數(shù)據(jù)集中的噪聲會(huì)直接影響模型訓(xùn)練的準(zhǔn)確性，最終影響模型的測(cè)試結(jié)果。針對(duì)上述問(wèn)題，研究者提出基于強(qiáng)化學(xué)習(xí)的無(wú)人車換道決策算法。該方法現(xiàn)已成功應(yīng)用在人工智能領(lǐng)域中，例如Atari游戲[11-12]、圍棋比賽[13]、機(jī)器人路徑規(guī)劃[14]、無(wú)人車車道保持問(wèn)題[15]等。文獻(xiàn)[16]使用Q-learning對(duì)高速公路車輛的換道決策進(jìn)行研究，但該研究?jī)H考慮簡(jiǎn)單的雙車道場(chǎng)景，且當(dāng)輸入狀態(tài)維數(shù)過(guò)高時(shí)，該算法會(huì)消耗大量時(shí)間，計(jì)算效率很低。文獻(xiàn)[17-19]使用DQN對(duì)高速公路場(chǎng)景中的車輛建模，并對(duì)決策成功率和平均獎(jiǎng)勵(lì)等評(píng)價(jià)指標(biāo)進(jìn)行了分析，但由于DQN存在過(guò)度估計(jì)的問(wèn)題，使得估計(jì)的Q值大于真實(shí)Q值，使得在模型測(cè)試時(shí)不能得到準(zhǔn)確的結(jié)果，算法往往會(huì)收斂到局部最優(yōu)，同時(shí)DQN每次都是從經(jīng)驗(yàn)回放單元中等概率抽樣，導(dǎo)致一些重要的經(jīng)驗(yàn)樣本被忽略，進(jìn)而降低了算法的收斂速度和網(wǎng)絡(luò)參數(shù)更新的效率。

為了更好地解決無(wú)人車換道決策問(wèn)題，本文提出了一種基于改進(jìn)深度Q網(wǎng)絡(luò)的無(wú)人車換道決策模型。首先將算法的狀態(tài)值輸入到兩個(gè)結(jié)構(gòu)相同的神經(jīng)網(wǎng)絡(luò)中，并分別計(jì)算出估計(jì)值和目標(biāo)值，以此來(lái)減少經(jīng)驗(yàn)樣本之間的相關(guān)性，進(jìn)而提升算法的收斂性；然后將隱藏層輸出的無(wú)人車狀態(tài)信息同時(shí)輸入到狀態(tài)價(jià)值函數(shù)流和動(dòng)作優(yōu)勢(shì)函數(shù)流中，更好地平衡了無(wú)人車狀態(tài)與動(dòng)作的關(guān)系；最后采用PER的方式從經(jīng)驗(yàn)回放單元中抽取經(jīng)驗(yàn)樣本，以此提升樣本的利用率，使得無(wú)人車更好地理解周圍環(huán)境變化，進(jìn)而得到更加合理的換道決策結(jié)果。

1 改進(jìn)深度Q網(wǎng)絡(luò)的換道決策模型

1.1 雙深度Q網(wǎng)絡(luò)

雙深度Q網(wǎng)絡(luò)[20]（double deep Q network，DDQN）針對(duì)DQN過(guò)度估計(jì)的問(wèn)題，將動(dòng)作的選擇和評(píng)估進(jìn)行解耦。首先通過(guò)參數(shù)為w的主網(wǎng)絡(luò)選擇最大的Q值對(duì)應(yīng)的動(dòng)作，再使用參數(shù)為w′的目標(biāo)網(wǎng)絡(luò)計(jì)算此動(dòng)作所對(duì)應(yīng)的目標(biāo)值，進(jìn)而對(duì)選擇的動(dòng)作進(jìn)行評(píng)估，再根據(jù)評(píng)估值Q(s j-1,a j-1,w)和目標(biāo)值計(jì)算損失函數(shù)L j(w)，并通過(guò)誤差反向傳遞的方式更新主網(wǎng)絡(luò)的參數(shù)w，如公式（1）和（2）所示：

其中為目標(biāo)值，Q(s j-1,a j-1,w)為評(píng)估值，γ為衰減因子，r j為獎(jiǎng)勵(lì)值，損失函數(shù)L j(w)根據(jù)評(píng)估值和目標(biāo)值的均方誤差（mean square error，MSE）計(jì)算得到。

1.2 競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)

基于競(jìng)爭(zhēng)結(jié)構(gòu)的深度Q網(wǎng)絡(luò)（dueling deep Q network，dueling DQN）[21]和基于競(jìng)爭(zhēng)結(jié)構(gòu)的雙深度Q網(wǎng)絡(luò)（dueling double deep Q network，dueling DDQN）分別從DQN和DDQN的基礎(chǔ)上在主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)中加入競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)（dueling network architecture），以便更準(zhǔn)確的估計(jì)Q值，上述兩個(gè)模型的主網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

圖1 競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Dueling network structure

無(wú)人車在行駛過(guò)程中從周圍環(huán)境獲取狀態(tài)值作為網(wǎng)絡(luò)輸入，通過(guò)隱藏層的狀態(tài)信息分別被輸入到狀態(tài)價(jià)值函數(shù)流和動(dòng)作優(yōu)勢(shì)函數(shù)流中進(jìn)行進(jìn)一步的數(shù)據(jù)處理，然后將兩個(gè)函數(shù)流的輸出相加，最后輸出Q(s,a)的值。Q(s,a)的計(jì)算方式如公式（3）所示：

其中Q(s,a|θ,α,β)為輸出的Q值，V(s|θ,β)為狀態(tài)價(jià)值函數(shù)，A(s,a|θ,α)為動(dòng)作優(yōu)勢(shì)函數(shù)，θ為公共隱藏層的網(wǎng)絡(luò)參數(shù)，α為動(dòng)作優(yōu)勢(shì)網(wǎng)絡(luò)的參數(shù)，β為狀態(tài)價(jià)值網(wǎng)絡(luò)的參數(shù)，a′為所有可能采取的動(dòng)作，average則是對(duì)所有動(dòng)作優(yōu)勢(shì)函數(shù)取均值。

1.3 優(yōu)先級(jí)經(jīng)驗(yàn)回放

在無(wú)人車與環(huán)境不斷交互的過(guò)程中，經(jīng)驗(yàn)樣本被不斷的存儲(chǔ)到經(jīng)驗(yàn)回放單元中用于模型的訓(xùn)練，但不同經(jīng)驗(yàn)樣本之間的重要性是不同的，隨著經(jīng)驗(yàn)回放單元中樣本的不斷更新，如果采取均勻隨機(jī)取樣的方式從經(jīng)驗(yàn)回放單元中抽取小批量樣本作為模型輸入，那么一些重要性較高的經(jīng)驗(yàn)樣本就無(wú)法被充分利用甚至被直接覆蓋，導(dǎo)致模型訓(xùn)練效率降低。為提升模型的訓(xùn)練效率，使用一種優(yōu)先級(jí)經(jīng)驗(yàn)回放[22]的方式從經(jīng)驗(yàn)回放單元中抽取樣本，以此增加重要性較高的樣本被抽取的概率。即用δj表示樣本j的時(shí)間差分誤差（temporal differenceerror，TD-error），并以此來(lái)衡量每個(gè)經(jīng)驗(yàn)樣本的重要性，如公式（4）所示：

其中p j為樣本j的優(yōu)先級(jí)，ε為很小的正常數(shù)進(jìn)而保證TD-error幾乎為0的樣本也有較低的概率被抽取。P(j)為樣本j的優(yōu)先級(jí)權(quán)重，α為經(jīng)驗(yàn)回放時(shí)優(yōu)先級(jí)權(quán)重所占的比例，若α為0，則采用均勻隨機(jī)抽樣，否則根據(jù)歸一化后的權(quán)重w j抽樣。如公式（5）～（7）所示，N為經(jīng)驗(yàn)回放單元的大小，β為抽樣權(quán)重系數(shù)，取值范圍為β∈[0,1]。在抽取樣本時(shí)通過(guò)采用優(yōu)先級(jí)經(jīng)驗(yàn)回放的方式，提升了主網(wǎng)絡(luò)誤差反向傳遞時(shí)更新參數(shù)的效率以及網(wǎng)絡(luò)的收斂速度。

1.4 改進(jìn)的深度Q網(wǎng)絡(luò)

為了使無(wú)人車在決策過(guò)程中得到更優(yōu)的駕駛策略，使用改進(jìn)的深度Q網(wǎng)絡(luò)建立換道決策算法。此算法先將DDQN與競(jìng)爭(zhēng)結(jié)構(gòu)結(jié)合，并用于主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)中來(lái)解決DQN過(guò)度估計(jì)問(wèn)題，同時(shí)更好地平衡了狀態(tài)價(jià)值函數(shù)和動(dòng)作優(yōu)勢(shì)函數(shù)的關(guān)系。然后采用優(yōu)先級(jí)經(jīng)驗(yàn)回放的方式抽取小批量數(shù)據(jù)作為模型輸入，進(jìn)一步提升了TD-error的絕對(duì)值較大的樣本利用效率。基于改進(jìn)深度Q網(wǎng)絡(luò)的無(wú)人車換道決策算法結(jié)構(gòu)圖如圖2所示，在無(wú)人車的行駛過(guò)程中，首先無(wú)人車獲取自身以及周圍車輛的參數(shù)信息作為當(dāng)前時(shí)刻的狀態(tài)值，同時(shí)將動(dòng)作值、無(wú)人車與環(huán)境交互得到的獎(jiǎng)勵(lì)值、以及下一時(shí)刻的狀態(tài)值作為一個(gè)元組，即(s,a,r,s′)，存儲(chǔ)到經(jīng)驗(yàn)回放單元D中，然后使用優(yōu)先級(jí)經(jīng)驗(yàn)回放的方式進(jìn)行抽取樣本，并將狀態(tài)值分別輸入到主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)中，根據(jù)兩個(gè)網(wǎng)絡(luò)的輸出結(jié)果以及獎(jiǎng)勵(lì)值r對(duì)損失函數(shù)進(jìn)行計(jì)算，進(jìn)而更新主網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)，直到算法完成迭代。

圖2 改進(jìn)深度Q網(wǎng)絡(luò)的無(wú)人車換道決策算法結(jié)構(gòu)Fig.2 Structure diagram of autonomous vehicle lane change strategy algorithm based on improved deep Q network

2 實(shí)驗(yàn)場(chǎng)景搭建

實(shí)驗(yàn)場(chǎng)景搭建分為數(shù)據(jù)預(yù)處理和環(huán)境車輛模型搭建兩部分。如圖3所示，通過(guò)數(shù)據(jù)預(yù)處理對(duì)道路環(huán)境中的車流量、車輛速度及初速度范圍、車輛初始位置進(jìn)行提取，同時(shí)結(jié)合環(huán)境車輛模型，對(duì)真實(shí)道路環(huán)境進(jìn)行還原，并將此場(chǎng)景作為算法的訓(xùn)練和測(cè)試場(chǎng)景。

圖3 US-101高速場(chǎng)景Fig.3 US-101 highway scene

2.1 數(shù)據(jù)預(yù)處理

實(shí)驗(yàn)中選用NGSIM數(shù)據(jù)集中US-101高速公路的車輛數(shù)據(jù)進(jìn)行車輛及道路參數(shù)的提取。US-101高速公路場(chǎng)景如圖3所示，高速路全長(zhǎng)約640 m，共有8條車道，其中1～5號(hào)車道為主車道，6號(hào)車道為輔路道，7、8號(hào)車道分別為車流匯入車道和匯出車道。實(shí)驗(yàn)中選用主車道（1～5號(hào)）中的車輛數(shù)據(jù)搭建5車道道路實(shí)驗(yàn)場(chǎng)景。

首先對(duì)主車道車輛數(shù)據(jù)進(jìn)行預(yù)處理，剔除轎車外的其他車輛類型數(shù)據(jù)，并篩選出主車道前300 m的車輛數(shù)據(jù)，該段數(shù)據(jù)對(duì)應(yīng)的道路中的車流量適中。由于5號(hào)車道中的車輛受6～8號(hào)車道內(nèi)車輛匯入和匯出的影響，故分別統(tǒng)計(jì)1～4號(hào)車道的車輛與5號(hào)車道的車流量、車輛速度及初速度范圍、車輛初始位置等參數(shù)，以便更好地還原真實(shí)環(huán)境中的道路場(chǎng)景。統(tǒng)計(jì)后的車輛數(shù)據(jù)信息如表1所示，1～5車道車輛速度分布如圖4所示，車輛初速度分布如圖5所示。

表1 車輛數(shù)據(jù)信息Table 1 Information of vehicle data

圖4 車輛速度分布Fig.4 Vehicle speed distribution

圖5 車輛初速度分布Fig.5 Initial vehicle speed distribution

根據(jù)表1可知，在900 s內(nèi)，1～4號(hào)車道共有1 502輛車，即車流量約為每分鐘100輛；5號(hào)車道共有389輛車，即車流量約為每分鐘26輛。

根據(jù)圖4、5可知，1～4號(hào)車道的車輛速度范圍和初速度范圍主要分布在7～19 m/s和6～14 m/s，比例分別達(dá)到99.75%和99.51%；5號(hào)車道的車輛速度范圍和初速度范圍主要分布在1～19 m/s和10～12 m/s，比例分別達(dá)到99.98%和91.89%。為適應(yīng)絕大多數(shù)車輛的駕駛規(guī)律，故使用上述車輛的初速度和速度范圍作為車輛仿真環(huán)境參數(shù)。車輛初始位置可通過(guò)數(shù)據(jù)集直接獲取。同時(shí)，對(duì)主車道車輛的長(zhǎng)度寬度進(jìn)行統(tǒng)計(jì)，統(tǒng)計(jì)結(jié)果為：長(zhǎng)度為12 ft（約3.6 m），寬度為6 ft（約1.8 m）的車輛所占比例最大，故選用長(zhǎng)3.6 m、寬1.8 m的車輛作為實(shí)驗(yàn)仿真車輛。仿真車輛參數(shù)如表2所示。

表2 仿真環(huán)境參數(shù)設(shè)定Table 2 Simulation environment parameters setting

2.2 環(huán)境車輛模型搭建

為了更好地模擬真實(shí)道路環(huán)境中車輛的駕駛行為，分別使用車輛橫向和縱向模型對(duì)實(shí)驗(yàn)場(chǎng)景中的環(huán)境車輛進(jìn)行建模。其中橫向模型采用MOBIL（minimizing overall braking induced by lane change）模型，使用此策略模型對(duì)環(huán)境車輛的換道行為進(jìn)行建模，如公式（8）～（10）所示：

上述公式中，Δa為加速度增益，alc、aold、anew分別為執(zhí)行換道車輛、換道前原車道的后方車輛以及目標(biāo)車道后方車輛的加速度，alc＇、aold＇、anew＇分別為以上換道車輛換道后的加速度，p為禮貌因子，該參數(shù)描述了環(huán)境車輛駕駛的激進(jìn)程度，取值范圍為0～1，b s為保證安全的最大減速度，Δath為決策閾值。若anew＇大于-b s，同時(shí)加速度增益Δa大于決策閾值Δath時(shí)，環(huán)境車輛進(jìn)行換道操作。

車輛縱向模型采用IDM（intelligent driver model），此模型描述了環(huán)境車輛的跟車行為，如公式（11）和（12）所示：

上述公式中，d×(v,Δv)為最小期望間距，d0為最小安全間距，v為車輛當(dāng)前速度值T為期望安全時(shí)距，Δv為同車道當(dāng)前車輛與前車的速度差，amax為期望最大加速度值，b為期望減速度值，vd為期望速度值，δ為加速度指數(shù)。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)定

實(shí)驗(yàn)中環(huán)境采用Python3.7語(yǔ)言作為編程語(yǔ)言，使用gym庫(kù)創(chuàng)建實(shí)驗(yàn)場(chǎng)景，神經(jīng)網(wǎng)絡(luò)框架使用PyTorch1.4.0；計(jì)算機(jī)配置為：顯卡NVIDIA GTX1060，操作系統(tǒng)為Ubuntu16.04，處理器為i7-8750H，內(nèi)存為16 GB。

設(shè)定訓(xùn)練最大回合數(shù)為10 000，單回合最大步長(zhǎng)為30，道路環(huán)境刷新周期為1 s，同時(shí)根據(jù)上一章節(jié)2.1中主車道車流量信息，可知1～4車道的單回合車流量為每回合50輛，5車道的單回合車流量為每回合13輛，單回合終止條件為無(wú)人車單回合執(zhí)行步數(shù)達(dá)到最大或無(wú)人車與環(huán)境車發(fā)生碰撞，且在實(shí)驗(yàn)過(guò)程中設(shè)定無(wú)人車均保持在可行使區(qū)域內(nèi)行駛。算法參數(shù)設(shè)定如表3所示。

表3 算法參數(shù)設(shè)定Table 3 Algorithm parameters setting

表3中的衰減因子γ描述的是未來(lái)得到的獎(jiǎng)勵(lì)值對(duì)當(dāng)前狀態(tài)的影響，通過(guò)分析實(shí)驗(yàn)所有回合中累計(jì)步數(shù)的分布確定當(dāng)γ=0.98時(shí)，算法的收斂性最好，同時(shí)平均獎(jiǎng)勵(lì)值達(dá)到最大。學(xué)習(xí)率的選取通過(guò)網(wǎng)絡(luò)誤差和網(wǎng)絡(luò)的收斂速度確定，實(shí)驗(yàn)結(jié)果顯示當(dāng)學(xué)習(xí)率為2.5×10-4時(shí)網(wǎng)絡(luò)的收斂速度最快（算法的平均獎(jiǎng)勵(lì)值在訓(xùn)練2 400回合左右基本穩(wěn)定），同時(shí)算法的成功率最高。記憶庫(kù)容量和批尺寸的大小通過(guò)獲得的平均獎(jiǎng)勵(lì)值的網(wǎng)絡(luò)收斂速度確定，記憶庫(kù)容量的大小會(huì)對(duì)網(wǎng)絡(luò)參數(shù)更新效率產(chǎn)生影響；而在批尺寸的大小選取方面：若采取較大的批尺寸則算法容易收斂到局部最小值，若較小時(shí)則不利于算法的收斂。實(shí)驗(yàn)中分別采用了批尺寸為16、32、64這3個(gè)超參數(shù)分別進(jìn)行網(wǎng)絡(luò)的訓(xùn)練，結(jié)果表明當(dāng)記憶庫(kù)容量大小為8×104，批尺寸為32時(shí)，算法的收斂速度最快，同時(shí)獲得的平均獎(jiǎng)勵(lì)值最高。優(yōu)先級(jí)權(quán)重占比α用來(lái)確定從經(jīng)驗(yàn)回放單元中抽取樣本時(shí)樣本優(yōu)先級(jí)所占的比例，而抽樣權(quán)重β用來(lái)修正優(yōu)先級(jí)回放所帶來(lái)的誤差，實(shí)驗(yàn)結(jié)果顯示當(dāng)α=0.8，β=0.5時(shí)，算法的魯棒性最好，此超參數(shù)組合增加了重要性樣本被采樣的概率，同時(shí)模型的魯棒性也得到提升。

3.2 實(shí)驗(yàn)約束條件設(shè)定

結(jié)合具體的換道決策場(chǎng)景，分別設(shè)定狀態(tài)空間、動(dòng)作空間以及獎(jiǎng)勵(lì)函數(shù)如下所示。

狀態(tài)空間：狀態(tài)空間S描述了無(wú)人車與周圍環(huán)境車輛的駕駛行為信息，以無(wú)人車和無(wú)人車感知范圍內(nèi)最近的6輛環(huán)境車狀態(tài)值的集合作為狀態(tài)空間，具體定義如公式（13）所示：

其中vhost為無(wú)人車的速度，s1～s6為無(wú)人車周圍環(huán)境車輛的狀態(tài)值，s={exist,x,y,v x,v y}，exist表示為是否存在此環(huán)境車輛，若此車存在，則exist=1，否則exist=0。x為無(wú)人車相對(duì)于此環(huán)境車的橫向距離，y為無(wú)人車相對(duì)于此環(huán)境車的縱向距離，v x為無(wú)人車相對(duì)于此環(huán)境車的橫向速度，v y為無(wú)人車相對(duì)于此環(huán)境車的縱向速度。

動(dòng)作空間：動(dòng)作空間描述了無(wú)人車行駛過(guò)程中可以采取的動(dòng)作，具體描述如表4所示。

表4 動(dòng)作空間表示Table 4 Action space representation

獎(jiǎng)勵(lì)函數(shù)：為使無(wú)人車學(xué)習(xí)到最佳的換道決策策略，獎(jiǎng)勵(lì)函數(shù)定義如下所示。

若無(wú)人車與環(huán)境車發(fā)生碰撞，則設(shè)定碰撞懲罰函數(shù)：

設(shè)定速度獎(jiǎng)勵(lì)函數(shù)：

其中vhost為無(wú)人車速度，vmax和vmin分別為1～4號(hào)車道的最高速度（19 m/s）和最低速度（7 m/s），vmax＇和vmin＇分別為5號(hào)車道的最高速度（19 m/s）和最低速度（1 m/s），即若無(wú)人車行駛在1～4車道，則取1～4號(hào)車道對(duì)應(yīng)的速度獎(jiǎng)勵(lì)值；若無(wú)人車行駛在5車道，則取5號(hào)車道對(duì)應(yīng)的速度獎(jiǎng)勵(lì)值。

為避免無(wú)人車在行駛過(guò)程中頻繁的變更車道，設(shè)定換道懲罰函數(shù)：

如果無(wú)人車在單個(gè)步長(zhǎng)內(nèi)未發(fā)生碰撞，則設(shè)定單步獎(jiǎng)勵(lì)函數(shù)：

如果無(wú)人車在整回合內(nèi)未發(fā)生碰撞，則設(shè)定回合獎(jiǎng)勵(lì)函數(shù)：

單回合總獎(jiǎng)勵(lì)函數(shù)R為：

上述公式中，T為單回合執(zhí)行總步數(shù)，p為執(zhí)行步數(shù)。

3.3 算法訓(xùn)練與分析

分別使用DQN、DDQN、Dueling DDQN與本文算法進(jìn)行實(shí)驗(yàn)對(duì)比，且4種算法的狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)以及實(shí)驗(yàn)參數(shù)均保持一致，訓(xùn)練過(guò)程中設(shè)定環(huán)境車輛橫向模型參數(shù)的禮貌因子p=1。通過(guò)分析決策成功率、平均獎(jiǎng)勵(lì)、平均累計(jì)步數(shù)來(lái)描述模型訓(xùn)練結(jié)果，4種算法訓(xùn)練的結(jié)果隨回合數(shù)變化趨勢(shì)如圖6～8以及表5所示。

圖6 訓(xùn)練過(guò)程中各算法的決策成功率對(duì)比Fig.6 Comparison of strategy success rate of each algorithm during training process

表5 訓(xùn)練過(guò)程中各算法平均獎(jiǎng)勵(lì)分布對(duì)比Table 5 Comparison of average reward distribution of each algorithm training process

由圖6可知，在算法訓(xùn)練開(kāi)始階段，4種算法的成功率不斷增加，訓(xùn)練10 000回合后，DQN、DDQN、Dueling DDQN、本文方法的成功率依次為：81.43%、84.48%、86.30%、87.09%。本文方法在訓(xùn)練過(guò)程中的決策成功率更高。

結(jié)合圖7和表4可知：在算法訓(xùn)練過(guò)程中所獲得的平均獎(jiǎng)勵(lì)方面：本文方法在訓(xùn)練結(jié)束后的得到的總平均獎(jiǎng)勵(lì)最高，為10.14，且平均獎(jiǎng)勵(lì)值在2 400回合左右基本穩(wěn)定，而其他方法均在5 500回合后逐漸趨于穩(wěn)定狀態(tài)，算法穩(wěn)定時(shí)的回合數(shù)約為本文方法的2.29倍。同時(shí)該方法在1 001～2 000回合內(nèi)的平均獎(jiǎng)勵(lì)達(dá)到最高，為10.85，Dueling DDQN、DDQN、DQN依次降低，分別為9.74、9.29、8.95，且平均獎(jiǎng)勵(lì)峰值均分布在3 001～4 000回合范圍內(nèi)。由此可見(jiàn)，本文方法可以在更少的訓(xùn)練回合數(shù)內(nèi)完成對(duì)算法的訓(xùn)練并獲得更高的平均獎(jiǎng)勵(lì)值。同時(shí)由于改進(jìn)的深度Q網(wǎng)絡(luò)在經(jīng)驗(yàn)回放時(shí)提高了重要程度較高的樣本的利用率，增加這些樣本的抽樣概率。本文方法與DQN、DDQN、Dueling DDQN相比提升了網(wǎng)絡(luò)的收斂速度和參數(shù)更新的效率，同時(shí)提高了智能體的學(xué)習(xí)速度。

圖7 訓(xùn)練過(guò)程中各算法的平均獎(jiǎng)勵(lì)對(duì)比Fig.7 Comparison of average reward of each algorithm during training process

由圖8可知，在1 000回合訓(xùn)練后，本文方法的平均累計(jì)步數(shù)均高于DQN等網(wǎng)絡(luò)模型，說(shuō)明本文方法單回合執(zhí)行步數(shù)最高，同時(shí)結(jié)合圖6可知，本文方法在保持決策成功率最高的同時(shí)，平均累計(jì)步數(shù)較DQN、DDQN、Dueling DDQN分別高出3.14、2.17、1.60，由此說(shuō)明本文方法具有更好的學(xué)習(xí)能力和更強(qiáng)的適應(yīng)性。

圖8 訓(xùn)練過(guò)程中各算法的平均累計(jì)步數(shù)對(duì)比Fig.8 Comparison of average cumulative steps of each algorithm during training process

3.4 算法測(cè)試與分析

針對(duì)不同道路場(chǎng)景中環(huán)境車輛，通過(guò)改變環(huán)境車輛車流量，以及環(huán)境車輛橫向模型中的禮貌因子p，進(jìn)而搭建車輛環(huán)境不同的實(shí)驗(yàn)場(chǎng)景，設(shè)定測(cè)試回合數(shù)為1 000，同時(shí)保持其他仿真環(huán)境參數(shù)和網(wǎng)絡(luò)參數(shù)不變。其中p∈[0,1]，該參數(shù)越接近0說(shuō)明環(huán)境車輛駕駛風(fēng)格越激進(jìn)。通過(guò)改變上述兩個(gè)參數(shù)，設(shè)定兩個(gè)道路環(huán)境不同的測(cè)試場(chǎng)景，具體描述如下所示。

3.4.1 算法測(cè)試場(chǎng)景一

測(cè)試場(chǎng)景一使用與算法訓(xùn)練時(shí)相同的場(chǎng)景，即1～4車道和5車道的單回合車流量分別為50輛/回合，和13輛/回合，禮貌因子p=1。4種算法在場(chǎng)景一中測(cè)試成功率和平均獎(jiǎng)勵(lì)如圖9、10所示，測(cè)試1 000回合后的結(jié)果如表6、7所示。

圖9 場(chǎng)景一測(cè)試過(guò)程中各算法的決策成功率對(duì)比Fig.9 Comparison of strategy success rate of each algorithm during test processin scenario one

圖10 場(chǎng)景一測(cè)試過(guò)程中各算法的平均獎(jiǎng)勵(lì)對(duì)比Fig.10 Comparison of average reward of each algorithm during test processin scenario one

表6 場(chǎng)景一各算法測(cè)試結(jié)果對(duì)比Table 6 Comparison of test results of each algorithm in scenario one

由圖9、10和表6可知，在場(chǎng)景一的測(cè)試過(guò)程中，本文方法較Dueling DDQN、DDQN、DQN在成功率方面分別高出0.9、1.7、4.4個(gè)百分點(diǎn)，在平均獎(jiǎng)勵(lì)、平均累計(jì)步數(shù)、平均速度方面本文方法也均高于其他方法。4種算法在測(cè)試1 000回合中的成功次數(shù)分別是：DQN為905次、DDQN為932次、Dueling DDQN為940次、本文方法為949次；同時(shí)結(jié)合表7分析可得：在各算法測(cè)試成功回合中，本文方法的單回合獎(jiǎng)勵(lì)值高于11.3的回合所占百分比最高，為78.29%。而單回合獎(jiǎng)勵(lì)值低于11.3的原因是由于無(wú)人車在一段時(shí)間內(nèi)為避免碰撞而保守行駛，使得在單回合內(nèi)獲得的獎(jiǎng)勵(lì)值較低。由此說(shuō)明本文方法可以更好地根據(jù)經(jīng)驗(yàn)回放單元中的經(jīng)驗(yàn)樣本來(lái)理解測(cè)試環(huán)境中車輛的狀態(tài)變化，在保證決策成功率的前提下減少了保守行駛的回合數(shù)，使得無(wú)人車獲得更優(yōu)的決策策略。

表7 場(chǎng)景一各算法成功回合中獎(jiǎng)勵(lì)值分布比例Table 7 Proportion of reward value distribution in successful rounds of each algorithm in scenario one

3.4.2 算法測(cè)試場(chǎng)景二

測(cè)試場(chǎng)景二設(shè)定禮貌因子p=0.4，環(huán)境車輛的車流量采用US-101道路中車流量較大的部分，即1～4號(hào)車道和5號(hào)車道的車流量分別約為126輛/min和48輛/min，即單回合車流量分別為63輛/回合和24輛/回合。4種算法在場(chǎng)景二中測(cè)試成功率和平均獎(jiǎng)勵(lì)如圖11、12所示，測(cè)試1 000回合后的結(jié)果如表8、9所示。

圖11 場(chǎng)景二測(cè)試過(guò)程中各算法的決策成功率對(duì)比Fig.11 Comparison of strategy success rate of each algorithm during test processin scenario two

圖12 場(chǎng)景二測(cè)試過(guò)程中各算法的平均獎(jiǎng)勵(lì)對(duì)比Fig.12 Comparison of average reward of each algorithm during test processin scenario two

表8 場(chǎng)景二各算法測(cè)試結(jié)果對(duì)比Table 8 Comparison of test results of each algorithm in scenario two

結(jié)合圖11、12和表8分析可知，在場(chǎng)景二的測(cè)試過(guò)程中，本文方法較Dueling DDQN、DDQN、DQN在成功率方面分別高出4.2、7.7、15.1個(gè)百分點(diǎn)，在平均獎(jiǎng)勵(lì)、平均累計(jì)步數(shù)、平均速度方面本文方法也均高于其他方法，且4種算法在測(cè)試1 000回合后的平均獎(jiǎng)勵(lì)為10.85、10.12、9.51、9.09，與場(chǎng)景一中的測(cè)試結(jié)果相比，各算法的平均獎(jiǎng)勵(lì)分別下降了0.06、0.30、0.53、0.63，成功率分別下降了2.5、5.8、8.5、13.2個(gè)百分點(diǎn)。其中DQN下降幅度最大，原因是DQN使用最大化的方法來(lái)計(jì)算目標(biāo)值，這樣的計(jì)算方式往往使得算法得到次優(yōu)的決策策略，同時(shí)DQN等概率的抽樣方式使得一些重要性較高的經(jīng)驗(yàn)樣本被忽略，從而降低了訓(xùn)練過(guò)程中網(wǎng)絡(luò)參數(shù)的更新效率，最終導(dǎo)致DQN在更復(fù)雜的場(chǎng)景中的測(cè)試結(jié)果的成功率和平均獎(jiǎng)勵(lì)較低。

由表9可知，在各算法發(fā)生碰撞的回合中，本文方法單回合執(zhí)行步數(shù)小于10的回合數(shù)（單回合執(zhí)行步數(shù)為30）所占比例最低，為6.58%，Dueling DDQN、DDQN、DQN依次升高，為16.10%、59.48%、66.08%。其中DQN和DDQN單回合執(zhí)行步數(shù)小于10的比例分別是本文方法的10.04倍和9.04倍，由此可見(jiàn)，DDQN和DQN的碰撞相對(duì)集中發(fā)生測(cè)試過(guò)程的前三分之一階段，說(shuō)明這兩種算法的適應(yīng)性較差，無(wú)法根據(jù)測(cè)試過(guò)程中環(huán)境車輛的狀態(tài)變化做出最優(yōu)的動(dòng)作。

表9 場(chǎng)景二各算法碰撞回合中單回合步數(shù)分布比例Table 9 Proportion of reward value distribution in successful rounds of each algorithm in scenario two%

對(duì)比場(chǎng)景一和場(chǎng)景二的測(cè)試結(jié)果可知，4種算法的得到平均獎(jiǎng)勵(lì)均有所下降，原因是隨著測(cè)試場(chǎng)景的復(fù)雜程度增加，導(dǎo)致無(wú)人車換道決策的成功率和平均速度的下降，同時(shí)無(wú)人車發(fā)生碰撞的次數(shù)增多，使得單回合內(nèi)獲得的步數(shù)獎(jiǎng)勵(lì)減少，最終導(dǎo)致平均獎(jiǎng)勵(lì)的下降。

3.4.3 算法測(cè)試場(chǎng)景三

測(cè)試場(chǎng)景三設(shè)定禮貌因子p=0，環(huán)境車輛的車流量采用US-101道路中車流量最大的部分，即1～4號(hào)車道和5號(hào)車道的車流量分別約為144輛/min和64輛/min，即單回合車流量分別為72輛/回合和32輛/回合。4種算法在場(chǎng)景三中測(cè)試1 000回合后的結(jié)果如表10所示。

表10 場(chǎng)景三各算法測(cè)試結(jié)果對(duì)比Table 10 Comparison of test results of various algorithm in scenario three

由表10可知，在場(chǎng)景三的測(cè)試過(guò)程中，本文方法較Dueling DDQN、DDQN、DQN在成功率方面分別高出6.9、13.3、24.0個(gè)百分點(diǎn)，在平均獎(jiǎng)勵(lì)、平均累計(jì)步數(shù)、平均速度方面本文方法也均高于其他方法，且4種算法在測(cè)試1 000回合后的平均獎(jiǎng)勵(lì)為10.76、9.89、9.04、8.54，與場(chǎng)景二中的測(cè)試結(jié)果相比，各算法的平均獎(jiǎng)勵(lì)分別下降了0.09、0.23、0.47、0.55，成功率分別下降了2.2、4.9、7.8、11.1個(gè)百分點(diǎn)。隨著測(cè)試場(chǎng)景環(huán)境車輛車流量的增大，場(chǎng)景的復(fù)雜程度增加，本文方法的成功率和平均獎(jiǎng)勵(lì)下降幅度最小，說(shuō)明該方法對(duì)于復(fù)雜環(huán)境的適應(yīng)性更強(qiáng)，這是由于加入了優(yōu)先級(jí)經(jīng)驗(yàn)回放的機(jī)制，使得重要性更高的樣本被抽取的概率增加，進(jìn)而增加了算法訓(xùn)練時(shí)的網(wǎng)絡(luò)參數(shù)的更新效率，同時(shí)競(jìng)爭(zhēng)結(jié)構(gòu)的存在使得該算法在更新主網(wǎng)絡(luò)參數(shù)時(shí)價(jià)值函數(shù)被優(yōu)先更新，導(dǎo)致在當(dāng)前狀態(tài)下所有的Q值均被更新，從而更準(zhǔn)確地得到了每個(gè)動(dòng)作所對(duì)應(yīng)的Q值。

對(duì)比3種場(chǎng)景中各算法的測(cè)試結(jié)果，如表11所示。

表11 3種場(chǎng)景中各算法測(cè)試的平均結(jié)果對(duì)比Table 11 Comparison of average results of each algorithm test in three scenarios

由表11可知，在3種場(chǎng)景的平均測(cè)試成功率方面，本文方法最高，為92.50%，比Dueling DDQN、DDQN和DQN算法的分別高出4.0、7.6、14.5個(gè)百分點(diǎn)；在平均獎(jiǎng)勵(lì)方面，本文方法最高，為10.84。由此說(shuō)明，本文方法可以更好地理解外部環(huán)境狀態(tài)的變化，同時(shí)具有更好的魯棒性和更強(qiáng)的適用性。

4 結(jié)束語(yǔ)

針對(duì)傳統(tǒng)DQN在高速公路場(chǎng)景下的無(wú)人車換道決策中存在過(guò)估計(jì)且收斂速度較慢的問(wèn)題，本文提出一種基于改進(jìn)深度Q網(wǎng)絡(luò)的無(wú)人車換道決策模型。首先將得到的無(wú)人車與環(huán)境車的狀態(tài)值分別輸入到主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)中，進(jìn)而將動(dòng)作的選擇和評(píng)估解耦，提高了網(wǎng)絡(luò)的穩(wěn)定性，解決了網(wǎng)絡(luò)的過(guò)估計(jì)問(wèn)題；然后在網(wǎng)絡(luò)中加入競(jìng)爭(zhēng)結(jié)構(gòu)，使模型對(duì)動(dòng)作價(jià)值的估計(jì)更加準(zhǔn)確；最后通過(guò)增加重要樣本被回放的概率，提升網(wǎng)絡(luò)的更新效率和收斂速度。實(shí)驗(yàn)結(jié)果表明，相比于傳統(tǒng)DQN等算法，改進(jìn)的深度Q網(wǎng)絡(luò)在訓(xùn)練和測(cè)試的決策成功率、平均獎(jiǎng)勵(lì)、平均累計(jì)步數(shù)方面上均有提升；測(cè)試結(jié)果也表明，該方法的魯棒性更強(qiáng)，在車流量更大、環(huán)境車輛駕駛風(fēng)格更激進(jìn)的測(cè)試場(chǎng)景中仍能保持92%以上的換道決策成功率。

雖然本文算法在不同場(chǎng)景的測(cè)試結(jié)果中均能保持較高的換道決策成功率，但只能應(yīng)對(duì)離散的動(dòng)作空間問(wèn)題，接下來(lái)的研究將聚焦于使用Actor-Critic的強(qiáng)化學(xué)習(xí)方法，以此來(lái)應(yīng)對(duì)連續(xù)動(dòng)作空間中的無(wú)人車換道決策問(wèn)題。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看