• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      改進(jìn)深度Q網(wǎng)絡(luò)的無(wú)人車換道決策算法研究

      2022-04-08 03:43:04張?chǎng)纬?/span>劉元盛謝龍洋
      關(guān)鍵詞:車道無(wú)人決策

      張?chǎng)纬?,?軍,劉元盛,路 銘,謝龍洋

      1.北京聯(lián)合大學(xué) 北京市信息服務(wù)工程重點(diǎn)實(shí)驗(yàn)室,北京 100101

      2.北京聯(lián)合大學(xué) 機(jī)器人學(xué)院,北京 100101

      3.北京聯(lián)合大學(xué) 應(yīng)用科技學(xué)院,北京 100101

      無(wú)人駕駛技術(shù)可以使人們的出行更加方便、安全,同時(shí)也可以減少因人為因素導(dǎo)致的交通事故。而無(wú)人車換道決策問(wèn)題是無(wú)人駕駛技術(shù)中的重要問(wèn)題之一[1],因此,如何在保證安全的前提下使無(wú)人車更有效率的行駛成為了研究者聚焦的重點(diǎn)[2]。目前,無(wú)人車換道決策算法主要分為兩部分:基于規(guī)則的算法和基于機(jī)器學(xué)習(xí)的算法?;谝?guī)則的換道決策算法模型主要有間隙接受模型[3]、勢(shì)場(chǎng)模型[4-5]、模糊邏輯模型[6]等,這些算法較基于機(jī)器學(xué)習(xí)的算法相比,泛化能力較弱,且往往得到二元的換道決策結(jié)果(換道、不換道),無(wú)法處理較為復(fù)雜和隨機(jī)的動(dòng)態(tài)道路場(chǎng)景中的問(wèn)題。

      針對(duì)基于規(guī)則換道決策算法存在的不足,基于機(jī)器學(xué)習(xí)的算法被逐漸應(yīng)用于無(wú)人車換道決策的研究中。文獻(xiàn)[7-8]使用支持向量機(jī)將數(shù)據(jù)集中無(wú)人車和無(wú)人車周圍的環(huán)境車的車輛參數(shù)作為模型輸入,最終對(duì)無(wú)人車的換道行為決策結(jié)果進(jìn)行分類,這種方法雖然可以解決在高維的數(shù)據(jù)下的輸入問(wèn)題,但是由于數(shù)據(jù)量較大,算法的時(shí)間復(fù)雜度較高,導(dǎo)致效率較低。文獻(xiàn)[9]使用隨機(jī)森林和決策樹(shù)對(duì)數(shù)據(jù)集進(jìn)行分析,并分別輸出了直行和換道的決策結(jié)果,然而這種方法需要收集車輛駕駛員的標(biāo)簽數(shù)據(jù),這種標(biāo)簽數(shù)據(jù)的采集十分困難并且數(shù)據(jù)中的噪聲會(huì)直接影響分類結(jié)果的準(zhǔn)確性。當(dāng)使用以上監(jiān)督學(xué)習(xí)算法來(lái)解決無(wú)人車換道決策問(wèn)題時(shí),往往需要大規(guī)模數(shù)據(jù)集作為算法輸入,導(dǎo)致算法訓(xùn)練時(shí)間較長(zhǎng),同時(shí)在訓(xùn)練時(shí)將數(shù)據(jù)集的標(biāo)簽數(shù)據(jù)當(dāng)作“真值”,使得算法缺乏探索能力。文獻(xiàn)[10]使用進(jìn)化策略(evolution strategy,ES)對(duì)無(wú)人車換道決策算法進(jìn)行研究,提出了基于ES的神經(jīng)網(wǎng)絡(luò)算法,使用并輸出了保持原道,左換道,右換道三種結(jié)果。此方法雖然解決了梯度下降法易使模型收斂到局部最優(yōu)的問(wèn)題,但是優(yōu)化速度較慢,計(jì)算成本較高。上述算法與基于強(qiáng)化學(xué)習(xí)的換道決策方法相比,往往需要大量的數(shù)據(jù)集作為輸入用于模型訓(xùn)練,同時(shí)數(shù)據(jù)集中的噪聲會(huì)直接影響模型訓(xùn)練的準(zhǔn)確性,最終影響模型的測(cè)試結(jié)果。針對(duì)上述問(wèn)題,研究者提出基于強(qiáng)化學(xué)習(xí)的無(wú)人車換道決策算法。該方法現(xiàn)已成功應(yīng)用在人工智能領(lǐng)域中,例如Atari游戲[11-12]、圍棋比賽[13]、機(jī)器人路徑規(guī)劃[14]、無(wú)人車車道保持問(wèn)題[15]等。文獻(xiàn)[16]使用Q-learning對(duì)高速公路車輛的換道決策進(jìn)行研究,但該研究?jī)H考慮簡(jiǎn)單的雙車道場(chǎng)景,且當(dāng)輸入狀態(tài)維數(shù)過(guò)高時(shí),該算法會(huì)消耗大量時(shí)間,計(jì)算效率很低。文獻(xiàn)[17-19]使用DQN對(duì)高速公路場(chǎng)景中的車輛建模,并對(duì)決策成功率和平均獎(jiǎng)勵(lì)等評(píng)價(jià)指標(biāo)進(jìn)行了分析,但由于DQN存在過(guò)度估計(jì)的問(wèn)題,使得估計(jì)的Q值大于真實(shí)Q值,使得在模型測(cè)試時(shí)不能得到準(zhǔn)確的結(jié)果,算法往往會(huì)收斂到局部最優(yōu),同時(shí)DQN每次都是從經(jīng)驗(yàn)回放單元中等概率抽樣,導(dǎo)致一些重要的經(jīng)驗(yàn)樣本被忽略,進(jìn)而降低了算法的收斂速度和網(wǎng)絡(luò)參數(shù)更新的效率。

      為了更好地解決無(wú)人車換道決策問(wèn)題,本文提出了一種基于改進(jìn)深度Q網(wǎng)絡(luò)的無(wú)人車換道決策模型。首先將算法的狀態(tài)值輸入到兩個(gè)結(jié)構(gòu)相同的神經(jīng)網(wǎng)絡(luò)中,并分別計(jì)算出估計(jì)值和目標(biāo)值,以此來(lái)減少經(jīng)驗(yàn)樣本之間的相關(guān)性,進(jìn)而提升算法的收斂性;然后將隱藏層輸出的無(wú)人車狀態(tài)信息同時(shí)輸入到狀態(tài)價(jià)值函數(shù)流和動(dòng)作優(yōu)勢(shì)函數(shù)流中,更好地平衡了無(wú)人車狀態(tài)與動(dòng)作的關(guān)系;最后采用PER的方式從經(jīng)驗(yàn)回放單元中抽取經(jīng)驗(yàn)樣本,以此提升樣本的利用率,使得無(wú)人車更好地理解周圍環(huán)境變化,進(jìn)而得到更加合理的換道決策結(jié)果。

      1 改進(jìn)深度Q網(wǎng)絡(luò)的換道決策模型

      1.1 雙深度Q網(wǎng)絡(luò)

      雙深度Q網(wǎng)絡(luò)[20](double deep Q network,DDQN)針對(duì)DQN過(guò)度估計(jì)的問(wèn)題,將動(dòng)作的選擇和評(píng)估進(jìn)行解耦。首先通過(guò)參數(shù)為w的主網(wǎng)絡(luò)選擇最大的Q值對(duì)應(yīng)的動(dòng)作,再使用參數(shù)為w′的目標(biāo)網(wǎng)絡(luò)計(jì)算此動(dòng)作所對(duì)應(yīng)的目標(biāo)值,進(jìn)而對(duì)選擇的動(dòng)作進(jìn)行評(píng)估,再根據(jù)評(píng)估值Q(s j-1,a j-1,w)和目標(biāo)值計(jì)算損失函數(shù)L j(w),并通過(guò)誤差反向傳遞的方式更新主網(wǎng)絡(luò)的參數(shù)w,如公式(1)和(2)所示:

      其中為目標(biāo)值,Q(s j-1,a j-1,w)為評(píng)估值,γ為衰減因子,r j為獎(jiǎng)勵(lì)值,損失函數(shù)L j(w)根據(jù)評(píng)估值和目標(biāo)值的均方誤差(mean square error,MSE)計(jì)算得到。

      1.2 競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)

      基于競(jìng)爭(zhēng)結(jié)構(gòu)的深度Q網(wǎng)絡(luò)(dueling deep Q network,dueling DQN)[21]和基于競(jìng)爭(zhēng)結(jié)構(gòu)的雙深度Q網(wǎng)絡(luò)(dueling double deep Q network,dueling DDQN)分別從DQN和DDQN的基礎(chǔ)上在主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)中加入競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)(dueling network architecture),以便更準(zhǔn)確的估計(jì)Q值,上述兩個(gè)模型的主網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

      圖1 競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Dueling network structure

      無(wú)人車在行駛過(guò)程中從周圍環(huán)境獲取狀態(tài)值作為網(wǎng)絡(luò)輸入,通過(guò)隱藏層的狀態(tài)信息分別被輸入到狀態(tài)價(jià)值函數(shù)流和動(dòng)作優(yōu)勢(shì)函數(shù)流中進(jìn)行進(jìn)一步的數(shù)據(jù)處理,然后將兩個(gè)函數(shù)流的輸出相加,最后輸出Q(s,a)的值。Q(s,a)的計(jì)算方式如公式(3)所示:

      其中Q(s,a|θ,α,β)為輸出的Q值,V(s|θ,β)為狀態(tài)價(jià)值函數(shù),A(s,a|θ,α)為動(dòng)作優(yōu)勢(shì)函數(shù),θ為公共隱藏層的網(wǎng)絡(luò)參數(shù),α為動(dòng)作優(yōu)勢(shì)網(wǎng)絡(luò)的參數(shù),β為狀態(tài)價(jià)值網(wǎng)絡(luò)的參數(shù),a′為所有可能采取的動(dòng)作,average則是對(duì)所有動(dòng)作優(yōu)勢(shì)函數(shù)取均值。

      1.3 優(yōu)先級(jí)經(jīng)驗(yàn)回放

      在無(wú)人車與環(huán)境不斷交互的過(guò)程中,經(jīng)驗(yàn)樣本被不斷的存儲(chǔ)到經(jīng)驗(yàn)回放單元中用于模型的訓(xùn)練,但不同經(jīng)驗(yàn)樣本之間的重要性是不同的,隨著經(jīng)驗(yàn)回放單元中樣本的不斷更新,如果采取均勻隨機(jī)取樣的方式從經(jīng)驗(yàn)回放單元中抽取小批量樣本作為模型輸入,那么一些重要性較高的經(jīng)驗(yàn)樣本就無(wú)法被充分利用甚至被直接覆蓋,導(dǎo)致模型訓(xùn)練效率降低。為提升模型的訓(xùn)練效率,使用一種優(yōu)先級(jí)經(jīng)驗(yàn)回放[22]的方式從經(jīng)驗(yàn)回放單元中抽取樣本,以此增加重要性較高的樣本被抽取的概率。即用δj表示樣本j的時(shí)間差分誤差(temporal differenceerror,TD-error),并以此來(lái)衡量每個(gè)經(jīng)驗(yàn)樣本的重要性,如公式(4)所示:

      其中p j為樣本j的優(yōu)先級(jí),ε為很小的正常數(shù)進(jìn)而保證TD-error幾乎為0的樣本也有較低的概率被抽取。P(j)為樣本j的優(yōu)先級(jí)權(quán)重,α為經(jīng)驗(yàn)回放時(shí)優(yōu)先級(jí)權(quán)重所占的比例,若α為0,則采用均勻隨機(jī)抽樣,否則根據(jù)歸一化后的權(quán)重w j抽樣。如公式(5)~(7)所示,N為經(jīng)驗(yàn)回放單元的大小,β為抽樣權(quán)重系數(shù),取值范圍為β∈[0,1]。在抽取樣本時(shí)通過(guò)采用優(yōu)先級(jí)經(jīng)驗(yàn)回放的方式,提升了主網(wǎng)絡(luò)誤差反向傳遞時(shí)更新參數(shù)的效率以及網(wǎng)絡(luò)的收斂速度。

      1.4 改進(jìn)的深度Q網(wǎng)絡(luò)

      為了使無(wú)人車在決策過(guò)程中得到更優(yōu)的駕駛策略,使用改進(jìn)的深度Q網(wǎng)絡(luò)建立換道決策算法。此算法先將DDQN與競(jìng)爭(zhēng)結(jié)構(gòu)結(jié)合,并用于主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)中來(lái)解決DQN過(guò)度估計(jì)問(wèn)題,同時(shí)更好地平衡了狀態(tài)價(jià)值函數(shù)和動(dòng)作優(yōu)勢(shì)函數(shù)的關(guān)系。然后采用優(yōu)先級(jí)經(jīng)驗(yàn)回放的方式抽取小批量數(shù)據(jù)作為模型輸入,進(jìn)一步提升了TD-error的絕對(duì)值較大的樣本利用效率。基于改進(jìn)深度Q網(wǎng)絡(luò)的無(wú)人車換道決策算法結(jié)構(gòu)圖如圖2所示,在無(wú)人車的行駛過(guò)程中,首先無(wú)人車獲取自身以及周圍車輛的參數(shù)信息作為當(dāng)前時(shí)刻的狀態(tài)值,同時(shí)將動(dòng)作值、無(wú)人車與環(huán)境交互得到的獎(jiǎng)勵(lì)值、以及下一時(shí)刻的狀態(tài)值作為一個(gè)元組,即(s,a,r,s′),存儲(chǔ)到經(jīng)驗(yàn)回放單元D中,然后使用優(yōu)先級(jí)經(jīng)驗(yàn)回放的方式進(jìn)行抽取樣本,并將狀態(tài)值分別輸入到主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)中,根據(jù)兩個(gè)網(wǎng)絡(luò)的輸出結(jié)果以及獎(jiǎng)勵(lì)值r對(duì)損失函數(shù)進(jìn)行計(jì)算,進(jìn)而更新主網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),直到算法完成迭代。

      圖2 改進(jìn)深度Q網(wǎng)絡(luò)的無(wú)人車換道決策算法結(jié)構(gòu)Fig.2 Structure diagram of autonomous vehicle lane change strategy algorithm based on improved deep Q network

      2 實(shí)驗(yàn)場(chǎng)景搭建

      實(shí)驗(yàn)場(chǎng)景搭建分為數(shù)據(jù)預(yù)處理和環(huán)境車輛模型搭建兩部分。如圖3所示,通過(guò)數(shù)據(jù)預(yù)處理對(duì)道路環(huán)境中的車流量、車輛速度及初速度范圍、車輛初始位置進(jìn)行提取,同時(shí)結(jié)合環(huán)境車輛模型,對(duì)真實(shí)道路環(huán)境進(jìn)行還原,并將此場(chǎng)景作為算法的訓(xùn)練和測(cè)試場(chǎng)景。

      圖3 US-101高速場(chǎng)景Fig.3 US-101 highway scene

      2.1 數(shù)據(jù)預(yù)處理

      實(shí)驗(yàn)中選用NGSIM數(shù)據(jù)集中US-101高速公路的車輛數(shù)據(jù)進(jìn)行車輛及道路參數(shù)的提取。US-101高速公路場(chǎng)景如圖3所示,高速路全長(zhǎng)約640 m,共有8條車道,其中1~5號(hào)車道為主車道,6號(hào)車道為輔路道,7、8號(hào)車道分別為車流匯入車道和匯出車道。實(shí)驗(yàn)中選用主車道(1~5號(hào))中的車輛數(shù)據(jù)搭建5車道道路實(shí)驗(yàn)場(chǎng)景。

      首先對(duì)主車道車輛數(shù)據(jù)進(jìn)行預(yù)處理,剔除轎車外的其他車輛類型數(shù)據(jù),并篩選出主車道前300 m的車輛數(shù)據(jù),該段數(shù)據(jù)對(duì)應(yīng)的道路中的車流量適中。由于5號(hào)車道中的車輛受6~8號(hào)車道內(nèi)車輛匯入和匯出的影響,故分別統(tǒng)計(jì)1~4號(hào)車道的車輛與5號(hào)車道的車流量、車輛速度及初速度范圍、車輛初始位置等參數(shù),以便更好地還原真實(shí)環(huán)境中的道路場(chǎng)景。統(tǒng)計(jì)后的車輛數(shù)據(jù)信息如表1所示,1~5車道車輛速度分布如圖4所示,車輛初速度分布如圖5所示。

      表1 車輛數(shù)據(jù)信息Table 1 Information of vehicle data

      圖4 車輛速度分布Fig.4 Vehicle speed distribution

      圖5 車輛初速度分布Fig.5 Initial vehicle speed distribution

      根據(jù)表1可知,在900 s內(nèi),1~4號(hào)車道共有1 502輛車,即車流量約為每分鐘100輛;5號(hào)車道共有389輛車,即車流量約為每分鐘26輛。

      根據(jù)圖4、5可知,1~4號(hào)車道的車輛速度范圍和初速度范圍主要分布在7~19 m/s和6~14 m/s,比例分別達(dá)到99.75%和99.51%;5號(hào)車道的車輛速度范圍和初速度范圍主要分布在1~19 m/s和10~12 m/s,比例分別達(dá)到99.98%和91.89%。為適應(yīng)絕大多數(shù)車輛的駕駛規(guī)律,故使用上述車輛的初速度和速度范圍作為車輛仿真環(huán)境參數(shù)。車輛初始位置可通過(guò)數(shù)據(jù)集直接獲取。同時(shí),對(duì)主車道車輛的長(zhǎng)度寬度進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果為:長(zhǎng)度為12 ft(約3.6 m),寬度為6 ft(約1.8 m)的車輛所占比例最大,故選用長(zhǎng)3.6 m、寬1.8 m的車輛作為實(shí)驗(yàn)仿真車輛。仿真車輛參數(shù)如表2所示。

      表2 仿真環(huán)境參數(shù)設(shè)定Table 2 Simulation environment parameters setting

      2.2 環(huán)境車輛模型搭建

      為了更好地模擬真實(shí)道路環(huán)境中車輛的駕駛行為,分別使用車輛橫向和縱向模型對(duì)實(shí)驗(yàn)場(chǎng)景中的環(huán)境車輛進(jìn)行建模。其中橫向模型采用MOBIL(minimizing overall braking induced by lane change)模型,使用此策略模型對(duì)環(huán)境車輛的換道行為進(jìn)行建模,如公式(8)~(10)所示:

      上述公式中,Δa為加速度增益,alc、aold、anew分別為執(zhí)行換道車輛、換道前原車道的后方車輛以及目標(biāo)車道后方車輛的加速度,alc'、aold'、anew'分別為以上換道車輛換道后的加速度,p為禮貌因子,該參數(shù)描述了環(huán)境車輛駕駛的激進(jìn)程度,取值范圍為0~1,b s為保證安全的最大減速度,Δath為決策閾值。若anew'大于-b s,同時(shí)加速度增益Δa大于決策閾值Δath時(shí),環(huán)境車輛進(jìn)行換道操作。

      車輛縱向模型采用IDM(intelligent driver model),此模型描述了環(huán)境車輛的跟車行為,如公式(11)和(12)所示:

      上述公式中,d×(v,Δv)為最小期望間距,d0為最小安全間距,v為車輛當(dāng)前速度值T為期望安全時(shí)距,Δv為同車道當(dāng)前車輛與前車的速度差,amax為期望最大加速度值,b為期望減速度值,vd為期望速度值,δ為加速度指數(shù)。

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)定

      實(shí)驗(yàn)中環(huán)境采用Python3.7語(yǔ)言作為編程語(yǔ)言,使用gym庫(kù)創(chuàng)建實(shí)驗(yàn)場(chǎng)景,神經(jīng)網(wǎng)絡(luò)框架使用PyTorch1.4.0;計(jì)算機(jī)配置為:顯卡NVIDIA GTX1060,操作系統(tǒng)為Ubuntu16.04,處理器為i7-8750H,內(nèi)存為16 GB。

      設(shè)定訓(xùn)練最大回合數(shù)為10 000,單回合最大步長(zhǎng)為30,道路環(huán)境刷新周期為1 s,同時(shí)根據(jù)上一章節(jié)2.1中主車道車流量信息,可知1~4車道的單回合車流量為每回合50輛,5車道的單回合車流量為每回合13輛,單回合終止條件為無(wú)人車單回合執(zhí)行步數(shù)達(dá)到最大或無(wú)人車與環(huán)境車發(fā)生碰撞,且在實(shí)驗(yàn)過(guò)程中設(shè)定無(wú)人車均保持在可行使區(qū)域內(nèi)行駛。算法參數(shù)設(shè)定如表3所示。

      表3 算法參數(shù)設(shè)定Table 3 Algorithm parameters setting

      表3中的衰減因子γ描述的是未來(lái)得到的獎(jiǎng)勵(lì)值對(duì)當(dāng)前狀態(tài)的影響,通過(guò)分析實(shí)驗(yàn)所有回合中累計(jì)步數(shù)的分布確定當(dāng)γ=0.98時(shí),算法的收斂性最好,同時(shí)平均獎(jiǎng)勵(lì)值達(dá)到最大。學(xué)習(xí)率的選取通過(guò)網(wǎng)絡(luò)誤差和網(wǎng)絡(luò)的收斂速度確定,實(shí)驗(yàn)結(jié)果顯示當(dāng)學(xué)習(xí)率為2.5×10-4時(shí)網(wǎng)絡(luò)的收斂速度最快(算法的平均獎(jiǎng)勵(lì)值在訓(xùn)練2 400回合左右基本穩(wěn)定),同時(shí)算法的成功率最高。記憶庫(kù)容量和批尺寸的大小通過(guò)獲得的平均獎(jiǎng)勵(lì)值的網(wǎng)絡(luò)收斂速度確定,記憶庫(kù)容量的大小會(huì)對(duì)網(wǎng)絡(luò)參數(shù)更新效率產(chǎn)生影響;而在批尺寸的大小選取方面:若采取較大的批尺寸則算法容易收斂到局部最小值,若較小時(shí)則不利于算法的收斂。實(shí)驗(yàn)中分別采用了批尺寸為16、32、64這3個(gè)超參數(shù)分別進(jìn)行網(wǎng)絡(luò)的訓(xùn)練,結(jié)果表明當(dāng)記憶庫(kù)容量大小為8×104,批尺寸為32時(shí),算法的收斂速度最快,同時(shí)獲得的平均獎(jiǎng)勵(lì)值最高。優(yōu)先級(jí)權(quán)重占比α用來(lái)確定從經(jīng)驗(yàn)回放單元中抽取樣本時(shí)樣本優(yōu)先級(jí)所占的比例,而抽樣權(quán)重β用來(lái)修正優(yōu)先級(jí)回放所帶來(lái)的誤差,實(shí)驗(yàn)結(jié)果顯示當(dāng)α=0.8,β=0.5時(shí),算法的魯棒性最好,此超參數(shù)組合增加了重要性樣本被采樣的概率,同時(shí)模型的魯棒性也得到提升。

      3.2 實(shí)驗(yàn)約束條件設(shè)定

      結(jié)合具體的換道決策場(chǎng)景,分別設(shè)定狀態(tài)空間、動(dòng)作空間以及獎(jiǎng)勵(lì)函數(shù)如下所示。

      狀態(tài)空間:狀態(tài)空間S描述了無(wú)人車與周圍環(huán)境車輛的駕駛行為信息,以無(wú)人車和無(wú)人車感知范圍內(nèi)最近的6輛環(huán)境車狀態(tài)值的集合作為狀態(tài)空間,具體定義如公式(13)所示:

      其中vhost為無(wú)人車的速度,s1~s6為無(wú)人車周圍環(huán)境車輛的狀態(tài)值,s={exist,x,y,v x,v y},exist表示為是否存在此環(huán)境車輛,若此車存在,則exist=1,否則exist=0。x為無(wú)人車相對(duì)于此環(huán)境車的橫向距離,y為無(wú)人車相對(duì)于此環(huán)境車的縱向距離,v x為無(wú)人車相對(duì)于此環(huán)境車的橫向速度,v y為無(wú)人車相對(duì)于此環(huán)境車的縱向速度。

      動(dòng)作空間:動(dòng)作空間描述了無(wú)人車行駛過(guò)程中可以采取的動(dòng)作,具體描述如表4所示。

      表4 動(dòng)作空間表示Table 4 Action space representation

      獎(jiǎng)勵(lì)函數(shù):為使無(wú)人車學(xué)習(xí)到最佳的換道決策策略,獎(jiǎng)勵(lì)函數(shù)定義如下所示。

      若無(wú)人車與環(huán)境車發(fā)生碰撞,則設(shè)定碰撞懲罰函數(shù):

      設(shè)定速度獎(jiǎng)勵(lì)函數(shù):

      其中vhost為無(wú)人車速度,vmax和vmin分別為1~4號(hào)車道的最高速度(19 m/s)和最低速度(7 m/s),vmax'和vmin'分別為5號(hào)車道的最高速度(19 m/s)和最低速度(1 m/s),即若無(wú)人車行駛在1~4車道,則取1~4號(hào)車道對(duì)應(yīng)的速度獎(jiǎng)勵(lì)值;若無(wú)人車行駛在5車道,則取5號(hào)車道對(duì)應(yīng)的速度獎(jiǎng)勵(lì)值。

      為避免無(wú)人車在行駛過(guò)程中頻繁的變更車道,設(shè)定換道懲罰函數(shù):

      如果無(wú)人車在單個(gè)步長(zhǎng)內(nèi)未發(fā)生碰撞,則設(shè)定單步獎(jiǎng)勵(lì)函數(shù):

      如果無(wú)人車在整回合內(nèi)未發(fā)生碰撞,則設(shè)定回合獎(jiǎng)勵(lì)函數(shù):

      單回合總獎(jiǎng)勵(lì)函數(shù)R為:

      上述公式中,T為單回合執(zhí)行總步數(shù),p為執(zhí)行步數(shù)。

      3.3 算法訓(xùn)練與分析

      分別使用DQN、DDQN、Dueling DDQN與本文算法進(jìn)行實(shí)驗(yàn)對(duì)比,且4種算法的狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)以及實(shí)驗(yàn)參數(shù)均保持一致,訓(xùn)練過(guò)程中設(shè)定環(huán)境車輛橫向模型參數(shù)的禮貌因子p=1。通過(guò)分析決策成功率、平均獎(jiǎng)勵(lì)、平均累計(jì)步數(shù)來(lái)描述模型訓(xùn)練結(jié)果,4種算法訓(xùn)練的結(jié)果隨回合數(shù)變化趨勢(shì)如圖6~8以及表5所示。

      圖6 訓(xùn)練過(guò)程中各算法的決策成功率對(duì)比Fig.6 Comparison of strategy success rate of each algorithm during training process

      表5 訓(xùn)練過(guò)程中各算法平均獎(jiǎng)勵(lì)分布對(duì)比Table 5 Comparison of average reward distribution of each algorithm training process

      由圖6可知,在算法訓(xùn)練開(kāi)始階段,4種算法的成功率不斷增加,訓(xùn)練10 000回合后,DQN、DDQN、Dueling DDQN、本文方法的成功率依次為:81.43%、84.48%、86.30%、87.09%。本文方法在訓(xùn)練過(guò)程中的決策成功率更高。

      結(jié)合圖7和表4可知:在算法訓(xùn)練過(guò)程中所獲得的平均獎(jiǎng)勵(lì)方面:本文方法在訓(xùn)練結(jié)束后的得到的總平均獎(jiǎng)勵(lì)最高,為10.14,且平均獎(jiǎng)勵(lì)值在2 400回合左右基本穩(wěn)定,而其他方法均在5 500回合后逐漸趨于穩(wěn)定狀態(tài),算法穩(wěn)定時(shí)的回合數(shù)約為本文方法的2.29倍。同時(shí)該方法在1 001~2 000回合內(nèi)的平均獎(jiǎng)勵(lì)達(dá)到最高,為10.85,Dueling DDQN、DDQN、DQN依次降低,分別為9.74、9.29、8.95,且平均獎(jiǎng)勵(lì)峰值均分布在3 001~4 000回合范圍內(nèi)。由此可見(jiàn),本文方法可以在更少的訓(xùn)練回合數(shù)內(nèi)完成對(duì)算法的訓(xùn)練并獲得更高的平均獎(jiǎng)勵(lì)值。同時(shí)由于改進(jìn)的深度Q網(wǎng)絡(luò)在經(jīng)驗(yàn)回放時(shí)提高了重要程度較高的樣本的利用率,增加這些樣本的抽樣概率。本文方法與DQN、DDQN、Dueling DDQN相比提升了網(wǎng)絡(luò)的收斂速度和參數(shù)更新的效率,同時(shí)提高了智能體的學(xué)習(xí)速度。

      圖7 訓(xùn)練過(guò)程中各算法的平均獎(jiǎng)勵(lì)對(duì)比Fig.7 Comparison of average reward of each algorithm during training process

      由圖8可知,在1 000回合訓(xùn)練后,本文方法的平均累計(jì)步數(shù)均高于DQN等網(wǎng)絡(luò)模型,說(shuō)明本文方法單回合執(zhí)行步數(shù)最高,同時(shí)結(jié)合圖6可知,本文方法在保持決策成功率最高的同時(shí),平均累計(jì)步數(shù)較DQN、DDQN、Dueling DDQN分別高出3.14、2.17、1.60,由此說(shuō)明本文方法具有更好的學(xué)習(xí)能力和更強(qiáng)的適應(yīng)性。

      圖8 訓(xùn)練過(guò)程中各算法的平均累計(jì)步數(shù)對(duì)比Fig.8 Comparison of average cumulative steps of each algorithm during training process

      3.4 算法測(cè)試與分析

      針對(duì)不同道路場(chǎng)景中環(huán)境車輛,通過(guò)改變環(huán)境車輛車流量,以及環(huán)境車輛橫向模型中的禮貌因子p,進(jìn)而搭建車輛環(huán)境不同的實(shí)驗(yàn)場(chǎng)景,設(shè)定測(cè)試回合數(shù)為1 000,同時(shí)保持其他仿真環(huán)境參數(shù)和網(wǎng)絡(luò)參數(shù)不變。其中p∈[0,1],該參數(shù)越接近0說(shuō)明環(huán)境車輛駕駛風(fēng)格越激進(jìn)。通過(guò)改變上述兩個(gè)參數(shù),設(shè)定兩個(gè)道路環(huán)境不同的測(cè)試場(chǎng)景,具體描述如下所示。

      3.4.1 算法測(cè)試場(chǎng)景一

      測(cè)試場(chǎng)景一使用與算法訓(xùn)練時(shí)相同的場(chǎng)景,即1~4車道和5車道的單回合車流量分別為50輛/回合,和13輛/回合,禮貌因子p=1。4種算法在場(chǎng)景一中測(cè)試成功率和平均獎(jiǎng)勵(lì)如圖9、10所示,測(cè)試1 000回合后的結(jié)果如表6、7所示。

      圖9 場(chǎng)景一測(cè)試過(guò)程中各算法的決策成功率對(duì)比Fig.9 Comparison of strategy success rate of each algorithm during test processin scenario one

      圖10 場(chǎng)景一測(cè)試過(guò)程中各算法的平均獎(jiǎng)勵(lì)對(duì)比Fig.10 Comparison of average reward of each algorithm during test processin scenario one

      表6 場(chǎng)景一各算法測(cè)試結(jié)果對(duì)比Table 6 Comparison of test results of each algorithm in scenario one

      由圖9、10和表6可知,在場(chǎng)景一的測(cè)試過(guò)程中,本文方法較Dueling DDQN、DDQN、DQN在成功率方面分別高出0.9、1.7、4.4個(gè)百分點(diǎn),在平均獎(jiǎng)勵(lì)、平均累計(jì)步數(shù)、平均速度方面本文方法也均高于其他方法。4種算法在測(cè)試1 000回合中的成功次數(shù)分別是:DQN為905次、DDQN為932次、Dueling DDQN為940次、本文方法為949次;同時(shí)結(jié)合表7分析可得:在各算法測(cè)試成功回合中,本文方法的單回合獎(jiǎng)勵(lì)值高于11.3的回合所占百分比最高,為78.29%。而單回合獎(jiǎng)勵(lì)值低于11.3的原因是由于無(wú)人車在一段時(shí)間內(nèi)為避免碰撞而保守行駛,使得在單回合內(nèi)獲得的獎(jiǎng)勵(lì)值較低。由此說(shuō)明本文方法可以更好地根據(jù)經(jīng)驗(yàn)回放單元中的經(jīng)驗(yàn)樣本來(lái)理解測(cè)試環(huán)境中車輛的狀態(tài)變化,在保證決策成功率的前提下減少了保守行駛的回合數(shù),使得無(wú)人車獲得更優(yōu)的決策策略。

      表7 場(chǎng)景一各算法成功回合中獎(jiǎng)勵(lì)值分布比例Table 7 Proportion of reward value distribution in successful rounds of each algorithm in scenario one

      3.4.2 算法測(cè)試場(chǎng)景二

      測(cè)試場(chǎng)景二設(shè)定禮貌因子p=0.4,環(huán)境車輛的車流量采用US-101道路中車流量較大的部分,即1~4號(hào)車道和5號(hào)車道的車流量分別約為126輛/min和48輛/min,即單回合車流量分別為63輛/回合和24輛/回合。4種算法在場(chǎng)景二中測(cè)試成功率和平均獎(jiǎng)勵(lì)如圖11、12所示,測(cè)試1 000回合后的結(jié)果如表8、9所示。

      圖11 場(chǎng)景二測(cè)試過(guò)程中各算法的決策成功率對(duì)比Fig.11 Comparison of strategy success rate of each algorithm during test processin scenario two

      圖12 場(chǎng)景二測(cè)試過(guò)程中各算法的平均獎(jiǎng)勵(lì)對(duì)比Fig.12 Comparison of average reward of each algorithm during test processin scenario two

      表8 場(chǎng)景二各算法測(cè)試結(jié)果對(duì)比Table 8 Comparison of test results of each algorithm in scenario two

      結(jié)合圖11、12和表8分析可知,在場(chǎng)景二的測(cè)試過(guò)程中,本文方法較Dueling DDQN、DDQN、DQN在成功率方面分別高出4.2、7.7、15.1個(gè)百分點(diǎn),在平均獎(jiǎng)勵(lì)、平均累計(jì)步數(shù)、平均速度方面本文方法也均高于其他方法,且4種算法在測(cè)試1 000回合后的平均獎(jiǎng)勵(lì)為10.85、10.12、9.51、9.09,與場(chǎng)景一中的測(cè)試結(jié)果相比,各算法的平均獎(jiǎng)勵(lì)分別下降了0.06、0.30、0.53、0.63,成功率分別下降了2.5、5.8、8.5、13.2個(gè)百分點(diǎn)。其中DQN下降幅度最大,原因是DQN使用最大化的方法來(lái)計(jì)算目標(biāo)值,這樣的計(jì)算方式往往使得算法得到次優(yōu)的決策策略,同時(shí)DQN等概率的抽樣方式使得一些重要性較高的經(jīng)驗(yàn)樣本被忽略,從而降低了訓(xùn)練過(guò)程中網(wǎng)絡(luò)參數(shù)的更新效率,最終導(dǎo)致DQN在更復(fù)雜的場(chǎng)景中的測(cè)試結(jié)果的成功率和平均獎(jiǎng)勵(lì)較低。

      由表9可知,在各算法發(fā)生碰撞的回合中,本文方法單回合執(zhí)行步數(shù)小于10的回合數(shù)(單回合執(zhí)行步數(shù)為30)所占比例最低,為6.58%,Dueling DDQN、DDQN、DQN依次升高,為16.10%、59.48%、66.08%。其中DQN和DDQN單回合執(zhí)行步數(shù)小于10的比例分別是本文方法的10.04倍和9.04倍,由此可見(jiàn),DDQN和DQN的碰撞相對(duì)集中發(fā)生測(cè)試過(guò)程的前三分之一階段,說(shuō)明這兩種算法的適應(yīng)性較差,無(wú)法根據(jù)測(cè)試過(guò)程中環(huán)境車輛的狀態(tài)變化做出最優(yōu)的動(dòng)作。

      表9 場(chǎng)景二各算法碰撞回合中單回合步數(shù)分布比例Table 9 Proportion of reward value distribution in successful rounds of each algorithm in scenario two%

      對(duì)比場(chǎng)景一和場(chǎng)景二的測(cè)試結(jié)果可知,4種算法的得到平均獎(jiǎng)勵(lì)均有所下降,原因是隨著測(cè)試場(chǎng)景的復(fù)雜程度增加,導(dǎo)致無(wú)人車換道決策的成功率和平均速度的下降,同時(shí)無(wú)人車發(fā)生碰撞的次數(shù)增多,使得單回合內(nèi)獲得的步數(shù)獎(jiǎng)勵(lì)減少,最終導(dǎo)致平均獎(jiǎng)勵(lì)的下降。

      3.4.3 算法測(cè)試場(chǎng)景三

      測(cè)試場(chǎng)景三設(shè)定禮貌因子p=0,環(huán)境車輛的車流量采用US-101道路中車流量最大的部分,即1~4號(hào)車道和5號(hào)車道的車流量分別約為144輛/min和64輛/min,即單回合車流量分別為72輛/回合和32輛/回合。4種算法在場(chǎng)景三中測(cè)試1 000回合后的結(jié)果如表10所示。

      表10 場(chǎng)景三各算法測(cè)試結(jié)果對(duì)比Table 10 Comparison of test results of various algorithm in scenario three

      由表10可知,在場(chǎng)景三的測(cè)試過(guò)程中,本文方法較Dueling DDQN、DDQN、DQN在成功率方面分別高出6.9、13.3、24.0個(gè)百分點(diǎn),在平均獎(jiǎng)勵(lì)、平均累計(jì)步數(shù)、平均速度方面本文方法也均高于其他方法,且4種算法在測(cè)試1 000回合后的平均獎(jiǎng)勵(lì)為10.76、9.89、9.04、8.54,與場(chǎng)景二中的測(cè)試結(jié)果相比,各算法的平均獎(jiǎng)勵(lì)分別下降了0.09、0.23、0.47、0.55,成功率分別下降了2.2、4.9、7.8、11.1個(gè)百分點(diǎn)。隨著測(cè)試場(chǎng)景環(huán)境車輛車流量的增大,場(chǎng)景的復(fù)雜程度增加,本文方法的成功率和平均獎(jiǎng)勵(lì)下降幅度最小,說(shuō)明該方法對(duì)于復(fù)雜環(huán)境的適應(yīng)性更強(qiáng),這是由于加入了優(yōu)先級(jí)經(jīng)驗(yàn)回放的機(jī)制,使得重要性更高的樣本被抽取的概率增加,進(jìn)而增加了算法訓(xùn)練時(shí)的網(wǎng)絡(luò)參數(shù)的更新效率,同時(shí)競(jìng)爭(zhēng)結(jié)構(gòu)的存在使得該算法在更新主網(wǎng)絡(luò)參數(shù)時(shí)價(jià)值函數(shù)被優(yōu)先更新,導(dǎo)致在當(dāng)前狀態(tài)下所有的Q值均被更新,從而更準(zhǔn)確地得到了每個(gè)動(dòng)作所對(duì)應(yīng)的Q值。

      對(duì)比3種場(chǎng)景中各算法的測(cè)試結(jié)果,如表11所示。

      表11 3種場(chǎng)景中各算法測(cè)試的平均結(jié)果對(duì)比Table 11 Comparison of average results of each algorithm test in three scenarios

      由表11可知,在3種場(chǎng)景的平均測(cè)試成功率方面,本文方法最高,為92.50%,比Dueling DDQN、DDQN和DQN算法的分別高出4.0、7.6、14.5個(gè)百分點(diǎn);在平均獎(jiǎng)勵(lì)方面,本文方法最高,為10.84。由此說(shuō)明,本文方法可以更好地理解外部環(huán)境狀態(tài)的變化,同時(shí)具有更好的魯棒性和更強(qiáng)的適用性。

      4 結(jié)束語(yǔ)

      針對(duì)傳統(tǒng)DQN在高速公路場(chǎng)景下的無(wú)人車換道決策中存在過(guò)估計(jì)且收斂速度較慢的問(wèn)題,本文提出一種基于改進(jìn)深度Q網(wǎng)絡(luò)的無(wú)人車換道決策模型。首先將得到的無(wú)人車與環(huán)境車的狀態(tài)值分別輸入到主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)中,進(jìn)而將動(dòng)作的選擇和評(píng)估解耦,提高了網(wǎng)絡(luò)的穩(wěn)定性,解決了網(wǎng)絡(luò)的過(guò)估計(jì)問(wèn)題;然后在網(wǎng)絡(luò)中加入競(jìng)爭(zhēng)結(jié)構(gòu),使模型對(duì)動(dòng)作價(jià)值的估計(jì)更加準(zhǔn)確;最后通過(guò)增加重要樣本被回放的概率,提升網(wǎng)絡(luò)的更新效率和收斂速度。實(shí)驗(yàn)結(jié)果表明,相比于傳統(tǒng)DQN等算法,改進(jìn)的深度Q網(wǎng)絡(luò)在訓(xùn)練和測(cè)試的決策成功率、平均獎(jiǎng)勵(lì)、平均累計(jì)步數(shù)方面上均有提升;測(cè)試結(jié)果也表明,該方法的魯棒性更強(qiáng),在車流量更大、環(huán)境車輛駕駛風(fēng)格更激進(jìn)的測(cè)試場(chǎng)景中仍能保持92%以上的換道決策成功率。

      雖然本文算法在不同場(chǎng)景的測(cè)試結(jié)果中均能保持較高的換道決策成功率,但只能應(yīng)對(duì)離散的動(dòng)作空間問(wèn)題,接下來(lái)的研究將聚焦于使用Actor-Critic的強(qiáng)化學(xué)習(xí)方法,以此來(lái)應(yīng)對(duì)連續(xù)動(dòng)作空間中的無(wú)人車換道決策問(wèn)題。

      猜你喜歡
      車道無(wú)人決策
      北斗+手機(jī)實(shí)現(xiàn)車道級(jí)導(dǎo)航應(yīng)用
      為可持續(xù)決策提供依據(jù)
      避免跟車闖紅燈的地面車道線
      淺談MTC車道改造
      決策為什么失誤了
      無(wú)人戰(zhàn)士無(wú)人車
      反擊無(wú)人機(jī)
      詩(shī)到無(wú)人愛(ài)處工
      無(wú)人超市會(huì)流行起來(lái)嗎?
      低速ETC/MTC混合式收費(fèi)車道的設(shè)計(jì)與實(shí)現(xiàn)
      波密县| 郓城县| 内江市| 敦化市| 连州市| 苗栗市| 庐江县| 阳山县| 荔浦县| 温宿县| 织金县| 高清| 大同县| 辽源市| 旌德县| 隆安县| 彩票| 揭西县| 霍山县| 佛教| 肃宁县| 定州市| 霍城县| 隆林| 肃宁县| 平昌县| 肇庆市| 武宁县| 正蓝旗| 香港| 岳阳市| 巴东县| 枣阳市| 梁山县| 大石桥市| 丰城市| 涞水县| 托克逊县| 自贡市| 松溪县| 沙田区|