• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度強(qiáng)化學(xué)習(xí)的高速公路換道跟蹤控制模型

      2022-02-01 12:36:42李文禮邱凡珂廖達(dá)明任勇鵬
      關(guān)鍵詞:軌跡誤差車輛

      李文禮,邱凡珂,廖達(dá)明,任勇鵬,易 帆

      (1.重慶理工大學(xué) 汽車零部件先進(jìn)制造技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,重慶 400054,中國;2.重慶理工清研凌創(chuàng)測控科技有限公司,重慶 400054,中國)

      高速公路行駛工況具有車速快、車輛多等特點(diǎn),駕駛員很容易在換道時操作失誤,導(dǎo)致碰撞事故發(fā)生。根據(jù)數(shù)據(jù)統(tǒng)計(jì),在中國大陸,換道引發(fā)的交通事故約占總事故的10%[1],因此對高速公路換道行為進(jìn)行控制是智能汽車控制技術(shù)中尤為重要的一部分。其中換道路徑的規(guī)劃是能否高效安全完成換道任務(wù)的前提和基礎(chǔ);對換道路徑的精準(zhǔn)跟蹤則是成功換道的關(guān)鍵,許多學(xué)者對這2 個方面進(jìn)行了深入研究。

      車輛換道路徑規(guī)劃方法主要分為基于搜索、概率、幾何等[2]?;谒阉骱透怕实姆椒ù嬖趯?shí)時性較差的缺點(diǎn),在對實(shí)時性要求較高的自動駕駛領(lǐng)域中使用較少。而基于幾何的方法使用參數(shù)化曲線描繪軌跡,規(guī)劃結(jié)果直觀、精確,運(yùn)算量相對更少。

      WANG Chang 等人[3]針對車道變換過程采用七次多項(xiàng)式車道變換模型對車輛進(jìn)行控制,結(jié)果表明該模型適用于不同速度的車道變換軌跡規(guī)劃。楊剛等人[4]基于五次多項(xiàng)式函數(shù)設(shè)計(jì)換道曲線,將軌跡參數(shù)求解問題轉(zhuǎn)化為約束設(shè)計(jì)和解目標(biāo)函數(shù)問題,通過設(shè)計(jì)優(yōu)化指標(biāo)確定換道軌跡,取得了良好的效果。閆堯等人[5]為了追求換道過程中的舒適性和平穩(wěn)性,利用五次多項(xiàng)式換道軌跡方法,同時建立了平均曲率最小、曲線長度最短的多目標(biāo)函數(shù),規(guī)劃出了智能車輛的最優(yōu)軌跡。

      在路徑跟蹤決策控制方面,常用的方法包括基于規(guī)則與基于學(xué)習(xí)[6]。基于規(guī)則的方法主要參考專家經(jīng)驗(yàn)或交通規(guī)則,結(jié)合具體場景進(jìn)行合理控制,但缺乏靈活性,在動態(tài)變化的復(fù)雜交通行駛場景下無法很好控制?;趯W(xué)習(xí)的方法則是通過離線學(xué)習(xí)復(fù)雜場景中的駕駛員數(shù)據(jù)信息獲得合理駕駛策略,然后直接利用從當(dāng)前駕駛環(huán)境中感知到的信息輸出控制指令給車輛,使車輛更接近人類駕駛特性行駛。對于換道路徑跟蹤決策控制來說,由于換道過程屬于連續(xù)狀態(tài)的動作,可采用深度強(qiáng)化學(xué)習(xí)的方法,利用深度神經(jīng)網(wǎng)絡(luò)對連續(xù)狀態(tài)空間下的決策問題進(jìn)行處理,從而達(dá)到從傳感器輸入到執(zhí)行器輸出的端到端控制。WANG Pin 等人[7]提出了一種基于深度Q 網(wǎng)絡(luò)(deep Q-network,DQN)算法的強(qiáng)化學(xué)習(xí)方法,訓(xùn)練車輛完成自動變道行為控制,獲得了高效、平穩(wěn)、安全的最佳變道駕駛策略。賀伊琳等人[8]針對軌跡跟蹤過程中橫向控制問題,提出了一種基于深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法的智能車輛軌跡跟蹤方法,通過驗(yàn)證表明基于DDPG 方法所用學(xué)習(xí)時間較短,跟蹤誤差較小。裴曉飛等人[9]針對連續(xù)動作空間下的自動駕駛換道決策,采用雙延遲深度確定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法,考慮安全性、行車效率和舒適性等因素構(gòu)建了自主換道模型。

      綜上,本文基于深度強(qiáng)化學(xué)習(xí)DDPG 算法研究高速行駛場景下智能車輛換道過程。首先利用五次多項(xiàng)式搭建換道路徑模型并建立跟蹤誤差函數(shù),然后將車輛與規(guī)劃的換道路徑之間的跟蹤過程描述為試錯式深度強(qiáng)化學(xué)習(xí)過程,將車輛三自由度動力學(xué)模型融入深度強(qiáng)化學(xué)習(xí)環(huán)境中,與深度強(qiáng)化學(xué)習(xí)主體Agent 進(jìn)行交互并傳遞自車與規(guī)劃的五次多項(xiàng)式換道路徑之間的橫向誤差、橫擺角角誤差等信息,主體以DDPG 算法進(jìn)行更新,構(gòu)造相應(yīng)的Actor-Critic 神經(jīng)網(wǎng)絡(luò),輸出換道前輪轉(zhuǎn)角信息,完成對換道軌跡跟蹤過程中期望前輪轉(zhuǎn)角的學(xué)習(xí),實(shí)現(xiàn)車輛換道決策控制。最后通過Matlab/ Simulink 搭建上述換道決策模型,并構(gòu)建相應(yīng)場景對決策模型的性能進(jìn)行測試,驗(yàn)證了該換道控制模型的有效性。

      1 深度強(qiáng)化學(xué)習(xí)及換道場景概述

      1.1 深度強(qiáng)化學(xué)習(xí)

      深度強(qiáng)化學(xué)習(xí)是深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合的產(chǎn)物,既具有深度神經(jīng)網(wǎng)絡(luò)的特征提取能力又包含強(qiáng)化學(xué)習(xí)的決策優(yōu)勢,能基于深度神經(jīng)網(wǎng)絡(luò)解決從感知到?jīng)Q策控制的端到端學(xué)習(xí)[10]。

      強(qiáng)化學(xué)習(xí)方法通過與環(huán)境交互進(jìn)行試錯學(xué)習(xí),使模型自主探索得到控制系統(tǒng)最優(yōu)決策,其基本模型框架用Markov 決策過程(Markov decision process,MDP)來描述[11]。Markov決策過程,可用表示環(huán)境狀態(tài)空間S、行為動作空間A、狀態(tài)轉(zhuǎn)移概率函數(shù)P、獎勵回報(bào)函數(shù)R的四元組<S,A,P,R>來刻畫。強(qiáng)化學(xué)習(xí)問題最終目的是求解模型最優(yōu)策略,在該策略下能得到最大累積獎勵期望值。引入值函數(shù)用于判斷策略的優(yōu)劣,包括狀態(tài)值函數(shù)和動作值函數(shù)。求解值函數(shù)有基于表格的和基于數(shù)值的2 種函數(shù)逼近方法。前者是構(gòu)造一張表格,其中,將狀態(tài)值作為行、將動作值作為列,通過持續(xù)循環(huán)迭代更新表中的數(shù)值,但狀態(tài)空間集合較大時求解難度增大。因此基于值函數(shù)即通過深度神經(jīng)網(wǎng)絡(luò)逼近最優(yōu)值函數(shù)獲得最優(yōu)控制策略的方法應(yīng)用越來越廣泛。

      1.2 車輛高速換道場景

      根據(jù)換道動機(jī)和周圍環(huán)境影響因素,換道行為可分為強(qiáng)制換道和自由換道2 種,其中自由換道是為了更好的駕駛環(huán)境和更高的駕駛效率而進(jìn)行換道操作。在高速公路場景中以自由換道比較常見,所以本文只針對自由換道行為進(jìn)行研究。介于車輛換道行為主要發(fā)生在低密度交通流行駛過程中,本文只考慮處于交通流密度較低的高速公路雙車道平直路面環(huán)境中,前方車輛緩行時本車向左側(cè)變道情況。

      圖1 為高速公路換道場景示意圖。

      圖1 高速公路雙車道換道場景示意圖

      車輛從當(dāng)前行駛車道初始位置A向左駛?cè)肽繕?biāo)車道并最終換到目標(biāo)位置B。當(dāng)橫向位移達(dá)到車道寬度W時視為換道完成。根據(jù)我國的公路建設(shè)行業(yè)標(biāo)準(zhǔn),取車道寬度W=3.75 m。

      對高速行駛車輛做以下簡化:

      1)x軸方向保持勻速行駛;

      2) 當(dāng)開始換道時不受其他車輛干擾;

      3) 由于高速自主換道速度較高,換道過程中航向角較小,因此假設(shè)車輛橫向與縱向速度間影響忽略不計(jì)。

      2 基于深度強(qiáng)化學(xué)習(xí)車輛高速換道模型

      2.1 換道路徑模型

      車輛在高速公路場景下的換道路徑模型首先需要選擇換道軌跡線型。換道軌跡需要滿足以下要求:

      1) 滿足實(shí)際駕駛情形,并是可以實(shí)現(xiàn)的;

      2) 一階、二階導(dǎo)函數(shù)需要連續(xù)可導(dǎo);

      3) 軌跡變化平穩(wěn)且光滑。

      在關(guān)于換道軌跡的研究中,較多使用多項(xiàng)式曲線作為換道軌跡。多項(xiàng)式曲線具有計(jì)算量小、軌跡光滑、曲率連續(xù)、適應(yīng)性強(qiáng)、可靠性高等優(yōu)點(diǎn),而且只需要知道車輛換道的初始和結(jié)束時刻的運(yùn)動狀態(tài),可適用于復(fù)雜交通狀況下的換道軌跡規(guī)劃。在多項(xiàng)式換道軌跡中通常使用五次或七次多項(xiàng)式,多項(xiàng)式函數(shù)表達(dá)式為:

      根據(jù)函數(shù)表達(dá)式對2 曲線的軌跡進(jìn)行仿真對比,如圖2 所示。

      由圖2 可知:五次多項(xiàng)式具有更小的橫擺角峰度以及更平滑的橫擺角變化,換道過程中產(chǎn)生的橫向加速度更小,具有更佳的穩(wěn)定性和舒適度。本文采用五次多項(xiàng)式曲線對車輛換道進(jìn)行換道軌跡的規(guī)劃,換道軌跡示意圖如圖3 所示。

      圖2 多項(xiàng)式換道軌跡對比

      圖3 換道軌跡示意圖

      假設(shè)換道初始位置和結(jié)束位置均在車道中心線上,換道起始點(diǎn)縱向位置設(shè)為x(t0),起始橫向位置為y(t0),經(jīng)過橫向位移W,縱向位移D完成換道后恢復(fù)直線行駛,換道終止時車輛的縱向位置設(shè)為x(te),橫向位置為y(te)。根據(jù)換道過程知換道軌跡曲線函數(shù)應(yīng)滿足以下條件:

      式中:vx0為車輛初始時刻的縱向速度,vxe為結(jié)束時刻的縱向速度,t0為換道開始時刻,te為換道持續(xù)時間即終止時刻。

      將上式代入(1)可得五次多項(xiàng)式系數(shù)ak,即:

      由此可得換道參考路徑的側(cè)向位置y關(guān)于換道縱向總位移D、換道橫向總位移W、換道參考路徑的橫向位置坐標(biāo)x的表達(dá)式:

      根據(jù)換道過程中縱向速度不改變的假設(shè),即vx0=vxe=vx,上式可表示為關(guān)于換道時間t的曲線函數(shù)(其中td為換道過程總時間):

      2.2 跟蹤誤差函數(shù)

      完成五次多項(xiàng)式換道路徑規(guī)劃后需要對參考路徑進(jìn)行跟蹤,涉及到橫向軌跡跟蹤時主要通過橫向位置偏差ey和橫擺角速度偏差eε進(jìn)行跟蹤[12],因此構(gòu)建對應(yīng)的換道路徑跟蹤誤差函數(shù)。根據(jù)安裝在車輛上的傳感器等設(shè)備獲取當(dāng)前的車輛位置信息,通過對比參考路徑在當(dāng)前時刻下橫向位置信息可計(jì)算出橫向位置偏差。考慮到在換道過程中并沒有一條實(shí)際道路,無法直接通過攝像頭獲得道路曲率,因此通過規(guī)劃的參考路徑曲率來代替實(shí)際道路曲率[13],進(jìn)而求出期待橫擺角速度。

      若令:vy為車輛橫向車速,ay為車輛橫向加速度,f代表參考路徑的某一點(diǎn),表示參考路徑在某一點(diǎn)的導(dǎo)數(shù);則由上述換道參考路徑表達(dá)式計(jì)算出待追蹤的五次多項(xiàng)式路徑的曲率為

      結(jié)合車輛縱向速度和道路曲率可求出期望橫擺角速度γrel=vx ρ,再通過對比車輛當(dāng)前時刻的橫擺角速度可以獲得橫擺角速度偏差eε。

      2.3 換道路徑跟蹤控制模型

      結(jié)合換道路徑跟蹤誤差函數(shù),采用DDPG 算法控制自動駕駛車輛完成換道路徑的跟蹤,實(shí)現(xiàn)換道駕駛過程,跟蹤控制模型總體算法框架如圖4 所示。

      圖4 換道跟蹤決策控制算法框架

      算法框架包括強(qiáng)化學(xué)習(xí)訓(xùn)練和應(yīng)用驗(yàn)證過程:在強(qiáng)化學(xué)習(xí)訓(xùn)練過程中,強(qiáng)化學(xué)習(xí)智能體作為控制器,通過輸出被控車輛的前輪轉(zhuǎn)角進(jìn)而控制車輛跟蹤換道軌跡。換道過程中的車輛位置信息和五次多項(xiàng)式參考路徑信息輸入給跟蹤模型擬合出強(qiáng)化學(xué)習(xí)狀態(tài)信息St輸出給智能體,同時根據(jù)輸出的信息構(gòu)建獎勵函數(shù),智能體綜合狀態(tài)信息和回報(bào)值根據(jù)訓(xùn)練策略做出控制動作At控制車輛調(diào)整運(yùn)動狀態(tài),此時車輛位置信息發(fā)生變化,進(jìn)入下一控制狀態(tài)St+1,回報(bào)函數(shù)根據(jù)上一狀態(tài)值做出的動作所獲得的反饋信息進(jìn)行評估并更新獎勵Rt+1,智能體更新策略并最終獲取最佳控制策略。訓(xùn)練結(jié)束后進(jìn)行應(yīng)用驗(yàn)證,將最佳控制策略輸出給決策層,并根據(jù)感知層中本車的運(yùn)動狀態(tài)和生成的換道軌跡等狀態(tài)信息輸出動作,控制車輛完成換道過程。

      2.3.1 車輛動力學(xué)模型

      對于換道路徑跟蹤控制首先需要建立被控制對象的車輛動力學(xué)模型,而換道路徑的跟蹤控制主要關(guān)注車輛的側(cè)向運(yùn)動和位姿,因此搭建了僅考慮沿y軸的側(cè)向運(yùn)動、繞z軸的橫擺運(yùn)動和沿x軸的側(cè)傾運(yùn)動的三自由度簡化車輛動力學(xué)模型[14]。

      根據(jù)Newton 第二定律得出汽車動力學(xué)方程為

      式中:Iz為車輛繞軸的轉(zhuǎn)動慣量;lf和lr分別為質(zhì)心到前、后軸的距離;δf為車輛前輪轉(zhuǎn)角;為車輛橫擺角;Cf、Cr分別為前后輪輪胎剛度。

      根據(jù)上述公式建立車輛動力學(xué)模型,其中:Cf、Cr、lf、lr為車輛參數(shù),當(dāng)輸入前輪轉(zhuǎn)角δf后,可得,車輛當(dāng)前的橫向速度Vy、橫向加速度ay、橫擺角ψ等信息。

      2.3.2 Markov 決策過程建模

      1) 狀態(tài)空間。

      狀態(tài)空間是用來幫助自動駕駛汽車確定做出決策后發(fā)生的情況,所選取的狀態(tài)量需要全面反映當(dāng)前時刻下車輛的所有特征值[15]。在車輛換道軌跡跟蹤控制中的狀態(tài)量主要包括車輛與規(guī)劃換道軌跡之間的橫向誤差ey、橫擺角速度偏差eε以及兩者的積分值和跟蹤路徑曲率ρ,除此之外還包括通過自車傳感器所獲取的當(dāng)前時刻下相對起始點(diǎn)的橫向位移dy、自車橫向速度vy、橫向加速度ay。其狀態(tài)空間定義為

      式中:ey為車輛與規(guī)劃換道軌跡之間的橫向誤差,eε為橫擺角速度偏差,t為時間,ρ為跟蹤路徑的曲率,dy為當(dāng)前時刻相對起始點(diǎn)的橫向位移,vy為自車橫向速度,ay為橫向加速度。

      2) 動作空間。

      動作空間中包含被控制車輛所需要執(zhí)行的動作指令,在換道路徑跟蹤過程中主要是通過控制車輛的橫向運(yùn)動完成對路徑跟蹤的目的,因此動作空間為被控車輛的前輪轉(zhuǎn)角δf。控制器結(jié)合上述的三自由度車輛動力學(xué)模型,將強(qiáng)化學(xué)習(xí)輸出的前輪轉(zhuǎn)角轉(zhuǎn)化為車輛參數(shù)vx、vy、ψ的改變,車輛的位置信息(x,y)隨之發(fā)生改變。其動作空間定義為

      3) 獎勵函數(shù)。

      獎勵函數(shù)的設(shè)置可引導(dǎo)智能體與環(huán)境的交互,使輸出的動作決策能夠接近最佳策略,在換道路徑跟蹤控制中獎勵函數(shù)的設(shè)計(jì)用于調(diào)整輸出的前輪轉(zhuǎn)角動作值。換道路徑跟蹤的目標(biāo)在于跟蹤精準(zhǔn)性、換道高效性、行駛舒適性,因此基于這幾個方面設(shè)計(jì)獎勵函數(shù)。

      針對跟蹤精準(zhǔn)性,可根據(jù)橫向位置偏差ey和橫擺角eε速度偏差來評價(jià),將橫向位置偏差和角偏差的計(jì)算總和作為基礎(chǔ)設(shè)計(jì)跟蹤精準(zhǔn)獎勵函數(shù)Rf。當(dāng)ey誤差減小到0.05 m 以內(nèi)時給予正值獎勵H,當(dāng)誤差大于0.1 m 時給予懲罰,鼓勵車輛減小與參考路徑在橫向和橫擺角之間的誤差值。令ω1、ω2、ω3分別代表各權(quán)重參數(shù)。精準(zhǔn)性獎勵函數(shù)為

      針對換道高效性,給予與橫向位移相關(guān)的正比獎勵Re。鼓勵車輛盡快完成換道過程,保證行車效率,當(dāng)時間大于1 s 時若車輛的橫向位移仍為0 則給予懲罰P,使自動駕駛車輛在規(guī)定時間能完成換道過程。高效性獎勵函數(shù)為

      式中,P為懲罰值。當(dāng)運(yùn)行時間大于1 s 時判斷車輛的橫向位移是否為0,若為0 則給予懲罰,若不為0 則隨著橫向位移增加,正比獎勵值增大。

      針對舒適性,前輪轉(zhuǎn)向角越小,變化越平穩(wěn),換道行為決策舒適性也越好,因此基于前輪轉(zhuǎn)角設(shè)計(jì)舒適性獎勵函數(shù)Rc。舒適性獎勵函數(shù)為

      最終綜合獎勵函數(shù)為

      其中,M為模型懲罰。

      另外,對控制過程設(shè)置終止條件,當(dāng)滿足自車相對于初始位置橫向位移|dy|=3.75 m 或橫向位移偏差|ey|>1 m 時,終止當(dāng)前回合,進(jìn)入下一回合,并重新配置環(huán)境狀態(tài)值;同時在觸及終止條件時,給予模型懲罰M,以防止橫向誤差過大。

      2.3.3 基于DDPG 算法的路徑跟蹤控制模型

      對換道路徑跟蹤設(shè)計(jì)了基于DDPG 算法的控制模型,其中強(qiáng)化學(xué)習(xí)主體使用DDPG 算法更新策略。DDPG 算法屬于異步策略算法中的一種,是基于Actor-Critic 框架的無模型算法,其網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。

      圖5 DDPG 網(wǎng)絡(luò)結(jié)構(gòu)圖

      Actor-Critic 框架包括了Actor 和Critic 2 個神經(jīng)網(wǎng)絡(luò)。Actor 網(wǎng)絡(luò)依據(jù)環(huán)境給出的狀態(tài)觀測量S預(yù)測出一個決策動作A,環(huán)境根據(jù)給出的動作計(jì)算出獎勵r并產(chǎn)生一個新的狀態(tài);Critic 網(wǎng)絡(luò)根據(jù)當(dāng)前的狀態(tài)量S和動作值A(chǔ)計(jì)算出獎勵Q,然后通過Q更新Actor 網(wǎng)絡(luò)的策略函數(shù)參數(shù)θμ,Critic 網(wǎng)絡(luò)的參數(shù)θQ則根據(jù)智能體的獎勵函數(shù)進(jìn)行更新,通過循環(huán)迭代最終訓(xùn)練出最佳Actor 網(wǎng)絡(luò)和最佳決策動作值。

      為了解決采樣樣本相關(guān)性問題,算法使用一個經(jīng)驗(yàn)回放池用于儲存之前的動作狀態(tài)轉(zhuǎn)移序列(St,At,Rt+1,St+1),在梯度更新時隨機(jī)地從經(jīng)驗(yàn)池中抽取交互的樣本。

      為了克服網(wǎng)絡(luò)更新不穩(wěn)定的問題,DDPG 算法分別復(fù)制在線策略Actor 網(wǎng)絡(luò)μ'和在線價(jià)值Critic 網(wǎng)絡(luò)Q'作為其更新目標(biāo)稱為目標(biāo)網(wǎng)絡(luò),在訓(xùn)練完一個小批量的數(shù)據(jù)后,通過軟更新算法目標(biāo)網(wǎng)絡(luò)的參數(shù)。

      另外,在探索訓(xùn)練過程中引入了隨機(jī)OU (Ornstein-Uhlenbeck,奧恩斯坦-烏倫貝克)噪聲N,將動作的決策過程從確定性變?yōu)橐粋€隨機(jī)過程μ’(S),再從這個隨機(jī)過程中采樣得到動作的值

      對換道路徑跟蹤控制模型而言,DDPG 算法對神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)更新的過程如下:

      1) 主網(wǎng)絡(luò)中的Actor 網(wǎng)絡(luò)在狀態(tài)量St下根據(jù)加入隨機(jī)噪聲的策略做出動作At并通過執(zhí)行器控制車輛與環(huán)境交互進(jìn)入下一狀態(tài)量St+1及產(chǎn)生當(dāng)前動作的價(jià)值Rt+1;

      2) 將產(chǎn)生的樣本數(shù)據(jù)(St,At,Rt+1,St+1)儲存到經(jīng)驗(yàn)回放池中,當(dāng)存儲一定數(shù)量的樣本數(shù)據(jù)之后從中隨機(jī)采樣小批量樣本數(shù)據(jù)(Si,Ai,Ri+1,Si+1);

      3) 將目標(biāo)動作和下一狀態(tài)量共同作為目標(biāo)網(wǎng)絡(luò)中的Actor 網(wǎng)絡(luò)的輸入得到目標(biāo)值Q'然后根據(jù)公式得到目標(biāo)回報(bào)值

      式中,γ表示折扣因子;

      4) 通過最小化損失函數(shù)更新主網(wǎng)絡(luò)的Critic 網(wǎng)絡(luò)參數(shù),將Si,Ai共同作為Critic 網(wǎng)絡(luò)的輸入得到實(shí)際值Q然后根據(jù)誤差公式得到Critic 網(wǎng)絡(luò)的誤差,然后通過最小化誤差對網(wǎng)絡(luò)進(jìn)行更新

      5) 通過策略梯度△θμJ更新主網(wǎng)絡(luò)的Actor 網(wǎng)絡(luò)參數(shù);

      6) 采用滑動平均的方式對目標(biāo)網(wǎng)絡(luò)的Actor 和Critic 網(wǎng)絡(luò)進(jìn)行軟更新,其中更新參數(shù)τ<<1:

      3 模型仿真與分析

      為了驗(yàn)證所提出基于深度強(qiáng)化學(xué)習(xí)的換道跟蹤決策控制模型的有效性,本文利用MATLAB/Simulink仿真平臺,采用DDPG 算法結(jié)合Simulink 中Agent 模塊構(gòu)建仿真環(huán)境,對智能車輛換道過程的路徑跟蹤過程進(jìn)行仿真與分析。

      3.1 仿真環(huán)境設(shè)置

      強(qiáng)化學(xué)習(xí)仿真訓(xùn)練時采用的車輛模型參數(shù)如表1所示,根據(jù)車輛高速換道場景參數(shù)定義搭建仿真場景,設(shè)定在訓(xùn)練過程中被控車輛的初始位置固定為(0,0) m,縱向初始速度在15~30 m/s 之間隨機(jī)取值,設(shè)定每個片段的仿真時間Tf=4 s,采樣時間周期Ts=0.05 s,強(qiáng)化學(xué)習(xí)訓(xùn)練過程中的其他超參數(shù)如表2 所示,所有超參數(shù)的設(shè)置參考文獻(xiàn)[8]及文獻(xiàn)[15]并經(jīng)過多次實(shí)驗(yàn)經(jīng)驗(yàn)調(diào)整確定。

      表1 智能車參數(shù)

      表2 訓(xùn)練超參數(shù)

      3.2 仿真模型的搭建

      在MATLAB 中設(shè)計(jì)好DDPG 網(wǎng)絡(luò)及仿真環(huán)境后,需在Simulink 中搭建基于DDPG 算法的換道跟蹤控制仿真模型,設(shè)置被控車輛的位置和運(yùn)動參數(shù),與Agent交互狀態(tài)、動作和獎勵。仿真系統(tǒng)框圖如圖6 所示。

      圖6 仿真模型框架

      路徑生成模塊根據(jù)每次隨機(jī)的速度結(jié)合五次多項(xiàng)式生成換道路徑并輸出每個時刻下的縱向坐標(biāo)值和橫擺角給跟蹤誤差函數(shù),結(jié)合車輛位姿信息和參考路徑信息計(jì)算出橫向誤差和角偏差,將跟蹤控制器分析狀態(tài)觀測值,根據(jù)訓(xùn)練好的跟蹤策略輸出車輛前輪轉(zhuǎn)角對車輛進(jìn)行換道跟蹤控制,最終完成換道過程。動作值的獎罰信息會反饋給控制器,用于評價(jià)控制效果。

      3.3 模型仿真測試及結(jié)果分析

      3.3.1 模型訓(xùn)練

      DDPG 算法學(xué)習(xí)過程中主要通過回合獎勵和平均獎勵值來反映訓(xùn)練的收斂水平和學(xué)習(xí)效果。圖7 為該控制模型整個訓(xùn)練過程中的獎勵值變化及最后100 個回合的獎勵值變化。平均獎勵值越高控制效果越好,實(shí)驗(yàn)過程一共進(jìn)行了350 個回合的訓(xùn)練。在訓(xùn)練剛開始的階段,獎勵值較大且上下波動幅度較大,主要是由于此時智能體處于從零開始學(xué)習(xí)的過程,只是通過隨機(jī)選擇動作進(jìn)行探索。隨著訓(xùn)練回合數(shù)增加,獎勵值開始減小同時波動幅度逐漸減小,證明此時智能體開始學(xué)習(xí)利用之前探索到的經(jīng)驗(yàn)調(diào)整當(dāng)前動作。在第33 回合左右及第64 回合左右時,獎勵值出現(xiàn)一些幅度較小的波動,是由于DDPG 模型為了避免算法陷入局部最優(yōu)解而加入了隨機(jī)噪聲的原因;在第93 回合左右之后波動又逐漸減小,在第117 回合左右之后獎勵值開始增大,這說明此時開始探索到更優(yōu)的策略,控制效果逐漸變好。在250 回合之后獎勵值的波動趨于平緩,可以看出:此時算法基本收斂,智能體成功學(xué)習(xí)到換道路徑跟蹤的有效控制策略。

      圖7 模型訓(xùn)練獎勵值變化情況

      3.3.2 模型測試結(jié)果及分析

      為了驗(yàn)證所設(shè)計(jì)的換道控制模型的可靠性及有效性,本文利用Matlab/Simulink 搭建控制模型仿真系統(tǒng),建立對應(yīng)的高速換道場景,分別采用所提出的基于DDPG 算法和MPC(模型預(yù)測控制)算法[16],分別選擇初始車速60、100 km/h 對自動駕駛車輛換道路徑進(jìn)行跟蹤,對仿真結(jié)果對比與分析。結(jié)果如圖8-圖13 所示。對于換道軌跡跟蹤控制系統(tǒng)來說,控制目標(biāo)是通過靈活調(diào)整前輪轉(zhuǎn)角的控制量來不斷減少跟蹤軌跡與參考軌跡的誤差,主要包括橫向位置誤差和角誤差,要求車輛在換道過程中減小橫向位置誤差并且穩(wěn)定角偏差。

      圖8 和圖11 分別是60 km/h 低速和100 km/h 高速下橫向位置跟蹤值與規(guī)劃參考值的對比圖,

      圖8 60 km/h 車速下橫向位置的跟蹤值與規(guī)劃參考值

      圖9 60 km/h 車速下橫擺角的跟蹤值與規(guī)劃參考值

      圖10 60 km/h 車速下側(cè)向加速度

      圖11 100 km/h 車速下橫向位置的跟蹤值與規(guī)劃參考值

      圖9 和圖12 分別為60 km/h 低速和100 km/h 高速下橫擺角跟蹤值與規(guī)劃參考值的對比圖。從圖中看出:當(dāng)?shù)退偾闆r下時2 種方法控制的橫向誤差絕對值的最大值分別接近5、35 cm;橫向誤差絕對值的最小值接近于0;角偏差絕對值最大值分別接近2、16 mrad,說明在低速情況下2 種方法均能完成對換道軌跡的跟蹤。在高速情況下2 種方法控制的橫向誤差絕對值的最大值分別為0.12 m 和0.35 m 左右;角偏差絕對值最大值為10 mrad 和70 mrad 左右,可以看出DDPG 控制的橫向位置誤差絕對值相對更小,說明在高速的情況下所設(shè)計(jì)的控制系統(tǒng)基本可以準(zhǔn)確跟蹤參考軌跡,僅在換道開始的過程相對于參考路徑有一定滯后,但考慮到車速較高,跟蹤誤差在可接受的范圍內(nèi)。而采用MPC控制方法在換道過程中產(chǎn)生了較大的橫向偏差和角偏差,對換道路徑的跟蹤效果不佳。同時,DDPG 控制方法仿真時間較短,在3.2 s 時達(dá)到側(cè)向位移3.75 m完成換道過程,而MPC 控制方法的仿真時長稍長,證明所提出的方法在高速情況下?lián)Q道更具高效性,能在更短時間內(nèi)完成換道過程。

      圖12 100 km/h 車速下橫擺角的跟蹤值與規(guī)劃參考值

      另外,圖10 和圖13 為換道過程中側(cè)向加速度變化值對比圖。從中可以看出:DDPG 控制下整個仿真過程中車輛側(cè)向加速度變化率保持在一定范圍內(nèi),保證了換道過程中駕駛員的舒適性,而MPC 方法控制在高速換道情況下時側(cè)向加速度變化較大,可能會產(chǎn)生過大的轉(zhuǎn)角而導(dǎo)致乘員產(chǎn)生不適感。

      圖13 100 km/h 車速下側(cè)向加速度

      綜上所述,在車輛速度較低時DDPG 控制方法和MPC 控制方法均能很好地對換道軌跡進(jìn)行跟蹤,但在高速情況下DDPG 控制方法相對MPC 控制方法具有更高的跟蹤精度和跟蹤穩(wěn)定性,并且保證了換道的高效性和舒適性。

      4 結(jié)論

      本文基于深度確定性策略梯度算法,利用五次多項(xiàng)式建立換道路徑并給出跟蹤誤差函數(shù),結(jié)合車輛三自由度動力學(xué)模型及深度強(qiáng)化學(xué)習(xí)框架設(shè)計(jì)搭建了一種高速換道路徑跟蹤控制模型。通過Markov 決策過程建立模型的狀態(tài)空間、動作空間、獎勵函數(shù)及終止條件,保證換道路徑跟蹤過程的精確性、高效性和舒適性。利用通過DDPG 算法進(jìn)行更新的2 個神經(jīng)網(wǎng)絡(luò)對車輛輸出動作進(jìn)行調(diào)整,實(shí)現(xiàn)了對五次多項(xiàng)式換道路徑跟蹤控制策略的學(xué)習(xí)。將學(xué)習(xí)到的最優(yōu)策略在設(shè)計(jì)的高速換道場景下進(jìn)行驗(yàn)證。

      結(jié)果表明:本文提出的控制方法在100 km/h 的高速情況下橫向位置誤差絕對值的最大值接近0,角偏差絕對值最大值為10 mrad,車輛側(cè)向加速度變化保持在1 m/s2范圍內(nèi),既保證了換道軌跡跟蹤精度,同時具有良好舒適性。

      猜你喜歡
      軌跡誤差車輛
      角接觸球軸承接觸角誤差控制
      哈爾濱軸承(2020年2期)2020-11-06 09:22:26
      軌跡
      軌跡
      Beidou, le système de navigation par satellite compatible et interopérable
      壓力容器制造誤差探究
      軌跡
      車輛
      進(jìn)化的軌跡(一)——進(jìn)化,無盡的適應(yīng)
      中國三峽(2017年2期)2017-06-09 08:15:29
      冬天路滑 遠(yuǎn)離車輛
      車輛出沒,請注意
      长汀县| 五大连池市| 甘肃省| 江口县| 永丰县| 华蓥市| 临夏市| 高清| 伊宁市| 尤溪县| 闸北区| 普陀区| 安徽省| 河曲县| 孙吴县| 肇庆市| 银川市| 四平市| 边坝县| 龙州县| 建宁县| 安新县| 都昌县| 普兰县| 凌源市| 景德镇市| 讷河市| 疏附县| 安顺市| 容城县| 石狮市| 广灵县| 调兵山市| 翁源县| 绥宁县| 平阳县| 杂多县| 应城市| 莱州市| 荔浦县| 新营市|