黃舒?zhèn)?何少煒 金智林
(南京航空航天大學(xué),機(jī)械結(jié)構(gòu)力學(xué)及控制國家重點(diǎn)實(shí)驗(yàn)室,南京 210016)
主題詞:高級(jí)駕駛輔助系統(tǒng) 自動(dòng)緊急制動(dòng) 深度強(qiáng)化學(xué)習(xí) 制動(dòng)安全性 乘坐舒適性
汽車自動(dòng)緊急制動(dòng)(Automatic Emergency Braking,AEB)系統(tǒng)作為一種新型主動(dòng)安全技術(shù),可以在駕駛員制動(dòng)不及時(shí)的情況下對(duì)車輛進(jìn)行自動(dòng)制動(dòng),避免碰撞事故的發(fā)生。
當(dāng)前,AEB系統(tǒng)的控制策略一般基于安全距離和安全時(shí)間對(duì)車輛的碰撞風(fēng)險(xiǎn)進(jìn)行評(píng)估[1-2],其中基于碰撞時(shí)間(Time To Collision,TTC)的縱向避撞算法性能較好,使用廣泛[3]。蘭鳳崇等[4]通過構(gòu)建分層控制實(shí)現(xiàn)自動(dòng)緊急制動(dòng),上層控制器基于設(shè)定的TTC閾值選取分級(jí)制動(dòng)減速度,下層控制器對(duì)制動(dòng)力進(jìn)行控制,能夠有效避免碰撞,但由于制動(dòng)減速度為有限的離散值,不能很好地適應(yīng)變化的工況,且制動(dòng)過程的加速度波動(dòng)較大,舒適性較差。劉樹偉[5]使用模糊控制策略對(duì)制動(dòng)壓力進(jìn)行控制,使制動(dòng)減速度變化平緩,在一定程度上提高了制動(dòng)過程的舒適性。楊為等[6]基于碰撞風(fēng)險(xiǎn)評(píng)估與車輛狀態(tài)設(shè)計(jì)模糊控制制動(dòng)策略,輸出的制動(dòng)減速度在一定范圍內(nèi)平穩(wěn)變化,較定值分級(jí)制動(dòng)策略舒適性更好,但制動(dòng)減速度的變化范圍仍然較小。通過設(shè)計(jì)制動(dòng)規(guī)則的方式難以實(shí)現(xiàn)制動(dòng)減速度在自動(dòng)緊急制動(dòng)過程中的連續(xù)變化,故考慮制動(dòng)減速度的連續(xù)變化是AEB 系統(tǒng)制動(dòng)策略設(shè)計(jì)中的重要問題。
強(qiáng)化學(xué)習(xí)是以目標(biāo)為導(dǎo)向的學(xué)習(xí)工具,在學(xué)習(xí)過程中,智能體通過與環(huán)境的交互來學(xué)習(xí)更符合長期回報(bào)的策略[7-8]。谷歌團(tuán)隊(duì)提出深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法,實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)在連續(xù)動(dòng)作空間決策與控制中的應(yīng)用[9],隨后,越來越多的研究將強(qiáng)化學(xué)習(xí)應(yīng)用于智能駕駛技術(shù)。其中,徐國艷[10]等在DDPG 算法基礎(chǔ)上增大樣本空間,進(jìn)行無人車避障學(xué)習(xí),在TORCS 平臺(tái)進(jìn)行避障效果仿真。Zhu[11]和Zhou[12]運(yùn)用深度強(qiáng)化學(xué)習(xí)構(gòu)建自動(dòng)駕駛跟車系統(tǒng),提高了智能車在交叉路口的行駛效率、燃油經(jīng)濟(jì)性和安全性。An[13]提出結(jié)合深度強(qiáng)化學(xué)習(xí)和車輛通信的變道系統(tǒng),在不需要車輛動(dòng)力學(xué)模型的情況下實(shí)現(xiàn)了直線駕駛和避撞動(dòng)作的學(xué)習(xí)。
本文將深度強(qiáng)化學(xué)習(xí)應(yīng)用在自動(dòng)緊急制動(dòng)系統(tǒng)制動(dòng)策略的設(shè)計(jì)中,得到的制動(dòng)策略可以根據(jù)車輛安全狀態(tài)的改變實(shí)時(shí)調(diào)整期望制動(dòng)加速度,實(shí)現(xiàn)對(duì)制動(dòng)過程的更精細(xì)控制,提高乘坐舒適性。
本文構(gòu)建的AEB仿真系統(tǒng)結(jié)構(gòu)如圖1所示,系統(tǒng)由強(qiáng)化學(xué)習(xí)制動(dòng)決策模塊、制動(dòng)執(zhí)行模塊、主車動(dòng)力學(xué)模型、前車運(yùn)動(dòng)學(xué)模型和獎(jiǎng)勵(lì)函數(shù)5個(gè)部分組成。強(qiáng)化學(xué)習(xí)制動(dòng)決策模塊基于兩車信息和獎(jiǎng)勵(lì)函數(shù)輸出的獎(jiǎng)勵(lì)值進(jìn)行制動(dòng)策略學(xué)習(xí),輸出期望減速度,經(jīng)制動(dòng)執(zhí)行模塊轉(zhuǎn)化為制動(dòng)力作用于主車動(dòng)力學(xué)模型,實(shí)現(xiàn)車輛自動(dòng)緊急制動(dòng)。
圖1 AEB仿真系統(tǒng)結(jié)構(gòu)
為了降低動(dòng)力學(xué)模型的復(fù)雜度,且不影響模型準(zhǔn)確性,作出如下假設(shè):以前輪轉(zhuǎn)角作為模型的輸入;將車輛簡化為單軌模型;忽略車輛側(cè)傾、垂向和俯仰運(yùn)動(dòng)。
將動(dòng)力學(xué)模型簡化為具有縱向、側(cè)向和橫擺運(yùn)動(dòng)的3自由度模型,如圖2所示,動(dòng)力學(xué)方程為:
式中,m為車輛質(zhì)量;vx、vy分別為車輛縱向與橫向速度;Fxf、Fxr分別為前、后輪切向力;Fyf=k1α1、Fyr=k2α2分別為前、后輪橫向力;k1、k2分別為前、后輪側(cè)偏剛度;α1、α2分別為前、后輪側(cè)偏角;δ為前輪轉(zhuǎn)角;Iz為車輛繞z軸的轉(zhuǎn)動(dòng)慣量;ω為車輛橫擺角速度;lf、lr分別為質(zhì)心與前、后軸的距離。
圖2 3自由度動(dòng)力學(xué)模型
α1、α2與車輛運(yùn)動(dòng)參數(shù)有關(guān):
式中,β=vx/vy為質(zhì)心側(cè)偏角;ξ=β+lfω/vy為前輪速度與x軸的夾角。
車輛在緊急制動(dòng)過程中發(fā)動(dòng)機(jī)不提供扭矩,動(dòng)力學(xué)模型的輸入變量為制動(dòng)力,則前、后輪縱向力為:
式中,F(xiàn)bf、Fbr分別為前、后輪制動(dòng)力;g為重力加速度;f為滾動(dòng)阻力系數(shù)。
制動(dòng)執(zhí)行機(jī)構(gòu)進(jìn)行期望制動(dòng)力的分配,前、后車輪制動(dòng)力分別為:
式中,aμ為期望制動(dòng)減速度。
為了設(shè)計(jì)和驗(yàn)證自動(dòng)緊急制動(dòng)策略,使用MATLAB的駕駛場(chǎng)景設(shè)計(jì)器(Driving Scenario Designer)構(gòu)建AEB仿真場(chǎng)景,在Simulink中搭建強(qiáng)化學(xué)習(xí)自動(dòng)緊急制動(dòng)策略,感知模塊選用Simulink環(huán)境提供的標(biāo)準(zhǔn)信息,如圖3所示,感知的狀態(tài)量包括主車速度ve、主車加速度ae、主車與前車的相對(duì)距離dr和相對(duì)速度vr,其中:
式中,vf為前車速度。
圖3 AEB測(cè)試場(chǎng)景示意
狀態(tài)量可表示為:
制動(dòng)決策模塊根據(jù)狀態(tài)量St和當(dāng)前學(xué)習(xí)到的制動(dòng)策略μAEB,決定輸出期望制動(dòng)減速度aμ,減速度被限制在0~9 m/s2范圍內(nèi),動(dòng)作量可表示為:
獎(jiǎng)勵(lì)函數(shù)決定了制動(dòng)決策模塊的制動(dòng)策略。獎(jiǎng)勵(lì)計(jì)算模塊根據(jù)每一時(shí)刻的狀態(tài)量計(jì)算獎(jiǎng)勵(lì)值輸出至決策模塊,引導(dǎo)決策模塊學(xué)習(xí)規(guī)則制定者需要的制動(dòng)策略。獎(jiǎng)勵(lì)函數(shù)為:
式中,rd為主車制動(dòng)至停止時(shí)與前車距離的獎(jiǎng)勵(lì)值。
獎(jiǎng)勵(lì)函數(shù)計(jì)算了當(dāng)前時(shí)刻碰撞時(shí)間與主車以當(dāng)前減速度制動(dòng)停止時(shí)間的差值,為防止出現(xiàn)分母為0,獎(jiǎng)勵(lì)值趨于無窮大的情況,統(tǒng)一在分母中加0.1。初始條件下,主車速度大于前車速度,且制動(dòng)減速度較小,該部分獎(jiǎng)勵(lì)值為負(fù),隨著制動(dòng)減速度的增大,主車速度下降,該部分獎(jiǎng)勵(lì)值逐漸增大,當(dāng)主車速度降至小于前車速度后,該部分獎(jiǎng)勵(lì)值仍隨主車速度的下降而增大,引導(dǎo)制動(dòng)策略使主車制動(dòng)至停止。若主車在距離前車5~8 m的區(qū)間內(nèi)停止,則附加高額的獎(jiǎng)勵(lì)值rd。經(jīng)試驗(yàn),取rd=200可以使制動(dòng)策略在該區(qū)間內(nèi)使車輛制動(dòng)至停止。
為在連續(xù)動(dòng)作空間輸出期望制動(dòng)加速度,強(qiáng)化學(xué)習(xí)算法選用深度確定性策略梯度DDPG算法。DDPG算法在演員評(píng)論家(Actor-Critic)網(wǎng)絡(luò)框架的基礎(chǔ)上,基于深度Q 網(wǎng)絡(luò)的經(jīng)驗(yàn)回放和目標(biāo)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)確定性策略梯度算法進(jìn)行了改進(jìn)[14]。
自動(dòng)緊急制動(dòng)策略強(qiáng)化學(xué)習(xí)算法如圖4 所示。在每個(gè)仿真時(shí)刻,演員網(wǎng)絡(luò)依據(jù)當(dāng)前狀態(tài)St輸出動(dòng)作量At到AEB 仿真環(huán)境,同時(shí)演員網(wǎng)絡(luò)與評(píng)論家網(wǎng)絡(luò)進(jìn)行參數(shù)的迭代更新。演員網(wǎng)絡(luò)與評(píng)論家網(wǎng)絡(luò)都包含獨(dú)立的評(píng)估網(wǎng)絡(luò)與目標(biāo)網(wǎng)絡(luò),以解決單一神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程不穩(wěn)定問題。演員網(wǎng)絡(luò)與評(píng)論家網(wǎng)絡(luò)分別表征制動(dòng)策略與制動(dòng)價(jià)值函數(shù)。制動(dòng)策略依據(jù)制動(dòng)狀態(tài)輸出期望制動(dòng)減速度aμ,制動(dòng)價(jià)值函數(shù)計(jì)算出給定狀態(tài)及采取的制動(dòng)動(dòng)作下的長期回報(bào)。在演員網(wǎng)絡(luò)和評(píng)論家網(wǎng)絡(luò)更新的過程中,首先計(jì)算提取出每份經(jīng)驗(yàn)預(yù)估回報(bào)Uk:
式中,Sk、Sk+1、Rk分別為提取的第k組經(jīng)驗(yàn)的初始狀態(tài)、下一時(shí)刻狀態(tài)和獎(jiǎng)勵(lì);λ為折損系數(shù),代表制動(dòng)策略學(xué)習(xí)過程中長期價(jià)值所占的比重;Q′AEB為目標(biāo)網(wǎng)絡(luò)制動(dòng)狀態(tài)價(jià)值函數(shù);μ′AEB為目標(biāo)網(wǎng)絡(luò)制動(dòng)策略。
圖4 自動(dòng)緊急制動(dòng)策略強(qiáng)化學(xué)習(xí)算法
隨后,評(píng)論家網(wǎng)絡(luò)的求解器使用式(10)計(jì)算制動(dòng)價(jià)值函數(shù)與預(yù)估回報(bào)的偏差L,并運(yùn)用梯度下降算法朝著偏差L減小的方向更新評(píng)估網(wǎng)絡(luò)制動(dòng)價(jià)值函數(shù)的參數(shù):
式中,QAEB為網(wǎng)絡(luò)制動(dòng)價(jià)值評(píng)估函數(shù);N為提取經(jīng)驗(yàn)的份數(shù);E為從經(jīng)驗(yàn)回放池中提取出的多組用于訓(xùn)練的狀態(tài)量與對(duì)應(yīng)獎(jiǎng)勵(lì)的集合。
演員網(wǎng)絡(luò)的求解器使用式(11)計(jì)算平均長期回報(bào)qa,并運(yùn)用梯度下降算法朝著qa梯度下降最快方向更新評(píng)估網(wǎng)絡(luò)制動(dòng)策略參數(shù):
目標(biāo)網(wǎng)絡(luò)的參數(shù)值則是在完成了一個(gè)最小數(shù)據(jù)集的訓(xùn)練后,使用緩慢更新(Soft Update)算法進(jìn)行更新:
激活函數(shù)選用線性整流(Rectified Linear Unit,ReLU)激活函數(shù)與雙曲正切激活函數(shù):
評(píng)論家網(wǎng)絡(luò)的結(jié)構(gòu)如圖5 所示,具有2 個(gè)輸入與1個(gè)輸出。演員網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示,為單輸入單輸出的神經(jīng)網(wǎng)絡(luò),用以表達(dá)制動(dòng)策略。選用Adam求解器進(jìn)行優(yōu)化求解,強(qiáng)化學(xué)習(xí)的訓(xùn)練參數(shù)如表1所示。
圖5 評(píng)論家網(wǎng)絡(luò)結(jié)構(gòu)
圖6 演員網(wǎng)絡(luò)結(jié)構(gòu)
表1 訓(xùn)練參數(shù)
為驗(yàn)證自動(dòng)緊急制動(dòng)策略的控制效果,參考中國新車評(píng)價(jià)規(guī)程(C-NCAP)測(cè)試規(guī)則[15],通過改變兩車的初始位置、初速度和初始制動(dòng)減速度,設(shè)計(jì)了前車靜止、前車慢行、前車減速3種直線工況。主車動(dòng)力學(xué)模型參數(shù)如表2所示。
參考文獻(xiàn)[4]中的分級(jí)制動(dòng)策略,設(shè)計(jì)傳統(tǒng)分級(jí)制動(dòng)AEB制動(dòng)策略與強(qiáng)化學(xué)習(xí)AEB制動(dòng)策略的對(duì)比測(cè)試方案。碰撞時(shí)間tTTC、制動(dòng)預(yù)警時(shí)間tfcw和各級(jí)制動(dòng)時(shí)間tbn的計(jì)算公式為:
式中,afcw=4 m/s2為駕駛員制動(dòng)預(yù)警減速度;treact=1.2 s 為駕駛員反應(yīng)時(shí)間;ab1=3.8 m/s2、ab2=5.3 m/s2、ab3=9.8 m/s2分別為第1級(jí)、第2級(jí)、第3級(jí)制動(dòng)減速度。
表2 車輛參數(shù)
tb1<tTTC≤tfcw時(shí),傳統(tǒng)AEB制動(dòng)策略開始介入,采取第1 級(jí)制動(dòng)減速度ab1;tb2<tTTC≤tb1時(shí),傳統(tǒng)AEB 制動(dòng)策略采用第2 級(jí)制動(dòng)減速度ab2;tTTC≤tb2時(shí),傳統(tǒng)AEB 制動(dòng)策略采用第3級(jí)制動(dòng)減速度ab3。
直線行駛前車靜止工況兩車初始距離為24 m,前車靜止,主車以30 km/h 速度行駛。實(shí)例仿真得到強(qiáng)化學(xué)習(xí)各回合獎(jiǎng)勵(lì)如圖7 所示,初始學(xué)習(xí)階段,制動(dòng)策略的獎(jiǎng)勵(lì)經(jīng)歷了振蕩下降,10 個(gè)回合后,獎(jiǎng)勵(lì)大幅上升,并穩(wěn)定在0 附近,制動(dòng)決策模塊獲得獎(jiǎng)勵(lì)較高的策略,且實(shí)現(xiàn)收斂。
圖7 前車靜止工況強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)
圖8所示為前車靜止工況的主車制動(dòng)減速度、兩車相對(duì)距離及相對(duì)速度仿真結(jié)果。從圖8中可以看出,前車靜止時(shí),強(qiáng)化學(xué)習(xí)AEB 與傳統(tǒng)AEB 系統(tǒng)都能有效制動(dòng),車輛停止時(shí)與前車的距離都在8 m左右。傳統(tǒng)AEB制動(dòng)策略在tTTC<tfcw后開始介入,采用第1級(jí)制動(dòng)減速度制動(dòng)至車輛停止。強(qiáng)化學(xué)習(xí)AEB系統(tǒng)的制動(dòng)策略是使用較小的制動(dòng)力長時(shí)間制動(dòng),保持一定的制動(dòng)減速度,車速變化均勻,具有更好的舒適性。
圖8 直道行駛前車靜止工況仿真結(jié)果
直道行駛前車慢行工況下,兩車初始距離15 m,前車以20 km/h 速度行駛,主車以30 km/h 速度行駛,仿真結(jié)果如圖9所示。由圖9a可見,由于存在噪聲引起的隨機(jī)性探索,學(xué)習(xí)過程的獎(jiǎng)勵(lì)存在一定波動(dòng),但總體上策略收斂。傳統(tǒng)分級(jí)制動(dòng)AEB 系統(tǒng)在2 s后才開始制動(dòng),兩車最小距離小于5 m,而強(qiáng)化學(xué)習(xí)AEB系統(tǒng)在兩車相距較遠(yuǎn)時(shí)即以小制動(dòng)減速度進(jìn)行制動(dòng),隨著兩車距離的減小,制動(dòng)減速度逐漸增大,保持兩車相對(duì)距離大于7.5 m,將兩車最小距離控制在更安全的范圍內(nèi),并且制動(dòng)減速度的增長是連續(xù)的,速度的變化也更平緩,制動(dòng)過程舒適性更好。強(qiáng)化學(xué)習(xí)AEB系統(tǒng)的制動(dòng)減速度在最初2 s 出現(xiàn)了小幅振蕩,這是制動(dòng)策略學(xué)習(xí)過程中加入的隨機(jī)噪聲帶來的隨機(jī)性探索造成的。若想減小振蕩,可以減小隨機(jī)噪聲方差或在獎(jiǎng)勵(lì)函數(shù)中加入對(duì)制動(dòng)減速度變化率的懲罰項(xiàng)。
圖9 直道行駛前車慢行工況仿真結(jié)果
直道行駛前車減速工況下,兩車初始距離為40 m,主車與前車初速度均為50 km/h,前車以4 m/s2的減速度制動(dòng)至停止結(jié)束,仿真結(jié)果如圖10所示。由圖10可知:制動(dòng)策略實(shí)現(xiàn)了收斂;強(qiáng)化學(xué)習(xí)AEB和傳統(tǒng)AEB系統(tǒng)都能使主車完全停止,保持兩車5 m 以上安全距離;強(qiáng)化學(xué)習(xí)AEB 系統(tǒng)的制動(dòng)減速度更小,但制動(dòng)持續(xù)時(shí)間長,速度的變化更為平緩。仿真結(jié)果表明,強(qiáng)化學(xué)習(xí)AEB 系統(tǒng)滿足C-NCAP 測(cè)試標(biāo)準(zhǔn)要求,同時(shí)兼顧了舒適性。
圖10 直道行駛前車減速工況仿真結(jié)果
研究中,考慮車輛的側(cè)向運(yùn)動(dòng)與橫擺運(yùn)動(dòng),以實(shí)現(xiàn)彎道自動(dòng)緊急制動(dòng)功能。在彎道工況中,設(shè)計(jì)前車靜止與前車慢行2種工況進(jìn)行仿真。前車靜止工況中,主車在半徑40 m的定曲率弧形道路上以恒定的前輪轉(zhuǎn)角行駛,主車速度30 km/h,前車靜止,兩車初始距離25 m。前車慢行工況中,前車以20 km/h 的速度沿弧形道路勻速行駛,主車初速度為30 km/h,兩車初始距離15 m。
在彎道行駛前車靜止工況中,主車保持2 m/s2的制動(dòng)減速度持續(xù)制動(dòng)至停車,主車與前車保持了7.5 m 的距離。兩車相對(duì)速度與相對(duì)距離如圖11所示。
圖11 彎道行駛前車靜止工況仿真結(jié)果
彎道行駛前車慢行工況仿真結(jié)果如圖12所示。在整個(gè)制動(dòng)過程中,制動(dòng)減速度控制在2 m/s2以下,速度變化平緩。制動(dòng)減速度隨著兩車距離的減小逐漸增大,在主車速度降至前車速度以下后,強(qiáng)化學(xué)習(xí)AEB 系統(tǒng)減小了制動(dòng)減速度將車輛制動(dòng)至停止,兩車的最小距離為8.7 m,保證了安全性。在這兩種工況下,強(qiáng)化學(xué)習(xí)制動(dòng)策略都實(shí)現(xiàn)了收斂。
圖12 彎道行駛前車慢行工況仿真結(jié)果
本文應(yīng)用深度強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)了適用于車輛3自由度動(dòng)力學(xué)模型的自動(dòng)緊急制動(dòng)策略,得到的強(qiáng)化學(xué)習(xí)自動(dòng)緊急制動(dòng)策略滿足C-NCAP 自動(dòng)緊急制動(dòng)測(cè)試標(biāo)準(zhǔn),在彎道制動(dòng)工況也能有效制動(dòng),且收斂性好,改善了制動(dòng)過程乘坐舒適性。在后續(xù)研究中還需針對(duì)制動(dòng)加速度的小幅振蕩問題、獎(jiǎng)勵(lì)函數(shù)形式以及神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)加以改進(jìn),力求得到更符合人類駕駛員習(xí)慣的制動(dòng)策略。