• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于逆向強(qiáng)化學(xué)習(xí)的縱向自動(dòng)駕駛決策方法*

      2022-08-04 07:19:26高振海閆相同
      汽車工程 2022年7期
      關(guān)鍵詞:本車方根逆向

      高振海,閆相同,高 菲

      (吉林大學(xué),汽車仿真與控制國家重點(diǎn)實(shí)驗(yàn)室,長春 130022)

      前言

      汽車縱向自動(dòng)駕駛決策策略研究是現(xiàn)階段自動(dòng)駕駛研究領(lǐng)域的核心方向之一。如何學(xué)習(xí)人的行為規(guī)律從而建立決策與控制規(guī)則,提高自動(dòng)駕駛車輛的乘坐體驗(yàn)是當(dāng)前研究的熱點(diǎn)。

      在前期的縱向自動(dòng)駕駛研究中,強(qiáng)化學(xué)習(xí)方法是主要研究方法之一。強(qiáng)化學(xué)習(xí)方法是一種用于描述和解決智能體(agent)在與環(huán)境的交互過程中通過學(xué)習(xí)策略達(dá)成回報(bào)最大化或?qū)崿F(xiàn)特定目標(biāo)的方法,與基于規(guī)則的系統(tǒng)相比,基于強(qiáng)化學(xué)習(xí)的系統(tǒng)不需要人為構(gòu)建規(guī)則庫,僅通過強(qiáng)化學(xué)習(xí)算法訓(xùn)練得到?jīng)Q策控制策略控制自動(dòng)駕駛汽車。Charles 等在協(xié)同自適應(yīng)定速巡航(cooperative adaptive cruise control,CACC)系統(tǒng)中使用強(qiáng)化學(xué)習(xí)方法,在仿真環(huán)境有效地實(shí)現(xiàn)CACC 的性能。高振海等在仿真場景中使用Q 學(xué)習(xí)算法建立縱向自動(dòng)駕駛決策策略,在多個(gè)工況中進(jìn)行了分析測試。Ye等將深度學(xué)習(xí)深度確定性策略梯度(deep deterministic policy gradient,DDPG)方法與車輛高保真模型結(jié)合起來,換道和跟車行為相結(jié)合,將訓(xùn)練模型擴(kuò)展到更復(fù)雜的任務(wù)中。朱美欣等基于DDPG 算法考慮安全性、效率和舒適性定義獎(jiǎng)勵(lì)函數(shù),建立了自適應(yīng)巡航控制算法,其效果優(yōu)于傳統(tǒng)的模型預(yù)測控制(model predictive control,MPC)算法。

      強(qiáng)化學(xué)習(xí)方法的獎(jiǎng)勵(lì)函數(shù)依然依靠專家的經(jīng)驗(yàn)設(shè)計(jì),擬人化程度不高,得到的策略與人類駕駛員仍然存在差距,使自動(dòng)駕駛車輛存在乘員舒適性不足、道路上其他駕駛員難以預(yù)測自動(dòng)駕駛車輛的行為等問題。因此,研究者們從不同的角度進(jìn)行了擬人化自適應(yīng)巡航控制算法設(shè)計(jì)。Zhu 等提出了一種模仿人類駕駛員跟車的DDPG 算法,通過比較駕駛員經(jīng)驗(yàn)曲線和仿真輸出的距離、速度定義獎(jiǎng)勵(lì)函數(shù),最終得到了和人類駕駛行為相似的控制效果。Chen 等基于神經(jīng)Q 學(xué)習(xí)算法開發(fā)了一種個(gè)性化自適應(yīng)巡航制的學(xué)習(xí)模型,在線學(xué)習(xí)并模擬人類駕駛員的駕駛策略,具有比傳統(tǒng)方法更好的駕駛舒適性。不過,以上研究的獎(jiǎng)勵(lì)函數(shù)依然需要人為設(shè)計(jì),設(shè)計(jì)較為主觀,需要大量的調(diào)試工作才能實(shí)現(xiàn)較好的控制效果。

      逆向強(qiáng)化學(xué)習(xí)(inverse reinforcement learning,IRL)是一種能夠從專家的演示數(shù)據(jù)中推斷出獎(jiǎng)勵(lì)函數(shù),并利用該獎(jiǎng)勵(lì)函數(shù)學(xué)習(xí)策略,使得在該獎(jiǎng)勵(lì)函數(shù)下學(xué)習(xí)得到的最優(yōu)策略與專家的策略接近的方法。它與強(qiáng)化學(xué)習(xí)一樣,也是在馬爾科夫決策過程的框架內(nèi)構(gòu)建的。獎(jiǎng)勵(lì)函數(shù)在強(qiáng)化學(xué)習(xí)任務(wù)中起著至關(guān)重要的作用。的設(shè)置直接確定智能體將采用的策略。逆向強(qiáng)化學(xué)習(xí)使用逆向思維,假設(shè)專家在完成某項(xiàng)任務(wù)時(shí),其決策往往是最優(yōu)的或接近最優(yōu)的,通過比較專家的交互樣本和強(qiáng)化學(xué)習(xí)交互樣本的差別,學(xué)習(xí)得到獎(jiǎng)勵(lì)函數(shù)。因此,逆向強(qiáng)化學(xué)習(xí)算法能更好地解決自動(dòng)駕駛?cè)蝿?wù)中獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)存在的問題,使自動(dòng)駕駛車輛的行為更接近駕駛員駕駛的車輛。Gao 等使用逆向強(qiáng)化學(xué)習(xí)方法,對駕駛員的跟車決策行為進(jìn)行了研究,得到了不同駕駛員各自的獎(jiǎng)勵(lì)函數(shù)。You 等使用逆向強(qiáng)化學(xué)習(xí)算法,通過專家駕駛員示例得到最佳的自動(dòng)駕駛汽車策略,解決交通環(huán)境中自動(dòng)駕駛汽車的規(guī)劃問題,以提高通行效率。唐明弘等設(shè)計(jì)考慮安全性舒適性的獎(jiǎng)勵(lì)函數(shù),通過逆向強(qiáng)化學(xué)習(xí)方法對獎(jiǎng)勵(lì)函數(shù)更新,得到擬人化的ACC決策策略。

      本文中提出了一種逆向強(qiáng)化學(xué)習(xí)汽車縱向自動(dòng)駕駛決策方法。使用駕駛員在駕駛模擬器上的軌跡數(shù)據(jù),基于最大邊際逆向強(qiáng)化學(xué)習(xí)算法并建立相應(yīng)的獎(jiǎng)勵(lì)函數(shù),得到仿駕駛員的縱向自動(dòng)駕駛決策策略,最后通過仿真試驗(yàn)對決策策略進(jìn)行測試,并與駕駛員數(shù)據(jù)和強(qiáng)化學(xué)習(xí)策略對比。

      1 最大邊際逆向強(qiáng)化學(xué)習(xí)駕駛員決策模型

      最大邊際逆向強(qiáng)化學(xué)習(xí)縱向自動(dòng)駕駛決策模型的框架如圖1所示。

      圖1 逆向強(qiáng)化學(xué)習(xí)縱向自動(dòng)駕駛決策算法

      首先使用駕駛模擬器采集駕駛員駕駛車輛跟隨目標(biāo)車輛行駛的軌跡數(shù)據(jù);

      然后對強(qiáng)化學(xué)習(xí)(Q 學(xué)習(xí))方法的獎(jiǎng)勵(lì)函數(shù)和值函數(shù)進(jìn)行初始化;

      之后訓(xùn)練得到該獎(jiǎng)勵(lì)函數(shù)下的控制策略和行駛軌跡,通過計(jì)算車輛模型軌跡的特征期望和駕駛員數(shù)據(jù)的特征期望之間的差距(梯度),更新獎(jiǎng)勵(lì)函數(shù),重新進(jìn)行強(qiáng)化學(xué)習(xí)(Q 學(xué)習(xí))訓(xùn)練,重復(fù)訓(xùn)練,直到梯度足夠小,獲得仿駕駛員的決策策略。

      本文使用最大邊際逆向強(qiáng)化學(xué)習(xí)方法,直接從駕駛員駕駛數(shù)據(jù)中學(xué)習(xí)尋找一個(gè)能夠使強(qiáng)化學(xué)習(xí)得到的最優(yōu)策略π控制的動(dòng)作與駕駛員軌跡中的動(dòng)作一致的獎(jiǎng)勵(lì)函數(shù)。假設(shè)獎(jiǎng)勵(lì)函數(shù)是特征值(,)與權(quán)重矩陣的線性組合:

      特征值(,)間接地代表了環(huán)境的感知狀態(tài)。因此,在策略下的動(dòng)作值函數(shù)Q(,)可以表示為

      其中:

      式中:為折扣因子,本文中值為0.99。μ被稱為策略的特征期望,它決定了根據(jù)該策略執(zhí)行的動(dòng)作的預(yù)期折扣獎(jiǎng)勵(lì)總和。

      對于不同的兩個(gè)策略和,如果它們擁有相同的特性期望,它們會(huì)擁有相同的動(dòng)作值函數(shù)Q1和Q。

      因此,為使逆向強(qiáng)化學(xué)習(xí)得到的決策策略與駕駛員的決策接近,可以通過最小化駕駛員數(shù)據(jù)的特征期望μ和學(xué)習(xí)模型策略的特征期望μ之間的差距方式來實(shí)現(xiàn)。

      1.1 狀態(tài)集和動(dòng)作集設(shè)計(jì)

      在進(jìn)行自動(dòng)駕駛的縱向決策任務(wù)時(shí),需要考慮本車的行駛狀態(tài)和本車與目標(biāo)車的相互運(yùn)動(dòng)關(guān)系。同時(shí),為了便于設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)、易于收斂,選擇的狀態(tài)集和動(dòng)作集所包含的參數(shù)不能過多。本文選取的狀態(tài)集和動(dòng)作集包含的元素為={,,v},={a},如表1所示。

      表1 狀態(tài)集和動(dòng)作集的設(shè)計(jì)

      狀態(tài)集大小為(即狀態(tài)的總數(shù)),動(dòng)作集大小為(即動(dòng)作的總數(shù))。

      1.2 特征值選取和特征期望計(jì)算

      式中s為狀態(tài)集中第個(gè)狀態(tài)。

      然后,我們可以在時(shí)刻通過狀態(tài)-動(dòng)作特征表示(s,a)來擴(kuò)展該狀態(tài)特征。它是大小為×的行向量:

      其中f(∈[1,]))為維行向量:

      式中a為動(dòng)作集中第個(gè)動(dòng)作。

      駕駛員數(shù)據(jù)特征期望即為平均每條采集到的駕駛員軌跡數(shù)據(jù)的特征值之和,如式(8)所示。

      同理,學(xué)習(xí)模型策略的特征期望即為模型輸出的軌跡特征值之和,如式(9)所示。

      式中M為模型輸出的軌跡狀態(tài)動(dòng)作對的數(shù)量。

      1.3 獎(jiǎng)勵(lì)函數(shù)更新

      在得到駕駛員數(shù)據(jù)特征期望和學(xué)習(xí)模型特征期望之后,就可以得到它們之間的差距(即梯度),如式(10)所示。

      獎(jiǎng)勵(lì)函數(shù)如式(1)所示,獎(jiǎng)勵(lì)函數(shù)的更新實(shí)際上是更新權(quán)重矩陣(權(quán)重矩陣的初始值為0-1之間的隨機(jī)數(shù)),本文通過梯度下降法更新權(quán)重矩陣:

      式中為學(xué)習(xí)效率,本文中=0.05。

      當(dāng)梯度小于一定值時(shí)結(jié)束訓(xùn)練,得到權(quán)重矩陣和相應(yīng)的獎(jiǎng)勵(lì)函數(shù),進(jìn)而可以使用該獎(jiǎng)勵(lì)函數(shù)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練獲得仿駕駛員決策策略。

      2 仿真測試和結(jié)果分析

      2.1 典型工況駕駛員駕駛數(shù)據(jù)采集

      城市快速路是自動(dòng)駕駛汽車主要的行駛環(huán)境之一,本文使用駕駛模擬器采集熟練駕駛員在3 種常見的城市快速路工況下(如表2 所示)的駕駛數(shù)據(jù)(本車速度、本車加速度、相對距離、相對速度等)共120組。其中,采集駕駛員駕車以80 km/h(22.22 m/s)的初速度從相對距離40 m 處接近并跟隨勻速行駛的目標(biāo)車數(shù)據(jù),目標(biāo)車車速40 km/h(11.11 m/s)和60 km/h(16.67 m/s)各采集40 組;采集駕駛員跟隨目標(biāo)車40 km/h 勻速行駛,隨后加速到60 km/h 勻速行駛,再減速至60 km/h 勻速行駛數(shù)據(jù)40 組。單組數(shù)據(jù)時(shí)長30-50 s。本實(shí)驗(yàn)中駕駛員為男性,27 歲,駕齡7年。

      表2 工況設(shè)計(jì)

      將采集到的真實(shí)駕駛員實(shí)驗(yàn)數(shù)據(jù)按照不同工況使用Matlab曲線擬合工具箱中的傅里葉曲線擬合法擬合相對距離時(shí)間曲線和本車速度時(shí)間曲線。如圖2和圖3所示,圖中黑色粗線為擬合的具有統(tǒng)計(jì)規(guī)律的駕駛員曲線,其他曲線為采集的真實(shí)駕駛員實(shí)驗(yàn)數(shù)據(jù)曲線。

      圖2 接近勻速行駛目標(biāo)車

      圖3 跟隨變速目標(biāo)車

      2.2 仿真測試工況與數(shù)據(jù)分析

      為了與逆向強(qiáng)化學(xué)習(xí)算法的效果形成對比,本文使用前期研究中設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)構(gòu)建了強(qiáng)化學(xué)習(xí)(Q 學(xué)習(xí))算法。使用CarSim&Simulink 聯(lián)合仿真,搭建車輛動(dòng)力學(xué)模型和仿真訓(xùn)練環(huán)境。分別設(shè)計(jì)3種仿真訓(xùn)練工況(即本車以80 km/h(22.22 m/s)的初速度接近40 km/h(11.11 m/s)勻速行駛的目標(biāo)車;本車以80 km/h(22.22 m/s)的初速度接近60 km/h(16.67 m/s)勻速行駛的目標(biāo)車;本車和目標(biāo)車初速度均為40 km/h,目標(biāo)車先加速至60 km/h 保持勻速行駛后減速至40 km/h保持勻速行駛)進(jìn)行強(qiáng)化學(xué)習(xí)和逆向強(qiáng)化學(xué)習(xí)訓(xùn)練,并在訓(xùn)練完成后在相應(yīng)的環(huán)境中執(zhí)行得到的決策策略,測試實(shí)驗(yàn)結(jié)果。

      2.2.1 目標(biāo)車60 km/h勻速行駛

      設(shè)置本車初始速度80 km/h(22.22 m/s),目標(biāo)車以60 km/h(16.67 m/s)勻速行駛,目標(biāo)車和本車初始相對距離40 m,仿真時(shí)長30 s,具有統(tǒng)計(jì)規(guī)律的駕駛員曲線、強(qiáng)化學(xué)習(xí)和逆向強(qiáng)化學(xué)習(xí)仿真結(jié)果如圖4所示。

      圖4 本車接近60 km/h勻速目標(biāo)車仿真結(jié)果

      強(qiáng)化學(xué)習(xí)決策策略與駕駛員曲線的相對距離最大差值為2.79 m,均方根誤差為6.96%,本車速度最大差值1.55 m/s,均方根誤差2.81%;逆向強(qiáng)化學(xué)習(xí)決策策略與駕駛員曲線的相對距離最大差值為0.92 m,均方根誤差為2.28%,本車速度最大差值為0.76 m/s,均方根誤差為0.99%。

      2.2.2 目標(biāo)車40 km/h勻速行駛

      設(shè)置本車初始速度80 km/h(22.22 m/s),目標(biāo)車以40 km/h(11.11 m/s)勻速行駛,目標(biāo)車和本車初始相對距離40 m,仿真時(shí)長30 s,具有統(tǒng)計(jì)規(guī)律的駕駛員曲線、強(qiáng)化學(xué)習(xí)和逆向強(qiáng)化學(xué)習(xí)仿真結(jié)果如圖5所示。

      圖5 本車接近40 km/h勻速目標(biāo)車仿真結(jié)果

      強(qiáng)化學(xué)習(xí)決策策略與駕駛員曲線的相對距離最大差值為2.74 m,均方根誤差為9.75%,本車速度最大差值為1.87 m/s,均方根誤差6.71%;逆向強(qiáng)化學(xué)習(xí)決策策略與駕駛員曲線的相對距離最大差值為1.66 m,均方根誤差為6.00%,本車速度最大差值為1.26 m/s,均方根誤差為2.80%。

      2.2.3 目標(biāo)車變速行駛

      目標(biāo)車初始速度為40 km/h(11.11 m/s),本車初始速度為40 km/h(11.11 m/s),初始相對距離為6 m,仿真時(shí)長40 s。目標(biāo)車開始時(shí)保持40 km/h 勻速行駛,10 s 后目標(biāo)車開始加速至60 km/h 并保持勻速行駛,25 s 后目標(biāo)車減速至40 km/h 之后保持勻速行駛。具有統(tǒng)計(jì)規(guī)律的駕駛員曲線、強(qiáng)化學(xué)習(xí)和逆向強(qiáng)化學(xué)習(xí)仿真結(jié)果如圖6所示。

      圖6 本車接近變速目標(biāo)車仿真結(jié)果

      強(qiáng)化學(xué)習(xí)決策策略與駕駛員曲線的相對距離最大差值為1.06 m,均方根誤差為5.20%,本車速度最大差值為0.83 m/s,均方根誤差2.24%;逆向強(qiáng)化學(xué)習(xí)決策策略與駕駛員曲線的相對距離最大差值為0.95 m,均方根誤差為4.96%,本車速度最大差值為1.01 m/s,均方根誤差為2.01%。

      2.2.4 結(jié)果分析

      強(qiáng)化學(xué)習(xí)決策策略、逆向強(qiáng)化學(xué)習(xí)決策策略的相對距離和本車速度與具有統(tǒng)計(jì)規(guī)律的駕駛員相對距離和本車速度曲線的最大差距如圖7 所示,均方根誤差如圖8 所示??梢钥闯?,與強(qiáng)化學(xué)習(xí)決策策略相比,逆向強(qiáng)化學(xué)習(xí)決策策略與駕駛員的接近程度更高,在完成仿駕駛員決策任務(wù)中表現(xiàn)更好。

      圖7 學(xué)習(xí)算法與駕駛員曲線的最大差距

      圖8 學(xué)習(xí)算法與駕駛員曲線的均方根誤差

      3 結(jié)論

      本文中提出了一種基于逆向強(qiáng)化學(xué)習(xí)的仿駕駛員縱向自動(dòng)駕駛決策算法,并在仿真環(huán)境下進(jìn)行了測試驗(yàn)證。

      (1)建立了反應(yīng)車輛狀態(tài)-動(dòng)作特征的特征矩陣并明確車輛狀態(tài)-動(dòng)作信息和特征值之間的映射關(guān)系,利用駕駛員軌跡數(shù)據(jù)的特征期望和執(zhí)行模型輸出的策略得到的軌跡的特征期望,通過梯度下降法學(xué)習(xí)得到獎(jiǎng)勵(lì)函數(shù)。

      (2)從實(shí)驗(yàn)結(jié)果來看,與強(qiáng)化學(xué)習(xí)算法相比,逆向強(qiáng)化學(xué)習(xí)算法訓(xùn)練后得到的決策策略在各個(gè)工況下與人類駕駛員數(shù)據(jù)的均方根誤差減小了0.23%~4.68%,差距更小,一致性更高。

      (3)本文中將逆向強(qiáng)化學(xué)習(xí)算法應(yīng)用于縱向自動(dòng)駕駛決策任務(wù)中,直接輸出期望加速度進(jìn)而實(shí)現(xiàn)車輛縱向控制,實(shí)驗(yàn)結(jié)果表明逆向強(qiáng)化學(xué)習(xí)算法能夠?qū)崿F(xiàn)仿駕駛員縱向自動(dòng)駕駛決策。在后續(xù)的研究中,針對現(xiàn)有的逆向強(qiáng)化學(xué)習(xí)算法存在的當(dāng)狀態(tài)空間包含的狀態(tài)過多時(shí)算法不易收斂、速度和距離出現(xiàn)波動(dòng)等問題,以神經(jīng)網(wǎng)絡(luò)代替連續(xù)狀態(tài)空間的值函數(shù),探索仿駕駛員深度逆向強(qiáng)化學(xué)習(xí)自動(dòng)駕駛決策算法。

      猜你喜歡
      本車方根逆向
      方根拓展探究
      基于車輛對道路不滿意度的微觀換道決策
      復(fù)雜工況下二階碰撞時(shí)間自動(dòng)緊急制動(dòng)模型
      逆向而行
      融合改善型可行性檢驗(yàn)?zāi)P偷膿Q道跟蹤方法
      逆向解答
      均方根嵌入式容積粒子PHD 多目標(biāo)跟蹤方法
      揭開心算方根之謎
      數(shù)學(xué)魔術(shù)
      出租車正能量
      武平县| 湄潭县| 壤塘县| 本溪| 元阳县| 武鸣县| 仙居县| 海门市| 鹰潭市| 新乡市| 贵定县| 尚义县| 弋阳县| 宜阳县| 利津县| 克什克腾旗| 霍山县| 栾城县| 胶南市| 丰台区| 伊川县| 砚山县| 龙江县| 高邮市| 绿春县| 唐山市| 宜兰市| 襄樊市| 彭泽县| 抚顺县| 永济市| 资源县| 伊春市| 贡觉县| 宁化县| 盐边县| 资兴市| 桃园市| 北辰区| 叶城县| 福州市|