• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于WGAIL-DDPG(λ)的車輛自動(dòng)駕駛決策模型

      2022-01-27 04:34:20恒,呂飛,萬星,吳
      關(guān)鍵詞:增益調(diào)度決策

      張 明 恒,呂 新 飛,萬 星,吳 增 文

      (1.大連理工大學(xué) 工業(yè)裝備結(jié)構(gòu)分析國家重點(diǎn)實(shí)驗(yàn)室, 遼寧 大連 116024; 2.大連理工大學(xué) 汽車工程學(xué)院, 遼寧 大連 116024 )

      0 引 言

      近年來,隨著汽車保有量的逐漸增加,交通安全、道路通行效率問題日益嚴(yán)峻,而自動(dòng)駕駛被認(rèn)為是解決上述問題的有效途徑之一.從安全性方面來看,由于駕駛?cè)朔磻?yīng)不及時(shí)、處置不當(dāng)而造成的交通事故頻發(fā)[1],自動(dòng)駕駛在為人們提供舒適乘車體驗(yàn)的同時(shí),也有助于減少交通事故.從穩(wěn)定性的角度來看,以車輛在行駛過程中的換道行為為例,人類駕駛員在換道過程中有較強(qiáng)的頓挫感,自動(dòng)駕駛技術(shù)則可以顯著提升車輛在換道過程中的穩(wěn)定性與舒適性[2].基于信息處理過程,自動(dòng)駕駛可分為環(huán)境感知、決策規(guī)劃、運(yùn)動(dòng)控制3個(gè)階段[3].其中,決策規(guī)劃是實(shí)現(xiàn)自動(dòng)駕駛的關(guān)鍵技術(shù)之一.

      目前,主要有3種自動(dòng)駕駛決策規(guī)劃系統(tǒng)解決方案:基于規(guī)則的決策規(guī)劃系統(tǒng)[4-5]、基于深度學(xué)習(xí)的“端到端”決策規(guī)劃系統(tǒng)[6-7]和基于深度強(qiáng)化學(xué)習(xí)的決策規(guī)劃系統(tǒng)[8].現(xiàn)有的自動(dòng)駕駛決策規(guī)劃系統(tǒng)很大一部分是基于規(guī)則的,雖然可以滿足常規(guī)駕駛情況,但由于我國道路通行條件復(fù)雜,不能枚舉出所有可能遇到的事件,無法應(yīng)對(duì)一系列未經(jīng)考慮的突發(fā)情況[9],因此,依靠基于規(guī)則的決策規(guī)劃系統(tǒng)進(jìn)行自動(dòng)駕駛決策具有較高的安全隱患.基于深度學(xué)習(xí)的“端到端”決策規(guī)劃系統(tǒng)雖然取得了一定的成就[10],但深度學(xué)習(xí)網(wǎng)絡(luò)需要大量標(biāo)注好的樣本進(jìn)行網(wǎng)絡(luò)訓(xùn)練,其訓(xùn)練結(jié)果的優(yōu)劣很大程度上取決于訓(xùn)練樣本的選取,而且人工進(jìn)行大量訓(xùn)練樣本的標(biāo)注是不現(xiàn)實(shí)的[11],這些缺陷表明深度學(xué)習(xí)在自動(dòng)駕駛決策控制領(lǐng)域的應(yīng)用存在一定的局限性.基于深度強(qiáng)化學(xué)習(xí)的自適應(yīng)控制方法由于可以進(jìn)行自我學(xué)習(xí)和自我強(qiáng)化,在場(chǎng)景多變的自動(dòng)駕駛?cè)蝿?wù)中具有很好的泛化性,逐漸被應(yīng)用在自動(dòng)駕駛領(lǐng)域中[12].

      對(duì)于深度強(qiáng)化學(xué)習(xí),可靠性、學(xué)習(xí)效率和模型泛化能力是決策系統(tǒng)的基本要求.Gao等[13]基于強(qiáng)化學(xué)習(xí)算法提出了一種車輛決策模型,該模型在簡(jiǎn)單交通場(chǎng)景下表現(xiàn)出較好性能;為解決復(fù)雜場(chǎng)景下的駕駛決策問題,Zong等[14]基于DDPG(deep deterministic policy gradient)算法構(gòu)建了駕駛決策模型,該模型可以應(yīng)對(duì)復(fù)雜場(chǎng)景,但學(xué)習(xí)效率較低;為解決模型的計(jì)算效率問題,Anderson等[15]借鑒深度學(xué)習(xí)預(yù)訓(xùn)練技巧提出了一種強(qiáng)化學(xué)習(xí)預(yù)訓(xùn)練方法,該方法有效提高了強(qiáng)化學(xué)習(xí)訓(xùn)練效率,但還存在著試錯(cuò)成本高和安全性低等問題.

      DDPG算法在連續(xù)動(dòng)作的控制上表現(xiàn)優(yōu)異,可以很好地解決自動(dòng)駕駛汽車的連續(xù)控制問題,目前有關(guān)深度強(qiáng)化學(xué)習(xí)在自動(dòng)駕駛決策控制領(lǐng)域的研究,大都以DDPG作為基礎(chǔ)算法.黃志清等[16]通過TORCS(the open racing car simulator)平臺(tái)的不同賽道對(duì)DDPG算法進(jìn)行訓(xùn)練,并將訓(xùn)練結(jié)果與DQN(deep Q-learning network)算法進(jìn)行對(duì)比,結(jié)果表明DDPG算法在控制精度以及泛化性方面具有更好的效果;張斌等[17]基于DDPG算法提出了一種FEC-DDPG算法,該算法在消除非法駕駛策略的輸出上表現(xiàn)出了較大的優(yōu)越性,但無法在復(fù)雜路況下對(duì)車輛進(jìn)行較好的控制;Zou等[18]提出了一種DDPG-IL算法,通過引入雙經(jīng)驗(yàn)池來分別存儲(chǔ)專家數(shù)據(jù)和普通數(shù)據(jù),同時(shí)使用隨機(jī)采樣的方式打亂了兩個(gè)經(jīng)驗(yàn)池?cái)?shù)據(jù)的相關(guān)性,使算法具有更快的收斂速度和更好的性能.相關(guān)研究表明,以DDPG算法作為基礎(chǔ)算法進(jìn)行自動(dòng)駕駛控制決策系統(tǒng)的研究可以取得較理想的結(jié)果.

      基于此,本文基于深度強(qiáng)化學(xué)習(xí)理論提出一種用于車輛自動(dòng)駕駛決策的WGAIL-DDPG(λ)(Wasserstein generative adversarial nets-deep deterministic policy gradient(λ))模型.其中,針對(duì)強(qiáng)化學(xué)習(xí)模型構(gòu)建關(guān)鍵過程,基于車輛行駛性能要求對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行具體設(shè)計(jì);通過模仿學(xué)習(xí)策略的引入,提升模型的計(jì)算效率;通過增益調(diào)度器的設(shè)計(jì),保證從模仿學(xué)習(xí)到強(qiáng)化學(xué)習(xí)的平穩(wěn)過渡.

      1 基于WGAIL-DDPG(λ)的自動(dòng)駕駛決策模型

      1.1 模型框架

      本文提出的WGAIL-DDPG(λ)自動(dòng)駕駛決策模型框架如圖1所示.DDPG算法通過其Actor 網(wǎng)絡(luò)生成的駕駛策略加入隨機(jī)噪聲后作為判別器的一個(gè)輸入,判別器為經(jīng)過專家數(shù)據(jù)訓(xùn)練完成的GAN網(wǎng)絡(luò)的判別器,其以專家數(shù)據(jù)作為監(jiān)督信號(hào)對(duì)DDPG算法生成的駕駛策略進(jìn)行評(píng)分,評(píng)分與所設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)共同指導(dǎo)DDPG算法進(jìn)行更新.

      圖1 WGAIL-DDPG(λ)自動(dòng)駕駛決策模型框架Fig.1 Automatic driving decision model framework of WGAIL-DDPG(λ)

      DDPG算法框架如圖2所示.DDPG算法屬于Actor-Critic算法,由演員Actor和評(píng)論家Critic兩部分構(gòu)成.由于單個(gè)子網(wǎng)絡(luò)的學(xué)習(xí)過程不穩(wěn)定,DDPG借鑒了DQN中延時(shí)更新Target Net的經(jīng)驗(yàn),將Actor和Critic分別又細(xì)分為兩個(gè)子網(wǎng)絡(luò):Online Net與Target Net.兩者具有相同的網(wǎng)絡(luò)結(jié)構(gòu),但具有不同的網(wǎng)絡(luò)參數(shù),Online Net使用最新的網(wǎng)絡(luò)參數(shù),每隔一定步數(shù)對(duì)Target Net的網(wǎng)絡(luò)參數(shù)更新一次.Online Net與Target Net網(wǎng)絡(luò)參數(shù)的不同切斷了兩者之間的相關(guān)性,使網(wǎng)絡(luò)的學(xué)習(xí)過程更加穩(wěn)定.

      圖2 DDPG算法框架Fig.2 The framework of DDPG algorithm

      增益調(diào)度器的引入將模型分為模仿學(xué)習(xí)、模仿-強(qiáng)化學(xué)習(xí)過渡、強(qiáng)化學(xué)習(xí)3個(gè)階段.階段一是模仿學(xué)習(xí)階段,見圖1中增益調(diào)度器的黃色背景部分,其主要任務(wù)是讓智能體在專家策略指導(dǎo)下具備初級(jí)駕駛決策功能,解決強(qiáng)化學(xué)習(xí)前期試錯(cuò)次數(shù)過多問題;階段二是模仿學(xué)習(xí)向強(qiáng)化學(xué)習(xí)的平穩(wěn)過渡,即圖1中的綠色背景部分,其主要任務(wù)是防止模型在第三階段的探索過程中偏離初級(jí)駕駛策略的分布;階段三是強(qiáng)化學(xué)習(xí)階段,即圖1中的藍(lán)色背景部分,其主要任務(wù)是讓智能體通過與環(huán)境的交互,具備更高級(jí)的自動(dòng)駕駛決策功能.

      上述模型設(shè)計(jì)的關(guān)鍵環(huán)節(jié)在于兩方面:獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)和模仿-強(qiáng)化學(xué)習(xí)的過渡.其中,獎(jiǎng)勵(lì)函數(shù)用以評(píng)估強(qiáng)化學(xué)習(xí)過程優(yōu)劣,對(duì)模型訓(xùn)練結(jié)果具有關(guān)鍵影響;實(shí)現(xiàn)模仿學(xué)習(xí)向強(qiáng)化學(xué)習(xí)的平穩(wěn)過渡是保證在“自學(xué)”階段數(shù)據(jù)分布不偏離專家數(shù)據(jù)分布的重要條件.基于此,本文從車輛使用安全性、穩(wěn)定性兩方面出發(fā)對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行了具體設(shè)計(jì),通過所設(shè)計(jì)的增益調(diào)度器保證模仿學(xué)習(xí)向強(qiáng)化學(xué)習(xí)的平穩(wěn)過渡.

      1.2 數(shù)據(jù)來源

      對(duì)于實(shí)際車輛駕駛過程,影響駕駛?cè)藳Q策的主要外環(huán)境信息包括車輛因素、環(huán)境因素、道路因素[19].圖3為典型車輛行駛外環(huán)境信息示意圖,其中b為車輛中心與道路中線的距離,d反映本車與其他車輛的相對(duì)距離,W為當(dāng)前車道寬度,vx為車輛縱向速度,vy為車輛橫向速度,vz為車輛垂向速度,θ為車輛行駛方向與道路中心線的夾角.

      圖3 車輛行駛外環(huán)境信息示意圖Fig.3 Schematic diagram of external environment information of the running vehicle

      鑒于實(shí)際行車數(shù)據(jù)獲取難度及本文研究目的,本研究基于TORCS平臺(tái)進(jìn)行相關(guān)數(shù)據(jù)的獲取和模型驗(yàn)證工作.基于車輛行駛性能分析結(jié)果,本文所構(gòu)建的基礎(chǔ)數(shù)據(jù)庫由反映車輛安全性、穩(wěn)定性的兩類數(shù)據(jù)組成,如圖4所示.

      (a) TORCS平臺(tái)

      1.3 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

      強(qiáng)化學(xué)習(xí)過程是智能體在與環(huán)境交互過程中獲得最大獎(jiǎng)勵(lì)的過程[20].滿足行駛安全性是智能汽車發(fā)展的首要要求,在滿足安全性的基礎(chǔ)上再考慮穩(wěn)定性等其他要求.因此,從車輛自動(dòng)駕駛決策系統(tǒng)的功能屬性本質(zhì)要求分析,其一方面應(yīng)滿足車輛行駛的安全性要求,另一方面應(yīng)盡可能滿足行駛過程中的穩(wěn)定性以提升通行效率及乘坐舒適性.本文基于汽車行駛性能要求,從穩(wěn)定性、安全性兩方面對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行具體設(shè)計(jì).車輛在行駛過程中,從穩(wěn)定性的方面考慮,希望使橫向速度vy、車輛中心與道路中線的距離b盡可能小,以得到較大的沿道路中線的速度vxcosθ,同時(shí),希望垂直于道路平面的速度vz盡可能?。畯陌踩苑矫婵紤],希望智能體與其他車輛保持安全距離.同時(shí),為盡可能地使仿真平臺(tái)模擬現(xiàn)實(shí)環(huán)境,本文同時(shí)設(shè)計(jì)了復(fù)雜交通場(chǎng)景下的獎(jiǎng)勵(lì)函數(shù).

      其中,基于單車工況的DDPG模型和WGAIL-DDPG(λ)模型獎(jiǎng)勵(lì)函數(shù)分別為

      (1)

      (2)

      其中權(quán)重系數(shù)向量Cs=(c1c2c3c4)T,vs=(vxcosθ-|vy| -|vz| -|b|)T,λ為用于調(diào)整判別器長期監(jiān)督信號(hào)在強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)中占有的權(quán)重的超參數(shù),Si是來自生成對(duì)抗模仿學(xué)習(xí)模塊中判別器網(wǎng)絡(luò)的評(píng)分.

      復(fù)雜交通場(chǎng)景中存在其他車輛時(shí),相應(yīng)模型的獎(jiǎng)勵(lì)函數(shù)分別為

      (3)

      (4)

      其中權(quán)重系數(shù)向量Cm=(c1c2c3c4c5)T,vm=(vxcosθ-|vy| -|vz| -|b| -vxd)T,fdmg為車輛碰撞時(shí)仿真平臺(tái)返回的受損程度.

      1.4 增益調(diào)度器設(shè)計(jì)

      增益調(diào)度器設(shè)計(jì)的基本目標(biāo)是實(shí)現(xiàn)從模仿學(xué)習(xí)階段向強(qiáng)化學(xué)習(xí)階段的平穩(wěn)過渡.借鑒人類學(xué)習(xí)過程,在模仿學(xué)習(xí)階段,判別器打分對(duì)生成器動(dòng)作優(yōu)化起主要作用;在強(qiáng)化學(xué)習(xí)階段,獎(jiǎng)勵(lì)函數(shù)對(duì)智能體動(dòng)作優(yōu)化起主要作用.因此,λ應(yīng)具有隨模型訓(xùn)練進(jìn)程逐漸平滑衰減的特性,以保證模型的穩(wěn)定性,且模型中對(duì)應(yīng)的強(qiáng)化學(xué)習(xí)部分的權(quán)重與λ應(yīng)滿足和為1這一特性.

      線性衰減曲線隨著訓(xùn)練次數(shù)n的逐漸增加呈線性下降,且衰減程度恒定.若衰減程度過大,可能會(huì)出現(xiàn)過渡不平穩(wěn)的情形,在模型訓(xùn)練中表現(xiàn)為強(qiáng)化學(xué)習(xí)階段的決策分布偏離專家數(shù)據(jù)的決策分布;若衰減程度過小,則過渡階段的訓(xùn)練次數(shù)會(huì)有所增加,與本文提出的通過引入模仿學(xué)習(xí)提升強(qiáng)化學(xué)習(xí)效率的策略相悖.指數(shù)衰減型曲線在保證快速衰減的同時(shí)具有一定的平滑性,初始階段衰減程度隨訓(xùn)練次數(shù)n的增加逐漸增加,快速向強(qiáng)化學(xué)習(xí)階段過渡;結(jié)束階段,衰減程度隨n的增加逐漸減小,趨于穩(wěn)定,滿足增益調(diào)度器的設(shè)計(jì)要求.

      基于此,本文所設(shè)計(jì)的增益調(diào)度器模型為

      (5)

      式中:N0為增益調(diào)度器幅值,α為指數(shù)衰減常數(shù).

      為驗(yàn)證增益調(diào)度器設(shè)計(jì)的有效性,當(dāng)α=0.5時(shí),增益調(diào)度器特性變化曲線如圖5所示.

      圖5 增益調(diào)度器特性曲線Fig.5 Gain regulator characteristic curve

      可見,在模型訓(xùn)練起始階段[n0,n1),λ=1,表明判別器打分對(duì)生成器動(dòng)作優(yōu)化起主要作用,而獎(jiǎng)勵(lì)函數(shù)不起作用;隨訓(xùn)練次數(shù)逐漸增加,獎(jiǎng)勵(lì)函數(shù)權(quán)重逐漸增大,而判別器監(jiān)督作用逐漸降低,從而實(shí)現(xiàn)了從模仿學(xué)習(xí)到強(qiáng)化學(xué)習(xí)的平穩(wěn)過渡.

      從模仿學(xué)習(xí)到強(qiáng)化學(xué)習(xí)的過渡過程中,不同的λ所對(duì)應(yīng)的算法如表1所示.

      表1 λ-算法類型對(duì)應(yīng)關(guān)系Tab.1 Correspondence relationship of λ-algorithm type

      可見,本文所設(shè)計(jì)的WGAIL-DDPG(λ)算法兼具了模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的優(yōu)點(diǎn),在[n0,n1]階段,智能體在專家數(shù)據(jù)的指引下能盡快地學(xué)會(huì)基本駕駛策略,大大降低了探索空間;在[n2,n3]階段,智能體在與環(huán)境交互的過程中不斷探索更高級(jí)的駕駛策略.另外,上述設(shè)計(jì)的增益調(diào)度器實(shí)現(xiàn)了從模仿學(xué)習(xí)到強(qiáng)化學(xué)習(xí)的平穩(wěn)過渡.

      2 模型測(cè)試及結(jié)果分析

      基于本文研究目的,以下分別針對(duì)模型性能、適應(yīng)性和學(xué)習(xí)效率進(jìn)行相關(guān)測(cè)試和分析.

      2.1 性能測(cè)試

      在設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)時(shí),本文重點(diǎn)考慮了自動(dòng)駕駛車輛的穩(wěn)定性、安全性,因此本文對(duì)上述性能進(jìn)行了測(cè)試.

      2.1.1 穩(wěn)定性 穩(wěn)定性是表征汽車操縱特性的基礎(chǔ)性能之一,本文利用歸一化之后的智能體偏離道路中線的距離2b/W評(píng)價(jià)自動(dòng)駕駛控制系統(tǒng)的平穩(wěn)性.2b/W越接近0,說明控制系統(tǒng)的循跡穩(wěn)定性越好;反之,說明車輛偏離道路或左右擺動(dòng)趨勢(shì)越明顯,穩(wěn)定性越差.由圖6的測(cè)試結(jié)果可以看出,歸一化后車輛偏離道路中線的距離一直在-0.3~0.3波動(dòng),表明訓(xùn)練1 300次本文算法可以控制智能體很好地完成車道保持任務(wù).

      圖6 穩(wěn)定性Fig.6 Stability

      2.1.2 安全性 本文基于智能體與周邊距離最近車輛的相對(duì)距離d這一指標(biāo)來評(píng)價(jià)自動(dòng)決策系統(tǒng)決策方案的安全性.d越小,說明車輛發(fā)生碰撞的風(fēng)險(xiǎn)越大.

      從測(cè)試結(jié)果圖7可以看出,在剛起步,即n=0時(shí),安全距離d<2.5 m,究其原因在于,智能體與其他車輛從同一起點(diǎn)出發(fā);在n=1 000時(shí),d急劇減小,通過觀看測(cè)試過程發(fā)現(xiàn),干擾車輛突然超車,智能體為避免與其發(fā)生碰撞做出正確決策并逐漸減速,保證與干擾車輛保持安全車距.除上述兩處外,智能體與周邊其他車輛的距離基本保持在10 m以上,表明所設(shè)計(jì)的決策模型在多車工況下可以保證車輛具有較高的安全性.

      2.2 模型適應(yīng)性

      適應(yīng)性是表征算法對(duì)新樣本、新工況的適應(yīng)能力.為了驗(yàn)證所提出WGAIL-DDPG(λ)模型的適應(yīng)性,本研究選取訓(xùn)練4 000次時(shí)的模型(多車獎(jiǎng)勵(lì)函數(shù),CG Speedway-1)、較復(fù)雜的Alpine賽道和較簡(jiǎn)易的CG Track3賽道進(jìn)行了相應(yīng)測(cè)試,賽道特征對(duì)比如圖8所示.

      圖7 安全性Fig.7 Safety

      圖8 訓(xùn)練賽道與測(cè)試賽道對(duì)比Fig.8 Comparison between training track and test track

      其中,直線形賽道用于驗(yàn)證所提出模型的車道保持能力,簡(jiǎn)易彎道用于驗(yàn)證車輛過彎時(shí)的循跡穩(wěn)定性,復(fù)雜彎道用于驗(yàn)證車輛的過彎能力和安全性能.針對(duì)不同賽道的自動(dòng)駕駛系統(tǒng)決策難度水平順序?yàn)锳lpine>CG Speedway-1>CG Track3,發(fā)現(xiàn)CG Track3在前5圈均未發(fā)生碰撞,Alpine僅在第2圈發(fā)生碰撞.

      由此可見,訓(xùn)練4 000次的WGAIL-DDPG(λ)模型在較簡(jiǎn)單的CG Track3賽道上可以很好地完成安全、平穩(wěn)的駕駛?cè)蝿?wù).在較復(fù)雜的Alpine賽道,盡管存在許多模型未訓(xùn)練過的復(fù)雜彎道,智能體也能很好地完成安全、平穩(wěn)的駕駛?cè)蝿?wù),僅在第2圈的U形彎處發(fā)生一次輕微碰撞.經(jīng)過分析,主要原因在于模型的訓(xùn)練賽道沒有和該測(cè)試賽道同等難度的U形彎,智能體在處理未知彎道時(shí),安全距離d過小導(dǎo)致碰撞發(fā)生,可通過進(jìn)一步增加訓(xùn)練賽道線形進(jìn)行模型的性能提升.

      2.3 學(xué)習(xí)效率

      學(xué)習(xí)效率是表征深度強(qiáng)化學(xué)習(xí)模型訓(xùn)練過程有效性的重要參數(shù)之一,本文通過累計(jì)回報(bào)R與訓(xùn)練次數(shù)之間的關(guān)系進(jìn)一步分析所提出模型的學(xué)習(xí)效率.為此,這里選擇CG Track3作為訓(xùn)練賽道,通過在智能體周圍設(shè)置多個(gè)干擾車輛增加訓(xùn)練難度,以獲得多車環(huán)境下的自動(dòng)駕駛決策系統(tǒng)學(xué)習(xí)效率輸出結(jié)果.

      為說明問題,這里分別對(duì)DDPG和本文提出的WGAIL-DDPG(λ)模型進(jìn)行了測(cè)試,測(cè)試結(jié)果如圖9所示.其中,為保證實(shí)驗(yàn)準(zhǔn)確性,取2次實(shí)驗(yàn)的平均值作為最終的累計(jì)回報(bào);為保證一致性,兩種模型均采用多車情況下的獎(jiǎng)勵(lì)函數(shù)進(jìn)行訓(xùn)練.

      圖9 模型學(xué)習(xí)效率對(duì)比分析Fig.9 Comparative analysis of model learning efficiency

      圖9所示兩種強(qiáng)化學(xué)習(xí)模型的學(xué)習(xí)效率對(duì)比結(jié)果如下.

      (1)Phase-1階段,n∈[1,100]

      從累計(jì)回報(bào)曲線的斜率可以看出,在模型訓(xùn)練初期,WGAIL-DDPG(λ)模型的學(xué)習(xí)效率明顯高于DDPG模型.原因在于WGAIL-DDPG(λ)模型中的模仿學(xué)習(xí)模塊在該階段可以保證智能體快速掌握專家示教策略,這也進(jìn)一步驗(yàn)證了模仿學(xué)習(xí)策略引入的有效性.

      進(jìn)一步分析表明:在n=40左右,WGAIL-DDPG(λ)模型累計(jì)回報(bào)快速達(dá)到9 000左右,這表明智能體此時(shí)已經(jīng)掌握了諸如車道跟馳之類的較簡(jiǎn)單駕駛策略,而對(duì)應(yīng)的DDPG模型仍處于試錯(cuò)階段.

      由此可見,本文通過引入模仿學(xué)習(xí)策略可以避免智能體在訓(xùn)練初期的盲目試錯(cuò),從而大幅度提升強(qiáng)化學(xué)習(xí)的模型訓(xùn)練效率.

      (2)Phase-2階段,n∈(100,550]

      在模型訓(xùn)練后期,WGAIL-DDPG(λ)模型獲得的累計(jì)回報(bào)仍明顯高于DDPG模型.究其原因在于,智能體在學(xué)會(huì)初級(jí)駕駛策略的基礎(chǔ)上,通過增益調(diào)度器實(shí)現(xiàn)模仿學(xué)習(xí)向強(qiáng)化學(xué)習(xí)的平穩(wěn)過渡,智能體可以探索更高級(jí)的駕駛策略.

      進(jìn)一步分析表明:在訓(xùn)練的第140次左右,基于WGAIL-DDPG(λ)模型的智能體累計(jì)回報(bào)基本穩(wěn)定在19 000之上,通過觀察智能體行為可以看出,該累計(jì)回報(bào)對(duì)應(yīng)智能體的表現(xiàn)為有初步的躲避車輛行為,并能在車道內(nèi)穩(wěn)定駕駛.而基于DDPG模型的智能體在訓(xùn)練480次左右才能實(shí)現(xiàn)上述目標(biāo).前者比后者學(xué)習(xí)速度提升了約3.4倍.

      由此可見,本文通過設(shè)計(jì)增益調(diào)度器可以實(shí)現(xiàn)模仿學(xué)習(xí)向強(qiáng)化學(xué)習(xí)的平穩(wěn)過渡,使智能體在學(xué)會(huì)基本駕駛策略的基礎(chǔ)上進(jìn)一步探索高級(jí)策略.

      3 結(jié) 論

      (1)基于車輛碰撞安全性、穩(wěn)定性所設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)可以有效保證DDPG決策模型的可靠輸出.

      (2)模仿學(xué)習(xí)策略的引入可以大大降低強(qiáng)化學(xué)習(xí)模型初期探索過程中的盲目試錯(cuò),相較于DDPG模型,WGAIL策略的引入可以有效提升學(xué)習(xí)效率達(dá)3.4倍以上.

      (3)所設(shè)計(jì)的增益調(diào)度器保證了從模仿學(xué)習(xí)到強(qiáng)化學(xué)習(xí)的平穩(wěn)過渡.

      同時(shí),鑒于相關(guān)實(shí)車實(shí)驗(yàn)開展難度,本文僅從仿真角度對(duì)提出的模型、方法進(jìn)行了有效性驗(yàn)證.未來將基于車載實(shí)際要求,融合更多的車輛運(yùn)動(dòng)特性對(duì)本文所提出的相關(guān)模型方法進(jìn)行進(jìn)一步細(xì)化和拓展.

      猜你喜歡
      增益調(diào)度決策
      為可持續(xù)決策提供依據(jù)
      基于增益調(diào)度與光滑切換的傾轉(zhuǎn)旋翼機(jī)最優(yōu)控制
      《調(diào)度集中系統(tǒng)(CTC)/列車調(diào)度指揮系統(tǒng)(TDCS)維護(hù)手冊(cè)》正式出版
      基于單片機(jī)的程控增益放大器設(shè)計(jì)
      電子制作(2019年19期)2019-11-23 08:41:36
      一種基于負(fù)載均衡的Kubernetes調(diào)度改進(jìn)算法
      虛擬機(jī)實(shí)時(shí)遷移調(diào)度算法
      決策為什么失誤了
      基于Multisim10和AD603的程控增益放大器仿真研究
      電子制作(2018年19期)2018-11-14 02:37:02
      自增益電路在激光測(cè)距中的應(yīng)用
      SVC的RTP封裝及其在NS2包調(diào)度中的應(yīng)用研究
      博野县| 岳池县| 河源市| 连山| 威信县| 南江县| 九台市| 万盛区| 都江堰市| 娄底市| 库尔勒市| 延庆县| 石柱| 东光县| 万源市| 织金县| 榕江县| 日土县| 汉源县| 南投县| 安宁市| 交城县| 莲花县| 巫溪县| 花莲市| 徐汇区| 措勤县| 樟树市| 重庆市| 卢湾区| 黄浦区| 丰都县| 鄂温| 筠连县| 平果县| 武宣县| 嘉善县| 剑川县| 鹤岗市| 昆山市| 秦皇岛市|