• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于信任域策略優(yōu)化的末制導(dǎo)控制量學(xué)習(xí)算法

      2023-01-03 10:35:32劉士榮王天一
      導(dǎo)航定位與授時 2022年6期
      關(guān)鍵詞:制導(dǎo)梯度導(dǎo)彈

      劉士榮,王天一,劉 揚

      (哈爾濱工業(yè)大學(xué)計算學(xué)部,哈爾濱 150001)

      0 引言

      近年來,隨著深度學(xué)習(xí)的崛起,深度強化學(xué)習(xí)被廣泛研究,涌現(xiàn)出了許多優(yōu)秀的強化學(xué)習(xí)算法,在游戲[1]、機(jī)器人控制任務(wù)中取得了出色的表現(xiàn)[2]。無模型強化學(xué)習(xí)算法在智能體與環(huán)境的不斷交互中采集數(shù)據(jù)學(xué)習(xí)策略,一般有兩種方法:值函數(shù)迭代法和策略梯度法。值函數(shù)迭代法通過學(xué)習(xí)狀態(tài)動作值函數(shù)來隱式學(xué)習(xí)一個確定性的策略,而策略梯度法顯式建模策略分布,通過計算策略梯度不斷學(xué)習(xí)出好的策略分布。值函數(shù)迭代法中,最廣為人知的便是DeepMind公司開發(fā)的深度Q學(xué)習(xí)(Deep Q-Learning,DQN)[3]算法,其將深度學(xué)習(xí)與Q-learning算法相結(jié)合,使用神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí)圖像這種高維輸入的低維表示,并且可以端對端的訓(xùn)練,是第一個可以在雅達(dá)利游戲中接近人類水平的人工智能體。DQN還有一系列變體,如緩解DQN中值函數(shù)過估計的Double DQN[4],用于連續(xù)動作空間的深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)[5]、緩解DDPG中值函數(shù)過估計的TD3[6]算法等。幕上的反向更新(Episodic Backward Update,EBU)[7]在整個幕上采樣,并連續(xù)將狀態(tài)的值傳遞到前面的狀態(tài),優(yōu)先經(jīng)驗回放(Prioritized Experience Replay,PER)[8]根據(jù)優(yōu)先級選擇訓(xùn)練樣本,可以顯著提高DQN算法的采樣效率,事后經(jīng)驗回放(Hindsi-ght Experience Replay,HER)[9]算法可以高效解決稀疏獎勵問題。由于策略梯度法可以顯式建模策略分布,更天然地適用于連續(xù)動作問題,通常在機(jī)器人控制等連續(xù)動作問題中被廣泛使用,但需要一些技術(shù)來降低策略梯度的方差。最直接的策略梯度算法為REINFORCE[10],信任域策略優(yōu)化(Trust Region Policy Optimization,TRPO)[11]為了讓策略能夠穩(wěn)定提升,顯式增加了一個約束,限制每次策略更新的最大偏移量,可以提高策略梯度法學(xué)習(xí)過程中的穩(wěn)定性。為了平衡優(yōu)勢函數(shù)的偏差和方差,還使用了廣義優(yōu)勢估計器(General Advantage Estimation,GAE)[12]。進(jìn)化策略(Evolution Strategy, ES)[13]通過突變操作改變原始參數(shù),并檢驗改變后參數(shù)的效果,保留那些結(jié)果較好的進(jìn)化策略類似于神經(jīng)進(jìn)化和直接策略搜索,在搜索過程中沒有使用梯度信息,本質(zhì)上相當(dāng)于在使用獎勵函數(shù)作為啟發(fā)式函數(shù)在參數(shù)空間中直接進(jìn)行搜索。

      在末制導(dǎo)領(lǐng)域中,比例制導(dǎo)律[14]是很常見的方法,在理想條件下有很好的表現(xiàn),但其導(dǎo)航比是一個常數(shù),無法為每個狀態(tài)自適應(yīng)地調(diào)整該比率,很難適應(yīng)復(fù)雜環(huán)境。文獻(xiàn)[15]使用Q-learning學(xué)習(xí)比例系數(shù),文獻(xiàn)[16]使用DDPG算法學(xué)習(xí)制導(dǎo)策略,文獻(xiàn)[17]也使用DDPG算法通過優(yōu)化導(dǎo)航比來學(xué)習(xí)末制導(dǎo)律,學(xué)習(xí)比例制導(dǎo)律中的導(dǎo)航比,算法效果優(yōu)于比例制導(dǎo)律;但其實驗環(huán)境相對簡單,沒有考慮空氣動力學(xué),其作者發(fā)現(xiàn)在考慮空氣動力學(xué)的環(huán)境中會有訓(xùn)練不穩(wěn)定的問題。本文方法關(guān)注末制導(dǎo)策略的在線學(xué)習(xí),在導(dǎo)彈與目標(biāo)在仿真環(huán)境的在線交互過程中,直接學(xué)習(xí)末制導(dǎo)控制量,即不借助已有末制導(dǎo)律,直接為導(dǎo)彈提供加速度,并在考慮空氣動力學(xué)的環(huán)境中進(jìn)行實驗,實驗結(jié)果表明,本文提出的方法在提升訓(xùn)練穩(wěn)定性的同時也學(xué)習(xí)到了高效的策略。

      本文第1章介紹了強化學(xué)習(xí)算法的基本原理,包括強化學(xué)習(xí)算法概述、策略梯度算法及信任域策略優(yōu)化算法的原理與推導(dǎo);第2章介紹了本文的實驗部分,首先給出了強化學(xué)習(xí)末制導(dǎo)問題的模擬環(huán)境,以及如何將信任域策略優(yōu)化算法應(yīng)用到末制導(dǎo)控制量的學(xué)習(xí)中,介紹了馬爾可夫模型中的狀態(tài)空間設(shè)計、動作空間設(shè)計以及獎勵函數(shù)設(shè)計;在實驗部分又找到兩個強化學(xué)習(xí)算法作為基準(zhǔn),分別是EBDQN算法和ES算法,然后將本文提出的獎勵函數(shù)與另外兩種獎勵進(jìn)行對比,同時給出實驗對比結(jié)果;最后,在第3章對本文的工作進(jìn)行了總結(jié)。

      1 強化學(xué)習(xí)算法介紹

      1.1 強化學(xué)習(xí)概述

      序列決策問題通常被形式化為馬爾可夫決策過程(Markov Decision Process,MDP)。MDP定義為一個六元組(S,A,T,r,γ,ρ0),S為狀態(tài)空間,A為動作空間,T:S×A×S→R為狀態(tài)轉(zhuǎn)移概率,r:S×A→R為獎勵函數(shù),γ∈(0,1)為折扣因子,ρ0:S→R為初始狀態(tài)分布。

      強化學(xué)習(xí)考慮智能體在與環(huán)境交互過程中學(xué)習(xí)到能夠最大化獎勵的行為。在每個時刻t,智能體處在狀態(tài)st∈S下,根據(jù)自己的策略π:S×A→[0,1]選擇一個動作at∈A,然后得到獎勵rt,并進(jìn)入下一個狀態(tài)st+1∈S。

      (1)

      其中,at~π(·|st),st+1=T(st,at)。強化學(xué)習(xí)的目標(biāo)是找到一個最優(yōu)策略π*,使得期望回報最大,即π*=argmaxπJ(π)。為了便于學(xué)習(xí)策略,定義狀態(tài)值函數(shù)

      (2)

      以及狀態(tài)動作值函數(shù)

      Q(s,a)=

      (3)

      1.2 策略梯度法

      策略梯度法[10]通過計算目標(biāo)函數(shù)在策略參數(shù)處的梯度,得到策略的更新方向,用π(θ)表示待學(xué)習(xí)的參數(shù)化策略,θ為策略參數(shù),則策略梯度法的目標(biāo)函數(shù)如下

      J(θ)=Et[logπθ(at|st)*A(st,at)]

      (4)

      其中,A(st,at)=Q(st,at)-V(st),為t時刻的優(yōu)勢函數(shù)。策略梯度法的主要問題是估計得到的梯度有很大方差,容易造成策略崩塌,影響訓(xùn)練穩(wěn)定性。

      1.3 信任域策略優(yōu)化算法

      信任域策略優(yōu)化[11]算法在策略梯度法的基礎(chǔ)上加入了一個用來限制策略偏移的約束,以避免策略偏移帶來的梯度偏差所引發(fā)的策略崩塌,使得學(xué)習(xí)過程更加穩(wěn)定。信任域策略優(yōu)化算法的優(yōu)化問題如下

      (5)

      Et[DKL(πθ(at|st)||πθold(at|st))]≤δ

      (6)

      其中,πθold表示采樣策略;θold表示采樣策略的參數(shù);Et表示采樣策略πθold采集到的每個時刻樣本下的期望;DKL表示KL散度;δ是一個超參數(shù),表示策略偏移的最大幅度。

      為了求解該優(yōu)化問題,對目標(biāo)函數(shù)和約束項分別做一階、二階泰勒近似,得到如下近似優(yōu)化問題

      maxθJ(θold,θ)≈gT(θ-θold)

      (7)

      (8)

      其中

      (9)

      (10)

      該近似優(yōu)化問題可求出最優(yōu)解

      (11)

      近似優(yōu)化問題雖然有最優(yōu)解,但不一定是原問題的最優(yōu)解,故信任域策略優(yōu)化在此基礎(chǔ)上還做了線搜索(line search),將近似優(yōu)化問題求得的最優(yōu)解作為最大步長進(jìn)行指數(shù)衰減線搜索,找到可以真正優(yōu)化原始目標(biāo)函數(shù)的步長。令α為指數(shù)衰減速度,j為搜索次數(shù),則得到如下參數(shù)更新公式

      (12)

      信任域策略優(yōu)化算法需要計算KL散度的Hessian陣,是一種二階優(yōu)化算法,需要一些代碼上的優(yōu)化來加速求解,如費雪向量積和共軛梯度法。同時,信任域策略優(yōu)化算法使用了GAE估計優(yōu)勢函數(shù),可以權(quán)衡優(yōu)勢函數(shù)估計器的偏差和方差。此外,二階優(yōu)化算法也意味著信任域策略優(yōu)化更適合低維問題,在高維問題中會面臨Hessian陣估計不準(zhǔn)、計算量大的問題,從而影響算法訓(xùn)練效果和訓(xùn)練速度。末制導(dǎo)問題的狀態(tài)維度和動作維度都比較低,故本文將信任域策略優(yōu)化算法應(yīng)用到末制導(dǎo)控制量的學(xué)習(xí)中,使策略的學(xué)習(xí)變得更加穩(wěn)定,提升習(xí)得策略的表現(xiàn)。信任域策略優(yōu)化算法的偽代碼如表1和表2所示。

      表1 算法整體流程

      表2 信任域策略優(yōu)化算法

      2 使用信任域策略優(yōu)化算法學(xué)習(xí)末制導(dǎo)控制量

      2.1 仿真環(huán)境建模

      為了將強化學(xué)習(xí)算法應(yīng)用于末制導(dǎo)問題中,需要對實際制導(dǎo)問題進(jìn)行仿真模擬。導(dǎo)彈作為一種高速飛行的打擊武器,通常應(yīng)用于遠(yuǎn)距離打擊范圍任務(wù)中,在這種情況下,導(dǎo)彈與目標(biāo)本身的尺寸可以被忽略,只關(guān)注二者的相對位置關(guān)系即可,即將導(dǎo)彈與目標(biāo)簡化成為兩個質(zhì)點。

      將制導(dǎo)問題應(yīng)用在真實的三維環(huán)境中,經(jīng)大量的研究顯示,三維空間的仿真建模復(fù)雜且計算量太大。文獻(xiàn)[18]的研究結(jié)果表明,二維空間與三維空間中的運動存在相似性,可以通過降維等手段將三維空間的運動問題分解成兩個相互正交的二維平面中的運動問題。

      本文的導(dǎo)彈-目標(biāo)仿真環(huán)境建模即采用上述的思想,選擇在二維平面內(nèi)對末制導(dǎo)問題進(jìn)行仿真環(huán)境建模,并基于質(zhì)點模型,忽略了導(dǎo)彈和目標(biāo)雙方的機(jī)身尺寸,整個攔截場景處于慣性參考系下,仿真場景如圖1所示。其中,M與T分別表示導(dǎo)彈與目標(biāo)質(zhì)點;θM與θT為導(dǎo)彈和目標(biāo)的彈道傾角;q與r為視線角與彈目相對距離;aM與aT為控制導(dǎo)彈和目標(biāo)轉(zhuǎn)向的法向加速度。整個仿真過程遵循如下運動學(xué)公式

      (13)

      (14)

      (15)

      圖1 仿真場景示意圖Fig.1 Schematic diagram of simulation environment

      此外,在真實環(huán)境下,考慮到傳輸噪聲對彈頭指揮部的制導(dǎo)系統(tǒng)可能會產(chǎn)生的干擾,以及空氣動力學(xué)所產(chǎn)生的各種噪聲(如空氣密度不同帶來的聲速不同進(jìn)而影響到攔截彈飛行的情況),本文在本次仿真環(huán)境中額外加入對于噪聲的考量。首先,由于不同高度下空氣的密度和聲速是不同的,因此在這里首先對給定高度下的空氣密度和聲速進(jìn)行計算,具體方式如下:

      1)位勢高度計算:本次仿真模型均設(shè)定在標(biāo)準(zhǔn)大氣壓下。首先計算在給定目標(biāo)高度下的位勢高度

      (16)

      其中,r0為地球半徑,取6356766m;yM為彈體或者目標(biāo)的縱向高度,單位為m。

      2)實時攝氏溫度計算:此處取常壓下地面溫度15℃,由熱力學(xué)溫度轉(zhuǎn)化公式可知地面熱力學(xué)溫度為288.25K,據(jù)此計算給定高度的攝氏溫度如下

      T=Tb+cT×(Z-Zb)

      (17)

      其中,Tb為熱力學(xué)溫度;cT為一衰減系數(shù),由高度與溫度變化關(guān)聯(lián)公式可知,高度每升高1000m氣溫降低6.5℃,即設(shè)定為-6.5×10-3;Zb為擾動系數(shù),此處取0.0。

      3)空氣壓力計算:已知給定溫度,即可計算定高度下的空氣氣壓,其計算公式如下

      (18)

      其中,Pb為標(biāo)準(zhǔn)大氣壓下的毫米水柱,取值為10332.3mm H2O;g0為重力加速度,取值為9.80665;cP為干燥空氣的摩爾氣體常數(shù),通常取287.05287。

      4)空氣密度計算:在已知空氣壓力的情況下,空氣密度可由式(19)求得

      (19)

      5)聲速計算:聲速計算公式在已知攝氏溫度的情況下可以根據(jù)式(20)求得

      (20)

      單位為m/s。

      在不同的空氣密度和聲速下,模型的氣動參數(shù)也是不停變化的。不同的氣動參數(shù)會影響導(dǎo)彈的一階特性與二階特性,進(jìn)而影響到導(dǎo)彈的實時速度。此處假定導(dǎo)彈速度的初始變化率為-25m/s,結(jié)合導(dǎo)彈的特征面積,給出導(dǎo)彈受空氣密度噪聲影響的速度變化公式如下

      Vdot=

      (21)

      其中,CD、CK、CLafa均為氣動參數(shù);α為攻角指令,由過載指令結(jié)合空氣密度計算而來;ρ為前述空氣密度;VM為導(dǎo)彈的實時速度;Sxsf為導(dǎo)彈的特征面積,一般取0.2;m為導(dǎo)彈質(zhì)量,此處取m=400kg;θm為導(dǎo)彈的彈道傾角。此外,為增加算法的魯棒性,本文對于環(huán)境中也施加了部分隨機(jī)噪聲,具體方法如下:通過對導(dǎo)彈運動的角噪聲進(jìn)行處理,從而對視線轉(zhuǎn)率施加噪聲,進(jìn)而影響視線轉(zhuǎn)率的二階特性,使得訓(xùn)練更具有普遍性,減小因過擬合帶來的誤差。由上述公式,即式(16)~式(21),可以考慮真實戰(zhàn)場下的空空攻防戰(zhàn)空氣噪聲參數(shù),從而實現(xiàn)更加普遍、通用、包容性強的算法模型。

      2.2 MDP建模

      2.2.1 狀態(tài)空間設(shè)計

      在實驗中,將智能體的狀態(tài)定義為一個8維向量,前4維分別表示導(dǎo)彈和目標(biāo)雙方的坐標(biāo)在X坐標(biāo)軸和Y坐標(biāo)軸方向的分量,后4維分別表示導(dǎo)彈和目標(biāo)雙方的速度在X坐標(biāo)軸和Y坐標(biāo)軸方向的分量。

      s=(XM,YM,XT,YT,VM,X,VM,Y,VT,X,VT,Y)

      (22)

      2.2.2 動作空間設(shè)計

      將智能體的動作定義為一個標(biāo)量,表示提供給導(dǎo)彈的加速度,是一個連續(xù)的值。動作的取值范圍通過超參數(shù)A_MAX設(shè)置,在實驗中將其設(shè)置為300。

      at∈(-A_MAX,A_MAX)

      (23)

      2.2.3 獎勵函數(shù)設(shè)計

      獎勵定義為上一時刻的預(yù)測脫靶量與當(dāng)前時刻的預(yù)測脫靶量的差值,表示當(dāng)前時刻動作對預(yù)測脫靶量的降低量

      rt=-1*(zemt-zemt-1)

      (24)

      其中,zemt為t時刻的預(yù)測脫靶量,是導(dǎo)彈和目標(biāo)相對距離的最小值的預(yù)測值,計算公式參考文獻(xiàn)[18-19]。直觀上說,預(yù)測脫靶量是以導(dǎo)彈為參照系,導(dǎo)彈相對靜止,而目標(biāo)在進(jìn)行勻速直線運動,目標(biāo)不斷運動直到與導(dǎo)彈的距離達(dá)到最近,此時的距離稱為預(yù)測脫靶量。可見,與當(dāng)前時刻雙方的相對距離不同,預(yù)測脫靶量的計算考慮了導(dǎo)彈和目標(biāo)的實際運動情況。但預(yù)測脫靶量只考慮了導(dǎo)彈和目標(biāo)當(dāng)前時刻的相對速度,沒有考慮它們在未來時刻的速度變化,是對實際脫靶量的近似估計,而實際脫靶量是不可能精準(zhǔn)預(yù)測的,所以本文采取這種簡單的方法,通過預(yù)測脫靶量來近似估計實際脫靶量,進(jìn)而計算獎勵。

      上述MDP建模盡量少地使用末制導(dǎo)領(lǐng)域?qū)I(yè)知識,只使用位置和速度這些簡單易懂的量作為狀態(tài),動作也是直接為導(dǎo)彈提供的加速度,沒有制導(dǎo)律相關(guān)知識,更能驗證強化學(xué)習(xí)在末制導(dǎo)領(lǐng)域應(yīng)用的潛力。如果使用末制導(dǎo)領(lǐng)域?qū)I(yè)知識來設(shè)計狀態(tài)和獎勵,可能會提升算法的表現(xiàn)和泛化性,但降低了設(shè)計的通用性,所以本文決定采取這種簡單有效的MDP設(shè)計。

      2.3 算法超參數(shù)設(shè)置

      TRPO算法具體超參數(shù)設(shè)置如表3所示,環(huán)境中導(dǎo)彈和目標(biāo)的初始參數(shù)如表4所示。

      表3 TRPO算法超參數(shù)

      表4 導(dǎo)彈和目標(biāo)初始的參數(shù)

      2.4 實驗結(jié)果與分析

      為了驗證本文提出的算法的高效性能,對比了其他兩種強化學(xué)習(xí)制導(dǎo)律算法,分別是基于進(jìn)化策略的ES算法和基于EBDQN的自適應(yīng)導(dǎo)航比末制導(dǎo)律算法[20]。ES算法使用進(jìn)化算法直接優(yōu)化策略,EBDQN算法通過從經(jīng)驗回放池中采樣整個軌跡,并從結(jié)束狀態(tài)從后向前更新值函數(shù),可以提高樣本的使用效率。

      在2.1節(jié)介紹的仿真環(huán)境中,在2.2節(jié)介紹的MDP設(shè)置下,基于表3所示的TRPO算法超參數(shù)與表4所示的導(dǎo)彈和目標(biāo)的初始參數(shù),使用TRPO算法學(xué)習(xí)末制導(dǎo)控制量,測試脫靶量,與直接學(xué)習(xí)末制導(dǎo)控制量的ES算法和學(xué)習(xí)引導(dǎo)率參數(shù)的EBDQN算法相比,其脫靶量累積分布圖如圖2所示。在圖2中,橫軸為脫靶量大小,單位為m,縱軸為累積分布概率,實驗重復(fù)次數(shù)為500次,脫靶量分布結(jié)果如表5所示。可以看出,同是直接學(xué)習(xí)末制導(dǎo)控制量的TRPO和ES算法,TRPO算法的脫靶量比ES算法更低,而且TRPO算法的脫靶量優(yōu)于學(xué)習(xí)引導(dǎo)率導(dǎo)航比參數(shù)的EBDQN算法,說明TRPO學(xué)習(xí)到的控制量比引導(dǎo)率的效果更好,在復(fù)雜場景中直接學(xué)習(xí)控制量的方法有希望超過學(xué)習(xí)引導(dǎo)率的方法。

      圖2 脫靶量累計分布Fig.2 Cumulative distribution of miss distance

      表5 制導(dǎo)律脫靶量分布

      此外,本文將在線強化學(xué)習(xí)算法應(yīng)用于末制導(dǎo)控制量的學(xué)習(xí)中,由于末制導(dǎo)常常強調(diào)機(jī)動性,故需要通過實驗測試算法的響應(yīng)時間,即智能體做出決策所需要的時間。表6展示了三種強化學(xué)習(xí)算法的響應(yīng)時間,單位為ms,實驗運行環(huán)境為i5 7300HQ CPU,16G內(nèi)存,沒有用到 GPU。可以看到,三種算法的響應(yīng)時間都是ms級的,響應(yīng)都很快速,這是因為它們的策略網(wǎng)絡(luò)和值網(wǎng)絡(luò)都是簡單的全連接層,參數(shù)較少,計算時間短。

      表6 三種算法的響應(yīng)時間

      2.5 實驗對比不同的獎勵設(shè)計方法

      在強化學(xué)習(xí)中,獎勵承擔(dān)著重要的作用,它負(fù)責(zé)傳遞這一次動作的獎懲情況,智能體根據(jù)獎勵的變化進(jìn)行策略的優(yōu)化。本節(jié)通過實驗對比不同的獎勵函數(shù),包括稀疏獎勵、樸素獎勵以及本文提出的新穎獎勵,從而驗證本文所提的獎勵函數(shù)的高效性。

      首先介紹稀疏獎勵。在末制導(dǎo)的實際物理環(huán)境中,只有當(dāng)導(dǎo)彈命中目標(biāo)時,才會收到命中的獎勵,其他時間無論導(dǎo)彈怎么改變方向、調(diào)節(jié)速度,在命中之前都不會獲得任何獎勵,這種獎勵函數(shù)是一個典型的稀疏獎勵。將其設(shè)計為式(25),當(dāng)一條軌跡最終距離目標(biāo)小于5m時,給予10的獎勵,其余時刻全都是0的獎勵。然而,稀疏獎勵問題會導(dǎo)致強化學(xué)習(xí)算法收斂緩慢,甚至是無法收斂。

      (25)

      樸素稠密獎勵函數(shù)是最符合人類直覺的一種獎勵,將導(dǎo)彈與目標(biāo)之間的距離作為衡量獎勵的尺度,距離目標(biāo)越近,則給出越大的獎勵,距離目標(biāo)越遠(yuǎn),則給出越小的獎勵。獎勵的具體形式如式(26)所示,在每一時刻,將導(dǎo)彈與目標(biāo)之間距離的負(fù)數(shù)作為獎勵。然而,這種負(fù)獎勵會促使智能體盡早結(jié)束軌跡,影響策略學(xué)習(xí)。

      (26)

      為了解決在末制導(dǎo)環(huán)境中的稀疏獎勵問題以及樸素稠密獎勵的學(xué)習(xí)效率低下的問題,提出了一種創(chuàng)新性的獎勵函數(shù)設(shè)計。將獎勵定義為上一時刻的預(yù)測脫靶量與當(dāng)前時刻的預(yù)測脫靶量的差值,表示當(dāng)前時刻動作對預(yù)測脫靶量的降低量,關(guān)于該獎勵的更詳盡的介紹請參考2.2.3節(jié)式(24)。

      為了說明本文設(shè)計的新穎獎勵函數(shù)的高效性,圖3對比了與三種獎勵函數(shù)在相同實驗環(huán)境下訓(xùn)練時的脫靶量變化曲線,橫軸為訓(xùn)練輪數(shù),共訓(xùn)練500輪,縱軸為每一輪訓(xùn)練后的脫靶量,單位為m,每輪測試次數(shù)為5次。可以發(fā)現(xiàn),本文提出的獎勵函數(shù)能夠使訓(xùn)練更穩(wěn)定,并且能達(dá)到更低的脫靶量。

      圖3 三種獎勵在訓(xùn)練時的脫靶量變化曲線Fig.3 Curves of miss distance of three rewards during training

      3 結(jié)論

      1)本文將TRPO算法應(yīng)用于末制導(dǎo)問題,在與環(huán)境交互的過程中直接學(xué)習(xí)末制導(dǎo)控制量,而非學(xué)習(xí)末制導(dǎo)律中的參數(shù),有助于發(fā)現(xiàn)更優(yōu)的制導(dǎo)策略。設(shè)計了簡單的狀態(tài),避免引入末制導(dǎo)專業(yè)知識,并設(shè)計了一種新穎的獎勵函數(shù),該獎勵函數(shù)考慮了導(dǎo)彈和目標(biāo)的運動情況,更適合末制導(dǎo)問題。仿真環(huán)境中考慮了空氣動力學(xué),更接近真實場景。

      2)實驗結(jié)果表明,通過使用本文算法和提出的獎勵,智能體學(xué)到的控制策略可以達(dá)到更低的脫靶量,命中效果更好。

      3)本文只在仿真環(huán)境中進(jìn)行實驗,使用強化學(xué)習(xí)算法在真實場景中進(jìn)行控制量學(xué)習(xí)是未來有價值的研究方向。

      猜你喜歡
      制導(dǎo)梯度導(dǎo)彈
      一個改進(jìn)的WYL型三項共軛梯度法
      導(dǎo)彈燃料知多少
      軍事文摘(2020年14期)2020-12-17 06:27:16
      一種自適應(yīng)Dai-Liao共軛梯度法
      正在發(fā)射的岸艦導(dǎo)彈
      兵器知識(2019年1期)2019-01-23 02:20:44
      一類扭積形式的梯度近Ricci孤立子
      攔截那枚導(dǎo)彈
      導(dǎo)彈轉(zhuǎn)運
      基于MPSC和CPN制導(dǎo)方法的協(xié)同制導(dǎo)律
      基于在線軌跡迭代的自適應(yīng)再入制導(dǎo)
      帶有攻擊角約束的無抖振滑模制導(dǎo)律設(shè)計
      龙门县| 兰西县| 卓尼县| 泰来县| 丰镇市| 资源县| 南涧| 巴中市| 壶关县| 眉山市| 通河县| 杂多县| 常山县| 东台市| 永定县| 上杭县| 顺义区| 固始县| 深泽县| 徐水县| 毕节市| 莱西市| 永寿县| 靖远县| 军事| 宜兴市| 嘉荫县| 罗甸县| 宜阳县| 内黄县| 紫金县| 南陵县| 古蔺县| 荃湾区| 施甸县| 大洼县| 石景山区| 蕉岭县| 宁武县| 牙克石市| 林芝县|