• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      Q-learning強化學(xué)習(xí)協(xié)同攔截制導(dǎo)律

      2022-10-09 01:27:14王金強蘇日新劉玉祥龍永松
      導(dǎo)航定位與授時 2022年5期
      關(guān)鍵詞:制導(dǎo)機動彈道

      王金強,蘇日新,劉 莉,劉玉祥,龍永松

      (江南機電設(shè)計研究所,貴陽 550025)

      0 引言

      隨著飛行器技術(shù)的不斷發(fā)展,現(xiàn)代戰(zhàn)爭呈現(xiàn)出智能化、信息化、多樣化的特點,體系與體系的對抗將貫穿戰(zhàn)爭始終,尤其是以精確制導(dǎo)武器為主的攻擊體系和以地空艦導(dǎo)彈為主的防御體系之間的對抗,在上述情況下,傳統(tǒng)的單導(dǎo)彈作戰(zhàn)模式已難以滿足實際作戰(zhàn)需求。彈群協(xié)同作戰(zhàn)是將所有參戰(zhàn)導(dǎo)彈組成一個作戰(zhàn)網(wǎng)絡(luò),在指揮中心的調(diào)控下,實現(xiàn)彈間信息通信和共享,具有更高的作戰(zhàn)效能,是未來智能導(dǎo)彈的重點發(fā)展方向。

      I.Jeon等在制導(dǎo)律設(shè)計中引入時間約束,提出了一種可變攻擊時間的協(xié)同制導(dǎo)律,并通過數(shù)值仿真驗證了算法的有效性。Chen Y. 等在時間控制的基礎(chǔ)上,進一步考慮了存在末端攻擊角度約束的情況。李強針對協(xié)同制導(dǎo)問題,分別在視線方向和視線法向設(shè)計了有限時間收斂滑模制導(dǎo)律。H. B. Oza等為提高運算效率,設(shè)計了考慮末端多約束的模型預(yù)測靜態(tài)規(guī)劃制導(dǎo)律。Liu X. 等為處理制導(dǎo)過程中存在的不確定性,基于李雅普諾夫穩(wěn)定性理論,提出了一種自適應(yīng)滑模協(xié)同制導(dǎo)律,但該方法存在系統(tǒng)抖振的問題。宋俊紅等基于超螺旋滑??刂扑惴?,設(shè)計了一種雙層協(xié)同制導(dǎo)律,有效改善了制導(dǎo)控制系統(tǒng)的暫態(tài)特性。肖惟等研究了多枚過載受限的弱機動導(dǎo)彈攔截強機動目標的協(xié)同攔截問題,提出了基于標準彈道的分布式協(xié)同攔截策略設(shè)計方法。Zhai C. 等為提高協(xié)同攔截的成功率,設(shè)計了一種基于覆蓋的攔截算法。雖然上述算法具有良好的控制效果,但在設(shè)計過程中均需預(yù)先指定期望攻擊時間,各枚導(dǎo)彈間沒有信息交互,并沒有實現(xiàn)真正意義的智能協(xié)同作戰(zhàn)。

      隨著人工智能領(lǐng)域的迅猛發(fā)展,強化學(xué)習(xí)算法作為一種智能決策算法,在導(dǎo)彈制導(dǎo)控制、智能任務(wù)規(guī)劃和故障診斷等方面取得了顯著成果。B. Gaudet等為提高制導(dǎo)律魯棒性,基于神經(jīng)網(wǎng)絡(luò)設(shè)計了一種強化元學(xué)習(xí)制導(dǎo)律。張秦浩等基于Q-learn-ing強化學(xué)習(xí)算法設(shè)計了最優(yōu)攔截制導(dǎo)律。南英等則對傳統(tǒng)Q網(wǎng)絡(luò)進行改進,提出了一種基于Markov決策過程的制導(dǎo)律,且不需要訓(xùn)練樣本,可自主搜索獎勵值最大的動作并完成訓(xùn)練。陳中原等提出了一種基于深度確定性策略梯度的強化學(xué)習(xí)協(xié)同制導(dǎo)律,引入Actor和Critic網(wǎng)絡(luò)選取動作和獎勵值的逼近。上述算法雖然使導(dǎo)彈具有自主決策能力,但運算量大,現(xiàn)有的彈載計算機難以滿足要求。

      為解決上述問題,本文以傳統(tǒng)比例制導(dǎo)律為基礎(chǔ),引入智能決策,提出了一種Q-learning強化學(xué)習(xí)協(xié)同攔截制導(dǎo)律,并通過數(shù)值仿真驗證了算法的有效性和優(yōu)越性。

      1 協(xié)同攔截模型

      圖1給出了導(dǎo)彈平面攔截幾何,其中為慣性系,M和T分別代表導(dǎo)彈和目標,表示速度,表示彈道傾角,表示視線角,表示前置角,表示法向角速度,表示彈目相對距離。

      圖1 導(dǎo)彈攔截平面幾何Fig.1 Planar interception geometry of missile

      基于坐標轉(zhuǎn)換得到導(dǎo)彈與目標的非線性相對運動方程為

      (1)

      隨后,建立導(dǎo)彈非線性協(xié)同攔截模型,其示意圖如圖2所示,其中M,表示第枚導(dǎo)彈的最大機動區(qū)域,為目標的最大機動逃逸區(qū)域,記為逃逸域,為導(dǎo)彈最大機動過載,表示目標的逃逸加速度,定義為=+,其中為標準攔截彈道下目標期望逃逸加速度,為小量,且||越大,攔截彈道越彎曲。為簡化非線性模型,便于數(shù)學(xué)處理,此處假設(shè)為常值。因此,基于文獻[16]中標準彈道的思想和逃逸域理論,彈群協(xié)同攔截模型的構(gòu)建過程如下:

      圖2 彈群協(xié)同攔截策略Fig.2 Cooperative interception strategy of multiple missiles

      2 協(xié)同攔截制導(dǎo)律

      本章將結(jié)合Q-learning強化學(xué)習(xí)算法進行協(xié)同制導(dǎo)律設(shè)計。首先,基于標準彈道的思想,以導(dǎo)彈的最大機動區(qū)域M,中的標準彈道攔截機動的目標,以非標準彈道攔截+機動的目標,則協(xié)同制導(dǎo)律M,可設(shè)計為

      (2)

      隨后,定義導(dǎo)彈與目標飛行過程中的零控脫靶量

      (3)

      同理,導(dǎo)彈以標準彈道攔截機動目標過程中的零控脫靶量,s定義為

      (4)

      式中,為一個小量,且>0,用于避免求解式(5)中,s,,sM,,s時發(fā)生奇異。

      (5)

      則偏置項自適應(yīng)調(diào)節(jié)律可設(shè)為

      (+1)=

      (6)

      式中,,0為預(yù)先設(shè)定偏置項;為偏置系數(shù),定義為=exp(-,s);為一個小量,且>0,Δ=exp(-,s)。

      (7)

      式中,為導(dǎo)彈終止時刻彈目相對距離;為導(dǎo)彈命中目標所需最小彈目距離,常取=1,即表示在攔截過程中,獎勵值隨彈目距離的減小而增大,若最終命中目標,則得到一個更大的獎勵,若沒有命中目標則獎勵值為0。

      綜上,基于Q-learning強化學(xué)習(xí)算法的目標策略設(shè)為

      (,)]+(,)

      (8)

      行為策略為-greedy策略,即

      (9)

      式中,為學(xué)習(xí)效率參數(shù);為折扣率參數(shù);?為策略參數(shù),即導(dǎo)彈以?的概率在動作空間中進行隨機選擇,則以1-?的概率會選擇得到最大值的動作。Q-learning強化學(xué)習(xí)算法流程如圖3所示。

      圖3 Q-learning強化學(xué)習(xí)算法流程Fig.3 Flow chart of Q-learning algorithm

      3 攔截區(qū)域分配

      本章基于逃逸域覆蓋理論進行多彈攔截區(qū)域分配算法設(shè)計。為方便推導(dǎo),定義歸一化的目標加速度為=,導(dǎo)彈覆蓋區(qū)域M,和目標逃逸域可分別歸一化為[,low,,up]和[-1,1]。

      所設(shè)計攔截區(qū)域分配策略如圖4所示,導(dǎo)彈1的攔截區(qū)域左邊界與目標逃逸域左邊界對齊,導(dǎo)彈攔截區(qū)域M,右邊界與目標逃逸域右邊界對齊,每枚導(dǎo)彈覆蓋范圍相同。

      圖4 攔截區(qū)域分配模式Fig.4 Allocation modes of intercept area

      為實現(xiàn)上述分配策略,首先求解個導(dǎo)彈的攔截區(qū)域{M,|=1,2,3,…,},其中的左邊界與-1對齊,M,的右邊界與1對齊,M,-1M,不重疊相接,M,-1M,可重疊相交,即=-1,,up=1,-1,up=,low,-1,up-,low≥0。同時,為使每枚導(dǎo)彈攔截覆蓋區(qū)域均勻分布,此處將重疊區(qū)域[,low,-1,up]均勻分配到其余子區(qū)域上,即將覆蓋區(qū)域~M,-1分別向左移動(-1)(-1)× (-1,up-,low)長度,算法具體偽代碼如表1所示。

      表1 攔截區(qū)域分配的實現(xiàn)算法

      4 數(shù)值仿真分析

      本章分別針對多彈齊射(模式1)和子母彈分離發(fā)射(模式2)兩種作戰(zhàn)模式,對上述協(xié)同制導(dǎo)律的有效性進行數(shù)值仿真驗證。在多彈齊射作戰(zhàn)模式下,假設(shè)導(dǎo)彈速度方向與軸線重合,即攻角、側(cè)滑角和前置角均為0,因此其初始陣位約束為

      (10)

      子母彈分離作戰(zhàn)模式下,忽略子彈和母彈間的動態(tài)過程,并假設(shè)初始時刻目標前置角和彈目的距離相同,因此其初始陣位約束為

      (11)

      仿真環(huán)境下假設(shè)導(dǎo)彈數(shù)目為3,分別記為、和,彈目初始相對距離設(shè)為60km,導(dǎo)彈速度為7,最大機動過載3,目標速度為6,最大機動過載5,有效導(dǎo)航比由Q-learning算法在線計算,學(xué)習(xí)率參數(shù)設(shè)為0.01,折扣率參數(shù)則設(shè)為0.99。

      針對目標最大正機動(=1)、不機動(=0)和最大負機動(=-1)的協(xié)同攔截仿真結(jié)果如圖5~圖10所示。圖5和圖7所示分別為兩種作戰(zhàn)模式下的攔截軌跡,從中可知,針對上述三種目標機動形式,本文所提協(xié)同制導(dǎo)律可確保至少有一枚導(dǎo)彈成功命中目標,證明了算法的有效性。圖6和圖8所示分別為兩種作戰(zhàn)模式下的導(dǎo)彈過載曲線。圖9和圖10所示分別為導(dǎo)彈1最大負機動(=-1)條件下的有效導(dǎo)航比曲線和均值曲線,從中可知,在制導(dǎo)過程中有效導(dǎo)航比可進行自適應(yīng)調(diào)節(jié),且隨著訓(xùn)練的進行,均值逐漸收斂。

      圖5 作戰(zhàn)模式1的攔截彈道Fig.5 Interception trajectory under mode 1

      圖6 作戰(zhàn)模式1的導(dǎo)彈過載Fig.6 Acceleration of missile under mode 1

      圖7 作戰(zhàn)模式2的攔截彈道Fig.7 Interception trajectory under mode 2

      圖8 作戰(zhàn)模式2的導(dǎo)彈過載Fig.8 Acceleration of missile under mode 2

      圖9 有效導(dǎo)航比N曲線Fig.9 Curve of effective navigation ratio N

      圖10 Q均值收斂曲線Fig.10 Convergence curve of the mean of Q

      針對目標做=-sign(sin(π/2))蛇形機動的仿真結(jié)果如圖11~圖14所示。圖11和圖12所示分別為兩種作戰(zhàn)模式下的攔截軌跡,從中可知,引入偏置項可使導(dǎo)彈在攔截過程中更加接近目標,有效提升了攔截效果。圖13和圖14所示為零控脫靶量曲線,可以看出,與傳統(tǒng)比例制導(dǎo)律相比,本文設(shè)計的協(xié)同制導(dǎo)律零控脫靶量更低,具有更強的工程實用價值。

      圖11 作戰(zhàn)模式1的攔截彈道Fig.11 Interception trajectory under mode 1

      圖12 作戰(zhàn)模式2的攔截彈道Fig.12 Interception trajectory under mode 2

      圖13 作戰(zhàn)模式1的零控脫靶量Fig.13 Zero effort miss under mode 1

      圖14 作戰(zhàn)模式2的零控脫靶量Fig.14 Zero effort miss under mode 2

      5 結(jié)論

      本文研究了多彈協(xié)同攔截機動目標問題,具體結(jié)論如下:

      1)基于逃逸域覆蓋理論、比例制導(dǎo)律和Q-learning算法提出了一種強化學(xué)習(xí)協(xié)同制導(dǎo)律。

      2)針對多彈齊射和子母彈分離發(fā)射兩種作戰(zhàn)模式進行了數(shù)值仿真,結(jié)果驗證了所提算法的有效性和優(yōu)越性。

      3)后續(xù)工作可進一步研究三維空間中存在攻擊角約束、能量約束、避障和避撞等因素的協(xié)同攔截問題,為實現(xiàn)多約束條件下的智能協(xié)同制導(dǎo)奠定基礎(chǔ)。

      猜你喜歡
      制導(dǎo)機動彈道
      彈道——打勝仗的奧秘
      裝載機動臂的疲勞壽命計算
      12萬畝機動地不再“流浪”
      一維彈道修正彈無線通信系統(tǒng)研制
      電子制作(2019年7期)2019-04-25 13:17:48
      機動三輪車的昨天、今天和明天
      基于MPSC和CPN制導(dǎo)方法的協(xié)同制導(dǎo)律
      基于在線軌跡迭代的自適應(yīng)再入制導(dǎo)
      基于PID控制的二維彈道修正彈仿真
      帶有攻擊角約束的無抖振滑模制導(dǎo)律設(shè)計
      海上機動之師
      宜君县| 海晏县| 滁州市| 北安市| 松江区| 黔西| 高陵县| 三河市| 施甸县| 扎鲁特旗| 霍林郭勒市| 高密市| 衡阳县| 惠东县| 拜泉县| 宝丰县| 淳化县| 华蓥市| 关岭| 荥经县| 长顺县| 长春市| 驻马店市| 竹北市| 福清市| 玉门市| 商河县| 布拖县| 苍南县| 天津市| 绍兴市| 武川县| 淮阳县| 上犹县| 河池市| 盐池县| 新宁县| 玉山县| 上虞市| 平度市| 隆尧县|