99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

<nav id="oo804"></nav>

<tr id="oo804"></tr><nav id="oo804"></nav>

<tfoot id="oo804"><noscript id="oo804"></noscript></tfoot>

?

Q-learning強化學(xué)習(xí)協(xié)同攔截制導(dǎo)律

2022-10-09 01:27:14王金強蘇日新劉玉祥龍永松

導(dǎo)航定位與授時 2022年5期

關(guān)鍵詞：制導(dǎo)機動彈道

王金強，蘇日新，劉莉，劉玉祥，龍永松

(江南機電設(shè)計研究所，貴陽 550025)

0 引言

隨著飛行器技術(shù)的不斷發(fā)展，現(xiàn)代戰(zhàn)爭呈現(xiàn)出智能化、信息化、多樣化的特點，體系與體系的對抗將貫穿戰(zhàn)爭始終，尤其是以精確制導(dǎo)武器為主的攻擊體系和以地空艦導(dǎo)彈為主的防御體系之間的對抗，在上述情況下，傳統(tǒng)的單導(dǎo)彈作戰(zhàn)模式已難以滿足實際作戰(zhàn)需求。彈群協(xié)同作戰(zhàn)是將所有參戰(zhàn)導(dǎo)彈組成一個作戰(zhàn)網(wǎng)絡(luò)，在指揮中心的調(diào)控下，實現(xiàn)彈間信息通信和共享，具有更高的作戰(zhàn)效能，是未來智能導(dǎo)彈的重點發(fā)展方向。

I.Jeon等在制導(dǎo)律設(shè)計中引入時間約束，提出了一種可變攻擊時間的協(xié)同制導(dǎo)律，并通過數(shù)值仿真驗證了算法的有效性。Chen Y. 等在時間控制的基礎(chǔ)上，進一步考慮了存在末端攻擊角度約束的情況。李強針對協(xié)同制導(dǎo)問題，分別在視線方向和視線法向設(shè)計了有限時間收斂滑模制導(dǎo)律。H. B. Oza等為提高運算效率，設(shè)計了考慮末端多約束的模型預(yù)測靜態(tài)規(guī)劃制導(dǎo)律。Liu X. 等為處理制導(dǎo)過程中存在的不確定性，基于李雅普諾夫穩(wěn)定性理論，提出了一種自適應(yīng)滑模協(xié)同制導(dǎo)律，但該方法存在系統(tǒng)抖振的問題。宋俊紅等基于超螺旋滑?？刂扑惴?，設(shè)計了一種雙層協(xié)同制導(dǎo)律，有效改善了制導(dǎo)控制系統(tǒng)的暫態(tài)特性。肖惟等研究了多枚過載受限的弱機動導(dǎo)彈攔截強機動目標的協(xié)同攔截問題，提出了基于標準彈道的分布式協(xié)同攔截策略設(shè)計方法。Zhai C. 等為提高協(xié)同攔截的成功率，設(shè)計了一種基于覆蓋的攔截算法。雖然上述算法具有良好的控制效果，但在設(shè)計過程中均需預(yù)先指定期望攻擊時間，各枚導(dǎo)彈間沒有信息交互，并沒有實現(xiàn)真正意義的智能協(xié)同作戰(zhàn)。

隨著人工智能領(lǐng)域的迅猛發(fā)展，強化學(xué)習(xí)算法作為一種智能決策算法，在導(dǎo)彈制導(dǎo)控制、智能任務(wù)規(guī)劃和故障診斷等方面取得了顯著成果。B. Gaudet等為提高制導(dǎo)律魯棒性，基于神經(jīng)網(wǎng)絡(luò)設(shè)計了一種強化元學(xué)習(xí)制導(dǎo)律。張秦浩等基于Q-learn-ing強化學(xué)習(xí)算法設(shè)計了最優(yōu)攔截制導(dǎo)律。南英等則對傳統(tǒng)Q網(wǎng)絡(luò)進行改進，提出了一種基于Markov決策過程的制導(dǎo)律，且不需要訓(xùn)練樣本，可自主搜索獎勵值最大的動作并完成訓(xùn)練。陳中原等提出了一種基于深度確定性策略梯度的強化學(xué)習(xí)協(xié)同制導(dǎo)律，引入Actor和Critic網(wǎng)絡(luò)選取動作和獎勵值的逼近。上述算法雖然使導(dǎo)彈具有自主決策能力，但運算量大，現(xiàn)有的彈載計算機難以滿足要求。

為解決上述問題，本文以傳統(tǒng)比例制導(dǎo)律為基礎(chǔ)，引入智能決策，提出了一種Q-learning強化學(xué)習(xí)協(xié)同攔截制導(dǎo)律，并通過數(shù)值仿真驗證了算法的有效性和優(yōu)越性。

1 協(xié)同攔截模型

圖1給出了導(dǎo)彈平面攔截幾何，其中為慣性系，M和T分別代表導(dǎo)彈和目標，表示速度，表示彈道傾角，表示視線角，表示前置角，表示法向角速度，表示彈目相對距離。

圖1 導(dǎo)彈攔截平面幾何Fig.1 Planar interception geometry of missile

基于坐標轉(zhuǎn)換得到導(dǎo)彈與目標的非線性相對運動方程為

(1)

隨后，建立導(dǎo)彈非線性協(xié)同攔截模型，其示意圖如圖2所示，其中M,表示第枚導(dǎo)彈的最大機動區(qū)域，為目標的最大機動逃逸區(qū)域，記為逃逸域，為導(dǎo)彈最大機動過載，表示目標的逃逸加速度，定義為=+，其中為標準攔截彈道下目標期望逃逸加速度，為小量，且||越大，攔截彈道越彎曲。為簡化非線性模型，便于數(shù)學(xué)處理，此處假設(shè)為常值。因此，基于文獻[16]中標準彈道的思想和逃逸域理論，彈群協(xié)同攔截模型的構(gòu)建過程如下：

圖2 彈群協(xié)同攔截策略Fig.2 Cooperative interception strategy of multiple missiles

2 協(xié)同攔截制導(dǎo)律

本章將結(jié)合Q-learning強化學(xué)習(xí)算法進行協(xié)同制導(dǎo)律設(shè)計。首先，基于標準彈道的思想，以導(dǎo)彈的最大機動區(qū)域M,中的標準彈道攔截機動的目標，以非標準彈道攔截+機動的目標，則協(xié)同制導(dǎo)律M,可設(shè)計為

(2)

隨后，定義導(dǎo)彈與目標飛行過程中的零控脫靶量為

(3)

同理，導(dǎo)彈以標準彈道攔截機動目標過程中的零控脫靶量,s定義為

(4)

式中，為一個小量，且>0，用于避免求解式(5)中,s,,s和M,,s時發(fā)生奇異。

(5)

則偏置項自適應(yīng)調(diào)節(jié)律可設(shè)為

(+1)=

(6)

式中，,0為預(yù)先設(shè)定偏置項；為偏置系數(shù)，定義為=exp(-,s)；為一個小量，且>0，Δ=exp(-,s)。

(7)

式中，為導(dǎo)彈終止時刻彈目相對距離；為導(dǎo)彈命中目標所需最小彈目距離，常取=1，即表示在攔截過程中，獎勵值隨彈目距離的減小而增大，若最終命中目標，則得到一個更大的獎勵，若沒有命中目標則獎勵值為0。

綜上，基于Q-learning強化學(xué)習(xí)算法的目標策略設(shè)為

(,)]+(,)

(8)

行為策略為-greedy策略，即

(9)

式中，為學(xué)習(xí)效率參數(shù)；為折扣率參數(shù)；?為策略參數(shù)，即導(dǎo)彈以?的概率在動作空間中進行隨機選擇，則以1-?的概率會選擇得到最大值的動作。Q-learning強化學(xué)習(xí)算法流程如圖3所示。

圖3 Q-learning強化學(xué)習(xí)算法流程Fig.3 Flow chart of Q-learning algorithm

3 攔截區(qū)域分配

本章基于逃逸域覆蓋理論進行多彈攔截區(qū)域分配算法設(shè)計。為方便推導(dǎo)，定義歸一化的目標加速度為=，導(dǎo)彈覆蓋區(qū)域M,和目標逃逸域可分別歸一化為[,low,,up]和[-1，1]。

所設(shè)計攔截區(qū)域分配策略如圖4所示，導(dǎo)彈1的攔截區(qū)域左邊界與目標逃逸域左邊界對齊，導(dǎo)彈攔截區(qū)域M,右邊界與目標逃逸域右邊界對齊，每枚導(dǎo)彈覆蓋范圍相同。

圖4 攔截區(qū)域分配模式Fig.4 Allocation modes of intercept area

為實現(xiàn)上述分配策略，首先求解個導(dǎo)彈的攔截區(qū)域{M,|=1,2,3,…,}，其中的左邊界與-1對齊，M,的右邊界與1對齊，M,-1和M,不重疊相接，M,-1與M,可重疊相交，即=-1，,up=1，-1,up=,low，-1,up-,low≥0。同時，為使每枚導(dǎo)彈攔截覆蓋區(qū)域均勻分布，此處將重疊區(qū)域[,low,-1,up]均勻分配到其余子區(qū)域上，即將覆蓋區(qū)域～M,-1分別向左移動(-1)(-1)× (-1,up-,low)長度，算法具體偽代碼如表1所示。

表1 攔截區(qū)域分配的實現(xiàn)算法

4 數(shù)值仿真分析

本章分別針對多彈齊射(模式1)和子母彈分離發(fā)射(模式2)兩種作戰(zhàn)模式，對上述協(xié)同制導(dǎo)律的有效性進行數(shù)值仿真驗證。在多彈齊射作戰(zhàn)模式下，假設(shè)導(dǎo)彈速度方向與軸線重合，即攻角、側(cè)滑角和前置角均為0，因此其初始陣位約束為

(10)

子母彈分離作戰(zhàn)模式下，忽略子彈和母彈間的動態(tài)過程，并假設(shè)初始時刻目標前置角和彈目的距離相同，因此其初始陣位約束為

(11)

仿真環(huán)境下假設(shè)導(dǎo)彈數(shù)目為3，分別記為、和，彈目初始相對距離設(shè)為60km，導(dǎo)彈速度為7，最大機動過載3，目標速度為6，最大機動過載5，有效導(dǎo)航比由Q-learning算法在線計算，學(xué)習(xí)率參數(shù)設(shè)為0.01，折扣率參數(shù)則設(shè)為0.99。

針對目標最大正機動(=1)、不機動(=0)和最大負機動(=-1)的協(xié)同攔截仿真結(jié)果如圖5～圖10所示。圖5和圖7所示分別為兩種作戰(zhàn)模式下的攔截軌跡，從中可知，針對上述三種目標機動形式，本文所提協(xié)同制導(dǎo)律可確保至少有一枚導(dǎo)彈成功命中目標，證明了算法的有效性。圖6和圖8所示分別為兩種作戰(zhàn)模式下的導(dǎo)彈過載曲線。圖9和圖10所示分別為導(dǎo)彈1最大負機動(=-1)條件下的有效導(dǎo)航比曲線和均值曲線，從中可知，在制導(dǎo)過程中有效導(dǎo)航比可進行自適應(yīng)調(diào)節(jié)，且隨著訓(xùn)練的進行，均值逐漸收斂。

圖5 作戰(zhàn)模式1的攔截彈道Fig.5 Interception trajectory under mode 1

圖6 作戰(zhàn)模式1的導(dǎo)彈過載Fig.6 Acceleration of missile under mode 1

圖7 作戰(zhàn)模式2的攔截彈道Fig.7 Interception trajectory under mode 2

圖8 作戰(zhàn)模式2的導(dǎo)彈過載Fig.8 Acceleration of missile under mode 2

圖9 有效導(dǎo)航比N曲線Fig.9 Curve of effective navigation ratio N

圖10 Q均值收斂曲線Fig.10 Convergence curve of the mean of Q

針對目標做=-sign(sin(π/2))蛇形機動的仿真結(jié)果如圖11～圖14所示。圖11和圖12所示分別為兩種作戰(zhàn)模式下的攔截軌跡，從中可知，引入偏置項可使導(dǎo)彈在攔截過程中更加接近目標，有效提升了攔截效果。圖13和圖14所示為零控脫靶量曲線，可以看出，與傳統(tǒng)比例制導(dǎo)律相比，本文設(shè)計的協(xié)同制導(dǎo)律零控脫靶量更低，具有更強的工程實用價值。

圖11 作戰(zhàn)模式1的攔截彈道Fig.11 Interception trajectory under mode 1

圖12 作戰(zhàn)模式2的攔截彈道Fig.12 Interception trajectory under mode 2

圖13 作戰(zhàn)模式1的零控脫靶量Fig.13 Zero effort miss under mode 1

圖14 作戰(zhàn)模式2的零控脫靶量Fig.14 Zero effort miss under mode 2

5 結(jié)論

本文研究了多彈協(xié)同攔截機動目標問題，具體結(jié)論如下：

1)基于逃逸域覆蓋理論、比例制導(dǎo)律和Q-learning算法提出了一種強化學(xué)習(xí)協(xié)同制導(dǎo)律。

2)針對多彈齊射和子母彈分離發(fā)射兩種作戰(zhàn)模式進行了數(shù)值仿真，結(jié)果驗證了所提算法的有效性和優(yōu)越性。

3)后續(xù)工作可進一步研究三維空間中存在攻擊角約束、能量約束、避障和避撞等因素的協(xié)同攔截問題，為實現(xiàn)多約束條件下的智能協(xié)同制導(dǎo)奠定基礎(chǔ)。

猜你喜歡

制導(dǎo)機動彈道

彈道——打勝仗的奧秘

小哥白尼(趣味科學(xué))(2022年3期)2022-06-09 03:22:48

裝載機動臂的疲勞壽命計算

裝備制造技術(shù)(2020年3期)2020-12-25 05:21:52

12萬畝機動地不再“流浪”

當(dāng)代陜西(2019年12期)2019-07-12 09:12:02

一維彈道修正彈無線通信系統(tǒng)研制

電子制作(2019年7期)2019-04-25 13:17:48

機動三輪車的昨天、今天和明天

漢語世界(The World of Chinese)(2019年1期)2019-03-18 01:50:16

基于MPSC和CPN制導(dǎo)方法的協(xié)同制導(dǎo)律

北京航空航天大學(xué)學(xué)報(2016年9期)2016-11-16 02:02:36

基于在線軌跡迭代的自適應(yīng)再入制導(dǎo)

北京航空航天大學(xué)學(xué)報(2016年7期)2016-11-16 01:51:00

基于PID控制的二維彈道修正彈仿真

制導(dǎo)與引信(2016年3期)2016-03-20 16:02:02

帶有攻擊角約束的無抖振滑模制導(dǎo)律設(shè)計

北京航空航天大學(xué)學(xué)報(2016年4期)2016-02-27 06:32:09

海上機動之師

小哥白尼·軍事科學(xué)畫報(2014年8期)2015-04-07 03:54:50

導(dǎo)航定位與授時2022年5期

導(dǎo)航定位與授時的其它文章: 基于民航校驗飛機的星基增強服務(wù)性能評估; MEMS陀螺儀的高精度標定方法; 基于PSO-ELM的衛(wèi)星導(dǎo)航欺騙式干擾檢測; 低軌導(dǎo)航星座增強BDS精密單點定位技術(shù)驗證; 無人飛行器集群僅測距初始相對位姿確定方法研究; 基于滑模的多無人機系統(tǒng)協(xié)同編隊控制

宜君县| 海晏县| 滁州市| 北安市| 松江区| 黔西| 高陵县| 三河市| 施甸县| 扎鲁特旗| 霍林郭勒市| 高密市| 衡阳县| 惠东县| 拜泉县| 宝丰县| 淳化县| 华蓥市| 关岭| 荥经县| 长顺县| 长春市| 驻马店市| 竹北市| 福清市| 玉门市| 商河县| 布拖县| 苍南县| 天津市| 绍兴市| 武川县| 淮阳县| 上犹县| 河池市| 盐池县| 新宁县| 玉山县| 上虞市| 平度市| 隆尧县|

<nav id="4o44o"><sup id="4o44o"></sup></nav><nav id="4o44o"><sup id="4o44o"></sup></nav>

<sup id="4o44o"></sup>

<nav id="4o44o"><sup id="4o44o"></sup></nav>

<tr id="4o44o"></tr>

<sup id="4o44o"><code id="4o44o"></code></sup>