攻擊角度約束下的分布式強(qiáng)化學(xué)習(xí)制導(dǎo)方法

2022-09-23 06:01:44李博皓安旭曼楊曉飛吳云潔李國飛

宇航學(xué)報(bào) 2022年8期

李博皓，安旭曼，楊曉飛，吳云潔，李國飛

(1. 北京航空航天大學(xué)虛擬現(xiàn)實(shí)技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室，北京 100191；2. 北京航空航天大學(xué)大學(xué)自動(dòng)化科學(xué)與電氣工程學(xué)院，北京 100191；3. 飛行器控制一體化技術(shù)重點(diǎn)實(shí)驗(yàn)室，北京 100191；4. 西北工業(yè)大學(xué)航天學(xué)院，西安 710072)

0 引言

現(xiàn)代戰(zhàn)爭中，若目標(biāo)為具有重大軍事價(jià)值的目標(biāo)，如核設(shè)施、艦船、導(dǎo)彈發(fā)射基地和重要軍事建筑物等，此時(shí)，不僅需要彈頭落地時(shí)能保證打擊精度，而且還需要以一定的攻擊角度命中目標(biāo)，從而獲得最大限度的毀傷效果。因此，研究帶有攻擊角度約束的制導(dǎo)方法設(shè)計(jì)問題非常必要。

為了能夠以期望落角擊中目標(biāo)，文獻(xiàn)[7]基于變參數(shù)滑模調(diào)節(jié)和視線偏差設(shè)計(jì)了比例導(dǎo)引加偏置項(xiàng)的末制導(dǎo)律，在不失制導(dǎo)精度的條件下，具有更小的落角偏差和末端攻角。文獻(xiàn)[8]提出了一種非奇異自適應(yīng)增益滑模制導(dǎo)律，用于攔截具有攻擊角約束的目標(biāo)。分析了制導(dǎo)律的穩(wěn)定性和收斂性，當(dāng)存在未知干擾的情況下，系統(tǒng)的加速度抖振可以得到有效抑制。文獻(xiàn)[9]在縱向平面上建立了導(dǎo)彈與目標(biāo)的相對(duì)運(yùn)動(dòng)方程，并構(gòu)造了積分滑模面，設(shè)計(jì)了一種積分滑模制導(dǎo)律，解決了傳統(tǒng)滑模制導(dǎo)律中存在的穩(wěn)態(tài)誤差問題。

深度強(qiáng)化學(xué)習(xí)制導(dǎo)技術(shù)研究主要是依靠人工智能算法強(qiáng)大的特征表示能力和控制決策性能，根據(jù)飛行環(huán)境的變化對(duì)戰(zhàn)場態(tài)勢做出實(shí)時(shí)的分析判斷，輸出相應(yīng)的制導(dǎo)指令，驅(qū)動(dòng)飛行器完成既定目標(biāo)任務(wù)。深度強(qiáng)化學(xué)習(xí)制導(dǎo)技術(shù)具有更顯著的自主決策與規(guī)劃能力，可有效提高不確定戰(zhàn)場環(huán)境下的作戰(zhàn)效能。

近年來，部分學(xué)者已開展了深度強(qiáng)化學(xué)習(xí)制導(dǎo)方面的研究工作。針對(duì)再入飛行器制導(dǎo)方法，李天任等利用Q學(xué)習(xí)訓(xùn)練橫向決策器，自適應(yīng)調(diào)整制導(dǎo)參數(shù)，獲得了較快的收斂速度和打靶成功率。文獻(xiàn)[19]以深度確定性策略梯度(Deep deterministic policy gradient, DDPG)算法為基礎(chǔ)，將視線角速率作為輸入，訓(xùn)練得到了比傳統(tǒng)比例導(dǎo)引方法具有更小脫靶量的強(qiáng)化學(xué)習(xí)制導(dǎo)模型。文獻(xiàn)[20]以傳統(tǒng)的比例制導(dǎo)律為基礎(chǔ)，提出基于強(qiáng)化學(xué)習(xí)的比例導(dǎo)引系數(shù)優(yōu)化算法。該算法以視線角速率作為狀態(tài)，依據(jù)脫靶量設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)，設(shè)計(jì)離散化的動(dòng)作空間，為導(dǎo)彈選擇正確的制導(dǎo)指令。針對(duì)攻擊角度約束下的制導(dǎo)問題，文獻(xiàn)[21]以視線角及視線角速率為觀測狀態(tài)，利用元強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練，得到的制導(dǎo)模型可以輸出導(dǎo)彈轉(zhuǎn)向推力指令，用以對(duì)移動(dòng)目標(biāo)進(jìn)行攔截。文獻(xiàn)[22]進(jìn)一步利用元強(qiáng)化學(xué)習(xí)結(jié)合遞歸神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了一種新的自適應(yīng)制導(dǎo)系統(tǒng)，相較傳統(tǒng)制導(dǎo)策略和普通強(qiáng)化學(xué)習(xí)方法在發(fā)動(dòng)機(jī)隨機(jī)故障且動(dòng)力學(xué)環(huán)境未知的情況下獲得了更好的制導(dǎo)效果。文獻(xiàn)[23]將強(qiáng)化學(xué)習(xí)與模型積分預(yù)測控制結(jié)合，將深度神經(jīng)網(wǎng)絡(luò)作為預(yù)測模型，提出了一種時(shí)變攻擊角度約束下的元強(qiáng)化學(xué)習(xí)制導(dǎo)律。

然而以上方法考慮的約束條件較為單一，且部分方法的加速度抖振較為劇烈，對(duì)制導(dǎo)系統(tǒng)不利。此外，算法的探索效率偏低，訓(xùn)練速度較慢，容易出現(xiàn)局部最優(yōu)解問題。鑒于上述不足，本文面向?qū)嶋H多約束任務(wù)需求，研究攻擊角度、視場角以及控制輸入飽和等限制條件下的深度強(qiáng)化學(xué)習(xí)制導(dǎo)方法。將固定攻擊角度約束問題轉(zhuǎn)化為期望視線角度下的攻擊問題。以深度強(qiáng)化學(xué)習(xí)中的DDPG算法為基礎(chǔ)，根據(jù)所給約束條件建立不同的獎(jiǎng)懲機(jī)制，充分考慮環(huán)境約束，提高制導(dǎo)算法的自適應(yīng)能力。此外，提出分布式探索策略以提高導(dǎo)彈對(duì)環(huán)境的探索效率，防止過擬合的同時(shí)增強(qiáng)模型的泛化能力。

1 攻擊角度約束制導(dǎo)問題數(shù)學(xué)描述

彈-目碰撞幾何結(jié)構(gòu)如圖1所示，其中和分別表示導(dǎo)彈與目標(biāo)，和表示導(dǎo)彈與目標(biāo)的速度矢量，與表示導(dǎo)彈與目標(biāo)速度矢量與參考線的夾角。

圖1 彈-目碰撞幾何結(jié)構(gòu)Fig.1 Geometry of missile-target collision

定義為制導(dǎo)結(jié)束時(shí)刻，攻擊角度表示為結(jié)束時(shí)刻，導(dǎo)彈速度矢量和目標(biāo)速度矢量之間的夾角：

(1)

導(dǎo)彈期望的攻擊角度設(shè)為，攻擊角度約束制導(dǎo)問題是指在制導(dǎo)結(jié)束時(shí)刻，導(dǎo)彈保證脫靶量要求的同時(shí)能以期望的攻擊角度擊中目標(biāo)，即滿足：

(2)

()-()=

(3)

(4)

其中,為視線角，式(2)和(3)分別代表脫靶量和攻擊角度收斂，式(4)代表導(dǎo)彈在視場范圍內(nèi)擊中目標(biāo)。當(dāng)導(dǎo)彈與目標(biāo)處于碰撞幾何三角形上時(shí)，可以認(rèn)為目標(biāo)與導(dǎo)彈相對(duì)速度沿著垂直于視線方向上的分量為零，于是：

sin(()-)=sin(()-)

(5)

其中,為期望視線角。根據(jù)式(5)可以將導(dǎo)彈與目標(biāo)速度之間的夾角轉(zhuǎn)化為視線角，通過控制實(shí)現(xiàn)角視線對(duì)目標(biāo)的攔截。對(duì)于具體攻擊任務(wù)的導(dǎo)彈，期望攻擊角度為定值，如果目標(biāo)運(yùn)動(dòng)的速度偏角()已知時(shí)，由可知導(dǎo)彈在制導(dǎo)結(jié)束時(shí)刻的速度偏角()也可以確定。再由式(5)即可得期望終端視線角的值。

已知水平面內(nèi)彈-目運(yùn)動(dòng)模型為：

(6)

(7)

(8)

(9)

對(duì)式(7)求導(dǎo)并代入式(6)，考慮到目標(biāo)法向加速度為零，得：

(10)

取狀態(tài)變量：

(11)

制導(dǎo)模型可進(jìn)一步描述為：

(12)

2 固定角度約束下的分布式強(qiáng)化學(xué)習(xí)制導(dǎo)模型

2.1 深度確定性策略梯度制導(dǎo)算法

深度確定性策略梯度算法

深度確定性策略梯度算法DDPG是深度強(qiáng)化學(xué)習(xí)中一種可以用來解決連續(xù)動(dòng)作空間問題的典型算法，可以根據(jù)學(xué)習(xí)到的策略直接輸出動(dòng)作。

對(duì)于DDPG算法而言，和[]分別由策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)表示。其中策略網(wǎng)絡(luò)可以表示為如下形式：

=(;)

(13)

其中,表示策略網(wǎng)絡(luò)的參數(shù)，表示策略網(wǎng)絡(luò)輸出的動(dòng)作，表示當(dāng)前時(shí)刻的環(huán)境狀態(tài)。價(jià)值網(wǎng)絡(luò)可以表示為：

(,;)=[|=,=]

(14)

其中,表示按照策略網(wǎng)絡(luò)選取的動(dòng)作，表示價(jià)值網(wǎng)絡(luò)的參數(shù)。策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的更新流程如圖2所示。

圖2 DDPG算法流程Fig.2 Flow chart of DDPG algorithm

策略網(wǎng)絡(luò)驅(qū)動(dòng)智能體與環(huán)境交互，同時(shí)在每個(gè)時(shí)刻將{,,,+1}存儲(chǔ)入經(jīng)驗(yàn)池中。在網(wǎng)絡(luò)更新過程中，會(huì)從經(jīng)驗(yàn)池隨機(jī)抽取批量數(shù)據(jù)來對(duì)參數(shù)進(jìn)行訓(xùn)練。為了獲得更穩(wěn)定的更新結(jié)果，DDPG在常規(guī)策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)之外再使用了目標(biāo)策略網(wǎng)絡(luò)和目標(biāo)價(jià)值網(wǎng)絡(luò)輔助進(jìn)行更新。

價(jià)值網(wǎng)絡(luò)參數(shù)更新方式如下：

(15)

其中，

(16)

式中:′和′分別表示目標(biāo)價(jià)值網(wǎng)絡(luò)和目標(biāo)策略網(wǎng)絡(luò)的參數(shù)。

策略網(wǎng)絡(luò)參數(shù)的更新方式如下：

(17)

式中:和分別表示價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)的學(xué)習(xí)率。在策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)完成更新以后，再采用如下方式對(duì)目標(biāo)網(wǎng)絡(luò)進(jìn)行更新：

′←+(1-)′

(18)

′←+(1-)′

(19)

式中:表示目標(biāo)網(wǎng)絡(luò)的學(xué)習(xí)率。

連續(xù)動(dòng)作空間下的強(qiáng)化學(xué)習(xí)制導(dǎo)策略

導(dǎo)彈和機(jī)動(dòng)目標(biāo)的二維運(yùn)動(dòng)學(xué)模型可表述為：

(20)

其中,表示導(dǎo)彈-目標(biāo)距離，表示速度，表示速度偏角，表示視線角，和分別表示導(dǎo)彈和目標(biāo)及其相關(guān)變量。速度偏角和法向加速度之間的關(guān)系定義為：

(21)

由于目標(biāo)的控制量很難被觀測，因此在制導(dǎo)方法的設(shè)計(jì)過程中，本文假設(shè)目標(biāo)以恒定速度進(jìn)行機(jī)動(dòng)，即=0。

強(qiáng)化學(xué)習(xí)導(dǎo)引方法動(dòng)作空間為導(dǎo)彈法向加速度=，狀態(tài)空間設(shè)置為：

(22)

其中,為導(dǎo)彈-目標(biāo)初始距離。

將觀測值狀態(tài)∈輸入深度強(qiáng)化學(xué)習(xí)的策略網(wǎng)絡(luò)，策略網(wǎng)絡(luò)輸出導(dǎo)彈的控制量∈。在速度恒定的假設(shè)條件下，即為導(dǎo)彈的法向加速度。對(duì)導(dǎo)彈施加控制量后，更新導(dǎo)彈動(dòng)力學(xué)方程，可獲得新的狀態(tài)觀測值。根據(jù)狀態(tài)觀測值生成獎(jiǎng)勵(lì)值，并利用獎(jiǎng)勵(lì)值更新深度強(qiáng)化學(xué)習(xí)策略網(wǎng)絡(luò)的參數(shù)，使得深度強(qiáng)化學(xué)習(xí)模型在一次次的交互訓(xùn)練中學(xué)習(xí)到精確制導(dǎo)的能力。強(qiáng)化學(xué)習(xí)導(dǎo)彈制導(dǎo)策略的總體結(jié)構(gòu)如圖3所示。使用DDPG強(qiáng)化學(xué)習(xí)算法，產(chǎn)生連續(xù)的法向加速度指令，控制導(dǎo)彈在二維平面內(nèi)進(jìn)行機(jī)動(dòng)，完成對(duì)目標(biāo)的精準(zhǔn)打擊。

圖3 強(qiáng)化學(xué)習(xí)制導(dǎo)流程Fig.3 Flow chart of reinforcement learning guidance

2.2 分布式強(qiáng)化學(xué)習(xí)制導(dǎo)算法

獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

制導(dǎo)方法設(shè)計(jì)所考慮的主要角度約束包括攻擊角度約束和視場角約束。前者的主要任務(wù)是保證導(dǎo)彈以一定的視線角命中目標(biāo)，這種方法在打擊特定目標(biāo)時(shí)可以加強(qiáng)導(dǎo)彈對(duì)目標(biāo)的殺傷力。后者主要為了保證導(dǎo)彈對(duì)目標(biāo)的觀測能力，保證視場角在整個(gè)飛行過程中處于給定的范圍之內(nèi)。

為了保證視線角收斂到期望值，設(shè)計(jì)獎(jiǎng)勵(lì)：

=exp(-|-|)

(23)

其中,獎(jiǎng)勵(lì)不僅保證了視線角收斂到期望值，也在一定程度上抑制了視線角速率的變化，因此不再專門設(shè)置獎(jiǎng)勵(lì)對(duì)視線角速率進(jìn)行約束。

為了保證視場角約束，設(shè)置獎(jiǎng)勵(lì)：

(24)

綜上所述，得到最終的獎(jiǎng)勵(lì)函數(shù)：

(25)

其中,和表示兩個(gè)為正的權(quán)重參數(shù)。

分布式強(qiáng)化學(xué)習(xí)算法

強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練結(jié)果與探索和積累的歷史數(shù)據(jù)息息相關(guān)。設(shè)計(jì)分布式探索策略如圖4所示，可以增加歷史數(shù)據(jù)的多樣性，防止數(shù)據(jù)過擬合，提高強(qiáng)化學(xué)習(xí)的泛化能力。

圖4 分布式強(qiáng)化學(xué)習(xí)制導(dǎo)流程Fig.4 Flow chart of the distributed reinforcement learning guidance method

由圖4可知，分布式探索架構(gòu)擁有多個(gè)執(zhí)行機(jī)構(gòu)對(duì)環(huán)境進(jìn)行探索，每個(gè)執(zhí)行機(jī)構(gòu)中的網(wǎng)絡(luò)用于選擇執(zhí)行動(dòng)作。此外，分布式探索架構(gòu)擁有一個(gè)共享經(jīng)驗(yàn)池儲(chǔ)存歷史經(jīng)驗(yàn)，擁有一個(gè)共享學(xué)習(xí)機(jī)構(gòu)用于對(duì)執(zhí)行機(jī)構(gòu)中的網(wǎng)絡(luò)進(jìn)行更新。各執(zhí)行機(jī)構(gòu)基于自身環(huán)境生成執(zhí)行動(dòng)作并接收獎(jiǎng)勵(lì)函數(shù)，探索得到的數(shù)據(jù)會(huì)被添加到共享經(jīng)驗(yàn)池中。學(xué)習(xí)機(jī)構(gòu)從經(jīng)驗(yàn)池中采樣進(jìn)行學(xué)習(xí)訓(xùn)練，執(zhí)行機(jī)構(gòu)內(nèi)的神經(jīng)網(wǎng)絡(luò)周期性地接收學(xué)習(xí)機(jī)構(gòu)網(wǎng)絡(luò)中的參數(shù)。

通過引入分布式技術(shù)，強(qiáng)化學(xué)習(xí)的求解效率得到了提升。讓每一個(gè)導(dǎo)彈執(zhí)行不同的動(dòng)作策略，可以更高效地探索環(huán)境，更全面地尋找最優(yōu)軌跡，有效地防止數(shù)據(jù)過擬合和局部最優(yōu)解。攻擊角度約束下分布式制導(dǎo)方法訓(xùn)練流程如下：

1) 初始化經(jīng)驗(yàn)池、價(jià)值網(wǎng)絡(luò)(,;)、策略網(wǎng)絡(luò)(;)、執(zhí)行網(wǎng)絡(luò)(;)、目標(biāo)價(jià)值網(wǎng)絡(luò)(,;′)、目標(biāo)策略網(wǎng)絡(luò)(;′)，其中′=,′=，為導(dǎo)彈編號(hào)，對(duì)每個(gè)導(dǎo)彈執(zhí)行以下步驟；

2) 初始化導(dǎo)彈狀態(tài)；

3) 輸入當(dāng)前狀態(tài)利用策略網(wǎng)絡(luò)生成法向加速度；

4) 對(duì)施加噪聲并更新導(dǎo)彈動(dòng)力學(xué)模型，獲取新的狀態(tài)′，接收動(dòng)作獎(jiǎng)勵(lì)；

5) 存儲(chǔ)樣本{,,,′}到經(jīng)驗(yàn)池；

6) 從經(jīng)驗(yàn)池中隨機(jī)采樣小批量存儲(chǔ)樣本，對(duì)價(jià)值網(wǎng)絡(luò)進(jìn)行時(shí)序差分更新，通過式(15)和式(17)對(duì)策略網(wǎng)絡(luò)進(jìn)行策略梯度更新；

7) 通過式(18)和式(19)更新目標(biāo)網(wǎng)絡(luò)，每隔步更新=；

8) 判斷是否達(dá)到終止條件，如果沒有達(dá)到令=′，返回3)，否則返回2)。

3 仿真分析

設(shè)置制導(dǎo)飛行仿真實(shí)驗(yàn)環(huán)境，分別對(duì)靜止目標(biāo)和機(jī)動(dòng)目標(biāo)進(jìn)行彈道仿真驗(yàn)證。導(dǎo)彈飛行速度為=600 m/s，采樣間隔Δ=0.1 s，動(dòng)作范圍[-20 g, 20 g]。設(shè)置獎(jiǎng)勵(lì)函數(shù)參數(shù)=1,=1,=100,=π4。經(jīng)驗(yàn)池中存儲(chǔ)的歷史數(shù)據(jù)最多為3000。每個(gè)訓(xùn)練批次的最小訓(xùn)練數(shù)為64，優(yōu)化器選擇Adam，策略網(wǎng)絡(luò)學(xué)習(xí)率為0.0001，價(jià)值網(wǎng)絡(luò)學(xué)習(xí)率為0.001，折扣系數(shù)為0.99。訓(xùn)練回合數(shù)為200，每回合最大仿真時(shí)長為20 s。訓(xùn)練過程如圖5所示：

圖5 強(qiáng)化學(xué)習(xí)模型訓(xùn)練過程Fig.5 Training process of the reinforcement learning model

為了驗(yàn)證所設(shè)計(jì)制導(dǎo)方法有效性和正確性，以空空攔截背景進(jìn)行仿真驗(yàn)證，分別針對(duì)靜止、勻速及機(jī)動(dòng)目標(biāo)的打擊情況展開分析。為了體現(xiàn)制導(dǎo)性能，將本文所設(shè)計(jì)的分布式深度確定性策略梯度制導(dǎo)方法與文獻(xiàn)[8]中提出的滑模(Sliding mode, SM)制導(dǎo)方法，如公式(26)所示，進(jìn)行對(duì)比。兩種制導(dǎo)方法的仿真曲線分別標(biāo)記為DDPG和SM，導(dǎo)彈和目標(biāo)的初始位置、速度及加速度限幅列于表1，其中為重力加速度。

表1 導(dǎo)彈與目標(biāo)參數(shù)Table 1 Missile and target parameters

(26)

1) 靜止目標(biāo)

設(shè)定期望視線角為0，由圖6(a)和圖6(b)可以看出，在不同的導(dǎo)引方法下，盡管飛行軌跡不同，導(dǎo)彈都能在給定的場角范圍內(nèi)命中目標(biāo)，其中分布式制導(dǎo)方法的脫靶量為10.64 m，SM制導(dǎo)方法的脫靶量為11.04 m。導(dǎo)彈在兩種導(dǎo)引方法下都能達(dá)到期望的視線角附近，如圖6(c)所示，兩種制導(dǎo)方法的視線角分別收斂到0.67°和1.41°。分布式制導(dǎo)方法擁有比SM制導(dǎo)方法更平滑的視線角收斂曲線。此外在SM制導(dǎo)方法中，視線角的變化曲線存在超調(diào)現(xiàn)象，而分布式制導(dǎo)方法的仿真結(jié)果更加穩(wěn)定，避免了超調(diào)現(xiàn)象的發(fā)生。從圖6(d)的變化曲線也可以看出，分布式制導(dǎo)方法的法向加速度更加穩(wěn)定，特別是在制導(dǎo)的末端。法向加速度曲線在制導(dǎo)末端的變化范圍較小，有利于導(dǎo)彈在制導(dǎo)末端獲得更光滑的彈道軌跡，視線角的變化也可以得到顯著的抑制。

圖6 靜止目標(biāo)打擊結(jié)果Fig.6 Attacking results for stationary targets

2) 機(jī)動(dòng)目標(biāo)(=200 m/s，=200 m/s)

針對(duì)機(jī)動(dòng)飛行目標(biāo)的仿真結(jié)果如圖7所示，SM算法脫靶量為13.66 m，分布式制導(dǎo)算法脫靶量為13.19 m。為滿足攻擊角度約束的要求，分布式制導(dǎo)方法在導(dǎo)彈初始階段產(chǎn)生較大機(jī)動(dòng)，末端彈道軌跡更加平滑。而SM制導(dǎo)算法在制導(dǎo)末端執(zhí)行機(jī)構(gòu)達(dá)到飽和，彈道不平滑。在圖7(c)中，分布式制導(dǎo)算法視線角收斂到5.03°，能夠有效實(shí)施對(duì)機(jī)動(dòng)目標(biāo)的攔截。SM制導(dǎo)方法則存在較大的攻擊角度誤差，視線角度收斂到-9.9°，目標(biāo)的機(jī)動(dòng)性一定程度上影響了其視線角收斂。圖7(d)所示法向加速度仿真曲線顯示，相比SM制導(dǎo)律，分布式制導(dǎo)方法能更快地調(diào)整視線角，因此制導(dǎo)末端的法向加速度的波動(dòng)性也更小。因此可以在保持脫靶量近乎不變的同時(shí)獲得更高的視線角精度。

圖7 機(jī)動(dòng)目標(biāo)打擊結(jié)果Fig.7 Attacking results for maneuvering targets

3) 蒙特卡羅仿真

為了驗(yàn)證本節(jié)提出的制導(dǎo)律在不同初始條件下的穩(wěn)定性，并展示制導(dǎo)律的統(tǒng)計(jì)特性，針對(duì)機(jī)動(dòng)目標(biāo)進(jìn)行蒙特卡羅仿真，在不同初始條件下進(jìn)行了共100次仿真。初始條件如表2所示，其中unif表示平均分布，表示初始視線角。通過對(duì)此范圍內(nèi)的不同初始條件進(jìn)行仿真，顯示制導(dǎo)律在不同初始條件下的穩(wěn)定性與魯棒性。

表2 蒙特卡洛仿真參數(shù)Table 2 Monte Carlo simulation parameters

蒙特卡洛仿真結(jié)果如圖8所示。圖8(a)展示了仿真中導(dǎo)彈和目標(biāo)的空間運(yùn)動(dòng)軌跡，圖中多色線為不同初始條件下的導(dǎo)彈運(yùn)動(dòng)軌跡，黑色線為目標(biāo)運(yùn)動(dòng)軌跡。其顯示出所有仿真均成功擊中了目標(biāo)，其平均脫靶量為9.26 m。圖8(b)為視場角曲線，其顯示出視場角取值基本滿足訓(xùn)練所規(guī)定的范圍。圖8(c)展示了視線角收斂的過程，顯示了攻擊角度約束的完成，其終端平均視線角誤差為1.63°。圖8(d)顯示了較為平滑的法向加速度曲線。圖8說明所提分布式制導(dǎo)方法可以更快地完成視線角的收斂，防止制導(dǎo)末端控制量達(dá)到飽和。

圖8 蒙特卡洛仿真結(jié)果Fig.8 Attacking results of Monte Carlo simulation

4 結(jié) 論

本文對(duì)攻擊角度約束下的深度強(qiáng)化學(xué)習(xí)制導(dǎo)問題展開研究，提出了一種分布式強(qiáng)化學(xué)習(xí)制導(dǎo)方法。對(duì)獎(jiǎng)勵(lì)函數(shù)做出改進(jìn)，確保制導(dǎo)過程中視線角和視場角滿足約束要求，從而有效抑制了制導(dǎo)末端視線角速率變化。設(shè)計(jì)了分布式探索策略，提高了深度強(qiáng)化學(xué)習(xí)模型的泛化能力，改善了局部最優(yōu)解問題。通過對(duì)比仿真和不同初始狀態(tài)下的蒙特卡洛仿真驗(yàn)證了所提改進(jìn)制導(dǎo)方法的有效性和正確性。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看