李博皓,安旭曼,楊曉飛,吳云潔,李國飛
(1. 北京航空航天大學(xué)虛擬現(xiàn)實(shí)技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,北京 100191;2. 北京航空航天大學(xué)大學(xué)自動(dòng)化科學(xué)與電氣工程學(xué)院,北京 100191;3. 飛行器控制一體化技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100191;4. 西北工業(yè)大學(xué)航天學(xué)院,西安 710072)
現(xiàn)代戰(zhàn)爭中,若目標(biāo)為具有重大軍事價(jià)值的目標(biāo),如核設(shè)施、艦船、導(dǎo)彈發(fā)射基地和重要軍事建筑物等,此時(shí),不僅需要彈頭落地時(shí)能保證打擊精度,而且還需要以一定的攻擊角度命中目標(biāo),從而獲得最大限度的毀傷效果。因此,研究帶有攻擊角度約束的制導(dǎo)方法設(shè)計(jì)問題非常必要。
為了能夠以期望落角擊中目標(biāo),文獻(xiàn)[7]基于變參數(shù)滑模調(diào)節(jié)和視線偏差設(shè)計(jì)了比例導(dǎo)引加偏置項(xiàng)的末制導(dǎo)律,在不失制導(dǎo)精度的條件下,具有更小的落角偏差和末端攻角。文獻(xiàn)[8]提出了一種非奇異自適應(yīng)增益滑模制導(dǎo)律,用于攔截具有攻擊角約束的目標(biāo)。分析了制導(dǎo)律的穩(wěn)定性和收斂性,當(dāng)存在未知干擾的情況下,系統(tǒng)的加速度抖振可以得到有效抑制。文獻(xiàn)[9]在縱向平面上建立了導(dǎo)彈與目標(biāo)的相對(duì)運(yùn)動(dòng)方程,并構(gòu)造了積分滑模面,設(shè)計(jì)了一種積分滑模制導(dǎo)律,解決了傳統(tǒng)滑模制導(dǎo)律中存在的穩(wěn)態(tài)誤差問題。
深度強(qiáng)化學(xué)習(xí)制導(dǎo)技術(shù)研究主要是依靠人工智能算法強(qiáng)大的特征表示能力和控制決策性能,根據(jù)飛行環(huán)境的變化對(duì)戰(zhàn)場態(tài)勢做出實(shí)時(shí)的分析判斷,輸出相應(yīng)的制導(dǎo)指令,驅(qū)動(dòng)飛行器完成既定目標(biāo)任務(wù)。深度強(qiáng)化學(xué)習(xí)制導(dǎo)技術(shù)具有更顯著的自主決策與規(guī)劃能力,可有效提高不確定戰(zhàn)場環(huán)境下的作戰(zhàn)效能。
近年來,部分學(xué)者已開展了深度強(qiáng)化學(xué)習(xí)制導(dǎo)方面的研究工作。針對(duì)再入飛行器制導(dǎo)方法,李天任等利用Q學(xué)習(xí)訓(xùn)練橫向決策器,自適應(yīng)調(diào)整制導(dǎo)參數(shù),獲得了較快的收斂速度和打靶成功率。文獻(xiàn)[19]以深度確定性策略梯度(Deep deterministic policy gradient, DDPG)算法為基礎(chǔ),將視線角速率作為輸入,訓(xùn)練得到了比傳統(tǒng)比例導(dǎo)引方法具有更小脫靶量的強(qiáng)化學(xué)習(xí)制導(dǎo)模型。文獻(xiàn)[20]以傳統(tǒng)的比例制導(dǎo)律為基礎(chǔ),提出基于強(qiáng)化學(xué)習(xí)的比例導(dǎo)引系數(shù)優(yōu)化算法。該算法以視線角速率作為狀態(tài),依據(jù)脫靶量設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),設(shè)計(jì)離散化的動(dòng)作空間,為導(dǎo)彈選擇正確的制導(dǎo)指令。針對(duì)攻擊角度約束下的制導(dǎo)問題,文獻(xiàn)[21]以視線角及視線角速率為觀測狀態(tài),利用元強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,得到的制導(dǎo)模型可以輸出導(dǎo)彈轉(zhuǎn)向推力指令,用以對(duì)移動(dòng)目標(biāo)進(jìn)行攔截。文獻(xiàn)[22]進(jìn)一步利用元強(qiáng)化學(xué)習(xí)結(jié)合遞歸神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了一種新的自適應(yīng)制導(dǎo)系統(tǒng),相較傳統(tǒng)制導(dǎo)策略和普通強(qiáng)化學(xué)習(xí)方法在發(fā)動(dòng)機(jī)隨機(jī)故障且動(dòng)力學(xué)環(huán)境未知的情況下獲得了更好的制導(dǎo)效果。文獻(xiàn)[23]將強(qiáng)化學(xué)習(xí)與模型積分預(yù)測控制結(jié)合,將深度神經(jīng)網(wǎng)絡(luò)作為預(yù)測模型,提出了一種時(shí)變攻擊角度約束下的元強(qiáng)化學(xué)習(xí)制導(dǎo)律。
然而以上方法考慮的約束條件較為單一,且部分方法的加速度抖振較為劇烈,對(duì)制導(dǎo)系統(tǒng)不利。此外,算法的探索效率偏低,訓(xùn)練速度較慢,容易出現(xiàn)局部最優(yōu)解問題。鑒于上述不足,本文面向?qū)嶋H多約束任務(wù)需求,研究攻擊角度、視場角以及控制輸入飽和等限制條件下的深度強(qiáng)化學(xué)習(xí)制導(dǎo)方法。將固定攻擊角度約束問題轉(zhuǎn)化為期望視線角度下的攻擊問題。以深度強(qiáng)化學(xué)習(xí)中的DDPG算法為基礎(chǔ),根據(jù)所給約束條件建立不同的獎(jiǎng)懲機(jī)制,充分考慮環(huán)境約束,提高制導(dǎo)算法的自適應(yīng)能力。此外,提出分布式探索策略以提高導(dǎo)彈對(duì)環(huán)境的探索效率,防止過擬合的同時(shí)增強(qiáng)模型的泛化能力。
彈-目碰撞幾何結(jié)構(gòu)如圖1所示,其中和分別表示導(dǎo)彈與目標(biāo),和表示導(dǎo)彈與目標(biāo)的速度矢量,與表示導(dǎo)彈與目標(biāo)速度矢量與參考線的夾角。
圖1 彈-目碰撞幾何結(jié)構(gòu)Fig.1 Geometry of missile-target collision
定義為制導(dǎo)結(jié)束時(shí)刻,攻擊角度表示為結(jié)束時(shí)刻,導(dǎo)彈速度矢量和目標(biāo)速度矢量之間的夾角:
=-
(1)
導(dǎo)彈期望的攻擊角度設(shè)為,攻擊角度約束制導(dǎo)問題是指在制導(dǎo)結(jié)束時(shí)刻,導(dǎo)彈保證脫靶量要求的同時(shí)能以期望的攻擊角度擊中目標(biāo),即滿足:
(2)
()-()=
(3)
(4)
其中,為視線角,式(2)和(3)分別代表脫靶量和攻擊角度收斂,式(4)代表導(dǎo)彈在視場范圍內(nèi)擊中目標(biāo)。當(dāng)導(dǎo)彈與目標(biāo)處于碰撞幾何三角形上時(shí),可以認(rèn)為目標(biāo)與導(dǎo)彈相對(duì)速度沿著垂直于視線方向上的分量為零,于是:
sin(()-)=sin(()-)
(5)
其中,為期望視線角。根據(jù)式(5)可以將導(dǎo)彈與目標(biāo)速度之間的夾角轉(zhuǎn)化為視線角,通過控制實(shí)現(xiàn)角視線對(duì)目標(biāo)的攔截。對(duì)于具體攻擊任務(wù)的導(dǎo)彈,期望攻擊角度為定值,如果目標(biāo)運(yùn)動(dòng)的速度偏角()已知時(shí),由可知導(dǎo)彈在制導(dǎo)結(jié)束時(shí)刻的速度偏角()也可以確定。再由式(5)即可得期望終端視線角的值。
已知水平面內(nèi)彈-目運(yùn)動(dòng)模型為:
(6)
(7)
(8)
(9)
對(duì)式(7)求導(dǎo)并代入式(6),考慮到目標(biāo)法向加速度為零,得:
(10)
取狀態(tài)變量:
(11)
制導(dǎo)模型可進(jìn)一步描述為:
(12)
深度確定性策略梯度算法
深度確定性策略梯度算法DDPG是深度強(qiáng)化學(xué)習(xí)中一種可以用來解決連續(xù)動(dòng)作空間問題的典型算法,可以根據(jù)學(xué)習(xí)到的策略直接輸出動(dòng)作。
對(duì)于DDPG算法而言,和[]分別由策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)表示。其中策略網(wǎng)絡(luò)可以表示為如下形式:
=(;)
(13)
其中,表示策略網(wǎng)絡(luò)的參數(shù),表示策略網(wǎng)絡(luò)輸出的動(dòng)作,表示當(dāng)前時(shí)刻的環(huán)境狀態(tài)。價(jià)值網(wǎng)絡(luò)可以表示為:
(,;)=[|=,=]
(14)
其中,表示按照策略網(wǎng)絡(luò)選取的動(dòng)作,表示價(jià)值網(wǎng)絡(luò)的參數(shù)。策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的更新流程如圖2所示。
圖2 DDPG算法流程Fig.2 Flow chart of DDPG algorithm
策略網(wǎng)絡(luò)驅(qū)動(dòng)智能體與環(huán)境交互,同時(shí)在每個(gè)時(shí)刻將{,,,+1}存儲(chǔ)入經(jīng)驗(yàn)池中。在網(wǎng)絡(luò)更新過程中,會(huì)從經(jīng)驗(yàn)池隨機(jī)抽取批量數(shù)據(jù)來對(duì)參數(shù)進(jìn)行訓(xùn)練。為了獲得更穩(wěn)定的更新結(jié)果,DDPG在常規(guī)策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)之外再使用了目標(biāo)策略網(wǎng)絡(luò)和目標(biāo)價(jià)值網(wǎng)絡(luò)輔助進(jìn)行更新。
價(jià)值網(wǎng)絡(luò)參數(shù)更新方式如下:
(15)
其中,
(16)
式中:′和′分別表示目標(biāo)價(jià)值網(wǎng)絡(luò)和目標(biāo)策略網(wǎng)絡(luò)的參數(shù)。
策略網(wǎng)絡(luò)參數(shù)的更新方式如下:
(17)
式中:和分別表示價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)的學(xué)習(xí)率。在策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)完成更新以后,再采用如下方式對(duì)目標(biāo)網(wǎng)絡(luò)進(jìn)行更新:
′←+(1-)′
(18)
′←+(1-)′
(19)
式中:表示目標(biāo)網(wǎng)絡(luò)的學(xué)習(xí)率。
連續(xù)動(dòng)作空間下的強(qiáng)化學(xué)習(xí)制導(dǎo)策略
導(dǎo)彈和機(jī)動(dòng)目標(biāo)的二維運(yùn)動(dòng)學(xué)模型可表述為:
(20)
其中,表示導(dǎo)彈-目標(biāo)距離,表示速度,表示速度偏角,表示視線角,和分別表示導(dǎo)彈和目標(biāo)及其相關(guān)變量。速度偏角和法向加速度之間的關(guān)系定義為:
(21)
由于目標(biāo)的控制量很難被觀測,因此在制導(dǎo)方法的設(shè)計(jì)過程中,本文假設(shè)目標(biāo)以恒定速度進(jìn)行機(jī)動(dòng),即=0。
強(qiáng)化學(xué)習(xí)導(dǎo)引方法動(dòng)作空間為導(dǎo)彈法向加速度=,狀態(tài)空間設(shè)置為:
(22)
其中,為導(dǎo)彈-目標(biāo)初始距離。
將觀測值狀態(tài)∈輸入深度強(qiáng)化學(xué)習(xí)的策略網(wǎng)絡(luò),策略網(wǎng)絡(luò)輸出導(dǎo)彈的控制量∈。在速度恒定的假設(shè)條件下,即為導(dǎo)彈的法向加速度。對(duì)導(dǎo)彈施加控制量后,更新導(dǎo)彈動(dòng)力學(xué)方程,可獲得新的狀態(tài)觀測值。根據(jù)狀態(tài)觀測值生成獎(jiǎng)勵(lì)值,并利用獎(jiǎng)勵(lì)值更新深度強(qiáng)化學(xué)習(xí)策略網(wǎng)絡(luò)的參數(shù),使得深度強(qiáng)化學(xué)習(xí)模型在一次次的交互訓(xùn)練中學(xué)習(xí)到精確制導(dǎo)的能力。強(qiáng)化學(xué)習(xí)導(dǎo)彈制導(dǎo)策略的總體結(jié)構(gòu)如圖3所示。使用DDPG強(qiáng)化學(xué)習(xí)算法,產(chǎn)生連續(xù)的法向加速度指令,控制導(dǎo)彈在二維平面內(nèi)進(jìn)行機(jī)動(dòng),完成對(duì)目標(biāo)的精準(zhǔn)打擊。
圖3 強(qiáng)化學(xué)習(xí)制導(dǎo)流程Fig.3 Flow chart of reinforcement learning guidance
獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)
制導(dǎo)方法設(shè)計(jì)所考慮的主要角度約束包括攻擊角度約束和視場角約束。前者的主要任務(wù)是保證導(dǎo)彈以一定的視線角命中目標(biāo),這種方法在打擊特定目標(biāo)時(shí)可以加強(qiáng)導(dǎo)彈對(duì)目標(biāo)的殺傷力。后者主要為了保證導(dǎo)彈對(duì)目標(biāo)的觀測能力,保證視場角在整個(gè)飛行過程中處于給定的范圍之內(nèi)。
為了保證視線角收斂到期望值,設(shè)計(jì)獎(jiǎng)勵(lì):
=exp(-|-|)
(23)
其中,獎(jiǎng)勵(lì)不僅保證了視線角收斂到期望值,也在一定程度上抑制了視線角速率的變化,因此不再專門設(shè)置獎(jiǎng)勵(lì)對(duì)視線角速率進(jìn)行約束。
為了保證視場角約束,設(shè)置獎(jiǎng)勵(lì):
(24)
綜上所述,得到最終的獎(jiǎng)勵(lì)函數(shù):
=+
(25)
其中,和表示兩個(gè)為正的權(quán)重參數(shù)。
分布式強(qiáng)化學(xué)習(xí)算法
強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練結(jié)果與探索和積累的歷史數(shù)據(jù)息息相關(guān)。設(shè)計(jì)分布式探索策略如圖4所示,可以增加歷史數(shù)據(jù)的多樣性,防止數(shù)據(jù)過擬合,提高強(qiáng)化學(xué)習(xí)的泛化能力。
圖4 分布式強(qiáng)化學(xué)習(xí)制導(dǎo)流程Fig.4 Flow chart of the distributed reinforcement learning guidance method
由圖4可知,分布式探索架構(gòu)擁有多個(gè)執(zhí)行機(jī)構(gòu)對(duì)環(huán)境進(jìn)行探索,每個(gè)執(zhí)行機(jī)構(gòu)中的網(wǎng)絡(luò)用于選擇執(zhí)行動(dòng)作。此外,分布式探索架構(gòu)擁有一個(gè)共享經(jīng)驗(yàn)池儲(chǔ)存歷史經(jīng)驗(yàn),擁有一個(gè)共享學(xué)習(xí)機(jī)構(gòu)用于對(duì)執(zhí)行機(jī)構(gòu)中的網(wǎng)絡(luò)進(jìn)行更新。各執(zhí)行機(jī)構(gòu)基于自身環(huán)境生成執(zhí)行動(dòng)作并接收獎(jiǎng)勵(lì)函數(shù),探索得到的數(shù)據(jù)會(huì)被添加到共享經(jīng)驗(yàn)池中。學(xué)習(xí)機(jī)構(gòu)從經(jīng)驗(yàn)池中采樣進(jìn)行學(xué)習(xí)訓(xùn)練,執(zhí)行機(jī)構(gòu)內(nèi)的神經(jīng)網(wǎng)絡(luò)周期性地接收學(xué)習(xí)機(jī)構(gòu)網(wǎng)絡(luò)中的參數(shù)。
通過引入分布式技術(shù),強(qiáng)化學(xué)習(xí)的求解效率得到了提升。讓每一個(gè)導(dǎo)彈執(zhí)行不同的動(dòng)作策略,可以更高效地探索環(huán)境,更全面地尋找最優(yōu)軌跡,有效地防止數(shù)據(jù)過擬合和局部最優(yōu)解。攻擊角度約束下分布式制導(dǎo)方法訓(xùn)練流程如下:
1) 初始化經(jīng)驗(yàn)池、價(jià)值網(wǎng)絡(luò)(,;)、策略網(wǎng)絡(luò)(;)、執(zhí)行網(wǎng)絡(luò)(;)、目標(biāo)價(jià)值網(wǎng)絡(luò)(,;′)、目標(biāo)策略網(wǎng)絡(luò)(;′),其中′=,′=,為導(dǎo)彈編號(hào),對(duì)每個(gè)導(dǎo)彈執(zhí)行以下步驟;
2) 初始化導(dǎo)彈狀態(tài);
3) 輸入當(dāng)前狀態(tài)利用策略網(wǎng)絡(luò)生成法向加速度;
4) 對(duì)施加噪聲并更新導(dǎo)彈動(dòng)力學(xué)模型,獲取新的狀態(tài)′,接收動(dòng)作獎(jiǎng)勵(lì);
5) 存儲(chǔ)樣本{,,,′}到經(jīng)驗(yàn)池;
6) 從經(jīng)驗(yàn)池中隨機(jī)采樣小批量存儲(chǔ)樣本,對(duì)價(jià)值網(wǎng)絡(luò)進(jìn)行時(shí)序差分更新,通過式(15)和式(17)對(duì)策略網(wǎng)絡(luò)進(jìn)行策略梯度更新;
7) 通過式(18)和式(19)更新目標(biāo)網(wǎng)絡(luò),每隔步更新=;
8) 判斷是否達(dá)到終止條件,如果沒有達(dá)到令=′,返回3),否則返回2)。
設(shè)置制導(dǎo)飛行仿真實(shí)驗(yàn)環(huán)境,分別對(duì)靜止目標(biāo)和機(jī)動(dòng)目標(biāo)進(jìn)行彈道仿真驗(yàn)證。導(dǎo)彈飛行速度為=600 m/s,采樣間隔Δ=0.1 s,動(dòng)作范圍[-20 g, 20 g]。設(shè)置獎(jiǎng)勵(lì)函數(shù)參數(shù)=1,=1,=100,=π4。經(jīng)驗(yàn)池中存儲(chǔ)的歷史數(shù)據(jù)最多為3000。每個(gè)訓(xùn)練批次的最小訓(xùn)練數(shù)為64,優(yōu)化器選擇Adam,策略網(wǎng)絡(luò)學(xué)習(xí)率為0.0001,價(jià)值網(wǎng)絡(luò)學(xué)習(xí)率為0.001,折扣系數(shù)為0.99。訓(xùn)練回合數(shù)為200,每回合最大仿真時(shí)長為20 s。訓(xùn)練過程如圖5所示:
圖5 強(qiáng)化學(xué)習(xí)模型訓(xùn)練過程Fig.5 Training process of the reinforcement learning model
為了驗(yàn)證所設(shè)計(jì)制導(dǎo)方法有效性和正確性,以空空攔截背景進(jìn)行仿真驗(yàn)證,分別針對(duì)靜止、勻速及機(jī)動(dòng)目標(biāo)的打擊情況展開分析。為了體現(xiàn)制導(dǎo)性能,將本文所設(shè)計(jì)的分布式深度確定性策略梯度制導(dǎo)方法與文獻(xiàn)[8]中提出的滑模(Sliding mode, SM)制導(dǎo)方法,如公式(26)所示,進(jìn)行對(duì)比。兩種制導(dǎo)方法的仿真曲線分別標(biāo)記為DDPG和SM,導(dǎo)彈和目標(biāo)的初始位置、速度及加速度限幅列于表1,其中為重力加速度。
表1 導(dǎo)彈與目標(biāo)參數(shù)Table 1 Missile and target parameters
(26)
1) 靜止目標(biāo)
設(shè)定期望視線角為0,由圖6(a)和圖6(b)可以看出,在不同的導(dǎo)引方法下,盡管飛行軌跡不同,導(dǎo)彈都能在給定的場角范圍內(nèi)命中目標(biāo),其中分布式制導(dǎo)方法的脫靶量為10.64 m,SM制導(dǎo)方法的脫靶量為11.04 m。導(dǎo)彈在兩種導(dǎo)引方法下都能達(dá)到期望的視線角附近,如圖6(c)所示,兩種制導(dǎo)方法的視線角分別收斂到0.67°和1.41°。分布式制導(dǎo)方法擁有比SM制導(dǎo)方法更平滑的視線角收斂曲線。此外在SM制導(dǎo)方法中,視線角的變化曲線存在超調(diào)現(xiàn)象,而分布式制導(dǎo)方法的仿真結(jié)果更加穩(wěn)定,避免了超調(diào)現(xiàn)象的發(fā)生。從圖6(d)的變化曲線也可以看出,分布式制導(dǎo)方法的法向加速度更加穩(wěn)定,特別是在制導(dǎo)的末端。法向加速度曲線在制導(dǎo)末端的變化范圍較小,有利于導(dǎo)彈在制導(dǎo)末端獲得更光滑的彈道軌跡,視線角的變化也可以得到顯著的抑制。
圖6 靜止目標(biāo)打擊結(jié)果Fig.6 Attacking results for stationary targets
2) 機(jī)動(dòng)目標(biāo)(=200 m/s,=200 m/s)
針對(duì)機(jī)動(dòng)飛行目標(biāo)的仿真結(jié)果如圖7所示,SM算法脫靶量為13.66 m,分布式制導(dǎo)算法脫靶量為13.19 m。為滿足攻擊角度約束的要求,分布式制導(dǎo)方法在導(dǎo)彈初始階段產(chǎn)生較大機(jī)動(dòng),末端彈道軌跡更加平滑。而SM制導(dǎo)算法在制導(dǎo)末端執(zhí)行機(jī)構(gòu)達(dá)到飽和,彈道不平滑。在圖7(c)中,分布式制導(dǎo)算法視線角收斂到5.03°,能夠有效實(shí)施對(duì)機(jī)動(dòng)目標(biāo)的攔截。SM制導(dǎo)方法則存在較大的攻擊角度誤差,視線角度收斂到-9.9°,目標(biāo)的機(jī)動(dòng)性一定程度上影響了其視線角收斂。圖7(d)所示法向加速度仿真曲線顯示,相比SM制導(dǎo)律,分布式制導(dǎo)方法能更快地調(diào)整視線角,因此制導(dǎo)末端的法向加速度的波動(dòng)性也更小。因此可以在保持脫靶量近乎不變的同時(shí)獲得更高的視線角精度。
圖7 機(jī)動(dòng)目標(biāo)打擊結(jié)果Fig.7 Attacking results for maneuvering targets
3) 蒙特卡羅仿真
為了驗(yàn)證本節(jié)提出的制導(dǎo)律在不同初始條件下的穩(wěn)定性,并展示制導(dǎo)律的統(tǒng)計(jì)特性,針對(duì)機(jī)動(dòng)目標(biāo)進(jìn)行蒙特卡羅仿真,在不同初始條件下進(jìn)行了共100次仿真。初始條件如表2所示,其中unif表示平均分布,表示初始視線角。通過對(duì)此范圍內(nèi)的不同初始條件進(jìn)行仿真,顯示制導(dǎo)律在不同初始條件下的穩(wěn)定性與魯棒性。
表2 蒙特卡洛仿真參數(shù)Table 2 Monte Carlo simulation parameters
蒙特卡洛仿真結(jié)果如圖8所示。圖8(a)展示了仿真中導(dǎo)彈和目標(biāo)的空間運(yùn)動(dòng)軌跡,圖中多色線為不同初始條件下的導(dǎo)彈運(yùn)動(dòng)軌跡,黑色線為目標(biāo)運(yùn)動(dòng)軌跡。其顯示出所有仿真均成功擊中了目標(biāo),其平均脫靶量為9.26 m。圖8(b)為視場角曲線,其顯示出視場角取值基本滿足訓(xùn)練所規(guī)定的范圍。圖8(c)展示了視線角收斂的過程,顯示了攻擊角度約束的完成,其終端平均視線角誤差為1.63°。圖8(d)顯示了較為平滑的法向加速度曲線。圖8說明所提分布式制導(dǎo)方法可以更快地完成視線角的收斂,防止制導(dǎo)末端控制量達(dá)到飽和。
圖8 蒙特卡洛仿真結(jié)果Fig.8 Attacking results of Monte Carlo simulation
本文對(duì)攻擊角度約束下的深度強(qiáng)化學(xué)習(xí)制導(dǎo)問題展開研究,提出了一種分布式強(qiáng)化學(xué)習(xí)制導(dǎo)方法。對(duì)獎(jiǎng)勵(lì)函數(shù)做出改進(jìn),確保制導(dǎo)過程中視線角和視場角滿足約束要求,從而有效抑制了制導(dǎo)末端視線角速率變化。設(shè)計(jì)了分布式探索策略,提高了深度強(qiáng)化學(xué)習(xí)模型的泛化能力,改善了局部最優(yōu)解問題。通過對(duì)比仿真和不同初始狀態(tài)下的蒙特卡洛仿真驗(yàn)證了所提改進(jìn)制導(dǎo)方法的有效性和正確性。