• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      攻擊角度約束下的分布式強(qiáng)化學(xué)習(xí)制導(dǎo)方法

      2022-09-23 06:01:44李博皓安旭曼楊曉飛吳云潔李國飛
      宇航學(xué)報(bào) 2022年8期
      關(guān)鍵詞:視線制導(dǎo)分布式

      李博皓,安旭曼,楊曉飛,吳云潔,李國飛

      (1. 北京航空航天大學(xué)虛擬現(xiàn)實(shí)技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,北京 100191;2. 北京航空航天大學(xué)大學(xué)自動(dòng)化科學(xué)與電氣工程學(xué)院,北京 100191;3. 飛行器控制一體化技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100191;4. 西北工業(yè)大學(xué)航天學(xué)院,西安 710072)

      0 引 言

      現(xiàn)代戰(zhàn)爭中,若目標(biāo)為具有重大軍事價(jià)值的目標(biāo),如核設(shè)施、艦船、導(dǎo)彈發(fā)射基地和重要軍事建筑物等,此時(shí),不僅需要彈頭落地時(shí)能保證打擊精度,而且還需要以一定的攻擊角度命中目標(biāo),從而獲得最大限度的毀傷效果。因此,研究帶有攻擊角度約束的制導(dǎo)方法設(shè)計(jì)問題非常必要。

      為了能夠以期望落角擊中目標(biāo),文獻(xiàn)[7]基于變參數(shù)滑模調(diào)節(jié)和視線偏差設(shè)計(jì)了比例導(dǎo)引加偏置項(xiàng)的末制導(dǎo)律,在不失制導(dǎo)精度的條件下,具有更小的落角偏差和末端攻角。文獻(xiàn)[8]提出了一種非奇異自適應(yīng)增益滑模制導(dǎo)律,用于攔截具有攻擊角約束的目標(biāo)。分析了制導(dǎo)律的穩(wěn)定性和收斂性,當(dāng)存在未知干擾的情況下,系統(tǒng)的加速度抖振可以得到有效抑制。文獻(xiàn)[9]在縱向平面上建立了導(dǎo)彈與目標(biāo)的相對(duì)運(yùn)動(dòng)方程,并構(gòu)造了積分滑模面,設(shè)計(jì)了一種積分滑模制導(dǎo)律,解決了傳統(tǒng)滑模制導(dǎo)律中存在的穩(wěn)態(tài)誤差問題。

      深度強(qiáng)化學(xué)習(xí)制導(dǎo)技術(shù)研究主要是依靠人工智能算法強(qiáng)大的特征表示能力和控制決策性能,根據(jù)飛行環(huán)境的變化對(duì)戰(zhàn)場態(tài)勢做出實(shí)時(shí)的分析判斷,輸出相應(yīng)的制導(dǎo)指令,驅(qū)動(dòng)飛行器完成既定目標(biāo)任務(wù)。深度強(qiáng)化學(xué)習(xí)制導(dǎo)技術(shù)具有更顯著的自主決策與規(guī)劃能力,可有效提高不確定戰(zhàn)場環(huán)境下的作戰(zhàn)效能。

      近年來,部分學(xué)者已開展了深度強(qiáng)化學(xué)習(xí)制導(dǎo)方面的研究工作。針對(duì)再入飛行器制導(dǎo)方法,李天任等利用Q學(xué)習(xí)訓(xùn)練橫向決策器,自適應(yīng)調(diào)整制導(dǎo)參數(shù),獲得了較快的收斂速度和打靶成功率。文獻(xiàn)[19]以深度確定性策略梯度(Deep deterministic policy gradient, DDPG)算法為基礎(chǔ),將視線角速率作為輸入,訓(xùn)練得到了比傳統(tǒng)比例導(dǎo)引方法具有更小脫靶量的強(qiáng)化學(xué)習(xí)制導(dǎo)模型。文獻(xiàn)[20]以傳統(tǒng)的比例制導(dǎo)律為基礎(chǔ),提出基于強(qiáng)化學(xué)習(xí)的比例導(dǎo)引系數(shù)優(yōu)化算法。該算法以視線角速率作為狀態(tài),依據(jù)脫靶量設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),設(shè)計(jì)離散化的動(dòng)作空間,為導(dǎo)彈選擇正確的制導(dǎo)指令。針對(duì)攻擊角度約束下的制導(dǎo)問題,文獻(xiàn)[21]以視線角及視線角速率為觀測狀態(tài),利用元強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,得到的制導(dǎo)模型可以輸出導(dǎo)彈轉(zhuǎn)向推力指令,用以對(duì)移動(dòng)目標(biāo)進(jìn)行攔截。文獻(xiàn)[22]進(jìn)一步利用元強(qiáng)化學(xué)習(xí)結(jié)合遞歸神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了一種新的自適應(yīng)制導(dǎo)系統(tǒng),相較傳統(tǒng)制導(dǎo)策略和普通強(qiáng)化學(xué)習(xí)方法在發(fā)動(dòng)機(jī)隨機(jī)故障且動(dòng)力學(xué)環(huán)境未知的情況下獲得了更好的制導(dǎo)效果。文獻(xiàn)[23]將強(qiáng)化學(xué)習(xí)與模型積分預(yù)測控制結(jié)合,將深度神經(jīng)網(wǎng)絡(luò)作為預(yù)測模型,提出了一種時(shí)變攻擊角度約束下的元強(qiáng)化學(xué)習(xí)制導(dǎo)律。

      然而以上方法考慮的約束條件較為單一,且部分方法的加速度抖振較為劇烈,對(duì)制導(dǎo)系統(tǒng)不利。此外,算法的探索效率偏低,訓(xùn)練速度較慢,容易出現(xiàn)局部最優(yōu)解問題。鑒于上述不足,本文面向?qū)嶋H多約束任務(wù)需求,研究攻擊角度、視場角以及控制輸入飽和等限制條件下的深度強(qiáng)化學(xué)習(xí)制導(dǎo)方法。將固定攻擊角度約束問題轉(zhuǎn)化為期望視線角度下的攻擊問題。以深度強(qiáng)化學(xué)習(xí)中的DDPG算法為基礎(chǔ),根據(jù)所給約束條件建立不同的獎(jiǎng)懲機(jī)制,充分考慮環(huán)境約束,提高制導(dǎo)算法的自適應(yīng)能力。此外,提出分布式探索策略以提高導(dǎo)彈對(duì)環(huán)境的探索效率,防止過擬合的同時(shí)增強(qiáng)模型的泛化能力。

      1 攻擊角度約束制導(dǎo)問題數(shù)學(xué)描述

      彈-目碰撞幾何結(jié)構(gòu)如圖1所示,其中和分別表示導(dǎo)彈與目標(biāo),表示導(dǎo)彈與目標(biāo)的速度矢量,表示導(dǎo)彈與目標(biāo)速度矢量與參考線的夾角。

      圖1 彈-目碰撞幾何結(jié)構(gòu)Fig.1 Geometry of missile-target collision

      定義為制導(dǎo)結(jié)束時(shí)刻,攻擊角度表示為結(jié)束時(shí)刻,導(dǎo)彈速度矢量和目標(biāo)速度矢量之間的夾角:

      =-

      (1)

      導(dǎo)彈期望的攻擊角度設(shè)為,攻擊角度約束制導(dǎo)問題是指在制導(dǎo)結(jié)束時(shí)刻,導(dǎo)彈保證脫靶量要求的同時(shí)能以期望的攻擊角度擊中目標(biāo),即滿足:

      (2)

      ()-()=

      (3)

      (4)

      其中,為視線角,式(2)和(3)分別代表脫靶量和攻擊角度收斂,式(4)代表導(dǎo)彈在視場范圍內(nèi)擊中目標(biāo)。當(dāng)導(dǎo)彈與目標(biāo)處于碰撞幾何三角形上時(shí),可以認(rèn)為目標(biāo)與導(dǎo)彈相對(duì)速度沿著垂直于視線方向上的分量為零,于是:

      sin(()-)=sin(()-)

      (5)

      其中,為期望視線角。根據(jù)式(5)可以將導(dǎo)彈與目標(biāo)速度之間的夾角轉(zhuǎn)化為視線角,通過控制實(shí)現(xiàn)角視線對(duì)目標(biāo)的攔截。對(duì)于具體攻擊任務(wù)的導(dǎo)彈,期望攻擊角度為定值,如果目標(biāo)運(yùn)動(dòng)的速度偏角()已知時(shí),由可知導(dǎo)彈在制導(dǎo)結(jié)束時(shí)刻的速度偏角()也可以確定。再由式(5)即可得期望終端視線角的值。

      已知水平面內(nèi)彈-目運(yùn)動(dòng)模型為:

      (6)

      (7)

      (8)

      (9)

      對(duì)式(7)求導(dǎo)并代入式(6),考慮到目標(biāo)法向加速度為零,得:

      (10)

      取狀態(tài)變量:

      (11)

      制導(dǎo)模型可進(jìn)一步描述為:

      (12)

      2 固定角度約束下的分布式強(qiáng)化學(xué)習(xí)制導(dǎo)模型

      2.1 深度確定性策略梯度制導(dǎo)算法

      深度確定性策略梯度算法

      深度確定性策略梯度算法DDPG是深度強(qiáng)化學(xué)習(xí)中一種可以用來解決連續(xù)動(dòng)作空間問題的典型算法,可以根據(jù)學(xué)習(xí)到的策略直接輸出動(dòng)作。

      對(duì)于DDPG算法而言,和[]分別由策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)表示。其中策略網(wǎng)絡(luò)可以表示為如下形式:

      =(;)

      (13)

      其中,表示策略網(wǎng)絡(luò)的參數(shù),表示策略網(wǎng)絡(luò)輸出的動(dòng)作,表示當(dāng)前時(shí)刻的環(huán)境狀態(tài)。價(jià)值網(wǎng)絡(luò)可以表示為:

      (,;)=[|=,=]

      (14)

      其中,表示按照策略網(wǎng)絡(luò)選取的動(dòng)作,表示價(jià)值網(wǎng)絡(luò)的參數(shù)。策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的更新流程如圖2所示。

      圖2 DDPG算法流程Fig.2 Flow chart of DDPG algorithm

      策略網(wǎng)絡(luò)驅(qū)動(dòng)智能體與環(huán)境交互,同時(shí)在每個(gè)時(shí)刻將{,,,+1}存儲(chǔ)入經(jīng)驗(yàn)池中。在網(wǎng)絡(luò)更新過程中,會(huì)從經(jīng)驗(yàn)池隨機(jī)抽取批量數(shù)據(jù)來對(duì)參數(shù)進(jìn)行訓(xùn)練。為了獲得更穩(wěn)定的更新結(jié)果,DDPG在常規(guī)策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)之外再使用了目標(biāo)策略網(wǎng)絡(luò)和目標(biāo)價(jià)值網(wǎng)絡(luò)輔助進(jìn)行更新。

      價(jià)值網(wǎng)絡(luò)參數(shù)更新方式如下:

      (15)

      其中,

      (16)

      式中:′和′分別表示目標(biāo)價(jià)值網(wǎng)絡(luò)和目標(biāo)策略網(wǎng)絡(luò)的參數(shù)。

      策略網(wǎng)絡(luò)參數(shù)的更新方式如下:

      (17)

      式中:和分別表示價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)的學(xué)習(xí)率。在策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)完成更新以后,再采用如下方式對(duì)目標(biāo)網(wǎng)絡(luò)進(jìn)行更新:

      ′←+(1-)′

      (18)

      ′←+(1-)′

      (19)

      式中:表示目標(biāo)網(wǎng)絡(luò)的學(xué)習(xí)率。

      連續(xù)動(dòng)作空間下的強(qiáng)化學(xué)習(xí)制導(dǎo)策略

      導(dǎo)彈和機(jī)動(dòng)目標(biāo)的二維運(yùn)動(dòng)學(xué)模型可表述為:

      (20)

      其中,表示導(dǎo)彈-目標(biāo)距離,表示速度,表示速度偏角,表示視線角,和分別表示導(dǎo)彈和目標(biāo)及其相關(guān)變量。速度偏角和法向加速度之間的關(guān)系定義為:

      (21)

      由于目標(biāo)的控制量很難被觀測,因此在制導(dǎo)方法的設(shè)計(jì)過程中,本文假設(shè)目標(biāo)以恒定速度進(jìn)行機(jī)動(dòng),即=0。

      強(qiáng)化學(xué)習(xí)導(dǎo)引方法動(dòng)作空間為導(dǎo)彈法向加速度=,狀態(tài)空間設(shè)置為:

      (22)

      其中,為導(dǎo)彈-目標(biāo)初始距離。

      將觀測值狀態(tài)∈輸入深度強(qiáng)化學(xué)習(xí)的策略網(wǎng)絡(luò),策略網(wǎng)絡(luò)輸出導(dǎo)彈的控制量∈。在速度恒定的假設(shè)條件下,即為導(dǎo)彈的法向加速度。對(duì)導(dǎo)彈施加控制量后,更新導(dǎo)彈動(dòng)力學(xué)方程,可獲得新的狀態(tài)觀測值。根據(jù)狀態(tài)觀測值生成獎(jiǎng)勵(lì)值,并利用獎(jiǎng)勵(lì)值更新深度強(qiáng)化學(xué)習(xí)策略網(wǎng)絡(luò)的參數(shù),使得深度強(qiáng)化學(xué)習(xí)模型在一次次的交互訓(xùn)練中學(xué)習(xí)到精確制導(dǎo)的能力。強(qiáng)化學(xué)習(xí)導(dǎo)彈制導(dǎo)策略的總體結(jié)構(gòu)如圖3所示。使用DDPG強(qiáng)化學(xué)習(xí)算法,產(chǎn)生連續(xù)的法向加速度指令,控制導(dǎo)彈在二維平面內(nèi)進(jìn)行機(jī)動(dòng),完成對(duì)目標(biāo)的精準(zhǔn)打擊。

      圖3 強(qiáng)化學(xué)習(xí)制導(dǎo)流程Fig.3 Flow chart of reinforcement learning guidance

      2.2 分布式強(qiáng)化學(xué)習(xí)制導(dǎo)算法

      獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

      制導(dǎo)方法設(shè)計(jì)所考慮的主要角度約束包括攻擊角度約束和視場角約束。前者的主要任務(wù)是保證導(dǎo)彈以一定的視線角命中目標(biāo),這種方法在打擊特定目標(biāo)時(shí)可以加強(qiáng)導(dǎo)彈對(duì)目標(biāo)的殺傷力。后者主要為了保證導(dǎo)彈對(duì)目標(biāo)的觀測能力,保證視場角在整個(gè)飛行過程中處于給定的范圍之內(nèi)。

      為了保證視線角收斂到期望值,設(shè)計(jì)獎(jiǎng)勵(lì):

      =exp(-|-|)

      (23)

      其中,獎(jiǎng)勵(lì)不僅保證了視線角收斂到期望值,也在一定程度上抑制了視線角速率的變化,因此不再專門設(shè)置獎(jiǎng)勵(lì)對(duì)視線角速率進(jìn)行約束。

      為了保證視場角約束,設(shè)置獎(jiǎng)勵(lì):

      (24)

      綜上所述,得到最終的獎(jiǎng)勵(lì)函數(shù):

      =+

      (25)

      其中,和表示兩個(gè)為正的權(quán)重參數(shù)。

      分布式強(qiáng)化學(xué)習(xí)算法

      強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練結(jié)果與探索和積累的歷史數(shù)據(jù)息息相關(guān)。設(shè)計(jì)分布式探索策略如圖4所示,可以增加歷史數(shù)據(jù)的多樣性,防止數(shù)據(jù)過擬合,提高強(qiáng)化學(xué)習(xí)的泛化能力。

      圖4 分布式強(qiáng)化學(xué)習(xí)制導(dǎo)流程Fig.4 Flow chart of the distributed reinforcement learning guidance method

      由圖4可知,分布式探索架構(gòu)擁有多個(gè)執(zhí)行機(jī)構(gòu)對(duì)環(huán)境進(jìn)行探索,每個(gè)執(zhí)行機(jī)構(gòu)中的網(wǎng)絡(luò)用于選擇執(zhí)行動(dòng)作。此外,分布式探索架構(gòu)擁有一個(gè)共享經(jīng)驗(yàn)池儲(chǔ)存歷史經(jīng)驗(yàn),擁有一個(gè)共享學(xué)習(xí)機(jī)構(gòu)用于對(duì)執(zhí)行機(jī)構(gòu)中的網(wǎng)絡(luò)進(jìn)行更新。各執(zhí)行機(jī)構(gòu)基于自身環(huán)境生成執(zhí)行動(dòng)作并接收獎(jiǎng)勵(lì)函數(shù),探索得到的數(shù)據(jù)會(huì)被添加到共享經(jīng)驗(yàn)池中。學(xué)習(xí)機(jī)構(gòu)從經(jīng)驗(yàn)池中采樣進(jìn)行學(xué)習(xí)訓(xùn)練,執(zhí)行機(jī)構(gòu)內(nèi)的神經(jīng)網(wǎng)絡(luò)周期性地接收學(xué)習(xí)機(jī)構(gòu)網(wǎng)絡(luò)中的參數(shù)。

      通過引入分布式技術(shù),強(qiáng)化學(xué)習(xí)的求解效率得到了提升。讓每一個(gè)導(dǎo)彈執(zhí)行不同的動(dòng)作策略,可以更高效地探索環(huán)境,更全面地尋找最優(yōu)軌跡,有效地防止數(shù)據(jù)過擬合和局部最優(yōu)解。攻擊角度約束下分布式制導(dǎo)方法訓(xùn)練流程如下:

      1) 初始化經(jīng)驗(yàn)池、價(jià)值網(wǎng)絡(luò)(,;)、策略網(wǎng)絡(luò)(;)、執(zhí)行網(wǎng)絡(luò)(;)、目標(biāo)價(jià)值網(wǎng)絡(luò)(,;′)、目標(biāo)策略網(wǎng)絡(luò)(;′),其中′=,′=,為導(dǎo)彈編號(hào),對(duì)每個(gè)導(dǎo)彈執(zhí)行以下步驟;

      2) 初始化導(dǎo)彈狀態(tài);

      3) 輸入當(dāng)前狀態(tài)利用策略網(wǎng)絡(luò)生成法向加速度;

      4) 對(duì)施加噪聲并更新導(dǎo)彈動(dòng)力學(xué)模型,獲取新的狀態(tài)′,接收動(dòng)作獎(jiǎng)勵(lì);

      5) 存儲(chǔ)樣本{,,,′}到經(jīng)驗(yàn)池;

      6) 從經(jīng)驗(yàn)池中隨機(jī)采樣小批量存儲(chǔ)樣本,對(duì)價(jià)值網(wǎng)絡(luò)進(jìn)行時(shí)序差分更新,通過式(15)和式(17)對(duì)策略網(wǎng)絡(luò)進(jìn)行策略梯度更新;

      7) 通過式(18)和式(19)更新目標(biāo)網(wǎng)絡(luò),每隔步更新=;

      8) 判斷是否達(dá)到終止條件,如果沒有達(dá)到令=′,返回3),否則返回2)。

      3 仿真分析

      設(shè)置制導(dǎo)飛行仿真實(shí)驗(yàn)環(huán)境,分別對(duì)靜止目標(biāo)和機(jī)動(dòng)目標(biāo)進(jìn)行彈道仿真驗(yàn)證。導(dǎo)彈飛行速度為=600 m/s,采樣間隔Δ=0.1 s,動(dòng)作范圍[-20 g, 20 g]。設(shè)置獎(jiǎng)勵(lì)函數(shù)參數(shù)=1,=1,=100,=π4。經(jīng)驗(yàn)池中存儲(chǔ)的歷史數(shù)據(jù)最多為3000。每個(gè)訓(xùn)練批次的最小訓(xùn)練數(shù)為64,優(yōu)化器選擇Adam,策略網(wǎng)絡(luò)學(xué)習(xí)率為0.0001,價(jià)值網(wǎng)絡(luò)學(xué)習(xí)率為0.001,折扣系數(shù)為0.99。訓(xùn)練回合數(shù)為200,每回合最大仿真時(shí)長為20 s。訓(xùn)練過程如圖5所示:

      圖5 強(qiáng)化學(xué)習(xí)模型訓(xùn)練過程Fig.5 Training process of the reinforcement learning model

      為了驗(yàn)證所設(shè)計(jì)制導(dǎo)方法有效性和正確性,以空空攔截背景進(jìn)行仿真驗(yàn)證,分別針對(duì)靜止、勻速及機(jī)動(dòng)目標(biāo)的打擊情況展開分析。為了體現(xiàn)制導(dǎo)性能,將本文所設(shè)計(jì)的分布式深度確定性策略梯度制導(dǎo)方法與文獻(xiàn)[8]中提出的滑模(Sliding mode, SM)制導(dǎo)方法,如公式(26)所示,進(jìn)行對(duì)比。兩種制導(dǎo)方法的仿真曲線分別標(biāo)記為DDPG和SM,導(dǎo)彈和目標(biāo)的初始位置、速度及加速度限幅列于表1,其中為重力加速度。

      表1 導(dǎo)彈與目標(biāo)參數(shù)Table 1 Missile and target parameters

      (26)

      1) 靜止目標(biāo)

      設(shè)定期望視線角為0,由圖6(a)和圖6(b)可以看出,在不同的導(dǎo)引方法下,盡管飛行軌跡不同,導(dǎo)彈都能在給定的場角范圍內(nèi)命中目標(biāo),其中分布式制導(dǎo)方法的脫靶量為10.64 m,SM制導(dǎo)方法的脫靶量為11.04 m。導(dǎo)彈在兩種導(dǎo)引方法下都能達(dá)到期望的視線角附近,如圖6(c)所示,兩種制導(dǎo)方法的視線角分別收斂到0.67°和1.41°。分布式制導(dǎo)方法擁有比SM制導(dǎo)方法更平滑的視線角收斂曲線。此外在SM制導(dǎo)方法中,視線角的變化曲線存在超調(diào)現(xiàn)象,而分布式制導(dǎo)方法的仿真結(jié)果更加穩(wěn)定,避免了超調(diào)現(xiàn)象的發(fā)生。從圖6(d)的變化曲線也可以看出,分布式制導(dǎo)方法的法向加速度更加穩(wěn)定,特別是在制導(dǎo)的末端。法向加速度曲線在制導(dǎo)末端的變化范圍較小,有利于導(dǎo)彈在制導(dǎo)末端獲得更光滑的彈道軌跡,視線角的變化也可以得到顯著的抑制。

      圖6 靜止目標(biāo)打擊結(jié)果Fig.6 Attacking results for stationary targets

      2) 機(jī)動(dòng)目標(biāo)(=200 m/s,=200 m/s)

      針對(duì)機(jī)動(dòng)飛行目標(biāo)的仿真結(jié)果如圖7所示,SM算法脫靶量為13.66 m,分布式制導(dǎo)算法脫靶量為13.19 m。為滿足攻擊角度約束的要求,分布式制導(dǎo)方法在導(dǎo)彈初始階段產(chǎn)生較大機(jī)動(dòng),末端彈道軌跡更加平滑。而SM制導(dǎo)算法在制導(dǎo)末端執(zhí)行機(jī)構(gòu)達(dá)到飽和,彈道不平滑。在圖7(c)中,分布式制導(dǎo)算法視線角收斂到5.03°,能夠有效實(shí)施對(duì)機(jī)動(dòng)目標(biāo)的攔截。SM制導(dǎo)方法則存在較大的攻擊角度誤差,視線角度收斂到-9.9°,目標(biāo)的機(jī)動(dòng)性一定程度上影響了其視線角收斂。圖7(d)所示法向加速度仿真曲線顯示,相比SM制導(dǎo)律,分布式制導(dǎo)方法能更快地調(diào)整視線角,因此制導(dǎo)末端的法向加速度的波動(dòng)性也更小。因此可以在保持脫靶量近乎不變的同時(shí)獲得更高的視線角精度。

      圖7 機(jī)動(dòng)目標(biāo)打擊結(jié)果Fig.7 Attacking results for maneuvering targets

      3) 蒙特卡羅仿真

      為了驗(yàn)證本節(jié)提出的制導(dǎo)律在不同初始條件下的穩(wěn)定性,并展示制導(dǎo)律的統(tǒng)計(jì)特性,針對(duì)機(jī)動(dòng)目標(biāo)進(jìn)行蒙特卡羅仿真,在不同初始條件下進(jìn)行了共100次仿真。初始條件如表2所示,其中unif表示平均分布,表示初始視線角。通過對(duì)此范圍內(nèi)的不同初始條件進(jìn)行仿真,顯示制導(dǎo)律在不同初始條件下的穩(wěn)定性與魯棒性。

      表2 蒙特卡洛仿真參數(shù)Table 2 Monte Carlo simulation parameters

      蒙特卡洛仿真結(jié)果如圖8所示。圖8(a)展示了仿真中導(dǎo)彈和目標(biāo)的空間運(yùn)動(dòng)軌跡,圖中多色線為不同初始條件下的導(dǎo)彈運(yùn)動(dòng)軌跡,黑色線為目標(biāo)運(yùn)動(dòng)軌跡。其顯示出所有仿真均成功擊中了目標(biāo),其平均脫靶量為9.26 m。圖8(b)為視場角曲線,其顯示出視場角取值基本滿足訓(xùn)練所規(guī)定的范圍。圖8(c)展示了視線角收斂的過程,顯示了攻擊角度約束的完成,其終端平均視線角誤差為1.63°。圖8(d)顯示了較為平滑的法向加速度曲線。圖8說明所提分布式制導(dǎo)方法可以更快地完成視線角的收斂,防止制導(dǎo)末端控制量達(dá)到飽和。

      圖8 蒙特卡洛仿真結(jié)果Fig.8 Attacking results of Monte Carlo simulation

      4 結(jié) 論

      本文對(duì)攻擊角度約束下的深度強(qiáng)化學(xué)習(xí)制導(dǎo)問題展開研究,提出了一種分布式強(qiáng)化學(xué)習(xí)制導(dǎo)方法。對(duì)獎(jiǎng)勵(lì)函數(shù)做出改進(jìn),確保制導(dǎo)過程中視線角和視場角滿足約束要求,從而有效抑制了制導(dǎo)末端視線角速率變化。設(shè)計(jì)了分布式探索策略,提高了深度強(qiáng)化學(xué)習(xí)模型的泛化能力,改善了局部最優(yōu)解問題。通過對(duì)比仿真和不同初始狀態(tài)下的蒙特卡洛仿真驗(yàn)證了所提改進(jìn)制導(dǎo)方法的有效性和正確性。

      猜你喜歡
      視線制導(dǎo)分布式
      要去就去視線盡頭的山
      分布式光伏熱錢洶涌
      能源(2017年10期)2017-12-20 05:54:07
      你吸引了我的視線
      分布式光伏:爆發(fā)還是徘徊
      能源(2017年5期)2017-07-06 09:25:54
      基于MPSC和CPN制導(dǎo)方法的協(xié)同制導(dǎo)律
      基于在線軌跡迭代的自適應(yīng)再入制導(dǎo)
      帶有攻擊角約束的無抖振滑模制導(dǎo)律設(shè)計(jì)
      基于DDS的分布式三維協(xié)同仿真研究
      當(dāng)代視線
      復(fù)合制導(dǎo)方式確保精確入軌
      太空探索(2014年1期)2014-07-10 13:41:49
      武清区| 睢宁县| 涿州市| 余干县| 陕西省| 蒲江县| 双流县| 读书| 肥东县| 麻阳| 西贡区| 怀远县| 荥经县| 本溪市| 宝丰县| 龙游县| 西畴县| 澄迈县| 天镇县| 黑山县| 会泽县| 平邑县| 滨海县| 平顶山市| 旌德县| 筠连县| 宝应县| 浪卡子县| 墨玉县| 辽阳县| 灌南县| 郑州市| 招远市| 九龙县| 从化市| 东方市| 云霄县| 龙岩市| 古丈县| 渝中区| 辽阳县|