• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于預(yù)測校正的落角約束計(jì)算制導(dǎo)方法

      2022-09-07 01:57:00劉子超王江何紹溟李宇飛
      航空學(xué)報(bào) 2022年8期
      關(guān)鍵詞:落角制導(dǎo)導(dǎo)彈

      劉子超,王江,何紹溟,*,李宇飛

      1. 北京理工大學(xué) 宇航學(xué)院,北京 100081 2. 北京理工大學(xué) 無人機(jī)自主控制技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100081 3. 北京理工大學(xué) 信息與電子學(xué)院,北京 100081

      隨著現(xiàn)代防御技術(shù)的發(fā)展,裝甲車輛、艦船、防御工事等目標(biāo)的防御能力顯著提升。當(dāng)導(dǎo)彈以一定的角度命中這類目標(biāo)時,能夠得到更好的打擊效果,因此一些制導(dǎo)律的設(shè)計(jì)中引入了落角約束。Ryoo等基于能量最優(yōu)性能指標(biāo),選取剩余飛行時間的函數(shù)為性能指標(biāo)的權(quán)函數(shù),推導(dǎo)了最優(yōu)落角約束制導(dǎo)律。張友安等應(yīng)用Schwarz不等式求解了有無控制系統(tǒng)動力學(xué)情況下最優(yōu)制導(dǎo)律的一般表達(dá)式。Erer等在比例導(dǎo)引律的基礎(chǔ)上附加角度約束偏置項(xiàng),通過偏置項(xiàng)縮小落角誤差,實(shí)現(xiàn)落角控制。Liu等針對使用脈沖發(fā)動機(jī)控制的飛行器,提出了帶角度約束的最優(yōu)脈沖制導(dǎo)律。Park等選取剩余飛行距離的函數(shù)為性能指標(biāo)的權(quán)函數(shù),推導(dǎo)了帶視場角約束的落角約束制導(dǎo)律。郭建國等將終端攻擊角度約束轉(zhuǎn)化為終端視線角約束,利用螺旋控制算法設(shè)計(jì)了一種二階滑模變結(jié)構(gòu)制導(dǎo)律。He等建立了時變加權(quán)視線角誤差動力學(xué),基于李雅普諾夫穩(wěn)定性理論設(shè)計(jì)了滑模制導(dǎo)律。Kim等則在落角約束問題的基礎(chǔ)上引入了視場角約束,提出了不依賴相對距離與視線角變化率的滑模制導(dǎo)律。在具有落角約束的制導(dǎo)律設(shè)計(jì)中,應(yīng)用最多的是最優(yōu)控制和滑模變結(jié)構(gòu)控制思想。但是最優(yōu)制導(dǎo)律對假設(shè)條件依賴性強(qiáng),魯棒性較差,滑模制導(dǎo)律又容易發(fā)生抖振,如何提高落角約束制導(dǎo)律的魯棒性和穩(wěn)定性仍然是飛行器制導(dǎo)系統(tǒng)設(shè)計(jì)的關(guān)鍵問題。

      隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,幾乎所有學(xué)科都走向定量化和精確化,從而產(chǎn)生了一系列計(jì)算性的學(xué)科分支。在飛行器制導(dǎo)控制領(lǐng)域,計(jì)算制導(dǎo)也獲得了越來越多的關(guān)注。傳統(tǒng)制導(dǎo)研究一般需要引入一些假設(shè)條件來推導(dǎo)解析制導(dǎo)律,例如常值速度假設(shè),并且無法處理復(fù)雜的制導(dǎo)問題;而計(jì)算制導(dǎo)一般不依賴假設(shè)條件簡化制導(dǎo)問題,而是使用數(shù)值計(jì)算方法生成制導(dǎo)指令,偽譜法制導(dǎo)以及深度學(xué)習(xí)制導(dǎo)都屬于計(jì)算制導(dǎo)。

      根據(jù)系統(tǒng)模型在計(jì)算制導(dǎo)中的應(yīng)用,可以將計(jì)算制導(dǎo)算法分為兩類:① 基于模型的計(jì)算制導(dǎo)算法;② 基于數(shù)據(jù)的計(jì)算制導(dǎo)算法。基于模型的計(jì)算制導(dǎo)采用參數(shù)化方法將連續(xù)空間的最優(yōu)控制問題求解轉(zhuǎn)化為非線性規(guī)劃問題,通過數(shù)值計(jì)算求解規(guī)劃問題獲得最優(yōu)解;基于數(shù)據(jù)的計(jì)算制導(dǎo)方法則是以深度學(xué)習(xí)為主要工具,從飛行數(shù)據(jù)中學(xué)習(xí)制導(dǎo)指令或系數(shù)與飛行狀態(tài)之間的映射關(guān)系,根據(jù)飛行器的飛行狀態(tài)動態(tài)調(diào)節(jié)制導(dǎo)指令,從而使飛行器狀態(tài)收斂至期望的約束。

      隨著人工智能技術(shù)的發(fā)展,深度學(xué)習(xí)在制導(dǎo)控制領(lǐng)域的應(yīng)用備受關(guān)注。深度學(xué)習(xí)計(jì)算量相對更少,能夠提高計(jì)算制導(dǎo)的實(shí)時性,并且對非線性函數(shù)具有良好的擬合能力,因此近幾年學(xué)者們對深度學(xué)習(xí)在制導(dǎo)控制領(lǐng)域的應(yīng)用開展了大量研究。方科等使用深度監(jiān)督學(xué)習(xí)根據(jù)當(dāng)前飛行狀態(tài)預(yù)估到達(dá)時間,然后根據(jù)時間誤差對視線角走廊進(jìn)行動態(tài)調(diào)整,該方法調(diào)整形式較為簡單,但是沒有考慮最優(yōu)性指標(biāo)。Shalumov使用深度強(qiáng)化學(xué)習(xí)設(shè)計(jì)了突防制導(dǎo)律,結(jié)合滑模制導(dǎo)的思想,學(xué)習(xí)制導(dǎo)律的切換策略。余躍和王宏倫使用深度監(jiān)督學(xué)習(xí)處理傳統(tǒng)預(yù)測校正制導(dǎo)算法的實(shí)時性問題,使用深度神經(jīng)網(wǎng)絡(luò)代替?zhèn)鹘y(tǒng)算法對導(dǎo)彈運(yùn)動微分方程組的積分,提高了算法的實(shí)時性。Furfaro等使用深度強(qiáng)化學(xué)習(xí)訓(xùn)練制導(dǎo)律的系數(shù),實(shí)現(xiàn)再入飛行器軟著陸,但是整條彈道的獎勵值需要在得到終端狀態(tài)之后才能進(jìn)行計(jì)算,存在稀疏獎勵問題,初期收斂速度較慢,訓(xùn)練效率較低。

      本文基于預(yù)測校正制導(dǎo)思想,結(jié)合監(jiān)督學(xué)習(xí)和深度學(xué)習(xí),提出了一種基于學(xué)習(xí)的計(jì)算制導(dǎo)方法(Learning-based Computational Guidance, LCG)。該方法首先訓(xùn)練深度監(jiān)督學(xué)習(xí)預(yù)測落角,然后以偏置比例導(dǎo)引法為基礎(chǔ),使用深度強(qiáng)化學(xué)習(xí)輸出偏置項(xiàng),使預(yù)測落角向期望落角收斂。本文的主要貢獻(xiàn)如下:① 提出了一種新的計(jì)算制導(dǎo)框架,該框架除了解決落角約束以外,能夠推廣應(yīng)用于其它約束條件,如飛行時間約束,落速約束等;② 使用深度監(jiān)督學(xué)習(xí)實(shí)時預(yù)測終端狀態(tài)后引入深度強(qiáng)化學(xué)習(xí)模型中,解決了深度強(qiáng)化學(xué)習(xí)模型的稀疏獎勵問題,提高了訓(xùn)練效率;③ 針對落角控制問題設(shè)計(jì)了考慮最優(yōu)性指標(biāo)的強(qiáng)化學(xué)習(xí)獎勵函數(shù),降低了能量消耗。

      1 問題描述

      針對二維平面下導(dǎo)彈攻擊固定目標(biāo)的落角約束問題建立彈目相對運(yùn)動的數(shù)學(xué)模型,如圖1所示。圖中:為導(dǎo)彈飛行速度,為彈道傾角,、、分別表示升力、阻力、重力;為彈目視線角;為彈目相對距離;表示彈道軌跡。

      圖1 彈目相對運(yùn)動模型Fig.1 Relative motion model of missile and target

      導(dǎo)彈的運(yùn)動學(xué)微分方程如下

      (1)

      式中:(,)表示導(dǎo)彈在平面中的位置;為導(dǎo)彈質(zhì)量。各氣動力為

      (2)

      式中:為升力系數(shù);為阻力系數(shù);為導(dǎo)彈的參考面積;為重力加速度;表示動壓:

      (3)

      其中:為空氣密度。

      在導(dǎo)彈飛行過程中,攻角一般較小,氣動系數(shù)可近似表示為

      (4)

      (5)

      為了滿足落角約束,導(dǎo)彈的終端位置與彈道傾角應(yīng)當(dāng)滿足如下關(guān)系

      =,=,=

      (6)

      式中:下標(biāo)f表示終端狀態(tài);下標(biāo)d表示期望狀態(tài)。

      雖然本文仿真模型以及方法設(shè)計(jì)基于二維縱向平面開展,但是本文提出的方法可以應(yīng)用于三維場景。在三維場景中,滾轉(zhuǎn)穩(wěn)定導(dǎo)彈的制導(dǎo)問題可以分解至水平通道和垂直通道,解耦為兩個獨(dú)立的問題并分別進(jìn)行分析。將本文的訓(xùn)練結(jié)果應(yīng)用于二維縱向平面,然后將訓(xùn)練場景更換為水平通道,使用本文設(shè)計(jì)的算法訓(xùn)練適用于水平通道的模型,即可在三維場景的兩個通道分別使用兩個計(jì)算制導(dǎo)模型,實(shí)現(xiàn)三維場景制導(dǎo)。

      2 帶落角約束的計(jì)算制導(dǎo)框架

      本文設(shè)計(jì)的LCG框架以偏置比例導(dǎo)引律為基礎(chǔ),偏置比例導(dǎo)引律一般具有如下形式

      =+

      (7)

      式中:為比例導(dǎo)引制導(dǎo)律(Proportional Navigation Guidance, PNG),負(fù)責(zé)縮小導(dǎo)彈的零控脫靶量(Zero Effort Miss, ZEM);為偏置項(xiàng),負(fù)責(zé)使預(yù)測落角收斂至期望落角。為了抵消重力的影響,中引入了重力補(bǔ)償,表示為

      (8)

      引入落角約束后,LCG框架如圖2所示。該框架由兩部分組成:深度監(jiān)督學(xué)習(xí)預(yù)測模塊(Deep Supervised Learning Module, DSLM)與深度強(qiáng)化學(xué)習(xí)校正模塊(Deep Reinforcement Learning Module, DRLM)。在學(xué)習(xí)階段,首先通過離線采集的標(biāo)注數(shù)據(jù)訓(xùn)練DSLM,令DSLM學(xué)習(xí)飛行狀態(tài)與落角之間的映射關(guān)系;當(dāng)DSLM訓(xùn)練完成后,即可實(shí)時預(yù)測落角誤差,令DRLM通過仿真飛行實(shí)驗(yàn)與導(dǎo)彈試錯交互,使用交互生成的數(shù)據(jù)訓(xùn)練DRLM,改進(jìn)偏置項(xiàng)的生成策略。當(dāng)DRLM訓(xùn)練完成后,即可結(jié)合DSLM預(yù)測的落角誤差實(shí)時動態(tài)地調(diào)節(jié)偏置項(xiàng),使落角誤差收斂。

      圖2 帶落角約束的計(jì)算制導(dǎo)框架Fig.2 Framework of learning-based computational guidance with impact angle constraint

      在傳統(tǒng)的預(yù)測校正制導(dǎo)中,預(yù)測模塊使用彈道積分,根據(jù)導(dǎo)彈的當(dāng)前狀態(tài)預(yù)測終端狀態(tài),然后校正模塊根據(jù)預(yù)測值與期望值的偏差調(diào)整控制指令,使偏差逐漸收斂。本文所提出的算法基于預(yù)測校正思想設(shè)計(jì),其中DSLM根據(jù)飛行過程中實(shí)時變化的狀態(tài)在每個周期預(yù)測終端落角,計(jì)算落角誤差;DRLM根據(jù)落角誤差生成制導(dǎo)指令并執(zhí)行后,DSLM再基于新的狀態(tài)預(yù)測落角。

      訓(xùn)練DSLM使用的離線標(biāo)注數(shù)據(jù)按照如下方式采集。首先令式(7)中的=0,制導(dǎo)律即退化為PNG。如果目標(biāo)靜止或機(jī)動形式已知,不考慮環(huán)境帶來的擾動,一組發(fā)射狀態(tài)生成的彈道具有唯一性,彈道上任意一點(diǎn)的飛行狀態(tài)已知時,這條彈道對應(yīng)的落角即可唯一確定;如果目標(biāo)機(jī)動形式未知,隨著導(dǎo)彈剩余飛行時間縮短,目標(biāo)的機(jī)動范圍逐漸縮小,落角預(yù)測誤差隨之收斂;由于DSLM使用飛行過程中的狀態(tài)預(yù)測落角,不存在誤差累積問題,當(dāng)環(huán)境存在偏差或模型不準(zhǔn)確時,落角預(yù)測誤差也會隨著導(dǎo)彈剩余飛行時間的縮短而收斂。在DSLM的訓(xùn)練數(shù)據(jù)采集階段,以PNG為制導(dǎo)律,引入氣動系數(shù)攝動,通過蒙特卡洛實(shí)驗(yàn)獲取大量彈道數(shù)據(jù),然后將飛行狀態(tài)標(biāo)注為輸入數(shù)據(jù),將終端狀態(tài)標(biāo)注為輸出數(shù)據(jù)。

      DRLM將制導(dǎo)模塊視為智能體,將智能體以外的其它部件統(tǒng)一視為環(huán)境。智能體以導(dǎo)彈的飛行狀態(tài)為輸入,以偏置項(xiàng)為輸出,以獲得最大的總環(huán)境獎勵值為目標(biāo),在與環(huán)境的試錯交互中不斷改進(jìn)制導(dǎo)策略;環(huán)境獎勵根據(jù)預(yù)測誤差及其它約束項(xiàng)計(jì)算得出。相比傳統(tǒng)方法,DRLM不需要求解制導(dǎo)指令與約束項(xiàng)之間的解析關(guān)系,因此不依賴假設(shè)條件來簡化模型,也可以將一些過程約束引入制導(dǎo)律設(shè)計(jì)中。

      與其它計(jì)算制導(dǎo)算法相比,基于預(yù)測校正制導(dǎo)思想的計(jì)算制導(dǎo)方法能夠更好的適應(yīng)訓(xùn)練模型偏差。這是因?yàn)轭A(yù)測校正制導(dǎo)對初始誤差不敏感,同時校正模塊中實(shí)時生成的校正指令也能對模型偏差引起的預(yù)測角落誤差進(jìn)行校正。因此本文設(shè)計(jì)的LCG框架具有較好的抗擾性、魯棒性和自適應(yīng)能力。

      3 深度監(jiān)督學(xué)習(xí)預(yù)測模塊

      傳統(tǒng)的預(yù)測校正制導(dǎo)中,預(yù)測模塊對運(yùn)動學(xué)方程進(jìn)行大量的數(shù)值積分,實(shí)際應(yīng)用時存在實(shí)時性問題。深度監(jiān)督學(xué)習(xí)的計(jì)算速度更快,輸入當(dāng)前狀態(tài)即可實(shí)時預(yù)測落角,能夠顯著提高算法的實(shí)時性。

      3.1 DSLM結(jié)構(gòu)設(shè)計(jì)

      DSLM使用具有多個隱層的神經(jīng)網(wǎng)絡(luò),基于標(biāo)注數(shù)據(jù)通過一定的訓(xùn)練方法擬合輸入數(shù)據(jù)與輸出數(shù)據(jù)之間的映射關(guān)系。典型的多隱層神經(jīng)網(wǎng)絡(luò)由輸入層、輸出層、以及多個隱層構(gòu)成,每個隱層中包含了大量的神經(jīng)元。DSLM使用的神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖3所示。

      假設(shè)第層具有個神經(jīng)元,+1層具有個神經(jīng)元,則每個層的神經(jīng)元執(zhí)行的計(jì)算如式(9) 所示:

      =()∈{1,2,…,}

      (9)

      圖3 DSLM的網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure of DSLM

      式中:為單個神經(jīng)元的輸入;為單個神經(jīng)元的輸出;為中間變量;為神經(jīng)元的權(quán)重;為神經(jīng)元的偏移量;{,,…,}構(gòu)成了第+1層的輸入;{,,…,}為第+1層的輸出;下標(biāo)表示數(shù)據(jù)來源于第層的第個神經(jīng)元,下標(biāo)表示數(shù)據(jù)在第+1層的第個神經(jīng)元中計(jì)算;(·)是激活函數(shù)。

      當(dāng)前神經(jīng)網(wǎng)絡(luò)的輸出層設(shè)計(jì)為落角,輸入層設(shè)計(jì)為飛行狀態(tài)向量(,,,,,)。其中:和表示導(dǎo)彈在平面中的絕對位置,與、一同表征導(dǎo)彈自身的當(dāng)前飛行狀態(tài);、表示當(dāng)前彈目相對狀態(tài)。在飛行過程中,這些飛行狀態(tài)一般可通過彈載傳感器或?qū)б^獲得。

      本文設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)使用3個全連接層作為隱層,每層有100個神經(jīng)元。使用線性整流單元(Rectified Linear Unit, ReLU)作為輸入層和隱層的激活函數(shù),輸出層不設(shè)置激活函數(shù)。ReLU的形式為

      (10)

      3.2 DSLM學(xué)習(xí)過程

      DSLM的訓(xùn)練一般需要大量的標(biāo)注數(shù)據(jù)樣本。以PNG為制導(dǎo)律,對式(1)進(jìn)行數(shù)值積分,通過蒙特卡洛仿真生成足夠多的彈道數(shù)據(jù),在仿真過程中引入氣動系數(shù)隨機(jī)攝動,使訓(xùn)練樣本覆蓋更大范圍的樣本空間。在本文設(shè)定的場景中,使用PNG攻擊固定目標(biāo)時不會發(fā)生脫靶現(xiàn)象。當(dāng)導(dǎo)彈滿足≤時,即為完成一次仿真飛行實(shí)驗(yàn),為最大脫靶量。

      第次仿真飛行實(shí)驗(yàn)完成時,彈道對應(yīng)的落角隨即獲得,以彈道上的所有飛行狀態(tài)向量為輸入,對應(yīng)的輸出標(biāo)注為,作為一系列標(biāo)注數(shù)據(jù)樣本。

      (11)

      當(dāng)樣本采集完成后,將樣本中2%的數(shù)據(jù)劃分為測試集,2%的數(shù)據(jù)劃分為驗(yàn)證集,剩余96%的數(shù)據(jù)作為訓(xùn)練集。令=[,],定義損失函數(shù)為網(wǎng)絡(luò)參數(shù)的函數(shù)

      (12)

      (13)

      式中:為學(xué)習(xí)率,在訓(xùn)練前人為設(shè)定初值,訓(xùn)練過程中,ADAM優(yōu)化器會自適應(yīng)地動態(tài)調(diào)節(jié)學(xué)習(xí)率。

      4 深度強(qiáng)化學(xué)習(xí)校正模塊

      本文設(shè)計(jì)的DRLM使用近端策略優(yōu)化算法(Proximal Policy Optimization, PPO)。PPO具有兩個神經(jīng)網(wǎng)絡(luò),分別為策略網(wǎng)絡(luò)和評價(jià)網(wǎng)絡(luò)。策略網(wǎng)絡(luò)表示當(dāng)前狀態(tài)與指令之間的映射關(guān)系;評價(jià)網(wǎng)絡(luò)估算當(dāng)前狀態(tài)的潛在價(jià)值,然后結(jié)合已實(shí)施的指令獲得的獎勵值序列,計(jì)算這些指令的獎勵相對于潛在價(jià)值的優(yōu)勢函數(shù)。當(dāng)優(yōu)勢函數(shù)為正,則增大已實(shí)施指令在策略中的概率;當(dāng)優(yōu)勢函數(shù)為負(fù),則減小這些指令的概率。為了減小訓(xùn)練過程的波動,更新策略時還需要確保新舊策略之間的差異較小。

      4.1 落角約束問題的強(qiáng)化學(xué)習(xí)模型

      在強(qiáng)化學(xué)習(xí)模型中,智能體以試錯的方式進(jìn)行學(xué)習(xí),與環(huán)境交互后獲得獎勵,以最大化總環(huán)境獎勵值為目標(biāo),學(xué)習(xí)當(dāng)前狀態(tài)下的最優(yōu)控制指令。強(qiáng)化學(xué)習(xí)過程可用時間序列={,,,…}表示,={,,}。其中:為環(huán)境在時刻的狀態(tài);為智能體在時刻所采取的行為;為在時刻環(huán)境給出的獎勵。在下一時刻,智能體將作用于環(huán)境,環(huán)境隨即給出獎勵+1,并從狀態(tài)變?yōu)?span id="j5i0abt0b" class="subscript">+1。在應(yīng)用強(qiáng)化學(xué)習(xí)算法前,首先需要針對落角約束問題定義智能體與環(huán)境交互的接口,即狀態(tài)、行為、獎勵。

      將DRLM的行為定義為式(7)中的偏置項(xiàng)。在試錯訓(xùn)練初期可能會產(chǎn)生過大的偏置項(xiàng),致使導(dǎo)彈脫靶,因此需要對偏置項(xiàng)進(jìn)行限幅為

      =||≤

      (14)

      式中:為偏置項(xiàng)的限幅。

      策略網(wǎng)絡(luò)以為輸入,為輸出。為了設(shè)計(jì)狀態(tài),首先分析與存在相關(guān)關(guān)系的變量。彈道可以表示為導(dǎo)彈運(yùn)動方程組的積分,積分時間即為導(dǎo)彈的剩余飛行時間。當(dāng)導(dǎo)彈與目標(biāo)之間距離較遠(yuǎn)時,積分時間較長,導(dǎo)彈能夠以較小的實(shí)現(xiàn)落角控制;當(dāng)縮短,導(dǎo)彈需要使用更大的才能糾正同等的落角誤差。因此,與存在負(fù)相關(guān)關(guān)系;預(yù)測誤差與顯然是正相關(guān)的,越大,需要的也越大。因此將狀態(tài)設(shè)計(jì)為

      (15)

      對獎勵的設(shè)計(jì)是最重要的,因?yàn)楹侠砟軌虼_保學(xué)習(xí)過程收斂,并且能夠提高學(xué)習(xí)效率。除了落角約束,導(dǎo)彈還需滿足一些額外的約束來滿足最優(yōu)性指標(biāo)。不同約束可能具有不同的非線性形式,首先使用指數(shù)函數(shù)將不同約束的尺度統(tǒng)一,然后賦予不同的權(quán)重來調(diào)節(jié)各約束的對智能體的影響。獎勵的形式為

      (16)

      式中:為權(quán)重系數(shù);為約束項(xiàng);為偏移系數(shù);為縮放系數(shù);下標(biāo)表示第項(xiàng)約束。其中滿足

      (17)

      訓(xùn)練好的DSLM給出了預(yù)測落角,結(jié)合期望落角即可計(jì)算預(yù)測的落角誤差。文獻(xiàn)[25]提出了預(yù)測校正制導(dǎo)中誤差動力學(xué)的最優(yōu)收斂形式。最優(yōu)誤差動力學(xué)定義為

      (18)

      (19)

      式中:,0表示誤差的初值。當(dāng)=0時,=0。誤差動力學(xué)式(18)能夠最小化一些性能指標(biāo),為了模擬最優(yōu)誤差動力學(xué),針對落角約束的獎勵項(xiàng)設(shè)計(jì)為式(20)的形式。

      (20)

      其中:為落角約束的縮放系數(shù)。

      根據(jù)能量守恒定律,在飛行期間執(zhí)行機(jī)動消耗的能量越少,擊中目標(biāo)時的動能越大,攻擊效果越好,因此需要對機(jī)動的能量消耗進(jìn)行約束。在最優(yōu)控制中,能量消耗的目標(biāo)函數(shù)一般設(shè)計(jì)為

      (21)

      計(jì)算狀態(tài)的潛在價(jià)值時隱含了對獎勵的積分,因此可以將該約束項(xiàng)設(shè)計(jì)為

      (22)

      式中:為能量消耗約束的縮放系數(shù)。

      結(jié)合式(20)和式(22),引入各約束項(xiàng)的權(quán)重,獎勵值即為

      (23)

      將落角約束問題抽象為強(qiáng)化學(xué)習(xí)問題后,行為、狀態(tài)、獎勵如式(14)、式(15)和式(23)所示。為了加強(qiáng)終端落角與脫靶量在訓(xùn)練過程中的影響,在仿真飛行實(shí)驗(yàn)完成時,調(diào)節(jié)最后一個周期的獎勵值

      (24)

      式中:為脫靶量;為終端落角誤差。

      4.2 近端策略優(yōu)化算法

      PPO是一種基于策略的深度強(qiáng)化學(xué)習(xí)算法。策略可定義為智能體在不同狀態(tài)下的各種行為的概率分布,用(|)表示。PPO將行為視為隨機(jī)變量,該隨機(jī)變量服從一定的概率分布,概率分布的參數(shù)由PPO中的策略網(wǎng)絡(luò)輸出,行為從這一概率分布中隨機(jī)選取。PPO的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

      圖4 PPO的網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network structure of PPO

      1) 評價(jià)網(wǎng)絡(luò)

      PPO的目標(biāo)是尋找一個策略,使智能體在未知環(huán)境中獲得最大的總環(huán)境獎勵值,但是總環(huán)境獎勵值一般無法直接計(jì)算。在離散系統(tǒng)中,總環(huán)境獎勵值具有如下形式

      (25)

      為了表示不同狀態(tài)下的總環(huán)境獎勵,用數(shù)學(xué)期望的形式定義的狀態(tài)值函數(shù)(),表示狀態(tài)的潛在價(jià)值:

      (26)

      為了評估行為的優(yōu)劣,一些強(qiáng)化學(xué)習(xí)算法定義了在狀態(tài)下行為的行為值函數(shù)(,),表示行為的潛在價(jià)值:

      (27)

      ()可用(,)表示為

      (28)

      (29)

      (,)=(,)-()

      (30)

      (31)

      式中:為評價(jià)網(wǎng)絡(luò)的參數(shù)。

      參數(shù)更新如式(32)所示:

      (32)

      式中:為評價(jià)網(wǎng)絡(luò)的學(xué)習(xí)率。

      但是優(yōu)勢函數(shù)中的兩個值函數(shù)仍然是無法直接計(jì)算的,使用多步估計(jì)法估算優(yōu)勢函數(shù),表示為

      (33)

      式中:為估算步長,與交互樣本量相關(guān)。

      2) 策略網(wǎng)絡(luò)

      策略網(wǎng)絡(luò)以狀態(tài)為輸入,以策略的參數(shù)為輸出。一般使用高斯分布作為策略的概率分布,策略網(wǎng)絡(luò)的輸出即為高斯分布的均值和標(biāo)準(zhǔn)差。PPO是基于置信域策略優(yōu)化算法(Trust Region Policy Optimization, TRPO)改進(jìn)設(shè)計(jì)的,在TRPO中,策略網(wǎng)絡(luò)的目標(biāo)函數(shù)為

      (34)

      (35)

      根據(jù)式(30),優(yōu)勢函數(shù)(,)表示當(dāng)前行為值函數(shù)相對于當(dāng)前狀態(tài)值函數(shù)的優(yōu)勢,若優(yōu)勢函數(shù)為正,則應(yīng)當(dāng)提高當(dāng)前行為在策略中的概率;反之,若優(yōu)勢函數(shù)為負(fù),則需要降低當(dāng)前行為在策略中的概率。TRPO通過最大化目標(biāo)函數(shù)實(shí)現(xiàn)了這一過程,并且使用限制了策略更新幅度的上界,提升了策略更新過程的穩(wěn)定性。但是KL散度的計(jì)算量仍然較大,而且TRPO在更新策略時還使用了共軛梯度法等方法,工程實(shí)現(xiàn)較為不便。

      PPO簡化了TRPO的計(jì)算,使用剪切函數(shù)約束策略的更新幅度。PPO的目標(biāo)函數(shù)為

      () =

      (36)

      式中:()表示比率函數(shù),

      (37)

      clip((),?)表示剪切函數(shù),為

      clip ((),?)=

      (38)

      式中:?為約束策略更新幅度的剪切參數(shù)。

      由式(38)可見,剪切函數(shù)將新舊策略的比率約束在(1-?,1+?)內(nèi),隨即約束了新策略的更新幅度。策略網(wǎng)絡(luò)參數(shù)的更新公式為

      (39)

      式中:為策略網(wǎng)絡(luò)的學(xué)習(xí)率。

      4.3 網(wǎng)絡(luò)結(jié)構(gòu)與學(xué)習(xí)過程

      本文使用的PPO中,策略網(wǎng)絡(luò)和評價(jià)網(wǎng)絡(luò)均均由4個全連接層組成,使用了2個隱層,各層維度如表1所示。除了輸出層,其它各層均使用ReLU作為激活函數(shù)。策略網(wǎng)絡(luò)的輸出層使用兩種不同的激活函數(shù),均值輸出使用的激活函數(shù)tanh為

      (40)

      tanh函數(shù)能夠?qū)⒕W(wǎng)絡(luò)的輸出限幅至[-1,1]。將輸出層的輸出乘以式(14)中的,即可將策略網(wǎng)絡(luò)輸出的均值限制在[-,]之間。

      標(biāo)準(zhǔn)差輸出使用的激活函數(shù)為softplus,形如式(41)。Softplus函數(shù)的輸出恒大于0,滿足標(biāo)準(zhǔn)差的物理意義。

      ()=ln(1+e)

      (41)

      本節(jié)的強(qiáng)化學(xué)習(xí)與3.2節(jié)的監(jiān)督學(xué)習(xí)獲取樣本的方式有一定區(qū)別。監(jiān)督學(xué)習(xí)的樣本采集是非交互的,可以在采集完成后開始學(xué)習(xí),而強(qiáng)化學(xué)習(xí)的樣本是交互式的,需要在學(xué)習(xí)的同時生成新的樣本,邊采樣邊學(xué)習(xí)。在學(xué)習(xí)過程中,PPO設(shè)計(jì)了一個長度為的緩沖區(qū),智能體與環(huán)境使用舊策略交互次,將交互過程生成的交互時間序列={,,,…,}存儲于緩沖區(qū)中。更新策略網(wǎng)絡(luò)時,首先使用式(33)估算(,),然后根據(jù)高斯分布的概率密度函數(shù)計(jì)算中已執(zhí)行行為的(|)。策略網(wǎng)絡(luò)生成新的策略后計(jì)算(|),然后代入式(36)計(jì)算目標(biāo)函數(shù),使用ADAM優(yōu)化器求得目標(biāo)函數(shù)對的梯度并更新策略網(wǎng)絡(luò),使目標(biāo)函數(shù)最大化。

      表1 策略網(wǎng)絡(luò)與評價(jià)網(wǎng)絡(luò)各層維度Table 1 Layer size of actor network and critic network

      更新評價(jià)網(wǎng)絡(luò)時,目標(biāo)函數(shù)中的優(yōu)勢函數(shù)(,)在更新策略網(wǎng)絡(luò)階段已經(jīng)獲得,可直接代入式(31)。使用ADAM優(yōu)化器優(yōu)化評價(jià)網(wǎng)絡(luò)的損失函數(shù),更新評價(jià)網(wǎng)絡(luò)的參數(shù),使損失函數(shù)最小化。兩個網(wǎng)絡(luò)更新完成后,清空緩沖區(qū),然后使用學(xué)習(xí)后的新策略交互次,重復(fù)這一學(xué)習(xí)過程,直至導(dǎo)彈落地或擊中目標(biāo)。

      5 仿真實(shí)驗(yàn)

      為了測試LCG的性能,本節(jié)給出了三維空間的數(shù)值仿真實(shí)驗(yàn)。首先建立了三維空間的導(dǎo)彈運(yùn)動模型,然后使用DSLM分別學(xué)習(xí)了水平通道與垂直通道的飛行狀態(tài)與落角之間的關(guān)系,使用DRLM實(shí)現(xiàn)了兩個通道的落角控制,最后使用蒙特卡洛仿真驗(yàn)證了LCG的有效性。

      5.1 三維空間導(dǎo)彈運(yùn)動模型

      三維空間的導(dǎo)彈運(yùn)動微分方程為

      (42)

      式中:為飛行速度;為彈道傾角;為彈道偏角;、、為導(dǎo)彈在空間中的位置;為導(dǎo)彈質(zhì)量;表示升力;表示側(cè)向力;表示阻力;表示重力。各氣動力形式為

      (43)

      式中:為升力系數(shù);為側(cè)向力系數(shù);為阻力系數(shù);為動壓;為參考面積。攻角和側(cè)滑角一般較小,氣動系數(shù)可近似表示為

      (44)

      (45)

      攻角、側(cè)滑角與制導(dǎo)指令之間M、M的關(guān)系如下

      (46)

      5.2 DSLM仿真實(shí)驗(yàn)

      在訓(xùn)練DSLM之前,需要設(shè)計(jì)仿真飛行實(shí)驗(yàn),以PNG為制導(dǎo)律采集彈道樣本。本文設(shè)計(jì)的DSLM可以在水平通道和垂直通道獨(dú)立訓(xùn)練,然后分別部署于兩個通道,因此分別了開展縱向平面和和側(cè)向平面的仿真實(shí)驗(yàn),并且訓(xùn)練了兩個通道DSLM模塊。

      導(dǎo)彈的初始飛行狀態(tài)以均勻分布的方式從一定范圍內(nèi)隨機(jī)選取。各初始飛行狀態(tài)的取值范圍如表2所示,表3給出了導(dǎo)彈關(guān)于馬赫數(shù)的氣動系數(shù),由于本文使用軸對稱彈體模型,導(dǎo)彈水平通道的氣動參數(shù)與垂直通道的氣動參數(shù)相等。導(dǎo)彈的參考面積=0057 m,質(zhì)量=200 kg,重力加速度=981 m/s。攻角與側(cè)滑角均限制于區(qū)間[-20°,20°]內(nèi)。其中縱向平面重復(fù)了兩組蒙特卡洛實(shí)驗(yàn),第1組實(shí)驗(yàn)不考慮氣動系數(shù)攝動,通過1 000次仿真實(shí)驗(yàn)獲得9 191 009組樣本;第2組實(shí)驗(yàn)設(shè)定攝動參數(shù),在每次實(shí)驗(yàn)的初始化階段隨機(jī)縮放氣動系數(shù),的取值范圍為(0.8,1.2),運(yùn)行1 000次仿真實(shí)驗(yàn)共獲得10 207 724組樣本,首先使用無氣動系數(shù)攝動的樣本訓(xùn)練DSLM,訓(xùn)練結(jié)束后使用有氣動系數(shù)攝動的樣本繼續(xù)訓(xùn)練DSLM;側(cè)向平面運(yùn)行了一組蒙特卡洛實(shí)驗(yàn),使用攝動參數(shù)隨機(jī)縮放氣動參數(shù),的取值范圍為(0.8,1.2), 運(yùn)行1 000次仿真實(shí)驗(yàn)共獲得21 339 882組樣本,使用該樣本訓(xùn)練另一個DSLM,用于水平通道的落角預(yù)測。

      表2 導(dǎo)彈初始飛行狀態(tài)Table 2 Initial flight conditions of missile

      表3 氣動系數(shù)及導(dǎo)數(shù)Table 3 Aerodynamic coefficients and derivatives

      使用測試樣本測試訓(xùn)練好的兩個DSLM,測試結(jié)果如圖5所示,測試集的預(yù)測誤差統(tǒng)計(jì)特征如表4所示。由圖5可見DSLM對落角具有良好的預(yù)測效果,預(yù)測值與實(shí)際值幾乎完全重合,由表4可見預(yù)測誤差的均方根誤差較小,最大值雖然較大,但較大的誤差一般出現(xiàn)在彈道初段,預(yù)測誤差隨著導(dǎo)彈接近目標(biāo)逐漸收斂。實(shí)驗(yàn)結(jié)果證明了DSLM的輸入輸出選取合理,學(xué)習(xí)效果良好。

      圖5 DSLM測試結(jié)果Fig.5 Test results of proposed DSLM predictor

      表4 DSLM預(yù)測誤差的統(tǒng)計(jì)特征Table 4 Statistical characteristics of DSLM prediction error

      5.3 DRLM仿真實(shí)驗(yàn)

      1) DRLM的學(xué)習(xí)過程

      由于DRLM的輸出僅依賴落角預(yù)測誤差,而水平通道和垂直通道的氣動系數(shù)相近,可以使用相同的DRLM模型,因此僅在二維縱向平面訓(xùn)練DRLM,然后將訓(xùn)練好的DRLM部署于兩個通道。DRLM的樣本獲取方式與DSLM不同,采用了邊采樣邊學(xué)習(xí)的方式。根據(jù)4.1節(jié)設(shè)計(jì)的強(qiáng)化學(xué)習(xí)模型在導(dǎo)彈仿真飛行實(shí)驗(yàn)中部署PPO算法,按照表2中給出的取值范圍隨機(jī)選取導(dǎo)彈的初始飛行狀態(tài),在學(xué)習(xí)階段期望落角從[-30°,-150°]中隨機(jī)選取。PPO學(xué)習(xí)時使用的超參數(shù)如表5所示。式(15)和式(20)中的可以通過式(47)近似計(jì)算得出:

      (47)

      運(yùn)行仿真程序500次,記錄每一次仿真飛行實(shí)試驗(yàn)獎勵值,然后除以該次飛行時間,記為單次仿真飛行實(shí)驗(yàn)的獎勵。使用滑窗平均計(jì)算多次飛行實(shí)驗(yàn)的平均獎勵,獎勵隨學(xué)習(xí)過程收斂的曲線如圖6所示。從圖中可見,經(jīng)歷了100個周期的波動后,獎勵值開始單調(diào)上升,并在第200次試驗(yàn)后趨于穩(wěn)定。

      2) DRLM性能分析

      設(shè)定一系列的場景對訓(xùn)練后的LCG進(jìn)行仿真測試,導(dǎo)彈以=200 m/s,=0°,=0°,=-20 km,=10 km,=5 km的初始狀態(tài)發(fā)射,期望彈道傾角和期望彈道偏角(,)分別設(shè)定為(-20°,20°),(-40°,0°),(-60°,-20°),各飛行試驗(yàn)對應(yīng)的彈道曲線、制導(dǎo)指令、飛行速度、速度方向角如圖7所示。

      表5 DRLM的超參數(shù)Table 5 Hyper parameter setting in training DRLM

      圖6 DRLM學(xué)習(xí)過程獎勵曲線Fig.6 Learning curves of the DRLM

      從圖7中可見,導(dǎo)彈以期望的落角命中目標(biāo),制導(dǎo)指令有界。阻力與重力的聯(lián)合作用致使飛行速度變化,當(dāng)-sin>時,飛行速度增大;反之,當(dāng)-sin<時,飛行速度減小。導(dǎo)彈的和在仿真終端時刻為(-19.79°,19.86°),(-40.09°, -0.39°),(-59.92°,-19.99°),驗(yàn)證了LCG能夠以較高的精度實(shí)現(xiàn)三維落角約束。

      圖7 LCG制導(dǎo)性能曲線Fig.7 Performance curves of LCG

      實(shí)際場景中一般存在模型偏差與環(huán)境擾動,導(dǎo)致氣動系數(shù)攝動。為了驗(yàn)證LCG的魯棒性,在期望落角[,]為[-20°,20°]時,分別將表3的氣動系數(shù)放大1.2倍、縮小0.8倍,實(shí)驗(yàn)結(jié)果如圖8所示。從圖8可見,在不同的氣動系數(shù)下導(dǎo)彈的飛行軌跡基本重合,并且均以期望的落角到達(dá)目標(biāo)位置,且在到達(dá)目標(biāo)時,落角誤差收斂至0附近。導(dǎo)彈的和在仿真終止時刻分別為(-19.28°,19.79°),(-19.79°, 19.86°),(-19.94°,19.91°),驗(yàn)證了基于預(yù)測校正制導(dǎo)思想設(shè)計(jì)的LCG能夠適應(yīng)氣動系數(shù)攝動,具有較強(qiáng)的魯棒性。

      圖8 不同氣動系數(shù)下的LCG制導(dǎo)性能曲線Fig.8 Performance curves of LCG with different aerodynamic coefficients

      3) LCG與彈道成型的對比分析

      廣義最優(yōu)彈道成型制導(dǎo)律(Trajectory Shaping Guidance, TSG)是一種帶落角約束的最優(yōu)制導(dǎo)律,其推導(dǎo)過程引入了常值速度假設(shè),沒有考慮氣動力的影響,在上述假設(shè)條件下TSG滿足能量最優(yōu)的性能指標(biāo)。三維場景中TSG的公式為

      (48)

      式中:、為導(dǎo)航系數(shù);f、f為終端彈目視線角;對固定目標(biāo)有f=f、f=f。各導(dǎo)航系數(shù)形式為

      (49)

      式中:為可調(diào)參數(shù),≥0。

      取與2)相同的初始發(fā)射條件,設(shè)期望落角(,)為(-40°,0°),分別設(shè)定=0,1,2,運(yùn)行仿真實(shí)驗(yàn)對比3組不同參數(shù)的TSG與LCG的制導(dǎo)效果,實(shí)驗(yàn)結(jié)果如圖9所示。兩種制導(dǎo)律均使導(dǎo)彈以期望的落角到達(dá)目標(biāo)位置,雖然在=0時TSG為能量最優(yōu)的落角約束制導(dǎo)律,但是TSG的推導(dǎo)過程沒有考慮氣動力的影響,使用了常值速度假設(shè),在實(shí)際環(huán)境中無法滿足能量最優(yōu)。而LCG在訓(xùn)練階段考慮了氣動力的影響,DRLM通過試錯交互學(xué)習(xí)得到了滿足落角約束的制導(dǎo)策略,并且能量消耗優(yōu)于TSG,說明本文的DRLM的獎勵設(shè)計(jì)合理,在實(shí)際環(huán)境中LCG的制導(dǎo)性能優(yōu)于TSG。

      圖9 LCG與TSG性能對比Fig.9 Performance comparison of LCG with TSG

      5.4 蒙特卡洛實(shí)驗(yàn)

      為了測試LCG在不同狀況下的制導(dǎo)性能,使用蒙特卡洛仿真實(shí)驗(yàn),發(fā)射條件從表2給出的范圍中隨機(jī)選取,期望落角(,)分別從(-60°,-20°)、(20°,20°)中隨機(jī)選取。分別以LCG與=0的TSG為制導(dǎo)律重復(fù)100次蒙特卡洛實(shí)驗(yàn),統(tǒng)計(jì)LCG與TSG的落角誤差,統(tǒng)計(jì)特征與箱線圖如表6、表7和圖10所示,圖中分別表示垂直通道和水平通道的落角誤差。從箱線圖可知,LCG落角誤差的方差、異常值均小于TSG,驗(yàn)證了該方法對環(huán)境變化不敏感,具有較強(qiáng)的抗擾性、魯棒性;LCG脫靶量的上限、上四分位數(shù)、中位數(shù)均小于TSG,驗(yàn)證了LCG能夠按照要求完成制導(dǎo)任務(wù),制導(dǎo)性能優(yōu)于TSG。

      表6 落角誤差的統(tǒng)計(jì)特征Table 6 Statistical characteristics of impact angle error

      表7 脫靶量的統(tǒng)計(jì)特征Table 7 Statistical characteristics of miss distance

      圖10 蒙特卡洛仿真實(shí)驗(yàn)結(jié)果對比箱線圖Fig.10 Box plot of Monte Carlo experiment

      5.5 計(jì)算性能實(shí)驗(yàn)

      與傳統(tǒng)的制導(dǎo)律相比,計(jì)算制導(dǎo)方法需要消耗更多的計(jì)算資源。為了驗(yàn)證本文提出的LCG在嵌入式系統(tǒng)的工程實(shí)用性,依次使用TensorFlow 1.13.1、X-CUBE-AI 6.0.0、STM32CubeMX 6.2.1分別將LCG中的預(yù)測網(wǎng)絡(luò)、策略網(wǎng)絡(luò)部署于STM32F405測試平臺,其中X-CUBE-AI是ST公司開發(fā)的AI工具箱,可以優(yōu)化神經(jīng)網(wǎng)絡(luò)在STM32上的運(yùn)算速度。分別部署DSLM的預(yù)測網(wǎng)絡(luò)和DRLM中的策略網(wǎng)絡(luò),實(shí)驗(yàn)流程如圖11所示。

      圖11 STM32F405實(shí)驗(yàn)流程示意圖Fig.11 Experimental flow diagram of STM32F405

      PC通過串口下發(fā)數(shù)據(jù),使兩組神經(jīng)網(wǎng)絡(luò)各運(yùn)行10次,然后通過串口采集神經(jīng)網(wǎng)絡(luò)的輸出值,并統(tǒng)計(jì)神經(jīng)網(wǎng)絡(luò)運(yùn)行耗時。將STM32F405的輸出值與PC平臺的神經(jīng)網(wǎng)絡(luò)輸出值進(jìn)行對比,測試X-CUBE-AI優(yōu)化神經(jīng)網(wǎng)絡(luò)造成的精度損失,并計(jì)算平均耗時,結(jié)果如表8所示。

      表8 STM32F405運(yùn)算精度與耗時Table 8 Precision and time consumption of STM32F405

      從表8可見,兩組網(wǎng)絡(luò)在STM32F405單次運(yùn)行的平均耗時分別為1.145 ms和0.272 ms,計(jì)算精度高,實(shí)時性好,說明LCG具備工程實(shí)用價(jià)值。

      6 結(jié) 論

      1) 提出了一種基于預(yù)測校正的落角約束計(jì)算制導(dǎo)方法,該方法由深度監(jiān)督學(xué)習(xí)模塊與深度強(qiáng)化學(xué)習(xí)模塊組成,深度監(jiān)督學(xué)習(xí)模塊在飛行過程中實(shí)時預(yù)測落角,深度強(qiáng)化學(xué)習(xí)模塊對落角誤差進(jìn)行校正。引入深度監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)解決了傳統(tǒng)強(qiáng)化學(xué)習(xí)方法中的稀疏獎勵問題。

      2) 設(shè)計(jì)了計(jì)算制導(dǎo)方法中的各輸入輸出變量,經(jīng)訓(xùn)練后實(shí)現(xiàn)了落角約束制導(dǎo),并以仿真實(shí)驗(yàn)的形式測試了計(jì)算制導(dǎo)的性能,該算法訓(xùn)練過程的收斂速度較快,訓(xùn)練后的制導(dǎo)效果較好,能量消耗與控制誤差均小于彈道成型制導(dǎo)律。然而,由于該類算法較依賴訓(xùn)練時所使用仿真模型的準(zhǔn)確度,當(dāng)訓(xùn)練模型存在較大偏差時,將影響本文所提出方法的制導(dǎo)性能,后續(xù)將開展基于數(shù)據(jù)的計(jì)算制導(dǎo)方法的魯棒性研究,探索弱監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí)在當(dāng)前計(jì)算制導(dǎo)框架的應(yīng)用。

      3) 經(jīng)STM32F405測試,該框架計(jì)算精度與效率高,實(shí)時性好,具有良好的工程應(yīng)用價(jià)值。該框架對預(yù)測校正制導(dǎo)思想的使用除落角約束以外,也可以應(yīng)用于其它不同約束,如飛行時間約束、末速約束等。

      猜你喜歡
      落角制導(dǎo)導(dǎo)彈
      基于落角約束的偏置比例導(dǎo)引律的研究*
      導(dǎo)彈燃料知多少
      軍事文摘(2020年14期)2020-12-17 06:27:16
      正在發(fā)射的岸艦導(dǎo)彈
      兵器知識(2019年1期)2019-01-23 02:20:44
      攔截那枚導(dǎo)彈
      重力和風(fēng)對三維多約束末制導(dǎo)性能的影響分析
      航空兵器(2018年6期)2018-02-26 13:14:52
      導(dǎo)彈轉(zhuǎn)運(yùn)
      基于MPSC和CPN制導(dǎo)方法的協(xié)同制導(dǎo)律
      基于在線軌跡迭代的自適應(yīng)再入制導(dǎo)
      多約束條件下反演滑模制導(dǎo)律設(shè)計(jì)*
      帶落角約束的空地導(dǎo)彈滑模末制導(dǎo)律研究*
      岳西县| 津市市| 玉山县| 宜阳县| 永寿县| 罗平县| 仪陇县| 鄄城县| 湘西| 钦州市| 尚义县| 曲沃县| 峨眉山市| 正蓝旗| 安溪县| 水城县| 金湖县| 措美县| 社会| 新晃| 田东县| 阿图什市| 会昌县| 明光市| 临湘市| 武宁县| 龙里县| 承德县| 屯留县| 星子县| 梁河县| 铜梁县| 上杭县| 虞城县| 新沂市| 巧家县| 金山区| 白河县| 沂南县| 嵩明县| 台安县|