譚目來, 丁達理, 謝 磊, 丁 維, 呂丞輝
(空軍工程大學航空工程學院, 陜西 西安 710038)
隨著現代戰(zhàn)爭中無人機的廣泛運用,未來戰(zhàn)場使用無人機進行制空權作戰(zhàn)成為可能。為提高無人作戰(zhàn)飛機(unmanned combat air vehicle, UCAV)空戰(zhàn)效能,對UCAV的自主空戰(zhàn)機動決策顯得尤為重要。當前,自主空戰(zhàn)決策方法主要可分為3類:基于機動動作庫的博弈論方法;基于優(yōu)化理論的機動決策方法;基于人工智能的機動決策方法。
基于機動動作庫的博弈論方法通過建立機動評價函數,得到機動動作得分博弈矩陣,從而選出最優(yōu)機動動作,但其機動動作固化,很難做到對當前空戰(zhàn)狀態(tài)自適應。
基于優(yōu)化理論的機動決策方法包括動態(tài)規(guī)劃算法、智能優(yōu)化算法、統(tǒng)計理論等。但基于優(yōu)化理論的機動決策方法得到的機動軌跡戰(zhàn)術性較差,軌跡不易被認同。
基于人工智能的機動決策方法主要包括神經網絡法和強化學習法。神經網絡法決策實時性好,但需要大量樣本訓練,樣本數據的產生不夠真實。強化學習法需要樣本少,但訓練時間長。
為同時具備機動軌跡戰(zhàn)術性和對空戰(zhàn)狀態(tài)自適應,本文提出一種基于模糊專家系統(tǒng)與改進差分進化算法(improved differential evolution, IDE)相結合的UCAV逃逸機動決策方法,其框架如圖1所示。最為關鍵的機動決策過程為:首先,根據飛行員空戰(zhàn)知識提取,根據雙方態(tài)勢建立模糊專家系統(tǒng),輸出模糊機動動作,根據要達到的模糊動作,對當前控制量的變化量的取值區(qū)間進行約束,在取值區(qū)間內根據雙策略競爭的可選外部存檔差分進化算法(external archiving differential evolution algorithm with dual strategy competition, DSC-JADE)進行尋優(yōu),得到下一時刻的控制量。其中,機動決策整體評價函數為通過非參量法建立的指標函數。此方法能縮小尋優(yōu)范圍,提高機動決策的實時性,并且得到的飛行軌跡可用空戰(zhàn)知識解釋。
滾動時域控制(receding horizon control, RHC)是20世紀70年代提出來的一種控制方法,滾動優(yōu)化把整個RHC任務過程分為一個個相互重疊(單步預測時是不重疊的)但不斷向前推進的優(yōu)化區(qū)間,稱為滾動時域。在某一滾動時域的開始,用系統(tǒng)的當前狀態(tài)作為初始條件,在線求解該有限時域開環(huán)最優(yōu)控制問題,得到最優(yōu)控制序列。RHC原理如圖1所示。
圖1 RHC原理
將機動決策問題采用滾動時域控制離散化后得到其數學描述為
(1)
(2)
()∈
(3)
(4)
式中:為重力加速度;,,分別表示發(fā)動機推力、空氣阻力、升力;=1225-9300為空氣密度;為UCAV參考截面積;,分別表示升力系數和阻力系數;為燃料消耗系數;為發(fā)動機最大推力。
控制量:=[,,],,,分別表示迎角、航跡滾轉角和油門設置。
為區(qū)別追擊機與UCAV,分別以下標和表示雙方。
本文采用F-4“鬼怪式”戰(zhàn)斗機的相關參數及氣動數據,以保證決策的真實性和高可靠性。
在文獻[14]中,采用了以、、即切向過載、法向過載和滾轉角為控制量的三自由度模型,其相較于=[,,]為控制量的模型而言,首先后者更貼近飛行員對飛機的控制,是相對于過載模型更底層的控制輸入,其次過載模型難以對過載變化進行合理的約束,即過載變化約束不僅和=[,,]等有關,且與推力、升力、阻力等因素有關,不是固定不變的值,因此難以設置過載變化率約束,相比較而言,=[,,]模型的變化率Δ=[Δ,Δ,Δ]的約束可設置為定值。
在本文中,由于討論的是逃逸機動決策,因此只討論在不利被尾追態(tài)勢初始條件下,且UCAV以逃逸為主要目的情況下決策因子指標函數的建立。
如果使用以往建立的態(tài)勢決策因子,會導引UCAV完成對攻擊機的攻擊占位,主動接近敵機,達不到逃逸的目的。因此,需要建立全新的態(tài)勢決策因子計算公式,使UCAV盡量保持在導彈攻擊區(qū)外,且盡量遠離攻擊機。
131 角度態(tài)勢決策因子
根據文獻[15]可知,在以空空導彈為機載武器的情況下,若UCAV處于雷達掃描探測區(qū)中心區(qū)域時,常使用直線規(guī)避機動。若UCAV處于攻擊機雷達掃描探測區(qū)側翼時,常采用正切規(guī)避機動。
據此對追擊機的雷達天線調整角進行劃分,圖2為UCAV與追擊機相對態(tài)勢圖,當≤30°時,UCAV采用直線規(guī)避機動最優(yōu),當>30°時,UCAV采用正切規(guī)避機動最優(yōu)。由于正切規(guī)避機動未考慮攻擊機速度方向,因此對其做出改進,使UCAV速度方向垂直于攻擊機速度方向時為UCAV最優(yōu)機動方向。
圖2 qt>30°時UCAV水平面最優(yōu)航跡偏角示意圖
(5)
式中:為目標線矢量的航跡偏角;為目標線矢量的航跡傾角;為壓縮系數,即UCAV處于雷達掃描探測區(qū)中心區(qū)域的角度態(tài)勢值應小于在側翼的態(tài)勢值。
132 距離態(tài)勢決策因子
取UCAV在導彈攻擊范圍內時,距離態(tài)勢決策因子值為0,距離大于導彈最大發(fā)射距離時越遠值越大,距離小于導彈最小發(fā)射距離時越靠近追擊機值越大。
(6)
其中,導彈攻擊距離解算由文獻[16]確定,即
(7)
式中:和為UCAV相對追擊機的離軸方位角和進入角。
133 高度態(tài)勢決策因子
根據以紅外空空導彈為武器的空戰(zhàn)形式,UCAV應盡量避免處于追擊機最佳攻擊高度差附近,同時,UCAV應保持一定的飛行高度,據此建立高度態(tài)勢決策因子計算函數:
(8)
式中:為追擊機攻擊目標最優(yōu)高度差。
134 速度態(tài)勢決策因子
在UCAV處于逃逸態(tài)勢下,其速度要盡可能大于追擊機,據此建立速度態(tài)勢決策因子計算函數:
(9)
135 機動決策整體評價函數
=[04,04,01,01]·[,,,]
(10)
其中,系數由文獻[17]中的不利態(tài)勢確定。
假設每一次決策之間的時間是固定的,對于每一次決策,則其任意時刻機動決策求解變?yōu)?/p>
(,,+1)=(+1)-()=
(,+1,,)-(,,,)=
((,,+Δ,),,)-(,,,)
(11)
式中:(+1)為+1時UCAV的態(tài)勢值;()為時UCAV的態(tài)勢值。由于+1時刻UCAV態(tài)勢值由UCAV狀態(tài),+1和追擊機狀態(tài),計算得到,而,+1由狀態(tài)方程(,,+Δ,)計算得出,因此決策過程即為對控制量變化率Δ的求解。整個決策過程要使性能指標( , )最大,即為求解控制量變化率序列Δ=[Δ,Δ,Δ](=0,1,…,-1),使其最大。
本文采用文獻[20]中對基本機動動作庫進行拓展之后的拓展機動動作庫,如圖3所示。由于本文采用的模型與其不同,因此不能應用其建立的控制算法,而是將控制變量和飛行動作之間進行解耦,再根據當前狀態(tài)確定控制量變化率的正負,達到對尋優(yōu)范圍的約束,從而能夠飛出想要的機動動作。由于篇幅有限,在此不加以贅述。
圖3 拓展機動動作庫
當前專家系統(tǒng)主要應用于故障檢測方面,而在機動決策方面有關文獻較少,且對于專家系統(tǒng)的建立也語焉不詳,在文獻[10]中,采用滾動時域決策作為專家系統(tǒng)失效時的補充,但對于機動決策的專家系統(tǒng)知識庫的建立沒有說明,而是簡單搭建了框架。在本文中對于知識庫的建立給予詳細說明。
221 模糊專家系統(tǒng)整體結構
根據在專家系統(tǒng)中知識表達方式的不同,目前的專家系統(tǒng)大致可以分為基于規(guī)則的專家系統(tǒng)、基于框架的專家系統(tǒng)、基于模型的專家系統(tǒng)3種情況。
產生式規(guī)則是專家系統(tǒng)中常用的知識表示方法,又稱為規(guī)則表示法,通常用于表示具有因果關系的知識,其基本形式如下:If P, then Q,或者可表示為 P→Q。其中,P代表條件,即前件,如前提、原因等;而Q代表結果,即后件,如結論、后果等,其含意為如果前提P被滿足,則可以推出結論Q。亦稱為If-Then規(guī)則。
文獻[22]一文指出,對于復雜系統(tǒng)難以用結構化數據來表達,如果全部用規(guī)則的形式來表達,不僅提煉規(guī)則相當困難,并且規(guī)則庫也相當龐大和復雜,容易產生組合爆炸。針對這一情況,引入模糊數學,首先對輸入參數進行模糊處理,同時將單一專家系統(tǒng)解耦為多個小規(guī)模專家系統(tǒng),建立了如圖4所示的基于模糊推理的專家系統(tǒng)結構圖。
圖4 基于模糊推理的專家系統(tǒng)結構圖
其中,專家系統(tǒng)1用于根據雙方坐標以及追擊機航向確定我機相對于敵方模糊的方位??紤]到我機相對敵機處于不利態(tài)勢,模糊輸出分為正前方、左前方、右前方、正上方、左上方、右上方、正下方、左下方、右下方。首先需要計算追擊機與我機之間的視線角,具體的設計如表1所示。
表1 專家系統(tǒng)1設計
2.2.2 基于飛行經驗的知識庫建立
在當前的機動決策方法中,少有對飛行員空戰(zhàn)戰(zhàn)術知識的利用,這也導致機動決策的結果不能被飛行員所認可和解釋,對此,通過對公開的戰(zhàn)術書籍和項目學習以及和與飛行員現場交流,建立基于飛行員空戰(zhàn)戰(zhàn)術知識的知識庫,在當前空戰(zhàn)態(tài)勢滿足If-Then規(guī)則時,輸出將要采取的機動動作。
(1) 輸入輸出變量確定
專家系統(tǒng)2的輸入變量為模糊化后得到的速度差、航跡傾角差、高度差和模糊空間方位,即:IL={LR、Lv、Lγ、Lh、LW},其中LR、Lv、Lγ、Lh的模糊語言為[S、M、L],分別表示輸入的小、中、大,LW的模糊語言為[1,2,3,4,5,6,7,8,9],分別表示我機相對敵機所處的空間方位序號。
輸出變量為OL={DZ},DZ為機動決策得到的機動動作,模糊語言為[1,2,3,4,5,6,7,8,9,10,11],分別代表所選機動動作序號。
(2) 典型戰(zhàn)術知識獲取
典型空戰(zhàn)戰(zhàn)術描述:盤旋爬升俯沖反擊。
使用時機:我機處于能量優(yōu)勢,追擊機處于角度優(yōu)勢,雙方距離較近。
基本方法:在初始處于角度劣勢時,將己方能量優(yōu)勢轉化為高度優(yōu)勢,采取盤旋爬升的方式(時刻1),當盤旋到比較陡直的時候,追擊機的角度增加速度緩慢,爬升角也穩(wěn)定下來(時刻2),此時采取躍升的方式,而追擊機可以調整航跡偏角和滾轉角,使我機處于其前上方(時刻3),如果此時追擊機仍然使它的機頭向上并持續(xù)轉彎,我機可繼續(xù)爬升以取得最大限度的高度優(yōu)勢,并盡可能減小過載,到達躍升頂端時,機頭向下俯沖,直接指向目標并開火射擊(時刻4)。如圖5所示。
圖5 典型空戰(zhàn)戰(zhàn)術圖
If-Then規(guī)則獲取如表2所示。
表2 If-Then規(guī)則獲取表
通過對典型戰(zhàn)術知識的規(guī)則提取,即可建立完備的專家系統(tǒng)。
帶邊界約束的優(yōu)化問題在現實世界是非常普遍的,在文獻[26]中指出其普遍形式如下所示:
(),=(,,…,)
(12)
初始化。和其余群智能優(yōu)化算法一樣,首先初始化種群:
(13)
式中:,,0是第0代第個個體的第個元素,=1,2,…,NP,=1,2,…,,NP為初始種群數,為變量的維度。
變異操作。對于種群中每個個體,差分進化算法的變異向量的產生方法表示為DE。其中,表示當前被變異的向量是隨機的還是最優(yōu)的,表示差向量的個數。
DE/rand1:,+1=1,+(2,-3,)
(14)
式中:1、2和3在種群中隨機選擇且1≠2≠3;縮放因子用于控制偏差的放大作用,且0≤≤2。
除此之外,偏差向量還可以由其他的方式產生。
DE/best1:,+1=best,+(1,-2,)
DE/current-to-best/1:
,+1=,+(best,-,)+(1,-2,)
DE/best2:,+1=best,+(1,-2,+3,-4,)
DE/rand/2:,+1=5,+(1,-2,+3,-4,)
(15)
交叉操作:交叉因子CR用于控制交叉概率。
(16)
選擇操作。差分進化算法按照貪婪策略,從實驗種群中選擇個體作為下一代種群中的個體,具體的選擇方式為
(17)
JADE算法是2009年由Zhang等提出的一種DE算法的變體,近年來優(yōu)秀的算法都是以JADE為基礎改進的,其相對于原始DE算法的優(yōu)勢如下:
(1) JADE算法最大的優(yōu)勢在于通過使用可選的外部存檔實施新的變異策略DE/current-to-pbest,外部存檔利用歷史數據提供進度方向信息。
無外部存檔的變異策略:
(18)
有外部存檔的變異策略:
(19)
為平衡初期算法的全局搜索能力,本文加入另一變異策略進行競爭:
(20)
在文獻[29]中提出了策略競爭的機制,初始時刻策略選擇的概率和概率相同,之后根據策略是否成功來更新選擇概率,交叉后生成的個體比原個體更優(yōu)即為策略成功。
(21)
式中:為策略1成功次數;為策略2成功次數;為正常數,防止選擇概率的顯著變化。為避免搜索過程退化,若這兩個選擇概率低于閾值,則重置為初始值。
(2) 以自適應方式更新控制參數,CR來提高優(yōu)化性能。
CR根據均值為,標準差為01的正態(tài)分布產生,根據均值為,標準差為01的柯西分布產生。初始設置為05,初始也設置為05。
將每一代成功的個體的CR值存儲起來,即為,同樣的將每一代成功的個體的值存儲起來,即為。
在每一次迭代后,更新和的值為
(22)
式中:是權值,設置為0.5;mean指計算算術平均數。mean的定義如下:
(23)
DSC-JADE偽代碼如算法1所示。
算法 1DSC-JADE算法偽碼1.Begin2.μCR=0.5,μF=0.5,A=?,q1=0.5,q2=0.53. 初始化種群4. While G≤Gmax do5. SCR=?,SF=?6. for i=1 to NP do7. CRi=rand ni(μCR,0.1),Fi=rand ci(μF,0.1)8. 根據q1,q2的值選擇變異策略生成vi,g+19. for j=1 to D do
10. if rand [Δmax,Δmax,Δmax]=[5°,30°,05] [Δmin,Δmin,Δmin]=[-5°,-30°,-05] 雙方控制量限制范圍為 [,,]=[34°,180°,1] [,,]=[-15°,-180°,015] 我機與追擊機初始控制量都是[,,]=[0,0,05],仿真每步時長設置為1 s,追擊機采用文獻[30]中的試探機動決策的方法,由于本文篇幅原因,在此不加以贅述。 本文建立的機動決策框如圖6所示。 圖6 基于模糊專家系統(tǒng)與DSC-JADE算法相結合的UCAV逃逸機動決策框圖 為驗證采用的DSC-JADE算法在求解控制量變化率問題上的實時性,以時刻機動對抗雙方狀態(tài)為條件,對專家系統(tǒng)決策后輸出的機動動作對應的控制量變化率范圍為尋優(yōu)范圍,進行尋優(yōu)比較,尋找使得目標函數值最大的控制量變化率,并與蟻群算法(ant colony optimization, ACO), 粒子群優(yōu)化(particle swarm optimization, PSO)算法、遺傳算法(genetic algorithm, GA)、DE等算法進行性能比較,最大迭代次數都為50,種群規(guī)模NP都為100,其余各算法參數設置如表3所示,仿真步長為40,得到40次尋優(yōu)算法所用時間以及雙方機動軌跡和態(tài)勢曲線如圖7和圖8所示。 表3 算法參數設置表 圖7 采用DSC-JADE算法機動決策雙方機動軌跡圖 圖8 采用DES-JADE、DE、PSO、GA算法得到的雙方總體態(tài)勢變化曲線 ACO中,為信息素的相對重要程度,為啟發(fā)式因子的相對重要程度,為信息素揮發(fā)系數;PSO中,為粒子的個體學習因子,為粒子的社會學習因子,為慣性因子;GA中,為交叉概率,為變異概率。 從仿真結果(見圖9)來看,經過40個步長的仿真,采用DSC-JADE算法的UCAV最終態(tài)勢值相較于其余算法最大,為0.323 1,比較來看DSC-JADE算法明顯具備更好的尋優(yōu)性能。從算法使用時間來看,DSC-JADE算法每步尋優(yōu)所用時間中位數為0.141 2 s;相較于其余算法尋優(yōu)所用時間略長,但相較于1 s的決策周期而言是可接受的,且能更好地尋找到全局最優(yōu)點,避免陷入局部最優(yōu)。 圖9 算法所用時長箱線圖 為體現所建立專家系統(tǒng)的有效性,將逃逸機采用專家系統(tǒng)其逃逸機不采用專家系統(tǒng)進行對比,為體現一般性,進行100次蒙特卡羅仿真,對比優(yōu)勝率,同時文中各選取其中一組具有代表性的仿真實驗進行描述。 仿真終止條件:由于真實近距空戰(zhàn)對抗訓練中,對于追擊科目而言,通常會設置時間限制,因此設定時間大于60 s時仿真終止,宣布逃逸機逃逸成功;若攻擊機連續(xù)3 s位于導彈攻擊區(qū)內,判定UCAV被攻擊機發(fā)射的紅外空空導彈擊中,宣布追擊機勝利;設定空戰(zhàn)區(qū)域高度大于1 000 m,飛行高度小于1 000 m時超出空戰(zhàn)范圍,仿真結束。 (1) 包含決策過程的追擊機對抗不含專家系統(tǒng)的UCAV如圖10~圖12所示。 圖10 包含決策過程的追擊機對抗不含專家系統(tǒng)的UCAV機動軌跡圖 圖11 追擊機對抗不含專家系統(tǒng)的UCAV雙方總體態(tài)勢變化曲線 圖12 追擊機與不含專家系統(tǒng)相對距離和導彈可發(fā)射距離變化曲線 可以看到,當UCAV不采用專家系統(tǒng)時,其決策出的機動為爬升機動,但由于尋優(yōu)范圍過大,容易陷入局部最優(yōu),導致沒有采用最大過載進行爬升,在21~24 s時在追擊機導彈發(fā)射區(qū)域內,導致被追擊機擊中。 (2) 包含決策過程的追擊機對抗含專家系統(tǒng)的UCAV如圖13~圖15所示。 圖13 包含決策過程的追擊機對抗含專家系統(tǒng)的UCAV機動軌跡圖 圖14 追擊機對抗含專家系統(tǒng)的UCAV雙方總體態(tài)勢變化曲線 圖15 追擊機與含專家系統(tǒng)的UCAV相對距離和導彈可發(fā)射距離變化曲線 從圖13~圖15中可以看出,UCAV一開始采用專家系統(tǒng)決策得到的機動動作也是爬升機動,但由于其尋優(yōu)范圍較小,尋優(yōu)得到的過載值更大,因此在第8 s時躲過了追擊機導彈鎖定,并在之后決策得到右側俯沖、俯沖、左側俯沖、爬升等一系列機動動作,使得UCAV形成較優(yōu)的態(tài)勢,經過60 s,追擊機沒有擊中UCAV,UCAV完成逃逸。 圖16中,從每步決策所用時長的數據來看,不采用專家系統(tǒng)限制尋優(yōu)范圍,每步時長決策平均值為0.275 1 s,標準差為0.078 4;采用專家系統(tǒng)限制尋優(yōu)范圍,每步決策時長平均值為0.168 4 s,標準差為0.059 8。從表4結果來看,采用專家系統(tǒng),平均每步決策時長減少約33.4%,且穩(wěn)定性更好。 圖16 采用專家系統(tǒng)與不采用專家系統(tǒng)每步決策所用時長變化曲線 表4 100次蒙特卡羅空戰(zhàn)仿真實驗結果統(tǒng)計 本文針對UCAV處于不利態(tài)勢時的逃逸機動決策問題,將DSC-JADE算法引入模糊專家系統(tǒng)進行逃逸機動決策,建立了基于滾動時域的控制量變化率尋優(yōu)的機動決策模型,相較而言更為貼近UCAV的真實控制,且改進算法相對其余群智能算法能迅速完成控制量變化率尋優(yōu),在全局最優(yōu)的搜索能力上有所提升;為將空戰(zhàn)知識運用到機動逃逸中去,將尋優(yōu)范圍運用專家系統(tǒng)進行限制,以達到想要的機動動作,并大大提高決策的實時性。最后仿真結果顯示用專家系統(tǒng)決策實時性提升約33.4%,逃逸成功率提升29%,且得到的機動軌跡更符合戰(zhàn)術知識。4 仿真分析
4.1 算法的性能比較
4.2 對比實驗
5 結 論