左家亮,楊任農(nóng),張瀅,李中林,鄔蒙
1.空軍工程大學(xué) 航空航天工程學(xué)院,西安 710038 2.空軍駐滬寧地區(qū)軍代表室,南京 210007
基于啟發(fā)式強(qiáng)化學(xué)習(xí)的空戰(zhàn)機(jī)動(dòng)智能決策
左家亮1,*,楊任農(nóng)1,張瀅1,李中林2,鄔蒙1
1.空軍工程大學(xué) 航空航天工程學(xué)院,西安 710038 2.空軍駐滬寧地區(qū)軍代表室,南京 210007
空戰(zhàn)機(jī)動(dòng)智能決策一直是研究熱點(diǎn),現(xiàn)有的空戰(zhàn)機(jī)動(dòng)決策主要采用優(yōu)化理論和傳統(tǒng)的人工智能算法,是在相對固定的環(huán)境下進(jìn)行決策序列計(jì)算研究。但實(shí)際空戰(zhàn)是動(dòng)態(tài)變化的,且有很多不確定性因素。采用傳統(tǒng)的理論方法進(jìn)行求解,很難獲取與實(shí)際情況相符的決策序列。提出了基于啟發(fā)式強(qiáng)化學(xué)習(xí)的空戰(zhàn)機(jī)動(dòng)智能決策方法,在與外界環(huán)境動(dòng)態(tài)交互的過程中,采用“試錯(cuò)”的方式計(jì)算相對較優(yōu)的空戰(zhàn)機(jī)動(dòng)決策序列,并采用神經(jīng)網(wǎng)絡(luò)方法對強(qiáng)化學(xué)習(xí)的過程進(jìn)行學(xué)習(xí),積累知識,啟發(fā)后續(xù)的搜索過程,很大程度上提高了搜索效率,實(shí)現(xiàn)空戰(zhàn)決策過程中決策序列的實(shí)時(shí)動(dòng)態(tài)迭代計(jì)算。最后仿真實(shí)驗(yàn)結(jié)果表明本文提出的算法所計(jì)算的決策序列與實(shí)際情況相符。
空戰(zhàn)機(jī)動(dòng);智能決策;啟發(fā)式強(qiáng)化學(xué)習(xí);神經(jīng)網(wǎng)絡(luò);決策序列
空戰(zhàn)機(jī)動(dòng)智能決策一直是研究熱點(diǎn)[1-2]。由于空戰(zhàn)過程動(dòng)態(tài)變化,且有很多不確定性因素,使對空戰(zhàn)智能機(jī)動(dòng)決策研究充滿挑戰(zhàn)[1]。現(xiàn)有空戰(zhàn)決策研究主要采用專家系統(tǒng)[3]、基于對策[4]和優(yōu)化理論[5-6]等方法求解,計(jì)算相對最優(yōu)或局部最優(yōu)[3]的決策序列[7],但由于計(jì)算復(fù)雜度的限制,建模過程需要一定程度簡化[8],使得出的結(jié)果很難符合空戰(zhàn)實(shí)際情況。文獻(xiàn)[9]提出一種改進(jìn)的蟻群算法,解決了機(jī)器人路徑規(guī)劃問題,實(shí)現(xiàn)在復(fù)雜環(huán)境中也能快速規(guī)劃出最優(yōu)空戰(zhàn)路徑,并且可以避免陷入路徑死鎖狀態(tài);文獻(xiàn)[3]針對專家系統(tǒng)的缺陷,采用基于滾動(dòng)時(shí)域控制的機(jī)動(dòng)決策方法對最優(yōu)控制問題進(jìn)行求解;文獻(xiàn)[6]在一對一的背景下提出了啟發(fā)粒子群算法可提高空戰(zhàn)決策的搜索效率,使在空戰(zhàn)中占據(jù)有利態(tài)勢。但上述方法在求解空戰(zhàn)機(jī)動(dòng)決策問題時(shí),前提條件是目標(biāo)環(huán)境和約束條件是已知的,且較多針對的是固定目標(biāo)[10],不適合動(dòng)態(tài)變化的空戰(zhàn)決策過程。
本文針對空戰(zhàn)決策過程的動(dòng)態(tài)與未知性,基于強(qiáng)化學(xué)習(xí)[11-12]理論,通過不斷“試錯(cuò)”的方式與外部環(huán)境進(jìn)行交互式的在線學(xué)習(xí)[13],并根據(jù)學(xué)習(xí)過程中的累加回報(bào)值選取最優(yōu)的決策序列。強(qiáng)化學(xué)習(xí)是一種重要的機(jī)器學(xué)習(xí)方法,本質(zhì)上是一種無監(jiān)督的機(jī)器學(xué)習(xí)方法。但由于標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)搜索過程是隨機(jī)的,且回報(bào)累加較慢,很難在較短的時(shí)間內(nèi)獲取到相對較優(yōu)的決策序列。在對實(shí)時(shí)性要求很高的空戰(zhàn)決策過程中,本文采用基于神經(jīng)網(wǎng)絡(luò)的方法,對強(qiáng)化學(xué)習(xí)的搜索過程進(jìn)行學(xué)習(xí),啟發(fā)后面的搜索過程,提高搜索,可在較短時(shí)間內(nèi)獲取與空戰(zhàn)實(shí)際情況相符的機(jī)動(dòng)決策序列。因此,采用啟發(fā)式[14]強(qiáng)化學(xué)習(xí)的方法更適合用來解決動(dòng)態(tài)變化的空戰(zhàn)機(jī)動(dòng)決策問題。本文把空戰(zhàn)決策仿真中的每一架飛機(jī)定義為一個(gè)智能體(agent),agent在空戰(zhàn)機(jī)動(dòng)決策過程中相對獨(dú)立,實(shí)時(shí)獲取其他agent決策仿真執(zhí)行的結(jié)果,更新該agent下一步?jīng)Q策仿真的輸入。
1.1 空戰(zhàn)攻擊效果分類
典型的空空導(dǎo)彈攻擊包線是指以目標(biāo)機(jī)為中心的一個(gè)空間范圍,攻擊機(jī)在該范圍內(nèi)向目標(biāo)機(jī)發(fā)射導(dǎo)彈,能以不低于一定概率命中目標(biāo)機(jī)。但這種方式對空戰(zhàn)決策的意義并不大,只能大致說明從不同角度對目標(biāo)機(jī)進(jìn)行有效攻擊的范圍。而以攻擊機(jī)為中心,定義攻擊效果分類如圖1所示,可很大程度上指導(dǎo)攻擊機(jī)如何進(jìn)行攻擊決策,目標(biāo)機(jī)如何規(guī)避攻擊,其中AIi為攻擊機(jī),Tgtj為目標(biāo)機(jī),hi為攻擊機(jī)高度,vi為攻擊機(jī)速度,φi為攻擊機(jī)航向,d為兩機(jī)距離,ψ為目標(biāo)機(jī)相對方位,ho為目標(biāo)機(jī)高度,vo為目標(biāo)機(jī)速度和φo為目標(biāo)機(jī)航向。
在實(shí)際應(yīng)用中,需要把攻擊效果分為4種情況,區(qū)域Ω1表示此態(tài)勢下對目標(biāo)機(jī)發(fā)射武器,目標(biāo)機(jī)做任何機(jī)動(dòng)都無效,即不可逃逸區(qū);區(qū)域Ω2表示此態(tài)勢下對目標(biāo)機(jī)發(fā)射武器,目標(biāo)機(jī)做規(guī)避機(jī)動(dòng)(默認(rèn)為180°置尾機(jī)動(dòng)),可擺脫攻擊;區(qū)域Ω3表示此態(tài)勢下對目標(biāo)機(jī)發(fā)射武器,目標(biāo)機(jī)保持現(xiàn)有運(yùn)動(dòng)狀態(tài),可擺脫攻擊;此態(tài)勢下的其他區(qū)域?yàn)棣?,表示被攻擊有效的概率極低。
圖1 攻擊效果分類Fig.1 Classification of result of missile attack
理論上可對攻擊區(qū)分類進(jìn)行動(dòng)態(tài)計(jì)算,但時(shí)間復(fù)雜度很高,無法滿足實(shí)時(shí)性要求。因此,本文將采用基于神經(jīng)網(wǎng)絡(luò)的方法,通過學(xué)習(xí)不同態(tài)勢下空戰(zhàn)結(jié)果數(shù)據(jù),實(shí)現(xiàn)對類似態(tài)勢下攻擊效果相對精確的預(yù)測。如圖1所示,Tgtj處于AIi的區(qū)域Ω2內(nèi)。
1.2 神經(jīng)網(wǎng)絡(luò)預(yù)測空戰(zhàn)攻擊效果
理論上可通過選擇攻擊機(jī)高度hi、攻擊機(jī)速度vi、攻擊機(jī)航向φi、兩機(jī)距離d、目標(biāo)機(jī)方位ψ、目標(biāo)機(jī)高度ho、目標(biāo)機(jī)速度vo和目標(biāo)機(jī)航向φo共8個(gè)主要參數(shù)可基本描述空戰(zhàn)相對態(tài)勢(如圖1所示),這些數(shù)據(jù)可直接從空戰(zhàn)訓(xùn)練記錄數(shù)據(jù)中提取,并作為神經(jīng)網(wǎng)絡(luò)的輸入層。
因此神經(jīng)網(wǎng)絡(luò)的輸入層為8個(gè)節(jié)點(diǎn);輸出層可采用2個(gè)節(jié)點(diǎn)表達(dá)攻擊效果的預(yù)測,每個(gè)輸出節(jié)點(diǎn)的取值范圍為1或0,[1,1]為Ω1,[1,0]為Ω2,[0,1]為Ω3,[0,0]為Ω4。神經(jīng)網(wǎng)絡(luò)在其他條件相同的情況下,輸出層節(jié)點(diǎn)數(shù)與網(wǎng)絡(luò)的預(yù)測能力成反比,輸出層節(jié)點(diǎn)數(shù)越小,其預(yù)測精度越高?;诠粜ЧA(yù)測模型結(jié)構(gòu)為8-n-2,如圖2所示。采用日??諔?zhàn)訓(xùn)練中所產(chǎn)生的模擬發(fā)射數(shù)據(jù),自動(dòng)生成樣本數(shù)據(jù)(樣本量為20 000),訓(xùn)練樣本與檢驗(yàn)樣本為1∶1。采用模糊C均值聚類方法對訓(xùn)練樣本進(jìn)行處理,可得神經(jīng)網(wǎng)絡(luò)隱層節(jié)點(diǎn)數(shù)n=51較為合理,設(shè)學(xué)習(xí)率為0.01,離線訓(xùn)練1 500次的實(shí)驗(yàn)結(jié)果如圖3所示。
圖2 基于神經(jīng)網(wǎng)絡(luò)的攻擊效果預(yù)測模型Fig.2 Model for predicting result of missile attack based on neural network
圖3 神經(jīng)網(wǎng)絡(luò)預(yù)測攻擊效果Fig.3 Results of prediction of missile attack with neural network
本文研究重點(diǎn)是空戰(zhàn)決策過程,即決策序列的計(jì)算。agent通過動(dòng)態(tài)執(zhí)行最新的空戰(zhàn)決策序列實(shí)現(xiàn)編隊(duì)協(xié)同空戰(zhàn)仿真,決策序列是由一系列時(shí)間連續(xù)的決策點(diǎn)組成,如圖4所示。
圖4 空戰(zhàn)決策序列示意圖Fig.4 Diagram of air combat decision sequence
空戰(zhàn)決策點(diǎn)有空戰(zhàn)機(jī)動(dòng)類型、速度、側(cè)滾角、過載、決策周期、位置、高度、航向角和俯仰角組成。空戰(zhàn)決策序列是n個(gè)時(shí)間連續(xù)的空戰(zhàn)決策點(diǎn)組成,如圖4所示。假設(shè)目標(biāo)機(jī)保持當(dāng)前狀態(tài)飛行,agent執(zhí)行空戰(zhàn)決策序列,可由當(dāng)前狀態(tài)快速逼近到攻擊目標(biāo)區(qū)域,如圖5所示。為避免強(qiáng)化學(xué)習(xí)陷入死鎖,當(dāng)每輪最大搜索步數(shù)沒有獲取可行的決策序列,則強(qiáng)制由當(dāng)前狀態(tài)重新開始決策序列迭代搜索。在當(dāng)前戰(zhàn)術(shù)執(zhí)行周期內(nèi)沒有獲取到?jīng)Q策序列,則沿用上一戰(zhàn)術(shù)周期的獲取的決策序列。
最理想情況下,只需一輪決策序列計(jì)算,即可到達(dá)對目標(biāo)的攻擊區(qū)域。但實(shí)際情況中,隨著目標(biāo)的不斷變化,攻擊目標(biāo)的區(qū)域也在不斷的變化,同時(shí)需要避開目標(biāo)的攻擊區(qū)域(如圖5所示),進(jìn)行周期性地動(dòng)態(tài)迭代計(jì)算決策序列,實(shí)現(xiàn)逐漸逼近攻擊目標(biāo)區(qū)域。
圖5 AIi空戰(zhàn)決策搜索過程示意圖Fig.5 Diagram of air combat decision search process of AIi
2.1 標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)過程
強(qiáng)化學(xué)習(xí)是基于Markov決策過程(Markov Decision Process,MDP)的理論框架[6],將MDP的〈S,A,T,R〉4元組(S為狀態(tài)集,A為動(dòng)作集,T狀態(tài)轉(zhuǎn)移概率,R為回報(bào)函數(shù)),轉(zhuǎn)換化為基于當(dāng)前狀態(tài)s(t),選擇狀態(tài)轉(zhuǎn)移函數(shù)a(t+1),為達(dá)到新的狀態(tài)s(t+1)尋找最大化累積回報(bào)的強(qiáng)化學(xué)習(xí)過程[15]。定義折扣累積回報(bào)期望值Qπ(S,A):
(1)
式中:γ為折扣因子,0<γ<1;π為策略空間。在文獻(xiàn)[16]中已經(jīng)證明了Q值累加的收斂性。Q值迭代計(jì)算表達(dá)式為
Q(s(t+1),a(t+1))=Q(s(t),a(t))+
(2)
式中:α為調(diào)節(jié)系數(shù);R(s(t),a(t+1),s(t+1))為從狀態(tài)s(t)選擇動(dòng)作a(t+1)達(dá)到s(t+1)的回報(bào)函數(shù),s(t)狀態(tài)下的V值為
且s(t)狀態(tài)下的最優(yōu)策略為
(3)
標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)算法過程如圖6所示。
空戰(zhàn)決策序列搜索是指AIi從t1時(shí)刻開始,可在最短時(shí)間內(nèi),規(guī)避目標(biāo)Tgtj的攻擊區(qū)域,為到達(dá)預(yù)定攻擊目標(biāo)區(qū)域AIi_att,而進(jìn)行空戰(zhàn)決策序列AAIi_Set計(jì)算的過程。AIi的一輪(episode)學(xué)習(xí)是指為獲取完整AAIi_Set而進(jìn)行搜索計(jì)算的過程。
根據(jù)空戰(zhàn)決策實(shí)時(shí)性要求,對AIi在空戰(zhàn)決策執(zhí)行之前,要完成一輪可行的空戰(zhàn)決策序列AAIi_Set的預(yù)測計(jì)算。下一個(gè)戰(zhàn)術(shù)周期開始之前,需要根據(jù)更新的外部環(huán)境(包括攻擊目標(biāo)區(qū)域和戰(zhàn)場態(tài)勢的變化),重新完成空戰(zhàn)決策序列AAIi_Set計(jì)算,通過不斷的迭代計(jì)算,實(shí)現(xiàn)agent攻擊目標(biāo)區(qū)域的動(dòng)態(tài)逼近。
圖6 標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)過程Fig.6 Process of standard reinforcement learning
2.2 空戰(zhàn)狀態(tài)
本文在三維空間中將飛機(jī)視為質(zhì)點(diǎn),如圖7所示,可用飛機(jī)質(zhì)心位置和姿態(tài)表達(dá)其所處的狀態(tài)。因此,可將t時(shí)刻攻擊機(jī)與目標(biāo)機(jī)的相對狀態(tài)s(t)定義為
s(t)=[ψ(t),μ(t),d(t),Δh(t),δ(t)]T
在北東地慣性坐標(biāo)系下,記x、y、z分別表示飛機(jī)的位置坐標(biāo)。φ表示飛機(jī)的航向角,則飛機(jī)j相對于飛機(jī)i的相對位置參數(shù)計(jì)算如下:
式中:ψ(t)為攻擊機(jī)的視線角;μ(t)為目標(biāo)機(jī)進(jìn)入角;d(t)為兩機(jī)之間的相對距離;Δh(t)為兩機(jī)之間的相對高度差;δ(t)為兩機(jī)速度矢量夾角,且ψ∈[0°,+180°],μ∈[0°,+180°],d∈(0,+∞) m,Δh∈(0,+20 000) m,δ∈[0°,+180°]。高度z∈(0,20 000) m,x和y取值范圍無限制,速度v∈[0,400) m·s-1,航向角φ∈[-180°,180°]。ψij為飛機(jī)i攻擊目標(biāo)機(jī)j的視線角。
圖7 兩方空戰(zhàn)相對位置Fig.7 Relative position between two sides in air combat
2.3 空戰(zhàn)狀態(tài)轉(zhuǎn)移函數(shù)
空戰(zhàn)機(jī)動(dòng)概括起來主要體現(xiàn)在3個(gè)方面,即改變航向、改變高度和穩(wěn)定飛行,可定義決策時(shí)刻可采取的行動(dòng)[17]集A:
A={lt,rt,up,dn,sb}
假設(shè)飛機(jī)轉(zhuǎn)彎為穩(wěn)定盤旋轉(zhuǎn)彎,即高度不變且無側(cè)滑。其中,lt表示左轉(zhuǎn),機(jī)動(dòng)類型代碼為1;rt表示右轉(zhuǎn),機(jī)動(dòng)類型代碼為2; up表示保持航向不變拉起爬升機(jī)動(dòng),機(jī)動(dòng)類型代碼為3;dn表示保持航向不變下拉俯沖機(jī)動(dòng),機(jī)動(dòng)類型代碼為4;sb表示保持航向和速率穩(wěn)定飛行,機(jī)動(dòng)類型代碼為5。
Δτ為微分時(shí)間步長,當(dāng)Δτ很小時(shí),飛機(jī)的推力、阻力、坡度、速率、航向和俯仰角等改變飛機(jī)運(yùn)動(dòng)狀態(tài)的變量在Δτ時(shí)間內(nèi)保持不變。約定,階段t飛機(jī)i采取行動(dòng)ai(t)∈Ai,只作用于狀態(tài)的xi、yi、zi、vi、θi和φi元素。假設(shè)飛機(jī)i的最大可用推力為Pi,最大坡度(即滾轉(zhuǎn)角)為γi+和γi-,最大過載為ni+和ni-。
1) 改變航向(左轉(zhuǎn)lt和右轉(zhuǎn)rt)。飛機(jī)保持高度穩(wěn)定盤旋轉(zhuǎn)彎且無側(cè)滑,則飛機(jī)作圓周運(yùn)動(dòng)的角速度為
當(dāng)ai(t)=lt時(shí),γi=γi+; 當(dāng)ai(t)=rt時(shí),γi=γi-。則
3) 穩(wěn)定飛行sb。飛機(jī)保持速度、航跡傾角和航向角不變,僅發(fā)生位置改變,有
式中:P和X分別為飛機(jī)所受推力和阻力;g為重力加速度;m為飛機(jī)質(zhì)量。本章暫不考慮對速度的控制,根據(jù)狀態(tài)轉(zhuǎn)移的需要,設(shè)置速度v在約束條件范圍內(nèi)即可,側(cè)滾角γi采用相同的處理方式,重點(diǎn)在戰(zhàn)術(shù)空戰(zhàn)決策序列計(jì)算。
2.4 空戰(zhàn)決策回報(bào)函數(shù)
當(dāng)AIi空戰(zhàn)能力弱于Tgtj的情況下,AIi對目標(biāo)Tgtj理想的攻擊位置為目標(biāo)Tgtj的后半球,如圖5中橢圓形區(qū)域,AIi_att表示該區(qū)域的中心點(diǎn),滿足:
(4)
式中:φAIi,Tgtj(t)為t時(shí)刻AIi攻擊Tgtj的理想攻擊區(qū)域中心點(diǎn)的水平方位角度,α1為下限,α2為上限,默認(rèn)取值范圍為[135°,215°],其為Tgtj的側(cè)后方;dAIi_att,Tgtj(t)為t時(shí)刻Tgtj相對于AIi理想攻擊區(qū)域中心點(diǎn)的距離ΔD小于AIi的有效攻擊距離;ΔH為AIi的高度差范圍。
定義AIi單步空戰(zhàn)動(dòng)作A選擇的回報(bào)函數(shù)RAIi(A):
當(dāng)Ω(Tgtj,AIi)=Ω1時(shí),RAIi(A)取值為-1(如圖4虛線部分所示),則停止本輪搜索,重新開始下一輪搜索;當(dāng)Ω(Tgtj,AIi)=Ω2‖Ω3‖Ω4時(shí),φAIi(t)為t時(shí)刻AIi的航向,當(dāng)該值越逼近φAIi_att,Tgtj(t)時(shí),cos(φAIi_att,Tgtj(t)-φAIi(t))的值越大,RAIi(A)值也越大;dTgtj,AIi_att(t)>1,其值越小,RAIi(A)值越大;RAIi(A)的取值有正有負(fù),為正時(shí),說明正在接近攻擊區(qū)域?yàn)樨?fù)時(shí)說明正在遠(yuǎn)離攻擊區(qū)域,并具有很強(qiáng)的連續(xù)性??蓪Ii的空戰(zhàn)決策選擇具有很強(qiáng)的啟發(fā)性,突出即時(shí)回報(bào)函數(shù)的方向性,減少每輪搜索迭代的步數(shù)。
2.5 動(dòng)態(tài)目標(biāo)分配及攻擊目標(biāo)區(qū)域計(jì)算
空戰(zhàn)目標(biāo)分配的目的是預(yù)測經(jīng)過k個(gè)決策周期后,假設(shè)攻擊目標(biāo)為Tgtj的相關(guān)智能體各自執(zhí)行決策序列后,可對目標(biāo)機(jī)Tgtj形成合圍之勢,且不會(huì)經(jīng)過目標(biāo)機(jī)Tgtj的可攻擊區(qū)域Ω1。如圖8所示,AI1、AI2和AI3的攻擊目標(biāo)為Tgt1理想狀態(tài)分別對目標(biāo)形成合圍之勢。
設(shè)同時(shí)攻擊Tgtj的agent數(shù)量為kj,則可計(jì)算kj個(gè)攻擊Tgtj區(qū)域,其中第i個(gè)攻擊區(qū)域中心AAIi_att(Tgtj)={φAIi_att,xAIi_att,yAIi_att,zAIi_att}的計(jì)算公式為
(5)
式中:φTgtj為目標(biāo)Tgtj的航向;xTgtj、yTgtj和zTgtj為目標(biāo)位置;d為攻擊區(qū)域中心到目標(biāo)機(jī)Tgtj的距離,d小于AIi導(dǎo)彈的最大發(fā)射距離。
將目標(biāo)分配問題轉(zhuǎn)換為m個(gè)agent攻擊n個(gè)目標(biāo)的路徑最短的最優(yōu)化問題,求解攻擊目標(biāo)Tgtj的agent數(shù)量kj及對應(yīng)的智能體編號。要求:
圖8 動(dòng)態(tài)目標(biāo)分配Fig.8 Target assignment for agents
式中:d(AIi,AIl_att)為AIi到第l個(gè)攻擊Tgtj的區(qū)域中心的距離,1≤i≤kj,1≤l≤kj。
當(dāng)編隊(duì)完成對目標(biāo)Tgtj的攻擊,或該編隊(duì)中的一半以上智能體被命中,則重新進(jìn)行目標(biāo)分配。
2.6 空戰(zhàn)決策策略空間
預(yù)測第1步時(shí),可選擇5種空戰(zhàn)機(jī)動(dòng),即有5種策略;預(yù)測第2步,可選擇5種空戰(zhàn)機(jī)動(dòng)類型,將會(huì)產(chǎn)生25種策略;當(dāng)預(yù)測第n步,將會(huì)產(chǎn)生5n種策略。因此,當(dāng)預(yù)測的步數(shù)越多,可選的策略越多,并呈指數(shù)增長,其計(jì)算量也會(huì)劇增,會(huì)帶來“維數(shù)災(zāi)”的問題。因此采用標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)的方法,在較短的時(shí)間內(nèi)搜索出效果相對理想的決策序列是比較困難的。
由于標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)搜索過程的決策選擇是隨機(jī)的,回報(bào)累積過程相對較慢,用于求解復(fù)雜的在線空戰(zhàn)決策問題比較困難。本文通過在強(qiáng)化學(xué)習(xí)過程中增加啟發(fā)[9]函數(shù)F(s(t),a(t+1),s(t+1)),構(gòu)建分層強(qiáng)化學(xué)習(xí)模型,如圖9所示。上層是基于神經(jīng)網(wǎng)絡(luò)構(gòu)建攻擊效果預(yù)測的啟發(fā)層,啟發(fā)底層決策搜索的強(qiáng)化學(xué)習(xí)過程。
啟發(fā)式強(qiáng)化學(xué)習(xí)過程需要根據(jù)啟發(fā)函數(shù)值而選擇策略,Q值迭代方法需要增加考慮啟發(fā)函數(shù)帶來的回報(bào)。
圖9 啟發(fā)式強(qiáng)化學(xué)習(xí)模型Fig.9 Heuristic reinforcement learning model
Q(s(t+1),a(t+1))=Q(s(t),a(t))+
(6)
3.1 空戰(zhàn)決策啟發(fā)式搜索
通過對強(qiáng)化學(xué)習(xí)的搜索過程進(jìn)行學(xué)習(xí)并積累經(jīng)驗(yàn),并啟發(fā)后面的搜索過程,逐步減少搜索步數(shù),提高效率?;谏窠?jīng)網(wǎng)絡(luò)的空戰(zhàn)決策分層強(qiáng)化學(xué)習(xí)模型,上層神經(jīng)網(wǎng)絡(luò)采用5-16-1相對簡單的網(wǎng)絡(luò)結(jié)構(gòu),輸入為空戰(zhàn)狀態(tài),輸出為V值。在線學(xué)習(xí)過程中,同步采用在搜索過程中獲取的經(jīng)驗(yàn)知識對神經(jīng)網(wǎng)絡(luò)進(jìn)行在線訓(xùn)練,提高對強(qiáng)化學(xué)習(xí)過程中策略選擇的啟發(fā)性。
當(dāng)且僅當(dāng)出現(xiàn)a(t)是s(t)狀態(tài)下的最優(yōu)策略時(shí),即滿足:
說明此態(tài)勢是攻擊效果預(yù)測最佳的數(shù)據(jù)樣本,且搜索方向是向攻擊目標(biāo)區(qū)域直接逼近,可用來對上層神經(jīng)網(wǎng)絡(luò)進(jìn)行在線訓(xùn)練,提高強(qiáng)化學(xué)習(xí)搜索的方向性。
F(s(t),a(t+1),s(t+1))為強(qiáng)化學(xué)習(xí)中從狀態(tài)s(t),執(zhí)行a(t+1),進(jìn)入狀態(tài)s(t+1)時(shí)獲得的啟發(fā)值,表達(dá)式為
F(s(t),a(t+1),s(t+1))=
γV(s(t+1))-V(s(t))
式中:V(s(t))和V(s(t+1))分別對應(yīng)s(t)和s(t+1)狀態(tài)輸入到神經(jīng)網(wǎng)絡(luò)得出的輸出值。
在a(t+1)策略選擇時(shí),優(yōu)先考慮F(s(t),a(t+1),s(t+1))值最大的a(t+1)是否滿足要求。同時(shí)采用梯度下降的方法,更新神經(jīng)網(wǎng)絡(luò)權(quán)值修正量計(jì)算方法,即
Δw(t)=η[R(s(t))+γV(s(t+1))-V(s(t))]·
(7)
式中:η為學(xué)習(xí)率,0<η<1;λ為啟發(fā)因子,0<λ<1。并調(diào)整神經(jīng)網(wǎng)絡(luò)隱藏層到輸出層的權(quán)值wij,再根據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的誤差反向傳播原理,更新輸入層到隱藏層的權(quán)值。
啟發(fā)式強(qiáng)化學(xué)習(xí)的空戰(zhàn)決策搜索算法分為初始階段與動(dòng)態(tài)搜索階段。初始階段為快速計(jì)算由當(dāng)前狀態(tài)到攻擊目標(biāo)區(qū)域的最短路徑的空戰(zhàn)決策序列,為負(fù)責(zé)啟發(fā)學(xué)習(xí)函數(shù)的神經(jīng)網(wǎng)絡(luò)提供訓(xùn)練樣本數(shù)據(jù);動(dòng)態(tài)搜索階段則根據(jù)agent當(dāng)前狀態(tài)和最新的目標(biāo)機(jī)態(tài)勢,對空戰(zhàn)決策序列進(jìn)行動(dòng)態(tài)迭代計(jì)算。
3.2 空戰(zhàn)決策序列初始化
根據(jù)目標(biāo)分配的結(jié)果,設(shè)AIi的目標(biāo)為Tgtj,AIi_att為攻擊目標(biāo)區(qū)域中心,k為周期數(shù)。初始時(shí)刻,AIi需要完成從當(dāng)前狀態(tài)向攻擊目標(biāo)區(qū)域直線逼近的空戰(zhàn)決策序列AAIi_Set的計(jì)算,不考慮中間是否會(huì)出現(xiàn)Ω(Tgtj,AIi)=Ω1的情況,為啟發(fā)函數(shù)的神經(jīng)網(wǎng)絡(luò)提供了攻擊效果預(yù)測的訓(xùn)練樣本,對空戰(zhàn)決策搜索的強(qiáng)化學(xué)習(xí)過程明確了搜索的方向性??諔?zhàn)決策序列初始化計(jì)算的目的使agent最少有一個(gè)可執(zhí)行的空戰(zhàn)決策序列,其計(jì)算方法如圖10所示。
圖10 啟發(fā)式強(qiáng)化學(xué)習(xí)初始化Fig.10 Initialization of heuristic reinforcement learning algorithm
空戰(zhàn)決策序列初始化計(jì)算過程描述如下:
步驟1獲取目標(biāo)機(jī)Tgtj的當(dāng)前最新的態(tài)勢,迭代次數(shù)k=1。
步驟2k=k+1,理想狀態(tài)下,預(yù)推k個(gè)周期后目標(biāo)機(jī)Tgtj的位置和攻擊該目標(biāo)的區(qū)域AAIi_att。
步驟3計(jì)算AAIi_att相對于AIi的方位φAIi,AIi_att,設(shè)定航向誤差值φ>0。
步驟4Δφ=|φAIi-φAIi,AIi_att|。當(dāng)Δφ>φ,攻擊目標(biāo)區(qū)域在左,選擇AAIi[k]=lt;當(dāng)Δφ<-φ,攻擊目標(biāo)區(qū)域在右,選擇AAIi[k]=rt;其他情況下,航向?qū)?zhǔn)攻擊目標(biāo)區(qū)域,選擇AAIi[k]=sb。
步驟5假設(shè)執(zhí)行AAIi[k]=[k],計(jì)算AIi與AIi_att的距離dAIi,AIi_att,設(shè)定AIi_att的距離范圍D。如果dAIi,AIi_att>D,回到步驟2。
步驟6完成空戰(zhàn)決策序列AAIi_Set初始化,空戰(zhàn)決策數(shù)為k。
3.3 空戰(zhàn)決策序列動(dòng)態(tài)迭代搜索
圖11 啟發(fā)式強(qiáng)化學(xué)習(xí)決策序列動(dòng)態(tài)搜索Fig.11 Dynamic search in heuristic reinforcement learning algorithm
空戰(zhàn)決策序列動(dòng)態(tài)迭代搜索過程描述如下:
步驟1強(qiáng)化學(xué)習(xí)參數(shù)初始化,迭代輪數(shù)l=1。
步驟2獲取目標(biāo)機(jī)Tgtj的最新態(tài)勢,開始一輪決策序列搜索,設(shè)本輪搜索記數(shù)k=1。
步驟3理想條件下,預(yù)推k個(gè)決策周期后,目標(biāo)Tgtj的位置和攻擊Tgtj的區(qū)域AIi_att。
步驟4根據(jù)啟發(fā)函數(shù)值,選擇a(k),執(zhí)行a(k),進(jìn)入s(k)狀態(tài),預(yù)測獲得即時(shí)回報(bào)R(k),AAIi[k] =a(k)。
步驟5如果a(k)是使Q(s(k),a(k))最大的策略,說明是攻擊效果預(yù)測最佳的樣本,對負(fù)責(zé)啟發(fā)函數(shù)值的神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并更新網(wǎng)絡(luò)結(jié)構(gòu)。
步驟6根據(jù)式(6),累加計(jì)算Q值。
步驟7采用攻擊效果預(yù)測模型預(yù)測a(k)的攻擊效果,如果存在Ω(Tgtj,AIi)=Ω1的情況,需要判斷是否進(jìn)入下一輪搜索,如果需要?jiǎng)t回到步驟2,開始下一輪決策序列的搜索如果不存在Ω(Tgtj,AIi)=Ω1的情況,則進(jìn)入步驟9。
步驟8計(jì)算AAIi與區(qū)域AIi_att的距離,如果小于攻擊距離D或達(dá)到設(shè)定的最大搜索步數(shù),則完成本輪決策序列搜索;反之,則k=k+1,回到步驟3,進(jìn)行下一步空戰(zhàn)決策的搜索。
步驟9判斷是否如果達(dá)到強(qiáng)化學(xué)習(xí)終止條件,如果沒有則回到步驟2。
步驟10結(jié)束搜索,取空戰(zhàn)決策數(shù)k最小的空戰(zhàn)決策序列。在k值相同的情況下,取Q值最大的空戰(zhàn)決策序列,替換正在執(zhí)行的空戰(zhàn)決策序列。
設(shè)空戰(zhàn)決策周期為2 s,戰(zhàn)術(shù)執(zhí)行周期為6 s,強(qiáng)化學(xué)習(xí)的折扣因子γ=0.95,神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率η=0.1,啟發(fā)因子λ=0.85。樣本量為20 000的空戰(zhàn)結(jié)果數(shù)據(jù),對agent離線訓(xùn)練15 000次,由初始階段轉(zhuǎn)入相對高級階段。二對四是典型的現(xiàn)代編隊(duì)空戰(zhàn)樣式,因此本文以二對四為例,對整個(gè)空戰(zhàn)決策過程進(jìn)行仿真。
紅方編隊(duì)4架為相對高級階段的agent,藍(lán)方雙機(jī)編隊(duì)仍為初始階段的agent,但藍(lán)方的空空武器作用距離為紅方的1.2倍。初始時(shí)刻,雙方的高度均為10 000 m,迎頭進(jìn)入,從空戰(zhàn)態(tài)勢上,空戰(zhàn)雙方是平等的。
4.1 空戰(zhàn)決策過程仿真
編隊(duì)決策仿真起始時(shí)間為K=0 s,空戰(zhàn)決策仿真過程持續(xù)342 s,共57個(gè)戰(zhàn)術(shù)執(zhí)行周期。
初始態(tài)勢:紅方四機(jī)編隊(duì)(AI3,AI4,AI5,AI6),藍(lán)方雙機(jī)編隊(duì)(AI1,AI2)相距100 km,相向(迎頭)進(jìn)入。
階段1K=0 s,紅方編隊(duì)保持原有隊(duì)形進(jìn)入;藍(lán)方發(fā)現(xiàn)紅方編隊(duì),進(jìn)行目標(biāo)分配。
圖12 階段2(藍(lán)方編隊(duì):目標(biāo)分配,紅方編隊(duì):戰(zhàn)術(shù)機(jī)動(dòng))Fig.12 Phase 2 (blue formation:Target assignment; red formation:Tactics maneuvering)
階段2如圖12所示。K=36 s,紅方編隊(duì)發(fā)現(xiàn)被藍(lán)方跟蹤,根據(jù)對AI1、AI2威脅程度的計(jì)算結(jié)果,進(jìn)行第1次目標(biāo)分配,AI4、AI5和AI6的攻擊目標(biāo)為AI1,AI3的攻擊目標(biāo)為AI2。AI6攻擊AI1的區(qū)域?yàn)锳I1的左后側(cè),AI5攻擊AI1的區(qū)域?yàn)锳I1的正前方,AI4攻擊AI1的區(qū)域?yàn)锳I1的右后側(cè),AI3攻擊AI1的區(qū)域?yàn)锳I2的右后側(cè)。AI3開始向南機(jī)動(dòng),AI6開始向北機(jī)動(dòng),開始獲取戰(zhàn)術(shù)優(yōu)勢;AI1和AI2保持進(jìn)入態(tài)勢;藍(lán)方AI1跟蹤AI5,AI2跟蹤AI4。
階段3如圖13所示。K=138 s,AI5被迫進(jìn)入AI1的Ω2區(qū)域,選擇回轉(zhuǎn)機(jī)動(dòng),AI3、AI4和AI6根據(jù)需要到達(dá)的攻擊目標(biāo)區(qū)域,進(jìn)行機(jī)動(dòng)。AI1發(fā)現(xiàn)AI5進(jìn)入到Ω2區(qū)域,發(fā)射武器攻擊AI5,并對AI5保持尾追的攻擊態(tài)勢,AI2的攻擊目標(biāo)為AI3。
圖13 階段3(紅方編隊(duì):目標(biāo)分配)Fig.13 Phase 3 (red formation:Target assignment)
圖14 階段4(紅方編隊(duì):合圍藍(lán)方AI1)Fig.14 Phase 4 (red formation:Attack AI1)
階段4如圖14所示。K=210 s,AI5回轉(zhuǎn)機(jī)動(dòng)擺脫了AI1發(fā)射武器的攻擊,由于態(tài)勢發(fā)生變化,紅方進(jìn)行第2次目標(biāo)分配,AI3、AI5和AI6的聚類攻擊目標(biāo)為AI1,AI4攻擊目標(biāo)為AI2。AI1對AI5發(fā)射武器后,開始攻擊新目標(biāo),但已經(jīng)進(jìn)入了AI3、AI5和AI6的合圍當(dāng)中,并在AI3的Ω1區(qū)域內(nèi),AI3對AI1獲取較大戰(zhàn)術(shù)優(yōu)勢,發(fā)射武器攻擊AI1,根據(jù)彈道仿真的結(jié)果,判定為命中目標(biāo),完成對AI1的攻擊,AI1停止決策仿真(用×標(biāo)明);在AI1正在被圍攻時(shí),AI2回援AI1,AI2的攻擊目標(biāo)為AI3。
階段5如圖15所示。K=342 s,紅方AI3、AI5和AI6完成對AI1的攻擊后,編隊(duì)進(jìn)行第3次目標(biāo)分配,紅方編隊(duì)的攻擊目標(biāo)都為AI2; AI1已被命中;AI2保持對AI3攻擊態(tài)勢,但很快陷入AI3、AI4、AI5和AI6的合圍;AI2進(jìn)入AI5的Ω1區(qū)域,AI5對AI2構(gòu)成較大的戰(zhàn)術(shù)優(yōu)勢,并對其發(fā)射武器,根據(jù)彈道仿真的結(jié)果判定為命中目標(biāo),結(jié)束整個(gè)二對四空戰(zhàn)決策過程仿真。
圖15 階段5(紅方編隊(duì):合圍藍(lán)方AI2)Fig.15 Phase 5 (red formation:Attack AI2)
4.2 攻擊效果預(yù)測分析
agent初級階段與相對高級階段最大的區(qū)別在于攻擊效果預(yù)測的準(zhǔn)確度,即預(yù)測agent會(huì)不會(huì)進(jìn)入目標(biāo)的Ω1或Ω2區(qū)域,目標(biāo)會(huì)不會(huì)進(jìn)入agent的Ω1或Ω2區(qū)域。從圖16可以看出藍(lán)方編隊(duì)對目標(biāo)(紅方)的威脅程度預(yù)測結(jié)果變化比較大,不穩(wěn)定,且與實(shí)際情況相差較大。
從圖17可以看出紅方編隊(duì)對目標(biāo)(藍(lán)方)的威脅程度預(yù)測結(jié)果比較穩(wěn)定,說明經(jīng)過訓(xùn)練后相對高級階段的agent的攻擊效果預(yù)測更準(zhǔn)確。
圖16 藍(lán)方編隊(duì)預(yù)測紅方編隊(duì)威脅程度Fig.16 Blue formation predict threaten degree of red formation
4.3 決策序列執(zhí)行分析
藍(lán)方編隊(duì)的空戰(zhàn)決策序列執(zhí)行情況如圖16所示,從中可以看出藍(lán)方編隊(duì)的決策序列變化較快,是因?yàn)樵诔跫夒A段缺少樣本與訓(xùn)練的情況下,對攻擊效果預(yù)測不夠準(zhǔn)確,導(dǎo)致空戰(zhàn)決策序列沒有在戰(zhàn)術(shù)執(zhí)行周期內(nèi)完成計(jì)算。
紅方編隊(duì)的決策序列執(zhí)行情況如圖18所示,
從圖18可看出紅方編隊(duì)AI3、AI4、AI5和AI6執(zhí)行的空戰(zhàn)決策序列相對連續(xù),是因?yàn)橄鄬Ω呒夒A段的agent經(jīng)過訓(xùn)練后可對攻擊效果預(yù)測更加準(zhǔn)確,戰(zhàn)術(shù)意圖也十分明顯,并最終獲得空戰(zhàn)的勝利。說明經(jīng)過訓(xùn)練后相對高級階段的agent,空戰(zhàn)決策智能度更高。
4.4 決策序列計(jì)算時(shí)間分析
設(shè)置相同的仿真初始條件進(jìn)行一個(gè)相對簡單的仿真,是為了計(jì)算該條件下獲取相對較優(yōu)的決策序列所需要搜索步數(shù),如圖19中紅方僚機(jī)機(jī)動(dòng)軌跡所示。實(shí)驗(yàn)得出在這種態(tài)勢獲取相對較優(yōu)解的搜索步數(shù)為210。
因此本文設(shè)置每輪強(qiáng)化學(xué)習(xí)最大搜索步數(shù)為500,即機(jī)動(dòng)策略空間為5500。隨著雙機(jī)距離的接近,獲取相對較優(yōu)解的搜索步數(shù)會(huì)逐步減少,機(jī)動(dòng)策略空間也會(huì)成指數(shù)減少。當(dāng)一輪搜索步數(shù)超過500步時(shí),則停止本輪搜索,開始下一輪搜索。設(shè)戰(zhàn)術(shù)執(zhí)行周期內(nèi)搜索最多不超過50輪,同時(shí)記錄這50輪搜索中最小的搜索次數(shù),如圖20所示。
圖20 雙方相對較優(yōu)空戰(zhàn)決策序列搜索步數(shù)Fig.20 Steps to search relatively better air combat decision sequence for both formations
啟發(fā)式分層強(qiáng)化學(xué)習(xí)的空戰(zhàn)決策序列搜索中,記錄每輪獲得相對更優(yōu)的空戰(zhàn)決策序列,最少的搜索步數(shù)如圖20所示。圖19中AI3、AI4、AI5和AI6在前6個(gè)戰(zhàn)術(shù)執(zhí)行周期和初始空戰(zhàn)決策序列的搜索過程中,完成攻擊效果預(yù)測好的訓(xùn)練樣本積累,并對計(jì)算啟發(fā)函數(shù)V值的神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。后續(xù)搜索到相對較優(yōu)的空戰(zhàn)決策周期所需的步數(shù)下降很快,說明神經(jīng)網(wǎng)絡(luò)有效啟發(fā)了agent強(qiáng)化學(xué)習(xí)的搜索過程,提高了搜索效率,并隨著空戰(zhàn)態(tài)勢的接近進(jìn)一步減少了搜索步數(shù)。AI1和AI2由于訓(xùn)練樣本與次數(shù)不夠,在相對復(fù)雜的空戰(zhàn)態(tài)勢下攻擊效果預(yù)測不夠準(zhǔn)確,導(dǎo)致空戰(zhàn)決策搜索過程不會(huì)持續(xù)收斂,不同程度上有發(fā)散的情況,進(jìn)一步說明訓(xùn)練可提高agent的空戰(zhàn)決策序列的搜索計(jì)算速度。
4.5 agent魯棒性分析
agent在決策仿真過程中相對獨(dú)立,且在同一時(shí)刻一個(gè)agent只能攻擊一個(gè)目標(biāo),理論分析空戰(zhàn)飛機(jī)數(shù)量的增加不會(huì)對agent產(chǎn)生較大的影響。隨著目標(biāo)數(shù)量的增加,會(huì)增加空戰(zhàn)結(jié)果預(yù)測的計(jì)算量,但不足以影響agent的決策效率。因此agent具有較強(qiáng)的魯棒性。
agent學(xué)習(xí)的空戰(zhàn)訓(xùn)練結(jié)果數(shù)據(jù)和實(shí)際決策仿真應(yīng)用中判定攻擊結(jié)果是否有效,都是采用相同的原則、基于相同的空空導(dǎo)彈仿真模型進(jìn)行計(jì)算判定,確保學(xué)習(xí)與實(shí)際應(yīng)用的基本條件是相同的。
本文通過二對四典型空戰(zhàn)樣式進(jìn)行決策仿真,對比分析初始階段和相對高級階段agent的空戰(zhàn)決策情況,實(shí)驗(yàn)結(jié)果說明經(jīng)過訓(xùn)練后agent,智能性與實(shí)效性更高,與實(shí)際情況更相符;同時(shí)也說明基于神經(jīng)網(wǎng)絡(luò)的攻擊效果預(yù)測方法對空戰(zhàn)決策的強(qiáng)化學(xué)習(xí)過程具有很好啟發(fā)性,明顯提高了決策序列計(jì)算效率。下一步還需要針對不同空戰(zhàn)態(tài)勢和不同數(shù)量agent等多種情況,進(jìn)行廣泛的仿真驗(yàn)證。
[1] NICHOLAS E, DAVID C, COREY S, et al. Genetic fuzzy based artificial intelligence for unmanned combat aerial vehicle control in simulated air combat missions[J]. Journal of Defense Management, 2016, 6(1): 1-7.
[2] YIN Y, GONG G, HAN L. An approach to pilot air-combat behavior assessment[J]. Procedia Engineering, 2011, 15: 4036-4040.
[3] 傅莉, 謝福懷. 基于滾動(dòng)時(shí)域的無人機(jī)空戰(zhàn)決策專家系統(tǒng)[J]. 北京航空航天大學(xué)學(xué)報(bào), 2015, 41(11): 1994-1999.
FU L, XIE F H. Real-time path planning to track moving target in complex environment for UAV[J]. Journal of Beijing University of Aeronautics and Astronautics, 2015, 41(11): 1994-1999 (in Chinese).
[4] 傅莉, 王曉光. 無人戰(zhàn)機(jī)近距空戰(zhàn)微分對策建模研究[J]. 兵工學(xué)報(bào), 2012, 33(10): 1210-1216.
FU L, WANG X G. Research on close air combat modeling of differential games for unmanned combat air vehicles[J]. Acta Armamentarii, 2012, 33(10): 1210-1216 (in Chinese).
[5] SU M C, LAI S C. A new approach to multi-aircraft air combat assignments[J]. Swarm and Evolutionary Computation, 2012(6): 39-46.
[6] 張濤, 于雷, 周中良, 等. 基于混合算法的空戰(zhàn)機(jī)動(dòng)決策[J]. 系統(tǒng)工程與電子技術(shù), 2013, 35 (7): 1445-1450.
ZHANG T, YU L, ZHOU Z L, et al. Decision-making for air combat maneuvering based on hybrid algorithm[J]. Systems Engineering and Electronics, 2013, 35(7): 1445-1450 (in Chinese).
[7] 左家亮, 楊任農(nóng). 基于模糊聚類的近距空戰(zhàn)決策過程與評估[J]. 航空學(xué)報(bào), 2015, 36(5): 1650-1660.
ZUO J L, YANG R N. Reconstruction and evaluation of close air combat decision-making process based on fuzzy clustering[J]. Acta Aeronautica et Astronautica Sinica, 2015, 36(5): 1650-1660 (in Chinese).
[8] RUAN C W, ZHOU Z L. Task assignment under constraint of timing sequential for cooperative air combat[J]. Journal of Systems Engineering and Electronics, 2016, 27(4): 836-844.
[9] 康冰, 王曦輝, 劉富. 基于改進(jìn)蟻群算法的搜索機(jī)器人路徑規(guī)劃[J]. 吉林大學(xué)學(xué)報(bào)(工學(xué)版), 2014, 44(4): 1062-1068.
KANG B, WANG X H, LIU F. Path planning of searching robot based on improved ant colony algorithm[J]. Journal of Jilin University (Engineering and Technology Edition), 2014, 44(4): 1062-1068 (in Chinese).
[10] 梁宵, 王宏倫, 曹夢磊, 等. 無人機(jī)復(fù)雜環(huán)境中跟蹤運(yùn)動(dòng)目標(biāo)的實(shí)時(shí)航路規(guī)劃[J]. 北京航空航天大學(xué)學(xué)報(bào), 2012, 38(9): 1129-1133.
LIANG X, WANG H L, CAO M L, et al. Real-time path planning to track moving target in complex environment for UAV[J]. Journal of Beijing University of Aeronautics and Astronautics, 2012, 38(9): 1129-1133 (in Chinese).
[11] SUTTON R S, BARTO A G. Introduction to reinforcement learning[M]. Cambridge: MIT Press, 1988.
[12] LIU C, XU X, HU D. Multi-objective reinforcement learning: A comprehensive overview[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part C: Application and Reviews, 2013, 99(4): 1-13.
[13] 陳興國, 俞揚(yáng). 強(qiáng)化學(xué)習(xí)及其在電腦圍棋中的應(yīng)用[J]. 自動(dòng)化學(xué)報(bào), 2016, 42(5): 685-695.
CHEN X G, YU Y. Reinforcement learning and its application to game of go[J]. Acta Automatica Sinica, 2016, 42(5): 685-695 (in Chinese).
[14] 薛羽, 莊毅. 基于啟發(fā)式自適應(yīng)離散差分進(jìn)化算法的多UCAV協(xié)同干擾空戰(zhàn)決策[J]. 航空學(xué)報(bào), 2013, 34(2): 343-351.
XUE Y, ZHANG Y. Multiple UCAV cooperative jamming air combat decision making based on heuristic self-adaptive discrete differential algorithm[J]. Acta Aeronautica et Astronautica Sinca, 2013, 34(2): 343-351 (in Chinese).
[15] BIANCHI R A C, RIBEIRO C H C, COSTA A H R. Accelerating autonomous learning by using heuristic selection of actions[J]. Journal of Heuristics, 2008, 14(2): 135-168.
[16] DIETTERICH T G. Hierarchical reinforcement learning with the MAXQ value function decomposition[J]. Journal of Artificial Intelligence Research, 2000(13): 227-303.
[17] AUSTIN F, CARBONE G, FALCO M. Automated maneuvering during air-to-air combat:RE-742[R]. Bethpage, NY: Grumman Corporate Research Center,1990.
Intelligentdecision-makinginaircombatmaneuveringbasedonheuristicreinforcementlearning
ZUOJialiang1,*,YANGRennong1,ZHANGYing1,LIZhonglin2,WUMeng1
1.CollegeofAeronauticsandAstronauticEngineering,AirForceEngineeringUniversity,Xi’an710038,China2.AirForceRepresentativeOfficeinShanghaiandNanjingArea,Nanjing210007,China
Intelligentdecision-makingaircombatmaneuveringhasbeenaresearchhotspotallthetime.Currentresearchontheaircombatmainlyusesoptimizationtheoryandalgorithmoftraditionalartificialintelligencetocomputetheaircombatdecisionsequenceintherelativefixedenvironment.However,theprocessoftheaircombatisdynamicandthuscontainsmanyuncertainelements.Itisthusdifficulttoobtainthedecisionsequencethatistallywiththeactualconditionsoftheaircombatbyusingthetraditionaltheoreticalmethods.Anewmethodforintelligentdecision-makinginaircombatmaneuveringbasedonheuristicreinforcementlearningisproposedinthispaper.The“trialanderrorlearning”methodisadoptedtocomputetherelativebetteraircombatdecisionsequenceinthedynamicaircombat,andtheneuralnetworkisusedtolearntheprocessofthereinforcementlearningatthesametimetoaccumulateknowledgeandinspirethesearchprocessofthereinforcementlearning.Thesearchefficiencyisincreasedtoagreatextent,andreal-timedynamiccomputationofthedecisionsequenceduringtheaircombatisrealized.Experimentresultsindicatethatthedecisionsequenceconformstoactualconditions.
aircombatmaneuvering;intelligencedecision-making;heuristicreinforcementlearning;neuralnetwork;decisionsequence
2017-02-06;Revised2017-03-13;Accepted2017-04-12;Publishedonline2017-04-281648
URL:http://hkxb.buaa.edu.cn/CN/html/20171021.html
.E-mailjialnzuo@163.com
http://hkxb.buaa.edu.cnhkxb@buaa.edu.cn
10.7527/S1000-6893.2017.321168
V323
A
1000-6893(2017)10-321168-14
2017-02-06;退修日期2017-03-13;錄用日期2017-04-12;< class="emphasis_bold">網(wǎng)絡(luò)出版時(shí)間
時(shí)間:2017-04-281628
http://hkxb.buaa.edu.cn/CN/html/20171021.html
.E-mailjialnzuo@163.com
左家亮,楊任農(nóng),張瀅,等.基于啟發(fā)式強(qiáng)化學(xué)習(xí)的空戰(zhàn)機(jī)動(dòng)智能決策J.航空學(xué)報(bào),2017,38(10):321168.ZUOJL,YANGRN,ZHANGY,etal.Intelligentdecision-makinginaircombatmaneuveringbasedonheuristicreinforcementlearningJ.ActaAeronauticaetAstronauticaSinica,2017,38(10):321168.
(責(zé)任編輯:蘇磊)