摘 要:為解決不平衡空戰(zhàn)數(shù)據(jù)集下的無人機(jī)多回合博弈對抗問題,提出一種隨機(jī)森林-極限梯度提升(random forest eXtreme gradient boosting, RF XGBoost)算法以進(jìn)行攻防博弈決策研究。通過分析紅藍(lán)雙方的運(yùn)動狀態(tài)和空戰(zhàn)信息,建立支付矩陣模型,利用線性歸納法求解當(dāng)前博弈納什均衡解和期望收益,以藍(lán)方最終獲勝作為博弈對抗是否停止的判斷條件。在博弈對抗過程中,首先基于隨機(jī)森林(random forest, RF)算法對空戰(zhàn)數(shù)據(jù)集進(jìn)行特征降維以提高空戰(zhàn)決策的實(shí)時性,然后提出改進(jìn)的XGBoost算法來處理不平衡數(shù)據(jù)集,將其用于確定最優(yōu)機(jī)動動作以提高機(jī)動決策準(zhǔn)確率和提升藍(lán)方對抗態(tài)勢,并得到下一回合的紅藍(lán)空戰(zhàn)信息;之后,根據(jù)下一回合的支付矩陣模型重新計(jì)算納什均衡解和期望收益,直至藍(lán)方獲勝;最后,通過仿真驗(yàn)證所提算法的可行性和有效性。
關(guān)鍵詞: 無人機(jī); 隨機(jī)森林; 極限梯度提升; 多回合博弈
中圖分類號: TP 391.9
文獻(xiàn)標(biāo)志碼: ADOI:10.12305/j.issn.1001 506X.2025.02.18
Multi round attack and defense game decision making of UAVs based on RF XGBoost algorithm
ZOU Shipei, WANG Yuhui*, LIU Hongrui
(College of Automation Engineering, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China)
Abstract:To solve the multi round game confrontation problem of unmanned aerial vehicles (UAVs) with unbalanced air combat data set, a random forest eXtreme gradient boosting (RF XGBoost) algorithm is proposed to study the attack and defense game decision making. The payment matrix model is established by analyzing the movement status and air combat information of the red and blue sides, then, the linear induction method is considered to solve the current Nash equilibrium solution and expected return of the game, and whether the game confrontation will stop depends on the victory of the blue side. In the process of game confrontation, in the first place, the feature dimensionality reduction of air combat data set is conducted based on the random forest (RF) algorithm to improve the real time performance of air combat decision making. Then, an improved XGBoost algorithm is proposed to deal with the unbalanced data set, which is used to determine the optimal maneuvers to improve the accuracy of maneuver decision making and enhance blue confrontation’s situation, and" air combat information of the next round of red and blue sides is obtained. Furthermore, the Nash equilibrium solution and expected return based on the payment matrix model of the next round can be obtained once again, until the blue side wins. Finally, the feasibility and effectiveness of the proposed algorithm are verified by simulation test.
Keywords:unmanned aerial vehicle (UAV); random forest (RF); eXtreme gradient boosting (XGBoost); multi round game
0 引 言
自主空戰(zhàn)決策是無人機(jī)空戰(zhàn)獲勝的關(guān)鍵技術(shù)之一。目前,關(guān)于空戰(zhàn)決策的研究大都只適用于單回合對抗,針對更符合空戰(zhàn)實(shí)際的多回合決策問題的研究較少。因此,為使自主決策技術(shù)真正進(jìn)入實(shí)戰(zhàn),開展多回合動態(tài)空戰(zhàn)決策研究具有重要的意義[1-3]。
近年來,博弈論因其本身具有對抗的特點(diǎn)而在空戰(zhàn)最優(yōu)機(jī)動決策研究中取得了不少研究成果。最優(yōu)機(jī)動決策研究方向主要為數(shù)學(xué)求解、機(jī)器搜索以及數(shù)據(jù)驅(qū)動[4-6]。數(shù)學(xué)求解主要是根據(jù)博弈雙方的分析和空戰(zhàn)結(jié)果,求解具有狀態(tài)約束的微分對策,以確定最優(yōu)機(jī)動動作。該方法形式簡單,計(jì)算量小,但難以滿足復(fù)雜的空戰(zhàn)需求[7-9]。機(jī)器搜索可通過建立滾動時域控制模型或引入蒙特卡羅樹搜索算法獲取最優(yōu)機(jī)動動作,該方法更加符合人類思維,但對于復(fù)雜度高的實(shí)際空戰(zhàn)而言,其決策實(shí)時性難以保證[10-14]。數(shù)據(jù)驅(qū)動主要利用神經(jīng)網(wǎng)絡(luò)、強(qiáng)化學(xué)習(xí)或決策樹算法,基于數(shù)據(jù)集訓(xùn)練模型從而預(yù)測最優(yōu)機(jī)動動作。該方法能夠很好地反映戰(zhàn)場態(tài)勢和空戰(zhàn)決策的映射關(guān)系,但存在高維度數(shù)據(jù)樣本處理速度慢、訓(xùn)練耗時較長,以及難以處理不平衡樣本數(shù)據(jù)集等問題[15-21]。
針對高維數(shù)據(jù)訓(xùn)練耗時較長的問題,隨機(jī)森林(random forest, RF)作為以決策樹為基學(xué)習(xí)器的集成學(xué)習(xí)算法,能夠?qū)?shù)據(jù)特征的重要度進(jìn)行評估,通過適當(dāng)?shù)厝コ匾容^低的特征,能夠在保證預(yù)測準(zhǔn)確率的同時降低數(shù)據(jù)集的維數(shù),以提高訓(xùn)練效率,從而提升機(jī)動決策的實(shí)時性[22-24]。對于不平衡數(shù)據(jù)集的問題,極限梯度提升 (eXtreme gradient boosting, XGBoost) 算法是在梯度提升決策樹 (gradient boosting decision tree, GBDT) 算法的基礎(chǔ)上改進(jìn)的端到端的提升樹系統(tǒng)[25-27],但傳統(tǒng)的XGBoost算法考慮的是數(shù)據(jù)的整體誤差,對于多數(shù)類樣本會給予更多的關(guān)注,對于少數(shù)類樣本的分類性能難以得到充分訓(xùn)練。因此,本文在該算法的損失函數(shù)上進(jìn)行改進(jìn),以平衡各類樣本的損失函數(shù)值,從而提高機(jī)動決策準(zhǔn)確率。
綜上所述,本文提出一種基于RF特征降維和改進(jìn)XGBoost的RF XGBoost算法,用于處理多回合空戰(zhàn)動態(tài)博弈中的最優(yōu)機(jī)動決策問題。首先,確定多回合空戰(zhàn)博弈決策的流程,并依據(jù)當(dāng)前回合紅、藍(lán)空戰(zhàn)信息建立博弈支付矩陣模型,求解當(dāng)前回合的納什均衡解和期望收益;然后,在下一回合的機(jī)動決策前通過RF算法對空戰(zhàn)數(shù)據(jù)集進(jìn)行降維,并針對空戰(zhàn)數(shù)據(jù)集樣本不平衡問題,提出基于樣本比例改進(jìn)損失函數(shù)的XGBoost算法以確定最優(yōu)機(jī)動決策;最后,通過單回合和多回合空戰(zhàn)博弈對抗仿真與傳統(tǒng)決策樹算法的對比仿真驗(yàn)證所提算法的有效性。
1 問題描述
結(jié)合實(shí)際空戰(zhàn)問題和博弈論,將雙方視為對抗的玩家{A,B}。其中,A為藍(lán)方,無人機(jī)集合為Blue={1,2,…,i,…,m},m為藍(lán)方的無人機(jī)總數(shù);藍(lán)方可采用的策略集合為SA={sA1,sA2,…,sAp,…,sAr},r為藍(lán)方可采取的策略點(diǎn)數(shù);B為紅方,無人機(jī)集合為Red={1,2,…,j,…,n},n為紅方的無人機(jī)總數(shù);紅方可采用的策略集合為SB={sB1,sB2,…,sBq,…,sBl},l為紅方可采取的策略總數(shù)??紤]紅藍(lán)無人機(jī)的多回合空戰(zhàn)對抗,其中第k回合至第k+1回合的博弈對抗過程如圖1所示。
由圖1可知,針對第k回合至第k+1回合的博弈對抗,首先根據(jù)空戰(zhàn)雙方信息由文獻(xiàn)[28]中的空戰(zhàn)優(yōu)勢函數(shù)計(jì)算得到第k回合的紅藍(lán)雙方的空戰(zhàn)信息,然后利用線性規(guī)劃法求解當(dāng)前回合的納什均衡和期望收益。若當(dāng)前回合藍(lán)方期望收益小于0,則利用訓(xùn)練好的XGBoost模型進(jìn)行最優(yōu)機(jī)動決策,得到下一回合的機(jī)動動作,重新計(jì)算空戰(zhàn)信息,再次求解納什均衡和期望收益,重復(fù)上述步驟直至藍(lán)方期望收益大于0,即藍(lán)方取得勝利。
1.1 博弈模型建立
假設(shè)紅藍(lán)雙方共進(jìn)行K回合的攻防博弈,且在k-1回合內(nèi)藍(lán)方均未取得勝利,第k回合雙方無人機(jī)位置、速度、俯仰角和偏航角信息均為已知。
對于第k+1回合,建立藍(lán)方的收益支付函數(shù)為
fk+1Apq=∑mi=1∑nj=1pk+1ijuk+1Aij-∑nj=1∑mi=1qk+1jiuk+1Bji(1)
式中:pk+1ij=1表示藍(lán)方第i架無人機(jī)攻擊紅方第j架無人機(jī);pk+1ij=0則表示沒有攻擊,qk+1ji同理;uk+1Aij為第k+1回合藍(lán)方總體優(yōu)勢函數(shù),uk+1Bji為第k+1回合紅方總體優(yōu)勢函數(shù)。
由此可建立藍(lán)方空戰(zhàn)支付矩陣為
fk+1A=fk+1A11…fk+1A1q…fk+1A1l
……
fk+1Ap1…fk+1Apq…fk+1Apl
……
fk+1Ar1…fk+1Arq…fk+1Arl(2)
式中:p和q分別為藍(lán)方和紅方的第p個和第q個策略。
將單矩陣博弈問題轉(zhuǎn)化為線性規(guī)劃問題,可得到納什均衡解的求解如下:
vk+1=maxx∈A uk+1(x)
s.t. uk+1(x)=min1≤q≤l∑rp=1fk+1Apqxk+1p
∑rp=1fk+1Apqxk+1pfuk+1(x), q=1,2,…,l
xk+11+xk+12+…+xk+1r=1
xk+1p≥0, p=1,2,…,r(3)
式中:uk+1表示第k+1回合紅方的期望收益;xk+1p表示第k+1回合紅方的混合策略納什均衡。
根據(jù)無人機(jī)從第k回合到第k+1回合的變化過程,即可得到k+1回合的納什均衡解。若判斷藍(lán)方無法獲勝,選擇最優(yōu)機(jī)動以提升下一回合獲勝的可能性,直至最終藍(lán)方期望收益大于0并取得勝利。
1.2 機(jī)動決策
本文使用的無人機(jī)機(jī)動動作庫,包括勻速前飛、左轉(zhuǎn)彎、右轉(zhuǎn)彎、加速前飛、減速前飛、俯沖和爬升7種基本機(jī)動動作[29]。最優(yōu)機(jī)動決策通常選用分類與回歸樹 (classification and regression tree, CART) 決策樹算法,藍(lán)方無人機(jī)的位置(xA,yA,zA)、速度VA、俯仰角θA和偏航角A以及紅方無人機(jī)的位置(xB,yB,zB)、速度VB、俯仰角θB和偏航角B構(gòu)成決策樹空戰(zhàn)數(shù)據(jù)樣本集D的輸入特征E,E={e1,e2,e3,e4,e5,e6,e7,e8};7種機(jī)動動作構(gòu)成決策樹樣本集D的輸出屬性W,W={w1,w2,w3,w4,w5,w6,
w7},即D={E,W}。輸入特征E與紅藍(lán)雙方的空戰(zhàn)信息關(guān)系如表1所示,輸出屬性W與機(jī)動動作關(guān)系如表2所示。
根據(jù)表1中紅藍(lán)雙方的輸入信息,通過采用決策樹優(yōu)化算法可從表2列出的機(jī)動動作中確定最優(yōu)機(jī)動動作,即機(jī)動決策。但由于傳統(tǒng)算法存在建模時間長、不平衡空戰(zhàn)數(shù)據(jù)集決策準(zhǔn)確率低等問題,本文考慮采用基于決策樹的RF降維和改進(jìn)XGBoost算法相結(jié)合的算法進(jìn)行多回合空戰(zhàn)對抗的最優(yōu)機(jī)動動作的確定。
2 RF特征選擇
由于存在高維空戰(zhàn)數(shù)據(jù)樣本集訓(xùn)練時間長的問題,本文采用RF算法通過計(jì)算每個輸入特征的重要性大小對初始空戰(zhàn)數(shù)據(jù)集進(jìn)行特征降維處理,即將每個輸入特征的重要性大小進(jìn)行排序,刪除對數(shù)據(jù)集貢獻(xiàn)較小的特征,再將降維后的空戰(zhàn)數(shù)據(jù)集作為初始數(shù)據(jù)集進(jìn)行訓(xùn)練。
使用RF進(jìn)行變量重要評分(variable importance mea sures, VIM)的基本思想即獲取每個特征在RF的每棵樹上的貢獻(xiàn)大小,取平均值,最后進(jìn)行比較。貢獻(xiàn)度通常用Gini指數(shù)作為評價指標(biāo)來進(jìn)行衡量[30]。
若空戰(zhàn)數(shù)據(jù)集中有J個輸入特征e1,e2,…,ej,…,eJ,M個輸出機(jī)動動作,RF模型中有O棵決策樹,每個特征ej的重要度指標(biāo)即為VIM(Gini)j,定義為第j個特征在RF所有決策樹中節(jié)點(diǎn)分裂不純度的平均改變量。
第o棵樹的節(jié)點(diǎn)q的Gini指數(shù)的計(jì)算公式為
Gini(o)jq=∑Mm=1p(o)jqm(1-p(o)jqm)=
∑Mm=1p(o)jqm-∑Mm=1(p(o)jqm)2=
1-∑Mm=1(p(o)jqm)2(4)
式中:p(o)jqm表示第o棵樹節(jié)點(diǎn)q中第j個特征的機(jī)動動作編號m所占比例,且有∑Mm=1p(o)jqm=1。
特征ej在第o棵樹節(jié)點(diǎn)q的重要性(即節(jié)點(diǎn)q分枝前后的Gini指數(shù)變化量)為
VIM(Gini)(o)jq=Gini(o)jq-Gini(o)jq1-Gini(o)jq2(5)
式中:Gini(o)jq1和Gini(o)jq2分別表示節(jié)點(diǎn)q分枝后的兩個新節(jié)點(diǎn)的Gini指數(shù)。
若特征ej在決策樹o中出現(xiàn)的節(jié)點(diǎn)集合為Q,則ej在第o棵樹的重要性為
VIM(Gini)(o)j=∑q∈QVIM(Gini)(o)jq(6)
RF共有O棵決策樹,則特征ej的重要性為
VIM(Gini)j=∑Oo=1VIM(Gini)(o)j(7)
綜上,即可得到空戰(zhàn)樣本集中每個輸入特征ej的重要性大小,排序后去除空戰(zhàn)樣本集D中重要性較小的輸入特征以實(shí)現(xiàn)特征降維,在保證準(zhǔn)確率的同時提高模型訓(xùn)練速度,以滿足實(shí)戰(zhàn)要求。
3 改進(jìn)XGBoost算法
通過RF算法對空戰(zhàn)數(shù)據(jù)集進(jìn)行特征降維處理后,將處理后的數(shù)據(jù)集作為XGBoost算法的輸入來訓(xùn)練模型,并通過模型預(yù)測下一回合藍(lán)方無人機(jī)的最優(yōu)機(jī)動動作。
傳統(tǒng)的XGBoost算法[14]以降低整體誤差為目標(biāo),因此在模型學(xué)習(xí)過程中更多地關(guān)注多數(shù)類樣本的分類預(yù)測性能,這將導(dǎo)致模型對少數(shù)類樣本的分類性能不能得到充分訓(xùn)練。因此,本文提出一種損失函數(shù)系數(shù)法對此問題進(jìn)行處理,使樣本數(shù)量與該類樣本的損失函數(shù)大小呈負(fù)相關(guān)。
(1) 計(jì)算機(jī)動動作類別占比um:
um=zmN(8)
式中:m為第m個機(jī)動動作;zm為第m個機(jī)動動作在空戰(zhàn)數(shù)據(jù)集中的數(shù)量;N為數(shù)據(jù)集中所有機(jī)動動作樣本數(shù)。
(2) 定義損失函數(shù)系數(shù)
對不平衡數(shù)據(jù)集進(jìn)行處理的一個簡單有效的方法往往是對式(8)取倒數(shù),這樣可以顯著提高少數(shù)類樣本的損失函數(shù)系數(shù),但同時也會導(dǎo)致多數(shù)類樣本系數(shù)過小,進(jìn)而對模型預(yù)測結(jié)果起反作用,降低模型預(yù)測準(zhǔn)確率。因此,這里將損失函數(shù)系數(shù)βm定義為
βm=αe-um(9)
式中:α為適應(yīng)參數(shù),適當(dāng)調(diào)整α可保證βm數(shù)值的合理性。這里根據(jù)空戰(zhàn)數(shù)據(jù)集考慮設(shè)定α=1.5。且通過分析可知,式(9)可以保證新的損失函數(shù)二階可導(dǎo),滿足算法要求。
(3) 損失函數(shù)
對于多分類問題,XGBoost算法常選用的損失函數(shù)為交叉熵?fù)p失,對于第n個樣本,其損失函數(shù)為
l(wn,w^n)=-∑Mm=1wn(m)·logwn^(m)(10)
式中:wn(m)為樣本n屬于第m個機(jī)動動作的真實(shí)概率值,w^(m)n為樣本n屬于第m個機(jī)動動作的預(yù)測概率值,log為任意底數(shù)的對數(shù)。
考慮式(9),在式(10)的基礎(chǔ)上得到改進(jìn)后的損失函數(shù)為
l(wn,w^n)=-∑Mm=1βm·wn(m)·log w^n(m)(11)
將損失函數(shù)作用于XGBoost算法的目標(biāo)函數(shù)中
Obj=∑Nn=1l(wn,w^n)+∑Tt=1Ω(ft)(12)
式中:∑Nn=1l(wn,w^n)為損失函數(shù);∑Tt=1Ω(ft)為正則化項(xiàng),其作用主要是控制樹的復(fù)雜度,防止模型過擬合。
XGBoost算法遵從前向分步加法,式(12)中的損失函數(shù)可寫為
l(wn,w^n)=l(wn,w^(T-1)n+fT(en))(13)
式中:w^(T-1)n為前T-1棵決策樹的總預(yù)測值;fT(en)為第T棵決策樹的預(yù)測值。
將式(13)進(jìn)行泰勒展開,可進(jìn)一步寫為
l(wn,w^(T-1)n+fT(en))≈l(wn,w^(T-1)n)+
gnfT(en)+12hnf2T(en)(14)
式中:gn=w^(T-1)l(wn,w^(T-1)n)和hn=2w^(T-1)l(w^n,w^(T-1)n)分別為損失函數(shù)對w^(T-1)n的一階導(dǎo)和二階導(dǎo)。
對于第T顆樹的預(yù)測,w^(T-1)n為已知值,所以l(wn,w^(T-1)n)和前T-1顆樹的正則化值均為常數(shù)值,對目標(biāo)函數(shù)的優(yōu)化沒有影響,因此去掉常數(shù)項(xiàng)后,式(12)可改寫為
Obj(T)≈∑Nn=1[gnfT(en)+12hnf2T(en)]+Ω(fT)(15)
式(15)中的正則化項(xiàng)定義為
Ω(fT)=γS+12λ∑Ss=1w2s(16)
式中:γ和λ為懲罰項(xiàng)系數(shù);S為第T顆樹的葉子節(jié)點(diǎn)個數(shù);ws為第s個葉子節(jié)點(diǎn)的取值。
定義Is={τ|d(en)=s}表示第s個葉子節(jié)點(diǎn)的所有樣本τ的集合,Gs=∑τ∈Isgτ,Hs=∑τ∈Ishτ分別表示第s個葉子節(jié)點(diǎn)的所有樣本的損失函數(shù)一階導(dǎo)數(shù)值和二階導(dǎo)數(shù)值之和,式(15)可以寫為
Obj(T)=∑Ss=1[Gsws+12(Hs+λ)w2s]+γS(17)
由于損失函數(shù)均為凸函數(shù),可知在Obj(T)/ws=0時,目標(biāo)函數(shù)可取得最小值,此時每個葉子節(jié)點(diǎn)的最優(yōu)值為
w*s=-GsHs+λ(18)
通過將系數(shù)βm作用于各個機(jī)動動作編號的損失函數(shù),可以提高樣本數(shù)較少的機(jī)動動作編號的損失函數(shù)值,同時適當(dāng)降低樣本數(shù)較多的機(jī)動動作編號的損失函數(shù)值,即改變各個機(jī)動動作編號樣本的損失函數(shù)一階、二階導(dǎo)數(shù)值,可以適當(dāng)調(diào)整模型對于不同數(shù)量的機(jī)動動作編號樣本的關(guān)注度,最終改變決策樹的葉子節(jié)點(diǎn)的值,即樣本的概率預(yù)測值,從而提高不平衡空戰(zhàn)數(shù)據(jù)集的機(jī)動動作預(yù)測概率,進(jìn)而確定最優(yōu)機(jī)動決策。
隨后,藍(lán)方無人機(jī)執(zhí)行確定的最優(yōu)機(jī)動決策,以提升藍(lán)方態(tài)勢,然后根據(jù)下一回合的支付矩陣模型重新計(jì)算納什均衡解和期望收益,直至藍(lán)方獲勝。
4 仿真與分析
為了驗(yàn)證本文所提方法的有效性,下面將分別進(jìn)行單回合和多回合攻防博弈仿真,其中多回合為藍(lán)方2架無人機(jī)(A1,A2)對抗紅方4架無人機(jī)(B1,B2,B3,B4)。
4.1 單回合博弈算法仿真
4.1.1 RF特征降維
給定初始空戰(zhàn)數(shù)據(jù)樣本集D,其中以表1和表2作為樣本集D的輸入特征和輸出屬性,根據(jù)表1將藍(lán)方無人機(jī)位置(xA,yA,zA)視為特征e11,e21,e31,速度VA視為特征e2,俯仰角θA和偏航角A視為特征e3和e4,紅方無人機(jī)同理,可以得到12個輸入特征。將樣本集D作為RF算法的輸入,計(jì)算每個特征的重要度大小,將其排序后可以得到圖2。
由圖2可知特征e2,e7,e4和e11(即藍(lán)方無人機(jī)速度VA),紅方無人機(jī)俯仰角θB,藍(lán)方無人機(jī)偏航角A和位置xA的重要性相對于其他特征較小,即對數(shù)據(jù)集的貢獻(xiàn)度較小,可將其從初始數(shù)據(jù)集中刪除并生成新的數(shù)據(jù)集D′,其特征數(shù)共有8個,表3和表4分別給出了初始數(shù)據(jù)集D和新數(shù)據(jù)集D′中的部分?jǐn)?shù)據(jù),表中編號為無人機(jī)機(jī)動動作編號,與表2中的數(shù)字標(biāo)號相對應(yīng)。將初始數(shù)據(jù)集D和新數(shù)據(jù)集D′分別作為XGBoost算法的輸入數(shù)據(jù)集進(jìn)行訓(xùn)練,得到兩者的平均訓(xùn)練時間如表5所示。
由表5可知,根據(jù)特征重要度進(jìn)行適當(dāng)?shù)奶卣鹘稻S后,模型訓(xùn)練時間提高了21.77%,說明所提算法能夠有效提高模型訓(xùn)練速度,保證了空戰(zhàn)時進(jìn)行實(shí)時決策的能力。
4.1.2 XGBoost模型預(yù)測
將初始數(shù)據(jù)集D和降維后的數(shù)據(jù)集D′分別作為原始XGBoost算法的輸入數(shù)據(jù)集,再將D′作為改進(jìn)后XGBoost算法的輸入數(shù)據(jù)集進(jìn)行訓(xùn)練,并將數(shù)據(jù)集中20%的樣本作為測試集,進(jìn)行最優(yōu)機(jī)動動作預(yù)測,得到的預(yù)測結(jié)果如圖3所示。
由圖3(a)和圖3(b)可知,將初始空戰(zhàn)數(shù)據(jù)集根據(jù)RF算法特征降維后,XGBoost算法的最優(yōu)機(jī)動決策的預(yù)測準(zhǔn)確率從93.78%提高到95.34%,說明對空戰(zhàn)數(shù)據(jù)集特征降維能夠在提高模型訓(xùn)練效率的同時保證預(yù)測準(zhǔn)確率。由圖3(b)和圖3(c)可知,改進(jìn)后XGBoost算法相較于改進(jìn)前XGBoost算法的機(jī)動動作預(yù)測準(zhǔn)確率從95.34%提高到了98.45%,提升較為明顯,圖4給出了兩者對于測試集預(yù)測的混淆矩陣。
圖4中,混淆矩陣的橫坐標(biāo)為XGBoost模型預(yù)測的機(jī)動動作編號,縱坐標(biāo)為測試集中真實(shí)的機(jī)動動作編號,每行的數(shù)據(jù)總數(shù)表示了測試集中該機(jī)動動作的數(shù)量,對角線上代表預(yù)測正確的機(jī)動動作的數(shù)量。由圖4(b)可知,機(jī)動動作4(即加速前飛動作)的樣本數(shù)明顯多于其余機(jī)動動作,對于此不平衡樣本集,改進(jìn)后的XGBoost算法提高了對少數(shù)類樣本的預(yù)測概率,并且隨著數(shù)據(jù)集維數(shù)的增大,算法性能提升效果更加明顯,對于解決樣本不平衡問題可以起到一定作用。
4.2 多回合攻防博弈
設(shè)定藍(lán)方無人機(jī)(A1,A2)的價值集合vaA={58,55},攻擊命中率集合pA={0.60,0.62};紅方無人機(jī)(B1,B2,B3,B4)的價值集合vaB={46,50,48,50},攻擊命中率集合pB={0.58,0.56,0.56,0.60}。假設(shè)紅藍(lán)雙方無人機(jī)每次攻擊均只能鎖定一個目標(biāo),根據(jù)文獻(xiàn)[18]中的優(yōu)勢函數(shù)定義,可得到藍(lán)方無人機(jī)的初始狀態(tài)博弈支付矩陣為
-0.268-0.254-0.255-0.241-0.255-0.241-0.241-0.227-0.254-0.241-0.241-0.227-0.241-0.227-0.227-0.213
-0.267-0.253-0.254-0.240-0.253-0.240-0.240-0.226-0.253-0.239-0.240-0.226-0.239-0.226-0.226-0.212
-0.273-0.259-0.259-0.246-0.259-0.245-0.246-0.232-0.259-0.245-0.245-0.232-0.245-0.231-0.232-0.218
-0.270-0.256-0.257-0.243-0.257-0.243-0.243-0.229-0.256-0.242-0.243-0.229-0.243-0.229-0.229-0.215
-0.267-0.253-0.254-0.240-0.254-0.240-0.240-0.226-0.253-0.240-0.240-0.226-0.240-0.226-0.226-0.212
-0.266-0.252-0.253-0.239-0.252-0.239-0.240-0.225-0.252-0.238-0.239-0.225-0.238-0.225-0.225-0.211
-0.272-0.258-0.258-0.245-0.258-0.244-0.245-0.231-0.258-0.244-0.244-0.231-0.244-0.230-0.231-0.217
-0.269-0.255-0.256-0.242-0.256-0.242-0.242-0.228-0.255-0.241-0.242-0.228-0.242-0.228-0.228-0.214
-0.273-0.259-0.259-0.245-0.259-0.245-0.246-0.232-0.259-0.245-0.245-0.232-0.245-0.231-0.232-0.218
-0.272-0.258-0.258-0.244-0.258-0.244-0.244-0.231-0.258-0.244-0.244-0.230-0.244-0.230-0.230-0.217
-0.277-0.263-0.264-0.250-0.264-0.250-0.250-0.236-0.253-0.250-0.250-0.236-0.250-0.236-0.236-0.222
-0.275-0.261-0.261-0.247-0.261-0.247-0.248-0.234-0.261-0.247-0.247-0.233-0.247-0.233-0.234-0.220
-0.270-0.256-0.257-0.243-0.256-0.243-0.243-0.229-0.256-0.242-0.243-0.229-0.243-0.229-0.229-0.215
-0.269-0.255-0.255-0.242-0.255-0.241-0.242-0.228-0.255-0.241-0.242-0.228-0.241-0.227-0.228-0.214
-0.275-0.261-0.261-0.247-0.261-0.247-0.248-0.234-0.261-0.247-0.247-0.233-0.247-0.233-0.234-0.220
-0.272-0.258-0.259-0.245-0.258-0.245-0.245-0.231-0.258-0.244-0.245-0.231-0.244-0.231-0.231-0.217
根據(jù)魯棒線性規(guī)劃法求解上述博弈支付矩陣,得到的納什均衡解為x*=(0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0),期望收益為-0.220 5。此時期望收益小于0,藍(lán)方不占優(yōu)勢,因此紅藍(lán)雙方進(jìn)行多回合攻防博弈。
設(shè)置每回合博弈對抗時間Δt為1 s,最大仿真時間T=80Δt,且當(dāng)藍(lán)方無人機(jī)期望收益大于0或者達(dá)到最大仿真時間時結(jié)束對抗。分別采用未進(jìn)行降維處理的改進(jìn)XGBoost算法、利用RF算法特征降維后的改進(jìn)XGBoost算法、利用RF算法特征降維后的傳統(tǒng)決策樹算法進(jìn)行博弈對抗的平均仿真時間如表6所示,基于改進(jìn)XGBoost算法的博弈對抗紅藍(lán)雙方位置軌跡如圖5所示,藍(lán)方期望收益變化如圖6所示?;趥鹘y(tǒng)決策樹的博弈對抗紅藍(lán)雙方位置軌跡如圖7所示,藍(lán)方期望收益變化如圖8所示。
由表6可以看出,在RF算法對數(shù)據(jù)集進(jìn)行降維處理后,基于改進(jìn)XGBoost算法的多回合博弈對抗的時間減少了27.5%,且相較于傳統(tǒng)的決策樹算法,對抗時間減少了18.5%。由圖5和圖6可知,在對抗初期,相互接近的過程由于距離較遠(yuǎn),只進(jìn)行較小幅度的爬升和俯沖機(jī)動,藍(lán)方期望收益變化并不明顯。隨后,藍(lán)方為了獲得勝利使自身期望收益增大,在紅藍(lán)雙方接近后、藍(lán)方無人機(jī)架次不占優(yōu)的情況下,藍(lán)方的最優(yōu)機(jī)動選擇不斷加速和爬升以獲取高度優(yōu)勢。最后,經(jīng)過46個回合,藍(lán)方期望收益從-0.220 5增加到了0.001 2,期望收益大于0,即表示藍(lán)方在博弈對抗過程中開始占優(yōu),表明藍(lán)方能夠在空戰(zhàn)中取得勝利。由圖7和圖8可知,在采用基于傳統(tǒng)決策樹的博弈對抗中,藍(lán)方獲勝所需的回合數(shù)為63,說明所提算法相較于傳統(tǒng)決策樹算法能夠縮短藍(lán)方獲勝的對抗時間,提高空戰(zhàn)對抗中最優(yōu)機(jī)動決策的實(shí)時性。
根據(jù)上述仿真結(jié)果可知,藍(lán)方無人機(jī)采用的基于RF XGBoost算法的無人機(jī)多回合攻防博弈方法相較于采取一般決策的紅方無人機(jī)能夠更快地獲取空戰(zhàn)態(tài)勢優(yōu)勢,且對于高維度的空戰(zhàn)數(shù)據(jù)集能夠保證對抗的實(shí)時性,因此藍(lán)方能在無人機(jī)架次不占優(yōu)的情況下,逐漸掌握戰(zhàn)場的主動權(quán)。
5 結(jié) 論
本文針對無人機(jī)的多回合空戰(zhàn)博弈對抗問題,提出了一種基于RF XGBoost算法的多回合攻防博弈決策方法。該方法根據(jù)紅藍(lán)雙方的運(yùn)動狀態(tài)和空戰(zhàn)信息建立了支付矩陣模型,通過求解納什均衡和期望收益,以此為依據(jù)判斷博弈能否停止,然后利用RF算法對空戰(zhàn)數(shù)據(jù)集進(jìn)行特征降維,建立改進(jìn)的XGBoost模型處理不平衡數(shù)據(jù)集下的最優(yōu)機(jī)動決策。所提算法在單回合博弈仿真和多回合攻防博弈仿真中均獲得了符合設(shè)計(jì)要求的最優(yōu)機(jī)動決策,且相較于傳統(tǒng)決策樹算法減小了獲勝所需的回合數(shù)。所提算法不僅為多回合空戰(zhàn)博弈決策提供了新的解決思路,也為其他領(lǐng)域的博弈推演問題提供了有價值的思考。
參考文獻(xiàn)
[1]LI B, HUANG J Y, BAI S X, et al. Autonomous air combat decision making of UAV based on parallel self play reinforcement learning[J]. CAAI Transactions on Intelligence Technology, 2022, 8(1): 64-81.
[2]DONG Y Q, AI J L, LIU J Q. Guidance and control for own aircraft in the autonomous air combat: a historical review and future prospects[J]. Proceedings of the Institution of Mechanical Engineers, Part G: Journal of Aerospace Engineering, 2019, 233(16): 5943-5991.
[3]ZHANG J D, YU Y F, ZHENG L H, et al. Situational continuity based air combat autonomous maneuvering decision making[J]. Defence Technology, 2023, 29(11): 66-79.
[4]HE Y X, DU Z J, HUANG L W, et al. Maneuver decision making method for ship collision avoidance in Chengshantou traffic separation scheme waters[J]. Applied Sciences, 2023, 13(14): 8437.
[5]LU H C, WU B Y, CHEN J Q. Fighter equipment contribution evaluation based on maneuver decision[J]. IEEE Access, 2021, 9: 132241-132254.
[6]董一群, 艾劍良. 自主空戰(zhàn)技術(shù)中的機(jī)動決策: 進(jìn)展與展望[J]. 航空學(xué)報, 2020, 41(S2): 4-12.
DONG Y Q, AI J L. Decision making in autonomous air combat: review and prospects[J]. Acta Aeronautica et Astronautica Sinica, 2020, 41(S2): 4-12.
[7]AUSTIN F, CARBONE G, HINZ H, et al. Game theory for automated maneuvering during air to air combat[J]. Journal of Guidance, Control, and Dynamics, 1990, 13(6): 1143-1149.
[8]ARDEMA A, HEYMANN M, RAJAN N. Analysis of a combat problem: the turret game[J]. Journal of Optimization Theory and Applications, 1987, 54(1): 23-42.
[9]WONG R E. Some aerospace differential games[J]. Journal of Spacecraft and Rockets, 2012, 4(11): 1460-1465.
[10]VIRTANEN K, KARELAHTI J, RAIVIO T. Modeling air combat by a moving horizon influence diagram game[J]. Journal of Guidance, Control, and Dynamics, 2012, 29(5): 1080-1091.
[11]譚目來, 丁達(dá)理, 謝磊, 等. 基于模糊專家系統(tǒng)與IDE算法的UCAV逃逸機(jī)動決策[J]. 系統(tǒng)工程與電子技術(shù), 2022, 44(6): 1984-1993.
TAN M L, DING D L, XIE L, et al. UCAV escape maneuvering decision based on fuzzy expert system and IDE algorithm[J]. Systems Engineering and Electronics, 2022, 44(6): 1984-1993.
[12]傅莉, 謝福懷, 孟光磊, 等. 基于滾動時域的無人機(jī)空戰(zhàn)決策專家系統(tǒng)[J]. 北京航空航天大學(xué)學(xué)報, 2015, 41(11): 1994-1999.
FU L, XIE F H, MENG G L, et al. An UAV air combat decision expert system based on receding horizon control[J]. Journal of Beijing University of Aeronautics and Astronautics, 2015, 41(11): 1994-1999.
[13]ZHANG H P, ZHOU H, WEI Y J, et al. Autonomous maneuver decision making method based on reinforcement learning and Monte Carlo tree search[J]. Frontiers in Neurorobotics, 2022, 16: 996412.
[14]何旭, 景小寧, 馮超. 基于蒙特卡羅樹搜索方法的空戰(zhàn)機(jī)動決策[J]. 空軍工程大學(xué)學(xué)報(自然科學(xué)版), 2017, 18(5): 36-41.
HE X, JING X N, FENG C. Air combat maneuver decision based on MCTS method[J]. Journal of Air Force Engineering University(Natural Science Edition), 2017, 18(5): 36-41.
[15]TENG T H, TAN A H, TAN Y S, et al. Self organizing neural networks for learning air combat maneuvers[C]∥Proc.of the International Joint Conference on Neural Networks, 2012.
[16]LI B, LIANG S Y, CHEN D Q, et al. A decision making method for air combat maneuver based on hybrid deep learning network[J]. Chinese Journal of Electronics, 2022, 31(1): 107-115.
[17]張宏鵬, 黃長強(qiáng), 軒永波, 等. 基于深度神經(jīng)網(wǎng)絡(luò)的無人作戰(zhàn)飛機(jī)自主空戰(zhàn)機(jī)動決策[J]. 兵工學(xué)報, 2020, 41(8): 1613-1622.
ZHANG H P, HUANG C Q, XUAN Y B, et al. Maneuver decision of autonomous air combat of unmanned combat aerial vehicle based on deep neural network[J]. Acta Armamentarii, 2020, 41(8): 1613-1622.
[18]ZHU J D, FU X W, QIAO Z. UAVs maneuver decision making method based on transfer reinforcement learning[J]. Computational Intelligence and Neuroscience, 2022, 2022(1): 2399796.
[19]章勝, 周攀, 何揚(yáng), 等. 基于深度強(qiáng)化學(xué)習(xí)的空戰(zhàn)機(jī)動決策試驗(yàn)[J]. 航空學(xué)報, 2023, 44(10): 122-135.
ZHANG S, ZHOU P, HE Y, et al. Air combat maneuver decision making test based on deep reinforcement learning[J]. Acta Aeronautica et Astronautica Sinica, 2023, 44(10): 122-135.
[20]楊晟琦, 田明俊, 司迎利, 等. 基于分層強(qiáng)化學(xué)習(xí)的無人機(jī)機(jī)動決策[J]. 火力與指揮控制, 2023, 48(8): 48-52.
YANG S Q, TIAN M J, SI Y L, el al. Research on UAV maneuver decision making based on hierarchical reinforcement learning[J]. Fire Control amp; Command Control, 2023, 48(8): 48-52.
[21]ERNEST N, COHEN K, KIVELEVITCH E, et al. Genetic fuzzy trees and their application towards autonomous training and control of a squadron of unmanned combat aerial vehicles[J]. Unmanned Systems, 2015, 3(3): 185-204.
[22]BLUMHAGEN R Z, SCHWARTZ D A. Identification of influe ntial rare variants in aggregate testing using random forest importance measures[J]. Annals of Human Genetics, 2023, 87(4): 184-195.
[23]程紹馳, 游光榮. 基于改進(jìn)隨機(jī)森林算法的評估指標(biāo)精簡方法研究[J]. 系統(tǒng)工程與電子技術(shù), 2023, 45(7): 2108-2113.
CHENG S C, YOU G R. Research on the method of simplifying evaluation index based on improved random forest algorithm[J]. Systems Engineering and Electronics, 2023, 45(7): 2108-2113.
[24]DANIEL J L, ZHU R Q, CUI Y F, et al. Dimension reduction forests: local variable importance using structured random fo rests[J]. Journal of Computational and Graphical Statistics, 2022, 31(4): 1104-1113.
[25]CHEN T Q, CARLOS G. XGBoost: a scalable tree boosting system[C]∥Proc.of the 22nd ACM SIGKDD International Conference on Knowledge Giscovery and Data Mining, 2016.
[26]VADHWANI D Y, DEVENDRA T. Prediction of extent of da mage in vehicle during crash using improved XGBoost model[J]. International Journal of Crashworthiness, 2023, 28(3): 299-305.
[27]REN Q X, WANG J G. Research on enterprise digital level classification based on XGBoost model[J]. Sustainability, 2023, 15(3): 2699.
[28]王琳蒙. 非完備信息下的無人機(jī)空戰(zhàn)動態(tài)博弈決策研究[D]. 南京: 南京航空航天大學(xué), 2023.
WANG L M. Research on dynamic game decision making of UAV’s air combat under incomplete information[D]. Nanjing: Nanjing University of Aeronautics and Astronautics, 2023.
[29]劉昊天. 無人機(jī)空戰(zhàn)對抗博弈決策研究[D]. 南京: 南京航空航天大學(xué), 2022.
LIU H T. Research on game decision of UAV air combat confrontation[D]. Nanjing: Nanjing University of Aeronautics and Astronautics, 2022.
[30]STROBL C, BOULESTEIX A L, KNEIB T, et al. Conditional variable importance for random forests[J]. BMC Bioinformatics, 2008, 9(1): 307.
作者簡介
鄒世培(2000—),男,碩士研究生,主要研究方向?yàn)閯討B(tài)博弈決策。
王玉惠(1980—),女,教授,博士,主要研究方向?yàn)轱w行控制、智能決策控制。
劉鴻睿(1999—),男,碩士研究生,主要研究方向?yàn)榭諔?zhàn)決策效能評估。