許 可,吉蘭萍,孫文娟,雷 鳴,高宏宇,葉彩霞
(沈陽理工大學(xué) a.理學(xué)院,b.自動化與電氣工程學(xué)院,沈陽 110159)
信息化戰(zhàn)爭中,防御方如何有效針對來襲目標進行武器分配是值得研究的科學(xué)問題。為使防御方的利益最大化,制定合理的武器-目標分配方案尤為重要。
國內(nèi)外學(xué)者對于武器-目標分配問題的研究較為豐富,石章松等[1]建立了基于最小資源損耗的單目標優(yōu)化模型。齊長興等[2]建立了基于突防效能最高的單目標優(yōu)化模型。張明雙等[3]以最小火力浪費為目標建立單目標優(yōu)化的火力分配模型。相比于單目標模型,多目標模型對實戰(zhàn)中戰(zhàn)場態(tài)勢的考慮更貼合實際情況。Gao C Q[4]建立了基于敵方損失最大、導(dǎo)彈成本最小、戰(zhàn)斗力損失值最小的多目標優(yōu)化模型。Xuan H J等[5]建立了效益最大化、資本支出最小化的多目標優(yōu)化模型,并加入了最佳打擊方案。劉丙杰等[6]建立了基于突防概率最高、兵力生存最大的多目標優(yōu)化模型。張凱等[7]建立了基于武器利用率最大化和目標生存率最小化的多目標優(yōu)化模型。田偉等[8]建立了使命達成概率最大化、剩余戰(zhàn)斗力最大化、行動時長最小化等多目標優(yōu)化模型。然而上述模型沒有考慮防御方武器平臺的武器數(shù)量約束,易導(dǎo)致防御方因過度防御造成資源的浪費。
非支配排序遺傳算法(Non-dominated Sorting Genetic Algorithm,NSGA)由Srinivas N在求解多目標函數(shù)時提出[9]。NSGA算法采用的非支配分層方法,可以使優(yōu)秀的個體有更多的機會遺傳到下一代,但計算復(fù)雜度高且沒有采用精英策略。為降低復(fù)雜度、擴大采樣空間,Deb K等[10]提出了一種運用擁擠距離和擁擠度對同一非支配等級的個體進行選擇的第二代快速非支配排序遺傳算法(NSGA-Ⅱ),其基于Pareto最優(yōu)解實現(xiàn)多目標優(yōu)化。楊紅波等[11]以帶精英策略的NSGA-Ⅱ算法對斜齒輪宏觀參數(shù)進行了多目標優(yōu)化。齊琦等[12]使用一種改進的NSGA-Ⅱ算法研究了多目標生產(chǎn)智能優(yōu)化調(diào)度,確保種群更快向最優(yōu)解的方向前進。封碩等[13]將支持強化學(xué)習(xí)的NSGA-Ⅱ算法應(yīng)用于無人機多目標三維航跡規(guī)劃問題,提高了收斂速度和收斂精度。尹愛軍等[14]將強化學(xué)習(xí)與改進的NSGA-Ⅱ算法融合,解決多目標柔性作業(yè)車間調(diào)度問題。從以上文獻研究可以看出,NSGA-Ⅱ算法被廣泛運用于解決多目標優(yōu)化問題。除NSGA-Ⅱ算法之外,Deb K等[15]提出的NSGA-Ⅲ算法是運用分布參考點在高維目標下維持種群多樣性的算法,但其相較于NSGA-Ⅱ運行效率較慢,更適用于收斂困難的高維多目標優(yōu)化。
綜上,本文基于NSGA-Ⅱ算法設(shè)計地對空武器-目標分配的多目標決策問題,首先考慮防御方的武器數(shù)量約束,以敵方所有來襲目標的剩余生存概率最小、我方彈藥消耗量的價值最小、敵方對我方資產(chǎn)的損害最小三個目標建立地對空防御武器-目標分配的多目標優(yōu)化模型,模型雖復(fù)雜,但在達到防御目的的同時能有效節(jié)約資源,更符合實際戰(zhàn)爭需求。NSGA-Ⅱ算法存在易于早熟和多樣性不足等問題,所以本文設(shè)計改進的NSGA-Ⅱ(簡稱RLNSGA-Ⅱ)算法求解地對空防御武器-目標分配的多目標優(yōu)化模型,該算法使用強化學(xué)習(xí)方法動態(tài)調(diào)整兩個種群的個體遷徙參數(shù),并且融合多樣性度量指標以增加種群多樣性。最后對RLNSGA-Ⅱ算法求得的地對空防御武器-目標分配多目標問題的Pareto解集,利用模糊決策進行方案評價,得出最優(yōu)的武器-目標分配方案。
地對空防御武器-目標分配問題是指攻擊方在空中使用空襲武器(如導(dǎo)彈、無人機、戰(zhàn)斗機、殲擊機、轟炸機等)盡最大可能摧毀防御方的資源(如武器裝備、陣地、重要城市等),而防御方需要合理有效的武器分配決策以保護己方資源。下文中“我方”代表擁有多個武器平臺的防御方,“敵方”代表有多個來襲目標的攻擊方。通過考慮敵方空中來襲目標的類型、數(shù)量、毀傷概率等因素,描述以我方對敵方的毀傷概率最大、我方彈藥消耗量的價值最小、我方留存資產(chǎn)最大為目標函數(shù)的地對空防御武器-目標分配問題。為簡化問題的求解,給出以下假設(shè):
(1)敵方來襲目標和我方武器平臺的所有先驗信息已明確可知,如毀傷概率矩陣、資產(chǎn)價值矩陣等;
(2)我方每個武器平臺的武器類型只有一種;
(3)每個武器-目標交戰(zhàn)的結(jié)果相互獨立,即我方任一武器平臺的武器和敵方任一來襲目標交戰(zhàn)的結(jié)果(如爆炸的毀傷距離)不會影響我方其他武器和敵方其他目標的交戰(zhàn)。
表1給出了模型相關(guān)參數(shù)及變量符號說明。
表1 符號定義表
以敵方所有來襲目標的剩余生存概率最小、我方彈藥消耗量的價值最小、敵方對我方資產(chǎn)的損害最小為目標函數(shù),以武器平臺的武器數(shù)量為約束,建立地對空防御武器-目標分配問題模型為
(1)
(2)
(3)
s.t.
(4)
(5)
目標函數(shù)(1)表示敵方所有來襲目標的剩余生存概率最??;目標函數(shù)(2)表示我方彈藥消耗量的價值最??;目標函數(shù)(3)表示敵方對我方資產(chǎn)的損害最?。患s束條件(4)表示一個武器平臺對來襲目標分配的武器數(shù)量不會超過該武器平臺擁有的武器數(shù)量;約束條件(5)定義了武器平臺i分配給來襲目標j的武器數(shù)量。
2.1.1 編碼設(shè)計
根據(jù)我方武器平臺和來襲目標的數(shù)量關(guān)系,采用整數(shù)編碼。染色體編碼為
Z=[z11,z12,…,z1n1,z21,z22,…,z2n2,…,zn1,…,znnn]
(6)
2.1.2 倒位操作生成新個體
編碼中同一基因在不同基因位的意義完全不同,通過改變基因位置會形成新的染色體,本文采用倒位操作代替交叉操作生成新個體。若父代染色體為[1,3,7,2,5,4,3,6,2,7,1],在染色體2號位置設(shè)倒位點1,6號位置設(shè)倒位點2,倒位操作后生成子代染色體為[1,4,5,2,7,3,3,6,2,7,1],如圖1所示。
圖1 倒位操作示意圖
2.1.3 多樣性度量
對于多目標問題,非劣解集在近似Pareto前沿上分配越離散越光滑,代表種群的多樣性越好,因此采用解間距度量法對種群的多樣性進行度量。
設(shè)算法搜索到具有Pareto性的前沿解數(shù)量為|L|個,則解間距指標Cd定義為
(7)
其中
(8)
(9)
2.1.4 基于強化學(xué)習(xí)的種群遷徙參數(shù)調(diào)整策略
智能體(Agent)通過與環(huán)境進行交互調(diào)整自己的行動策略,最優(yōu)策略π*的獲得是強化學(xué)習(xí)的最終目的[13]。將NSGA-Ⅱ中的種群作為Agent,最終目標是種群遷徙參數(shù)學(xué)習(xí),Agent強化學(xué)習(xí)的狀態(tài)、動作以及獎賞分別描述如下。
(1)狀態(tài)
(2)動作
Agent的動作是對種群遷徙參數(shù)的調(diào)整,包含增加、不變、減少。計算公式為
(10)
式中:β(te)、β(te-1)分別為第te代和te-1代種群的遷徙參數(shù);Δφ代表種群遷徙參數(shù)的變化幅度。
(3)獎勵
根據(jù)解間距度量值的變化可以決定Agent通過強化學(xué)習(xí)得到的獎勵R,以達成學(xué)習(xí)最優(yōu)種群遷徙參數(shù)β(te)的目的。獎勵計算方式為
表2 強化學(xué)習(xí)狀態(tài)集合表
(11)
強化學(xué)習(xí)Q值表中由不同狀態(tài)下執(zhí)行不同動作獲得的最大預(yù)期未來獎勵值構(gòu)成,獎勵初始值均為0,需要在每次迭代時更新,以幫助Agent找到每個狀態(tài)的最佳動作。Q值的更新方法為
Q(st,aci)←(1-α)Q(st,aci)+
α[r′+γmaxQ(s′,at)]
(12)
式中:Q(st,aci)表示Agent在狀態(tài)st和動作aci時對應(yīng)的Q值;α為學(xué)習(xí)因子;γ為折扣率;maxQ(s′,at)為Agent在狀態(tài)st下執(zhí)行某一不同于aci的動作at后轉(zhuǎn)移到下一狀態(tài)s′獲得的最大獎勵;r′為Agent當前選擇的動作at作用于環(huán)境獲得的即時獎勵。
算法步驟如下。
步驟1:輸入n、ni、K、vK、B、V、m、A,設(shè)置算法參數(shù),包括最大迭代次數(shù)X、初始種群遷徙參數(shù)β、種群規(guī)模NU、倒位操作概率p倒、多項式變異概率p變、強化學(xué)習(xí)Q值表、學(xué)習(xí)率α、折扣率γ,隨機初始化兩個種群。
步驟2:對兩個種群進行快速非支配排序并根據(jù)公式(7)計算解間距度量值,染色體編碼采用整數(shù)編碼。
步驟3:分別對種群1和種群2進行不同概率的錦標賽選擇、倒位、多項式變異操作,產(chǎn)生下一代種群。
步驟4:將父代種群加入到子代種群中,進行快速非支配排序,通過目標函數(shù)上解間距計算擁擠度,再進行選擇操作,生成新的種群。
步驟5:判斷種群迭代次數(shù)是否達到最大迭代次數(shù),若是,結(jié)束迭代;否則轉(zhuǎn)到步驟6。
步驟6:根據(jù)公式(7)計算種群1和種群2的解間距度量值,獲得表2中狀態(tài)st。
步驟7:按ε-貪心策略選取動作aci,根據(jù)公式(10)更新種群遷徙參數(shù)。
步驟8:根據(jù)公式(11)和公式(12)分別計算獎勵值R和更新強化學(xué)習(xí)Q值,轉(zhuǎn)到步驟2。
由RLNSGA-Ⅱ算法的運行結(jié)果可構(gòu)建N個Pareto方案,用yh(h=1,2,…,N)表示,則Pareto方案集可表示為Y={y1,y2,…,yN},其中N為RLNSGA-Ⅱ算法得到的地對空防御武器-目標分配方案的總數(shù)。記地對空防御武器-目標分配方案yh的第e個目標函數(shù)值為geh=ge(yh)(e=1,2,…,M;h=1,2,…,N),M為地對空防御武器-目標分配問題模型的優(yōu)化目標個數(shù)。
于是,決策矩陣表示為
G=(geh)M×N
(13)
通常情況下,多個目標之間相互沖突,且決策過程中含有決策者的知識經(jīng)驗、判斷等模糊信息。為此需要確定方案yh關(guān)于目標的優(yōu)屬度fe(yh),記為feh=fe(yh)(e=1,2,…,M;h=1,2,…,N)。
將目標函數(shù)按類型劃分為2個子集Zo(o=1,2),分別代表兩種目標函數(shù)類型:效益型和成本型。
對效益型目標D、J來講,相對優(yōu)屬度計算式為
feh=geh/(gemax+gemin)(e∈Z1)
(14)
對成本型目標C來講,相對優(yōu)屬度計算式為
feh=1-geh/(gemin+gemax)(e∈Z2)
(15)
(16)
將決策矩陣G通過式(15)、式(16)變換為目標優(yōu)屬度矩陣f
(17)
現(xiàn)實中目標權(quán)重常常未知,需要對目標權(quán)重求解以及方案的選優(yōu)排序。目標權(quán)重系數(shù)計算公式為
(18)
M個目標權(quán)重系數(shù)組成目標權(quán)重向量,并用ω=(ω1,ω2,…,ωM)T表示。相對優(yōu)屬度矩陣通過公式(19)可轉(zhuǎn)換為加權(quán)優(yōu)屬度矩陣
(19)
根據(jù)加權(quán)優(yōu)屬度矩陣可得地對空防御武器-目標分配方案yh∈Y的目標相對優(yōu)屬度線性加權(quán)平均綜合值為
(20)
由式(20)可見,對于求得的目標權(quán)重向量而言,ρh(ω)越大則地對空防御武器-目標分配方案yh越優(yōu)。
本節(jié)通過實驗驗證提出的基于RLNSGA-Ⅱ算法求解地對空防御武器-目標分配優(yōu)化模型的有效性。實驗在一臺Intel Core i5 1.6GHz CPU和4 GB RAM的個人電腦上測試,使用JetBrains PyCharm Community Edition 2018.2.4軟件編程實現(xiàn)。
我方需要保護的資產(chǎn)有5項,資產(chǎn)價值系數(shù)(單位資產(chǎn)的價值)如表3所示。
表3 資產(chǎn)價值系數(shù)表
我方現(xiàn)有5個武器平臺,每一個武器平臺僅擁有一種武器類型,各武器平臺的武器數(shù)量如表4所示。
表4 武器平臺擁有武器數(shù)量表
敵方有9個來襲目標Tj(j=1,2,…,9),我方防御武器對來襲目標的毀傷概率如矩陣A所示,敵方來襲目標對我方資產(chǎn)的威脅度如矩陣B所示。
我方防御武器平臺中單個武器攻打來襲目標需要消耗成本系數(shù)(單位武器消耗的成本)如表5所示。
表5 武器平臺武器消耗成本
RLNSGA-Ⅱ算法相關(guān)參數(shù)選取如表6所示,在這些參數(shù)下實驗,得到的目標函數(shù)值較小且迭代次數(shù)較少。
表6 RLNSGA-Ⅱ算法相關(guān)參數(shù)表
4.2.1 實驗結(jié)果
運行程序20次,算法平均在第60次迭代后找到最優(yōu)解。從50個Pareto最優(yōu)方案中選取中間位置的5個方案,有關(guān)數(shù)據(jù)如表7、表8所示。
表7 Pareto最優(yōu)方案目標函數(shù)值表
表8 Pareto最優(yōu)武器-目標分配方案表
續(xù)表8
運用模糊決策方法對所選的5個方案進行選優(yōu)和排序。
將表7中5個Pareto最優(yōu)方案,用決策矩陣表示為
由式(17)得本文三個目標函數(shù)的目標優(yōu)屬度矩陣為
由式(18)確定目標權(quán)重向量ω=(ω1,ω2,ω3),其中
同理計算得到ω2=0.34,ω3=0.33,由式(19)計算可得加權(quán)優(yōu)屬度矩陣為
由式(20)計算得到5個方案目標相對優(yōu)屬度線性加權(quán)平均綜合值向量為
ρ(ω)=(0.60,0.81,0.71,0.79,0.85)
故地對空防御武器-目標分配方案優(yōu)劣排序為y5、y2、y4、y3、y1,最優(yōu)分配方案為y5。
最終分配結(jié)果為:第一個武器平臺中的1號武器攻擊來襲目標8,2、3號武器攻擊來襲目標2,3號武器不進行攻擊;第二個武器平臺中的1、3號武器不進行攻擊,2號武器攻擊來襲目標8;第三個武器平臺中的1、2號武器攻擊來襲目標9,3、5號武器攻擊來襲目標3,4號武器攻擊來襲目標8;第四個武器平臺中的1~5號武器和7~8號武器不進行攻擊,6、9和10號武器攻擊來襲目標4、1和6;第五個武器平臺中的1號武器不進行攻擊,2、3號武器攻擊來襲目標5,4號武器攻擊來襲目標7。
4.2.2 算法性能對比
為驗證RLNSGA-Ⅱ算法的性能,按上述實驗條件將本文提出的RLNSGA-Ⅱ算法與NSGA-Ⅱ算法、NSGA-Ⅲ算法進行對比,結(jié)果如圖2所示。
圖2 Pareto前沿對比圖
由圖2可以看出,經(jīng)過RLNSGA-Ⅱ算法求得的Pareto前沿解相比其他兩種算法的Pareto前沿解更均勻。
圖3、圖4、圖5分別表示在地對空武器-目標分配的多目標優(yōu)化模型中目標函數(shù)1的D值、目標函數(shù)2的C值、目標函數(shù)3的J值在NSGA-Ⅱ,RLNSGA-Ⅱ,NSGA-Ⅲ三種算法下隨迭代次數(shù)增加的進化曲線圖。
圖3 目標函數(shù)1的D值進化曲線圖
圖4 目標函數(shù)2的C值進化曲線圖
圖5 目標函數(shù)3的J值進化曲線圖
由圖3、圖4、圖5可見,經(jīng)過多次迭代,NSGA-Ⅱ算法和NSGA-Ⅲ算法所得的三個目標函數(shù)值接近,而RLNSGA-Ⅱ算法所得三個目標函數(shù)值均最小,即最好。NSGA-Ⅱ與NSGA-Ⅲ算法求解時,目標函數(shù)值C在較劣水平,而在RLNSGA-Ⅱ算法求解時,目標函數(shù)值C能取得一個較優(yōu)的值并趨于穩(wěn)定(圖4)。隨進化代數(shù)增加,解向Pareto集合中前進。RLNSGA-Ⅱ算法求得的三個目標函數(shù)值基本都能在50代前后趨于穩(wěn)定,優(yōu)于其他兩種算法,說明本文算法收斂快且求得的函數(shù)值較優(yōu),驗證了算法的有效性。
根據(jù)實例驗證,運用RLNSGA-Ⅱ算法求得了具有Pareto占優(yōu)的解集,并在其中運用模糊決策方法選取了Pareto最優(yōu)解中的個別方案進行優(yōu)劣排序,RLNSGA-Ⅱ算法在求解多目標地對空防御武器-目標分配問題中具有有效性。實驗結(jié)果表明,目標函數(shù)經(jīng)歷較少的迭代次數(shù)就能達到收斂并得到近似最優(yōu)解,大大縮短了求解時間;地對空防御武器-目標分配中,多目標優(yōu)化能同時兼顧,達到敵方所有來襲目標的剩余生存概率最小、我方彈藥消耗最小、敵方對我方的總損害最小,提高了整體的作戰(zhàn)效能。