任天助,辛萬青,嚴晞雋,趙鴻宇,周 桃
(1. 北京宇航系統(tǒng)工程研究所,北京,100076;2. 北京精密機電控制設(shè)備研究所,北京,100076)
隨著現(xiàn)代戰(zhàn)爭的不斷演化,先進武器裝備在作戰(zhàn)中扮演的角色越來越重要,單一兵種對抗逐漸被體系對抗的形式所取代。然而如何進行武器裝備的作戰(zhàn)效能評估,并分析其在體系中的貢獻一直以來沒有得到很好的解決。關(guān)于武器的效能評估問題,中國的學者較多采用通過結(jié)構(gòu)化的方法建立評估模型,并對各個效能指標進行綜合。文獻[1]根據(jù)執(zhí)行任務(wù)的不同對武器性能指標進行了歸納,得到武器裝備體系應(yīng)具備的基本作戰(zhàn)能力為:機動能力、信息感知能力、指揮控制能力、火力打擊能力、防護能力和綜合保障能力等,將所有指標歸納到這些能力中利用層次分析法進行評估。文獻[2]通過灰色關(guān)聯(lián)分析法與層次分析法的集成,對結(jié)構(gòu)化能力指標進行體系效能評估,但是數(shù)據(jù)來源于專家打分的結(jié)果,不可避免地帶有主觀隨意性,同時能力層級的劃分也存在著爭議。文獻[3]與文獻[4]分別利用“折合系數(shù)”與模糊區(qū)間關(guān)系來試圖分析體系指標的影響,這些方法初步體現(xiàn)了數(shù)據(jù)驅(qū)動的思想,但是方法的可靠性、合理性有待驗證[5]。除了基于指標的評估方法之外,還有一種思路就是進行復雜的體系對抗仿真推演,利用作戰(zhàn)仿真得到的數(shù)據(jù)來進行評估,然而這種方法一方面過程復雜、成本高,另一方面依賴作戰(zhàn)想定的合理性,如果出現(xiàn)偏差結(jié)果的可信度反而不如利用能力指標進行評估。文獻[6]中充分體現(xiàn)了數(shù)據(jù)驅(qū)動的思想,設(shè)計了堆棧自編碼神經(jīng)網(wǎng)絡(luò)和支持向量回歸機的混合預測模型用于體系作戰(zhàn)效能評估,為這類問題打開了思路。然而其中選用了深度學習與大數(shù)據(jù)的方法,但在實際中這類軍事工業(yè)部門所掌握的數(shù)據(jù)很難達到真正意義上的大數(shù)據(jù),使用這類方法成本與收益不匹配。
本文試圖延續(xù)文獻[6]中的思路,利用一種數(shù)據(jù)驅(qū)動的思想,并將機器學習領(lǐng)域的極限學習機方法應(yīng)用在體系作戰(zhàn)效能評估當中,以提高方法的可靠性與合理性,解決評估過程中存在大量人為因素干擾與主觀性的影響等問題。
國防工業(yè)部門在設(shè)計新型武器過程中,從提高效能的角度來看,往往從提升某個或某幾個效能指標入手,研發(fā)出新一代武器裝備。然而提高某一個或某幾個指標并不代表整個武器的作戰(zhàn)效能有所提高,許多指標間存在耦合性,而這種耦合性可以在試驗數(shù)據(jù)中體現(xiàn)。但是已裝備武器的試驗數(shù)據(jù)無法直接遷移到還在設(shè)計論證中的裝備中,如何建立新舊裝備數(shù)據(jù)間的聯(lián)系,并實現(xiàn)從局部指標的調(diào)整到體系作戰(zhàn)效能的提升是一個需要解決的問題。因此,需要建立基于數(shù)據(jù)驅(qū)動的模型,如圖1 所示。
圖1 數(shù)據(jù)驅(qū)動模型原理 Fig.1 Data Driven Model Principle
構(gòu)建數(shù)據(jù)驅(qū)動的模型由以下3 個步驟組成:a)模型所需數(shù)據(jù)的收集。通過物理試驗和計算機仿真試驗收集數(shù)據(jù)。對于研制新型武器,數(shù)據(jù)既來自于上代型號的試驗數(shù)據(jù),也來自于計算機仿真模擬。對于部分數(shù)據(jù)需要進行歸一化處理再輸入模型。b)數(shù)據(jù)驅(qū)動模型的學習與泛化。通過將這些數(shù)據(jù)輸入到機器學習模型中,學習樣本輸入為型號自身的指標參數(shù),輸出為體系作戰(zhàn)效能指標。利用學習模型的泛化能力讓由數(shù)據(jù)驅(qū)動的模型具有連續(xù)的辨識能力,即使對于在設(shè)計論證的型號也能給定設(shè)想的指標進行體系作戰(zhàn)效能評估。c)數(shù)據(jù)驅(qū)動模型的測試與驗證。為了確保模型的可靠性,數(shù)據(jù)模型需要根據(jù)實際情況不斷的修正,根據(jù)模型得到的數(shù)據(jù)通過更多的模擬與物理試驗來確??煽啃浴?/p>
近年來大數(shù)據(jù)和機器學習取得了長足的發(fā)展,但是在應(yīng)用這些方法時應(yīng)當注意到武器試驗數(shù)據(jù)的特殊性。數(shù)據(jù)的來源包括飛行試驗、地面試驗等物理試驗數(shù)據(jù)也包括計算機仿真數(shù)據(jù)。然而這與傳統(tǒng)意義上的大數(shù)據(jù)還是有區(qū)別的,在整個武器研發(fā)期間所擁有的數(shù)據(jù)量相比某些互聯(lián)網(wǎng)公司電子商務(wù)一天的數(shù)據(jù)量都少得多,因此不能照搬商業(yè)大數(shù)據(jù)與機器學習的方法,而是應(yīng)該選用適合數(shù)據(jù)量小但數(shù)據(jù)質(zhì)量很高的擬合學習算法,例如極限學習機方法。
極限學習機(Extreme Learning Machine,ELM)是黃廣斌等[7]提出的一種在單隱層前饋神經(jīng)網(wǎng)絡(luò)(Single-hidden Layer Feed Forward Networks,SLFNs)的基礎(chǔ)上發(fā)展起來的學習算法,具有學習速度快、泛化能力強等優(yōu)點,目前已經(jīng)在許多領(lǐng)域取得了廣泛的應(yīng)用[8,9]。相比較文獻[6]中提到的深度學習與自編碼神經(jīng)網(wǎng)絡(luò)而言,這種方法更加簡單,也更加適用于武器的體系效能評估這類訓練數(shù)據(jù)規(guī)模較小的問題。
式中 yj為神經(jīng)網(wǎng)絡(luò)的輸出預測值;g ( w, x, b )為激發(fā)函數(shù); wi和 bi分別為輸入層與隱含層的權(quán)值系數(shù)與偏移量; βi為隱含層與輸出層權(quán)值系數(shù)。如果寫成矩陣形式,則表示成:
其中:
T 為訓練集數(shù)據(jù)矩陣,即測試數(shù)據(jù)it 的向量形式,只要使得|| ||?T Y 盡可能接近0,即可以利用這個經(jīng)過訓練的神經(jīng)網(wǎng)絡(luò)模型來替代未知的黑箱系統(tǒng)。
在前人的基礎(chǔ)上,黃廣斌等提出了兩個定理。根據(jù)定理可知,若隱含層神經(jīng)元個數(shù)與訓練集樣本個數(shù)相等,則對于任意的 wi和 bi,SLFNs 都可以零誤差逼近訓練樣本。且當激發(fā)函數(shù) g ( w, x, b )無限可微時,SLFNs 的參數(shù)并不需要全部進行調(diào)整, wi和 bi在訓練前可以隨機選擇,且在訓練過程中保持不變。而隱含層和輸出層的連接權(quán)值可以通過求解以下方程組的最小二乘解獲得:
其解為
由于Η 是任意選取的,通過保證Η 滿秩,Η+為Η的偽逆:
為了保證式(3)~(5)中的 ( ΗTΗ )?1的這一項一定可逆并避免出現(xiàn)病態(tài)情況,需要對這一項進行正則化,式(3)、式(4)改寫為
由于 ΗTΗ 半正定且為實對稱矩陣,只要保證λ> 0,就能保證 ΗTΗ +λI 這一項一定非奇異。其中λ 的值可由文獻[10]中的方法進行確定。
然而在實際求解過程中如果輸入的訓練數(shù)據(jù)量維數(shù)比較大,直接進行求逆運算同樣會出現(xiàn)矩陣的維數(shù)超出了計算機內(nèi)存的限制問題,此時直接計算就會變得困難。此時可以采用矩陣奇異值分解(Singular Value Decomposition,SVD)解決這個問題。利用SVD 分解同樣可以避免矩陣奇異的問題,并且避免了高維矩陣相乘的運算。根據(jù):
則有:
其中:
其中, σi(i = 1,2, ???, r)為Η 的非零奇異值。此時式(4)可以寫成:
此時不再需要更多的復雜計算,直接利用SVD 分解方法得到2 個酉矩陣U 和V 并與訓練集數(shù)據(jù)矩陣相乘就可得到ELM 中的權(quán)值系數(shù)。
根據(jù)以上敘述,可以看出ELM 的優(yōu)勢在于參數(shù)設(shè)置非常簡單,不像其他神經(jīng)網(wǎng)絡(luò)那樣需要繁瑣的調(diào)參、迭代、循環(huán)訓練并最終收斂的過程,然而在訓練數(shù)據(jù)量很大時也有高維矩陣求逆的缺陷。SVD 法能夠在一定程度上改進這一缺陷,因此將其應(yīng)用在武器體系作戰(zhàn)效能評估建模上是可行的。
本文采用文獻[11]的方法搭建彈道導彈體系攻防對抗模型,進攻方的效能指標包括不同類型的誘餌數(shù)、彈頭個數(shù)、毀傷半徑、精度誤差等,防守方的效能指標包括目標發(fā)現(xiàn)概率、跟蹤概率、誘餌識別概率、攔截策略、單發(fā)導彈攔截概率等。
試驗由如下的幾步進行:
a)獲取數(shù)據(jù)。由于進行實際的彈道導彈攻防對抗試驗很困難,因此本文的數(shù)據(jù)均來自于仿真試驗,仿真試驗共進行了7000 組。
b)數(shù)據(jù)處理。初始數(shù)據(jù)雜亂無章,又有不同的量綱,因此需要把所有數(shù)據(jù)都進行歸一化。
c)建立ELM 模型??梢酝ㄟ^設(shè)置不同的數(shù)據(jù)節(jié)點數(shù)進行評估結(jié)果比較。
d)訓練ELM 模型。將b)中的數(shù)據(jù)輸入到模型中進行訓練。
e)測試ELM 模型。用訓練好的模型進行評估,與攻防仿真的結(jié)果進行比較。
假設(shè)根據(jù)試驗,得到20 個指標7000 組數(shù)據(jù)和對應(yīng)的效能評估值,為了方便進行數(shù)據(jù)學習,將所有指標進行編號并進行歸一化。選取125 組數(shù)據(jù)作為測試集,其余作為訓練集,得到的訓練結(jié)果如圖2 所示。表1 為不同隱含層節(jié)點數(shù)的學習效果。
圖2 不同隱含層節(jié)點數(shù)的測試結(jié)果 Fig.2 Test Results of Different Hidden Layer Nodes
續(xù)圖2
表1 不同隱含層節(jié)點數(shù)的學習效果 Tab.1 Learning Effect of Different Number of Hidden Layer Nodess
續(xù)表1
由圖2 和表1 可知,隨著節(jié)點數(shù)增加,收斂效果不斷提升。通過以上結(jié)果看出ELM 算法的優(yōu)越性,只要修改隱含層節(jié)點數(shù)目這一個唯一的參數(shù)就可以不斷提升擬合的精度。而隨著節(jié)點數(shù)的不斷增加也會出現(xiàn)“過擬合”的問題(見表1 中節(jié)點數(shù)1000~5000 變化時均方差的變化情況),同樣可以根據(jù)需要對隱含層節(jié)點數(shù)進行修改。
此時可以利用訓練好的評估模型對彈道導彈體系作戰(zhàn)的效能進行評估,某型彈道導彈的參數(shù)已知,利用評估模型對采用不同反導方案的目標進行效能評估值預測。假設(shè)其他參數(shù)不變,選取誘餌類型1、誘餌類型2 和彈頭數(shù)3 個值,分別在同一基準上增加5 次,每次增加對應(yīng)大致相同的載荷質(zhì)量,選用2000 個隱含節(jié)點的極限學習機進行效能評估值計算。利用學習模型進行效能提高方案選擇如圖3 所示。
圖3 利用學習模型進行效能提高方案選擇 Fig.3 Select the Improvement Program by Using Learning Model
由圖3 可知,增加彈頭數(shù)量能顯著提高效能評估值,增加同樣質(zhì)量的誘餌類型1 比誘餌2 的效能評估值提高效果明顯。利用數(shù)據(jù)驅(qū)動的模型得到這個結(jié)論只需要幾秒,而進行導彈攻防仿真需要數(shù)個小時,如果進行物理試驗的成本則更加難以估計??梢姡眠@種數(shù)據(jù)驅(qū)動模型可以更快、更簡便地進行體系作戰(zhàn)效能評估。
為有效解決體系作戰(zhàn)效能評估建模問題,本文提出了基于數(shù)據(jù)驅(qū)動的體系作戰(zhàn)效能評估建模思路,并利用極限學習機方法進行實踐,得到可以一定程度上代替繁瑣的模擬仿真和物理試驗的學習模型。試驗發(fā)現(xiàn),極限學習機方法可通過有限的樣本學習,利用非線性擬合能力將復雜的體系問題映射泛化到神經(jīng)網(wǎng)絡(luò)空間中,簡化了評估的復雜性,提高了評估的效率。后續(xù)工作將采集更多武器裝備試驗數(shù)據(jù)對模型進一步開展驗證;同時探究效能影響因素指標間的關(guān)系,利用各種數(shù)據(jù)方法對評價指標進行約簡。