李 威,盧盈齊,范成禮
(空軍工程大學(xué) 防空反導(dǎo)學(xué)院, 西安 710000)
空襲目標(biāo)識(shí)別作為防空作戰(zhàn)中目標(biāo)分析判斷的首要任務(wù)也是指控決策的關(guān)鍵環(huán)節(jié),能夠?yàn)閿r截決策中的目標(biāo)威脅判斷排序和目標(biāo)火力分配提供重要依據(jù)。因此,快速而又準(zhǔn)確地識(shí)別出空襲目標(biāo)的類(lèi)型對(duì)防空作戰(zhàn)指揮控制具有十分重要的意義。
目前,對(duì)于空襲目標(biāo)類(lèi)型的識(shí)別算法主要包括D-S證據(jù)推理[1-2]、貝葉斯網(wǎng)絡(luò)[3-4]、聚類(lèi)算法[5-6]、多屬性決策[7]、支持向量機(jī)(SVM)[8]和模糊神經(jīng)網(wǎng)絡(luò)[9]、BP神經(jīng)網(wǎng)絡(luò)[10]、概率神經(jīng)網(wǎng)絡(luò)(PNN)[11]等神經(jīng)網(wǎng)絡(luò)類(lèi)算法等。其中D-S證據(jù)推理存在高沖突證據(jù)組合和證據(jù)獨(dú)立性問(wèn)題;貝葉斯網(wǎng)絡(luò)在對(duì)飛行高度、速度和發(fā)現(xiàn)距離等連續(xù)性數(shù)據(jù)進(jìn)行離散化處理的過(guò)程中存在主觀性較強(qiáng)的問(wèn)題;神經(jīng)網(wǎng)絡(luò)模型對(duì)于樣本數(shù)據(jù)量要求較高,且普遍存在收斂速度較慢和容易過(guò)擬合的缺點(diǎn),而SVM雖然具有較強(qiáng)的泛化能力,但參數(shù)的調(diào)試以及核函數(shù)的選擇是一大難點(diǎn),不同核函數(shù)和參數(shù)的選擇對(duì)于識(shí)別結(jié)果差異較大。
隨機(jī)森林(Random Forest)屬于機(jī)器學(xué)習(xí)[12]中的有監(jiān)督學(xué)習(xí),是通過(guò)集成學(xué)習(xí)的思想將多個(gè)決策樹(shù)進(jìn)行集成的一種算法,在處理分類(lèi)問(wèn)題上具有準(zhǔn)確率高、泛化能力強(qiáng)和對(duì)于數(shù)據(jù)集要求低等優(yōu)點(diǎn),因此較為適合解決空襲目標(biāo)識(shí)別問(wèn)題。但由于戰(zhàn)場(chǎng)傳感器能夠獲得空襲目標(biāo)的飛行高度、飛行速度、發(fā)現(xiàn)距離、加速度、RCS、航線特征和電磁輻射等較多的識(shí)別特征因素,如果將全部特征代入模型容易影響目標(biāo)的識(shí)別性能模型,尤其是無(wú)用的特征會(huì)對(duì)識(shí)別過(guò)程造成干擾,進(jìn)而降低目標(biāo)識(shí)別的準(zhǔn)確率、穩(wěn)定性和識(shí)別速度,因此需要對(duì)特征進(jìn)行篩選,去除冗余特征,選擇對(duì)于識(shí)別模型更加重要的特征。但目前的識(shí)別方法往往依靠主觀經(jīng)驗(yàn)選擇特征,存在主觀性強(qiáng)、可解釋性差以及忽略了特征與模型的適應(yīng)性等缺點(diǎn)。
本文根據(jù)傳統(tǒng)經(jīng)驗(yàn)和歸納分析,提取了空襲目標(biāo)的飛行高度、飛行速度、發(fā)現(xiàn)距離、加速度、RCS、航線特征和電磁輻射等常見(jiàn)的因素作為識(shí)別特征,并在傳統(tǒng)隨機(jī)森林的基礎(chǔ)上進(jìn)一步充分挖掘數(shù)據(jù)中的信息,通過(guò)計(jì)算基尼指數(shù)變化量對(duì)特征進(jìn)行重要性評(píng)估和降維,提出了基于雙層隨機(jī)森林的空襲目標(biāo)識(shí)別算法,并通過(guò)仿真實(shí)驗(yàn)與傳統(tǒng)隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)模型和SVM進(jìn)行對(duì)比分析,證明了該算法在提高空襲目標(biāo)識(shí)別的速度和準(zhǔn)確率上的有效性。
隨機(jī)森林[13-14]是一種基于集成學(xué)習(xí)的組合分類(lèi)算法,首先采用Bootstrap重采樣的方式從樣本數(shù)據(jù)進(jìn)行有放回的抽樣,然后用抽取的樣本構(gòu)建決策樹(shù),在以決策樹(shù)為基學(xué)習(xí)器構(gòu)建Bagging集成學(xué)習(xí)的基礎(chǔ)上,進(jìn)一步在決策樹(shù)的訓(xùn)練過(guò)程中加入了隨機(jī)屬性選擇,最后通過(guò)投票得到最終的分類(lèi)和預(yù)測(cè)結(jié)果。其算法結(jié)構(gòu)如圖1所示。
圖1 隨機(jī)森林算法結(jié)構(gòu)
1) 決策樹(shù)的基本思想是構(gòu)造一個(gè)類(lèi)似流程圖的樹(shù)形結(jié)構(gòu),首先從根節(jié)點(diǎn)開(kāi)始通過(guò)基尼指數(shù)選擇最優(yōu)劃分屬性,在非葉子節(jié)點(diǎn)進(jìn)行屬性值的對(duì)比測(cè)試,然后根據(jù)測(cè)試結(jié)果確定相應(yīng)分支,最后在葉子節(jié)點(diǎn)得到類(lèi)別結(jié)果。決策樹(shù)的結(jié)構(gòu)如圖2所示。
圖2 決策樹(shù)結(jié)構(gòu)
2) Bootstrap的基本思想是在給定包含n個(gè)樣本的原數(shù)據(jù)集中,每次有放回地從原數(shù)據(jù)集中隨機(jī)抽取一個(gè)樣本,將其拷貝放入新的數(shù)據(jù)集,然后將該樣本放回原數(shù)據(jù)集中,此過(guò)程重復(fù)n次后,得到一個(gè)包含n個(gè)樣本的新數(shù)據(jù)集。
3) Bagging集成的基本策略是首先利用Bootstrap采樣隨機(jī)生成T個(gè)訓(xùn)練集,然后基于每個(gè)采樣集訓(xùn)練出一個(gè)對(duì)應(yīng)的基學(xué)習(xí)器,然后將測(cè)試集放入每個(gè)基學(xué)習(xí)器進(jìn)行測(cè)試分類(lèi),最后采取投票的算法將所有基學(xué)習(xí)器的結(jié)果進(jìn)行結(jié)合。
根據(jù)傳統(tǒng)經(jīng)驗(yàn),防空作戰(zhàn)面臨的空襲目標(biāo)一般分為5類(lèi)[15]:
第1類(lèi):戰(zhàn)術(shù)彈道導(dǎo)彈(TBM)。
第2類(lèi):大型目標(biāo)類(lèi),包括殲擊機(jī)、轟炸機(jī)和殲擊轟炸機(jī)等。
第3類(lèi):小型目標(biāo)類(lèi),包括空地導(dǎo)彈、反輻射導(dǎo)彈、巡航導(dǎo)彈和制導(dǎo)炸彈等。
第4類(lèi):武裝直升機(jī)。
第5類(lèi):誘餌。
防空作戰(zhàn)中對(duì)空襲目標(biāo)的識(shí)別特征有很多,文獻(xiàn)[3-4]提取了飛行高度、飛行速度、航線特征和發(fā)現(xiàn)距離作為識(shí)別特征;文獻(xiàn)[5-8]考慮飛行高度、飛行速度、航跡特征和電磁輻射作為識(shí)別特征;文獻(xiàn)[6]提取了飛行高度、飛行速度、發(fā)現(xiàn)距離、航跡特征、電磁輻射和雷達(dá)反射面積(RCS)作為識(shí)別特征;文獻(xiàn)[7]考慮飛行高度、飛行速度、航線特征、電磁輻射和雷達(dá)反射面積作為目標(biāo)識(shí)別的主要特征;文獻(xiàn)[9]提取了飛行速度、發(fā)現(xiàn)距離、飛行高度、航跡特征和電磁輻射作為識(shí)別主要特征;文獻(xiàn)[10-11]考慮飛行高度、飛行速度、加速度和雷達(dá)反射面積(RCS)作為目標(biāo)識(shí)別的主要特征。
通過(guò)歸納分析發(fā)現(xiàn),飛行高度、發(fā)現(xiàn)距離、飛行速度、加速度、雷達(dá)反射面積(RCS)、航線特征和電磁輻射是空襲目標(biāo)識(shí)別中考慮的主要特征,這些特征能夠充分反映目標(biāo)的典型特性,提高目標(biāo)識(shí)別精度,因此本文選取這7個(gè)特征作為空襲目標(biāo)識(shí)別的特征集。
2.3.1特征評(píng)估與優(yōu)選
隨機(jī)森林中對(duì)特征評(píng)估的基本思想為:通過(guò)判斷每個(gè)特征在隨機(jī)森林中的每棵決策樹(shù)生長(zhǎng)過(guò)程中所做貢獻(xiàn)的大小,然后比較特征之間貢獻(xiàn)的大小。而貢獻(xiàn)的計(jì)算方式采用每一個(gè)特征在森林中所有決策樹(shù)上的基尼指數(shù)[16]變化量總和來(lái)表示該特征所做的貢獻(xiàn)率,將特征貢獻(xiàn)率作為特征重要性評(píng)估的依據(jù)。
2.3.2數(shù)據(jù)降維與目標(biāo)識(shí)別
(1)
2.3.3識(shí)別結(jié)果評(píng)價(jià)
采用識(shí)別準(zhǔn)確率對(duì)隨機(jī)森林的識(shí)別結(jié)果進(jìn)行評(píng)價(jià),識(shí)別準(zhǔn)確率定義為:
(2)
式中:H(xj)為隨機(jī)森林在類(lèi)別j上的識(shí)別結(jié)果;yj為實(shí)際結(jié)果;m為測(cè)試目標(biāo)個(gè)數(shù);I為邏輯運(yùn)算,等式成立為1,否則為0。
從目標(biāo)威脅數(shù)據(jù)庫(kù)選取了30批空襲目標(biāo),采用留出法區(qū)分訓(xùn)練集和測(cè)試集,其中前20批目標(biāo)為訓(xùn)練數(shù)據(jù),后10批目標(biāo)為測(cè)試數(shù)據(jù)。受篇幅限制,僅顯示前10批和后10批目標(biāo)的空情數(shù)據(jù)如表1所示。
表1 空情數(shù)據(jù)
續(xù)表(表1)
由于航線特征和電磁輻射沒(méi)有具體的數(shù)值,因此需要對(duì)這兩類(lèi)數(shù)據(jù)進(jìn)行數(shù)值化預(yù)處理。
航跡特征中等高平直飛行數(shù)值化為1,爬升或俯沖數(shù)值化為2,下滑數(shù)值化為3,分岔數(shù)值化為4。電磁特征中有電磁輻射數(shù)值化為1,無(wú)電磁輻射數(shù)值化為0。
構(gòu)建第一層隨機(jī)森林,根據(jù)2.3.1的思想得到各特征的重要性的步驟為:
步驟1將表1中的訓(xùn)練數(shù)據(jù)放入規(guī)模為100棵決策樹(shù)的隨機(jī)森林進(jìn)行訓(xùn)練,得到訓(xùn)練好的隨機(jī)森林模型。
步驟2得到森林中每棵決策樹(shù)上每一節(jié)點(diǎn)的基尼指數(shù),其中節(jié)點(diǎn)m的基尼指數(shù)定義為:
(3)
式中:K為類(lèi)別集合;pmk為當(dāng)前節(jié)點(diǎn)m中第k類(lèi)樣本所占的比例。
步驟3計(jì)算每一特征的節(jié)點(diǎn)貢獻(xiàn)率,將特征j在節(jié)點(diǎn)m的貢獻(xiàn)率用節(jié)點(diǎn)m分支前后的基尼指數(shù)變化量來(lái)表示。
(4)
式中:GIl和GIr分別為分支后2個(gè)新節(jié)點(diǎn)的基尼指數(shù)。
步驟4計(jì)算每一特征的累計(jì)貢獻(xiàn)率,將特征j的累計(jì)貢獻(xiàn)率定義為:
(5)
式中:M為特征j在第i課決策樹(shù)中出現(xiàn)的節(jié)點(diǎn)集合。
步驟5計(jì)算每一特征的重要性,將特征j的重要性定義為:
(6)
式中:n為森林中決策樹(shù)的數(shù)量;C為識(shí)別特征集合。
最終得到7個(gè)識(shí)別特征的重要性程度分別為(2.759 3, 1.889 7, 2.284 9, 3.794 3, 3.348 8, 0.591 0, 0.617 0),對(duì)比情況如圖3所示。
圖3 特征重要性對(duì)比
從圖中可以看出,航跡特征和電磁特征的重要性明顯低于其他特征,說(shuō)明這2個(gè)特征在隨機(jī)森林的目標(biāo)識(shí)別模型中作用不大,因此舍去這2個(gè)特征及對(duì)應(yīng)的數(shù)據(jù),對(duì)訓(xùn)練和測(cè)試數(shù)據(jù)進(jìn)行降維處理。
根據(jù)隨機(jī)森林算法結(jié)構(gòu)思想,通過(guò)降維后的訓(xùn)練數(shù)據(jù)構(gòu)建第二層隨機(jī)森林對(duì)測(cè)試目標(biāo)進(jìn)行識(shí)別的步驟為:
步驟1利用Bootstrap法進(jìn)行降維后的樣本采樣,隨機(jī)生成100個(gè)采樣集。
步驟2利用每個(gè)采樣集生成對(duì)應(yīng)的決策樹(shù),將降維后的5個(gè)屬性作為每棵決策樹(shù)的分裂屬性集,每次分裂時(shí)選擇最優(yōu)的劃分屬性進(jìn)行分裂。
步驟3每棵樹(shù)都盡最大程度生長(zhǎng)而不進(jìn)行剪枝。
步驟4將測(cè)試集樣本分別放入100棵決策樹(shù)進(jìn)行測(cè)試并得到對(duì)應(yīng)的類(lèi)別結(jié)果。
步驟5對(duì)于100個(gè)分類(lèi)結(jié)果采用投票法得到測(cè)試樣本最終的所屬類(lèi)別。
在實(shí)驗(yàn)條件為:Intel(R) Core(TM) i5-10210U,1.60 GHz,四核,內(nèi)存16G,操作系統(tǒng)為Windows10,64位,仿真軟件為Matlab 2019a的實(shí)驗(yàn)環(huán)境中仿真得到最終識(shí)別結(jié)果為矩陣H(其中hij表示目標(biāo)i識(shí)別為類(lèi)別j的決策樹(shù)數(shù)量)
分析矩陣H可以看出,在100棵決策樹(shù)的隨機(jī)森林中,對(duì)于目標(biāo)1,有9棵決策樹(shù)的識(shí)別結(jié)果為類(lèi)型1,2棵決策樹(shù)的識(shí)別結(jié)果為類(lèi)型2,4棵決策樹(shù)的識(shí)別結(jié)果為類(lèi)型3,76棵決策樹(shù)的識(shí)別結(jié)果為類(lèi)型4,9棵決策樹(shù)的識(shí)別結(jié)果為類(lèi)型5,所以目標(biāo)1的最終識(shí)別結(jié)果為類(lèi)型4。
同理可得測(cè)試集的10批目標(biāo)識(shí)別結(jié)果分別為[4,1,5,3,2,3,1,5,2,4],即目標(biāo)1和目標(biāo)10為武裝直升機(jī),目標(biāo)2和目標(biāo)7為T(mén)BM,目標(biāo)3和目標(biāo)8為誘餌,目標(biāo)4和目標(biāo)6為小型目標(biāo),目標(biāo)5和目標(biāo)9為大型目標(biāo),識(shí)別結(jié)果與實(shí)際情況相符。
分別將本文中提出的雙層隨機(jī)森林和傳統(tǒng)隨機(jī)森林、文獻(xiàn)[8]的SVM算法以及文獻(xiàn)[11]的PNN神經(jīng)網(wǎng)絡(luò)分別用于表1數(shù)據(jù)集的目標(biāo)識(shí)別。
由于隨機(jī)森林模型無(wú)需對(duì)數(shù)據(jù)進(jìn)行歸一化處理,能夠簡(jiǎn)化識(shí)別流程并節(jié)約運(yùn)算資源。而PNN神經(jīng)網(wǎng)絡(luò)和SVM均需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理,因此對(duì)于訓(xùn)練和測(cè)試數(shù)據(jù),將歸一化公式定義為:
(7)
3.3.1特征降維方法對(duì)比
特征降維方法對(duì)于機(jī)器學(xué)習(xí)模型的識(shí)別性能和泛化能力具有一定的影響。為了對(duì)比基尼指數(shù)降維的有效性,將主成分分析、基尼指數(shù)降維和未降維的隨機(jī)森林模型進(jìn)行對(duì)比分析,對(duì)于指定的空襲目標(biāo)識(shí)別問(wèn)題,將每種方法分別重復(fù)實(shí)驗(yàn)50次,用式(8)
(8)
分別計(jì)算第k種降維方法得到隨機(jī)森林模型的識(shí)別正確率。主成分分析結(jié)果和實(shí)驗(yàn)對(duì)比結(jié)果分別如圖4和圖5所示。
由圖5可以得到,無(wú)特征降維方法的識(shí)別正確率為0.989,主成分分析的識(shí)別正確率為0.760。所提方法的識(shí)別正確率為0.999,僅在第94次實(shí)驗(yàn)時(shí)出現(xiàn)了識(shí)別正確率波動(dòng)的情況。由于主成分分析是將原始特征進(jìn)行線性組合得到新的成分,會(huì)損失較多的數(shù)據(jù)信息,而所提方法從隨機(jī)森林原理出發(fā),得到的特征與隨機(jī)森林模型的契合度更高。同時(shí)相比于傳統(tǒng)隨機(jī)森林,降維后的模型對(duì)于模型的識(shí)別穩(wěn)定性也有所提高。
圖4 主成分分析結(jié)果
圖5 特征降維方法對(duì)比
3.3.2目標(biāo)識(shí)別算法對(duì)比
為了驗(yàn)證所提方法的有效性,采用文獻(xiàn)[8]的SVM、文獻(xiàn)[11]的PNN神經(jīng)網(wǎng)絡(luò)進(jìn)行目標(biāo)識(shí)別,其中SVM中的超參數(shù)通過(guò)交叉驗(yàn)證方法得到,并從加載空情數(shù)據(jù)開(kāi)始記錄3種方法的識(shí)別時(shí)間,得到3種方法的識(shí)別結(jié)果和識(shí)別速度分別如圖6和表2所示。
圖6 識(shí)別結(jié)果對(duì)比
表2 識(shí)別速度對(duì)比
可以看出,PNN神經(jīng)網(wǎng)絡(luò)對(duì)于目標(biāo)7、目標(biāo)8和目標(biāo)10的識(shí)別結(jié)果與真實(shí)值不同,SVM對(duì)于目標(biāo)6和目標(biāo)8的識(shí)別結(jié)果與真實(shí)結(jié)果不同,而雙層隨機(jī)森林的識(shí)別結(jié)果與實(shí)際一致,說(shuō)明所提算法相比于其他的識(shí)別算法具有更好的識(shí)別性能。在識(shí)別速度方面,SVM由于需要進(jìn)行交叉驗(yàn)證尋找超參數(shù)因此識(shí)別的時(shí)間成本較高,難以滿足作戰(zhàn)實(shí)際。PNN神經(jīng)網(wǎng)絡(luò)和雙層隨機(jī)森林的識(shí)別時(shí)間都在0.1 s以下,滿足作戰(zhàn)實(shí)際的需求,但雙層隨機(jī)森林的所有時(shí)間要遠(yuǎn)小于PNN神經(jīng)網(wǎng)絡(luò),約為其的十分之一,在識(shí)別過(guò)程中隨著目標(biāo)規(guī)模的增大會(huì)具有更大的優(yōu)勢(shì)。因此,綜合對(duì)比發(fā)現(xiàn),雙層隨機(jī)森林在目標(biāo)類(lèi)型識(shí)別中表現(xiàn)優(yōu)秀,相比于PNN神經(jīng)網(wǎng)絡(luò)和SVM,雙層隨機(jī)森林不僅能保證快速、準(zhǔn)確地識(shí)別目標(biāo),并且在目標(biāo)數(shù)據(jù)處理上還省去了歸一化處理步驟,簡(jiǎn)化了流程,能夠在保證準(zhǔn)確率的同時(shí)具有較高的識(shí)別速度。
為了減少單次留出法造成的樣本數(shù)據(jù)集偶然性,驗(yàn)證模型的泛化能力,采用多次留出法構(gòu)建10個(gè)新的數(shù)據(jù)集作為實(shí)驗(yàn)樣本,其中將前20批目標(biāo)作為訓(xùn)練集,后10批目標(biāo)作為測(cè)試集,將每個(gè)數(shù)據(jù)集分別代入雙層隨機(jī)森林模型實(shí)驗(yàn)50次,實(shí)驗(yàn)結(jié)果如表3所示。
表3 不同樣本集的識(shí)別結(jié)果
由表3可以得到,在10個(gè)樣本集中,雙層隨機(jī)森林得到的平均識(shí)別準(zhǔn)確率均在90%以上,平均時(shí)間都在0.01 s以下,說(shuō)明識(shí)別模型在不同樣本集中都能夠保持較高的準(zhǔn)確率和識(shí)別速度,但在數(shù)據(jù)2和數(shù)據(jù)6中的準(zhǔn)確率低于其他樣本集,這可能是由于樣本的隨機(jī)性導(dǎo)致訓(xùn)練集不全面引起的。因此,可以認(rèn)為所提的目標(biāo)識(shí)別模型具有較強(qiáng)的泛化能力和魯棒性。
1) 相比于傳統(tǒng)隨機(jī)森林,所提算法通過(guò)計(jì)算基尼指數(shù)變化量對(duì)空襲目標(biāo)特征進(jìn)行重要性評(píng)估和數(shù)據(jù)降維,提高了目標(biāo)的識(shí)別準(zhǔn)確率和穩(wěn)定性,有效提高了隨機(jī)森林的目標(biāo)識(shí)別性能。
2) 相比于神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等其他目標(biāo)識(shí)別算法,所提算法具有更強(qiáng)的泛化能力,能夠在保證較高的識(shí)別準(zhǔn)確率的同時(shí)具有較高的識(shí)別速度。此外,所提算法不需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理,進(jìn)一步簡(jiǎn)化了識(shí)別流程。
3) 但在未來(lái)防空作戰(zhàn)中,受不確定和對(duì)抗性因素影響,空情數(shù)據(jù)可能是不完整的,傳感器獲得的數(shù)據(jù)也更加多樣,如何從多個(gè)特征選擇最合理的識(shí)別特征以及根據(jù)缺失的數(shù)據(jù)進(jìn)行準(zhǔn)確的目標(biāo)識(shí)別是下一步研究的重點(diǎn)。