夏曉雷,張通彤,周 通,姜湖海,吳 輝
(1.海軍裝備部,成都 610100;2.西南技術(shù)物理研究所,成都 610041)
導(dǎo)引頭是制導(dǎo)導(dǎo)彈的重要組成部分,作為核心分系統(tǒng)之一,在精確制導(dǎo)過程中完成對目標的探測、目標分類識別、目標跟蹤、干擾對抗等功能,為導(dǎo)彈武器系統(tǒng)實現(xiàn)目標的捕獲、跟蹤、精確打擊提供決策依據(jù)[1-7]。傳統(tǒng)的單一模式制導(dǎo)導(dǎo)引頭有電視導(dǎo)引頭、紅外導(dǎo)引頭、激光導(dǎo)引頭、雷達導(dǎo)引頭[8],復(fù)合制導(dǎo)則是根據(jù)各類單一制導(dǎo)模式按作戰(zhàn)需求組合而成兩種及以上的制導(dǎo)模式。在多模復(fù)合制導(dǎo)中,各探測器將實時對目標進行檢測,同時將跟蹤的目標信息傳輸?shù)骄C合控制系統(tǒng),此時綜合控制系統(tǒng)將會得到兩種及以上的目標狀態(tài)信息,通過對輸入的目標信息進行處理得到唯一的目標信息,其過程即是信息融合的過程[9-12]。
目前對多模信息融合處理,實現(xiàn)跟蹤模式?jīng)Q策主要采用的是根據(jù)各探測器對目標工作狀態(tài)為捕獲(含捕獲成功、捕獲異常)、跟蹤(含跟蹤穩(wěn)定、跟蹤不穩(wěn)定、跟蹤記憶、跟蹤丟失)的排列組合條件。流程決策目前使用流程分支設(shè)計方法,決策策略受人為思維限制,排列組合條件有限,且條件選擇受主觀因素影響太多,當(dāng)出現(xiàn)更多條件時可能會出現(xiàn)誤判的情況,同時也面臨著制導(dǎo)模式增多、作戰(zhàn)使用復(fù)雜的情景下代碼分支龐大和通用性差的缺陷,從軟件和硬件的層面都對設(shè)計帶來了不便。
作者針對目前算法的不足之處,提出利用隨機森林算法和誤差補償結(jié)合的方法對復(fù)合制導(dǎo)的跟蹤模式?jīng)Q策流程進行優(yōu)化的思路,將傳統(tǒng)的條件組合判讀流程用人工智能模型替代,依據(jù)外場試驗得到大量樣本數(shù)據(jù),用樣本基于隨機森林算法訓(xùn)練跟蹤模式?jīng)Q策模型,對于模型分類錯誤的樣本數(shù)據(jù),提取數(shù)據(jù)特征,采用人工判讀的方式進行誤差補償,使得提出的方法在保證決策正確率的前提下,簡化人工判讀流程代碼量,提升運行速度,同時在復(fù)雜條件下使決策策略更智能,適應(yīng)性更強。
作者基于典型的激光/雷達/紅外多模復(fù)合制導(dǎo)導(dǎo)引頭進行研究,目標的測量數(shù)據(jù)主要來源于紅外探測器、半主動激光探測器、主動毫米波探測器[13-14]。在實際應(yīng)用中根據(jù)彈上工作模式指令確定復(fù)合模式,包括:紅外/激光復(fù)合、雷達/激光復(fù)合、紅外/雷達復(fù)合、紅外/激光/雷達復(fù)合。在各復(fù)合模式中會根據(jù)彈目距離分時分段讓各探測器工作。具備激光引導(dǎo)條件時,會先使用激光源照射目標,當(dāng)導(dǎo)引頭接收到激光回波后,對目標進行捕獲,實現(xiàn)目標的遠距離導(dǎo)引,為雷達和紅外提供初始指向,在到達相應(yīng)的可探測距離便分時啟動雷達和紅外工作,快速對目標進行捕獲跟蹤。系統(tǒng)原理框圖如圖1所示。
Fig.1 Block diagram of seeker working principle
當(dāng)有兩?;蛉M瑫r工作時,各探測器會根據(jù)內(nèi)部算法解算出彈目相對運動的變化,以跟蹤偏差的形式上報綜合控制器,綜合控制器根據(jù)各探測器上報的目標偏差(包括偏航偏差和俯仰偏差)、置信度、穩(wěn)定性等目標信息綜合判斷探測器跟蹤目標信息可靠性,用可靠性高的探測器解算的跟蹤偏差完成伺服閉環(huán),實現(xiàn)對目標的穩(wěn)定跟蹤。復(fù)合制導(dǎo)簡化流程如圖2所示,其中DIR是紅外開啟工作彈目距離。影響控制器閉環(huán)決策的主要因素包括:彈目距離、各子系統(tǒng)跟蹤目標偏差、置信度。利用這些信息,綜合控制器便可以判斷哪個探測器對目標跟蹤更穩(wěn)定,以便做出伺服決策,同時上報制導(dǎo)信息。
Fig.2 Simplified flow chart of compound guidance
在制導(dǎo)武器作戰(zhàn)過程中,導(dǎo)引頭探測器探測到目標的跟蹤偏差等信息輸入到綜合控制系統(tǒng),綜合控制器系統(tǒng)用探測器測得的偏差信息進行閉環(huán),并驅(qū)動電機,控制導(dǎo)引頭始終指向目標的方向。在復(fù)合制導(dǎo)導(dǎo)引頭中,由于存在多個探測器探測到的目標信息,跟蹤模式?jīng)Q策就是綜合控制系統(tǒng)根據(jù)輸入的不同探測器跟蹤目標信息經(jīng)過內(nèi)部的判定條件輸出唯一更可靠的目標信息。跟蹤模式是最終的閉環(huán)模式,即輸出的唯一目標信息來自于哪種探測器便是哪種跟蹤模式,例如,若是決策出紅外探測器跟蹤信息更可靠,便是紅外跟蹤模式,紅外探測器測得的目標偏差信息將用于完成導(dǎo)引頭穩(wěn)定平臺伺服閉環(huán),對目標進行穩(wěn)定跟蹤,實現(xiàn)對目標的精確打擊,提高目標的命中概率。
作者提出基于隨機森林算法對跟蹤模式?jīng)Q策流程進行優(yōu)化,用探測器、慣導(dǎo)測得的目標信息對跟蹤模式?jīng)Q策過程建模,得到跟蹤模式?jīng)Q策器,當(dāng)有新的目標信息輸入時,該決策器自動判別出跟蹤模式,綜合控制系統(tǒng)將會用此模式進行閉環(huán)。實現(xiàn)步驟如圖3所示。
Fig.3 The modeling process of tracking mode classifier
(1)數(shù)據(jù)預(yù)處理??捎脭?shù)據(jù)包括各探測器跟蹤的目標信息、慣導(dǎo)測得目標信息,通過對數(shù)據(jù)相關(guān)預(yù)處理操作得到包含屬性和目標變量的樣本數(shù)據(jù)集;(2)模型構(gòu)建:將樣本數(shù)據(jù)集劃分為訓(xùn)練集和測試集,基于隨機森林算法,用訓(xùn)練集訓(xùn)練模型,得到跟蹤模式?jīng)Q策模型;(3)模型評估:將測試集輸入決策模型,采用分類模型評價指標,對模型的分類準確率進行評估。
隨機森林是一種利用集成學(xué)習(xí)思想的機器學(xué)習(xí)算法,主要用于分類和回歸任務(wù)場景,它由多個決策樹組成,各個決策樹的決策過程及結(jié)果相互獨立,并由融合策略輸出最終預(yù)測結(jié)果。集成學(xué)習(xí)是通過構(gòu)建并結(jié)合多個學(xué)習(xí)器來完成學(xué)習(xí)任務(wù),其思想是先產(chǎn)生一組“個體學(xué)習(xí)器”,再用某種策略將它們結(jié)合起來。隨機森林的“個體學(xué)習(xí)器”即是決策樹,決策樹是一種常用的樹結(jié)構(gòu)機器學(xué)習(xí)方法,決策樹的決策結(jié)果經(jīng)某種策略融合后輸出的最終預(yù)測結(jié)果即是隨機森林的決策結(jié)果[15-20]。使用隨機森林對樣本大小為V的訓(xùn)練集建立模型,包括3個步驟:(1)設(shè)定決策樹模型的個數(shù)N,利用bootstrap方法從訓(xùn)練集隨機有放回抽樣,得到N個大小為V的訓(xùn)練集;(2)利用決策樹訓(xùn)練步驟(1)的訓(xùn)練集,得到T個決策樹模型,該步驟包括3個重要參量,即決策樹使用特征的最大數(shù)量、決策樹的最大深度、決策樹內(nèi)部節(jié)點被劃分時所需最小樣本數(shù);(3)根據(jù)具體的融合策略組合所有決策樹的輸出,得到最終預(yù)測結(jié)果。
以上步驟中涉及的參量根據(jù)交叉驗證方法調(diào)優(yōu)設(shè)置。
本文中基于隨機森林對導(dǎo)引頭跟蹤模式?jīng)Q策的流程如圖4所示。
Fig.4 Decision flow of optimization strategy
通過對系統(tǒng)輸入的bootstrap采樣構(gòu)造不同分布的訓(xùn)練集,進而建立N個基決策器(N≥1),每個基決策器能獨立執(zhí)行跟蹤模式的判別,最后通過決策融合形成終決策器,輸出跟蹤模式。
基決策器采用決策樹算法實現(xiàn),其對跟蹤模式的判別可表示為:f(X)→Y,Y的取值為{1,2,3},分別代表激光、雷達、紅外(infrared,IR)3種跟蹤模式,X是一個n維向量,表示系統(tǒng)輸入。圖5為某個基決策器的執(zhí)行流程。
Fig.5 Execution path of base decision maker
圖中,xn代表X的某一個維度輸入。每個基決策器由若干條(不小于1)決策路徑構(gòu)成,1條決策路徑由若干(不小于1)決策節(jié)點和決策結(jié)果構(gòu)成,圖5中的基決策器包含4條決策路徑,例如:[x1,x3,x4,x7,IR]為1條決策路徑。決策路徑是有執(zhí)行順序的,兩條決策路徑要相同當(dāng)且僅當(dāng)它們的決策節(jié)點、決策結(jié)果、執(zhí)行順序完全相同。同理,兩個基決策器相同當(dāng)且僅當(dāng)它們所有決策路徑相同。
決策融合的本質(zhì)是對N個基決策器的輸出結(jié)果進行整合,得到最終的隨機森林決策器,基于3個原因:(1)不同基決策器的質(zhì)量是不相同的,質(zhì)量越高的決策器,在不同場景下對跟蹤模式的決策輸出越穩(wěn)定;(2)每個決策器有它最擅長的工作場景;(3)實驗證明融合后的決策器相比單棵決策樹分類器有更加穩(wěn)定可靠的決策結(jié)果。采用對基決策器加權(quán)融合的思想,權(quán)重越大的基決策器,最終決策的話語權(quán)越高。設(shè)Wi和f(X)i分別為第i個基決策器的權(quán)重及決策輸出,F(xiàn)(X)為最終跟蹤模式輸出,則:
(1)
評價指標用來衡量決策器質(zhì)量的好壞,同時也是實驗結(jié)果的主要參考。選取真實的導(dǎo)引頭工作數(shù)據(jù)作為驗證數(shù)據(jù),其中X由10個量組成,分別是:激光方位跟蹤偏差Lx、激光俯仰跟蹤偏差Ly、激光跟蹤目標置信度Lp、雷達方位跟蹤偏差Rx、雷達俯仰跟蹤偏差Ry、雷達跟蹤目標置信度Rp、紅外方位跟蹤偏差I(lǐng)x、紅外俯仰跟蹤偏差I(lǐng)y、紅外跟蹤目標置信度Ip、彈目距離D。表1中為N條驗證數(shù)據(jù)。
Table 1 Data set of input and output
決策器可以輸出3種模式:紅外、激光、雷達。以下以激光模式的決策為例,演示決策器在該模式下如何評價。
設(shè)X為輸入數(shù)據(jù),Y為決策器的輸出(即模式的選擇),將Y的取值合并為兩種{激光和非激光(指紅外和雷達)},同理將用于驗證的模式取值也合并為兩種。驗證值和決策值的不同組合構(gòu)成見表2。
Table 2 Validation value and decision value
表2中,TP(true positive)為正確分類的正例,F(xiàn)P(false positive)為錯誤分類的正例,TN(traue negative)為正確分類的負例,FN(false negative)為錯誤分類的負例,它們分別表示每條輸入數(shù)據(jù)對應(yīng)的驗證結(jié)果的取值范圍。例如TP表示決策器輸出激光模式,驗證值也是激光模式,這是一次正確的決策;同理,TN也表示決策正確,相反,F(xiàn)P和FN表示決策錯誤。
采用3個指標評價決策器質(zhì)量,分別為:
(2)
(3)
(4)
式中,P為查準率,R為查全率,F(xiàn)為決策器在當(dāng)前跟蹤模式上關(guān)于查準率和查全率的綜合表現(xiàn)。
用同樣的方法求得決策器分別在紅外、雷達模式下的綜合表現(xiàn),求出決策器在{紅外、激光、雷達}3種模式下的綜合評價指標為:
(5)
式中,|MY|表示N條驗證數(shù)據(jù)中模式Y(jié)出現(xiàn)的次數(shù),Y取值{1,2,3},F(xiàn)Y表示Y模式下F評估指標。E越大,則決策器的綜合性能越好。
基于傳統(tǒng)流程是類樹的條件判讀過程,在仿真分析中,分別采用決策樹和隨機森林算法對傳統(tǒng)決策過程建模,得到跟蹤模式?jīng)Q策器,其仿真結(jié)果如表3和表4所示。
Table 3 The simulaton result based on random forest
Table 4 The simulaton result based on decision tree
由表3、表4中的實驗數(shù)據(jù)可知,基于隨機森林對傳統(tǒng)決策過程建模,精度達到0.99805,基于單決策樹建模,精度為0.97851,具有極高的精度和穩(wěn)定性。由仿真結(jié)果對比可知,對于多模跟蹤模式?jīng)Q策而言,隨機森林算法模型分類準確率優(yōu)于決策樹算法模型。
模型穩(wěn)定性是衡量模型在不同場景下適應(yīng)性強弱的重要指標,采用不同采樣方法制備多個驗證數(shù)據(jù)集,使它們的數(shù)據(jù)量大小和分布均不相同,分別采用決策樹和隨機森林算法對傳統(tǒng)決策過程建模,得到的決策器評價指標E的曲線對比圖,如圖6所示。
Fig.6 Comparison of evaluation indicators of two models with different sample sizes
由圖可知,采用隨機森林算法決策在多數(shù)場景下比單決策樹算法的性能高(6種場景下,有5種高于決策樹),該結(jié)果表明,隨機森林算法在復(fù)雜的應(yīng)用場景下輸出的決策結(jié)果更可靠,適應(yīng)性更強。
由模型精度和穩(wěn)定性對比結(jié)果可知,盡管采用隨機森林建模精度達0.99805,無限逼近于1(理想情況是用隨機森林算法構(gòu)建的決策模型能夠完全復(fù)刻傳統(tǒng)流程的判斷結(jié)果),但依然存在決策誤判的情況,抽取其中1200條驗證樣本數(shù)據(jù)進行分析,得到隨機森林決策器跟蹤模式?jīng)Q策結(jié)果分布圖,如圖7所示。
Fig.7 Distribution of decision results about tracking mode without error compensation
由圖可知,用隨機森林方法得到的跟蹤模式誤判的情況為1200例數(shù)據(jù)中錯誤6例,其中,紅外錯誤2例,激光錯誤2例,雷達錯誤2例。
針對模型存在誤判的情況,提取判別錯誤的樣本數(shù)據(jù),采用異常檢測、相關(guān)性分析等手段進一步分析,提取出決策器的誤判路徑,并采用條件判讀的方式進行誤差補償,得到隨機森林結(jié)合誤差補償?shù)母櫮J經(jīng)Q策結(jié)果,如圖8所示。
Fig.8 Distribution of decision results about tracking mode with error compensation
由圖可知,用隨機森林結(jié)合誤差補償?shù)姆椒▽Ω櫮J降淖R別正確率達到100%。
在保證本文中提出的方法對跟蹤模式分類的正確率的前提下,對本文中的方法和傳統(tǒng)的方法在模式?jīng)Q策上的耗時進行了對比,結(jié)果如圖9所示。由圖可知,本文中方法的決策速度提升約為16%。
Fig.9 Comparison chart of decision time-comsuming
對傳統(tǒng)方法和本文中方法的實現(xiàn)代碼量(決策流程的邏輯)進行了對比,其結(jié)果如圖10所示。
由圖可知,在應(yīng)用程序代碼實現(xiàn)過程中,本文中方法150行便實現(xiàn)跟蹤模式?jīng)Q策,替換原上千行的流程判讀代碼,大大簡化代碼量。
Fig.10 The comparion chart of code size of decision process
基于隨機森林算法對跟蹤模式?jīng)Q策過程建模并結(jié)合誤差補償?shù)姆椒?,保證了決策準確率的前提下,對傳統(tǒng)的條件判讀決策流程進行優(yōu)化,實現(xiàn)了跟蹤模式的自主決策。首先,基于傳統(tǒng)判讀流程的特點,隨機森林模型和決策樹模型都可適用,隨機森林采用訓(xùn)練多棵決策樹的模式,使分類錯誤的樣本在下一次訓(xùn)練中得到更多關(guān)注,通過加權(quán)組合的方式訓(xùn)練決策模型,提高決策的準確率,使決策準確率無限接近1,再用誤差補償?shù)姆绞叫拚e誤率;其次,隨機森林網(wǎng)絡(luò)模型對傳統(tǒng)流程進行封裝,輸入探測器樣本數(shù)據(jù)后自動決策出跟蹤模式,簡化代碼分支量,提升運行速度,封裝后的代碼量僅是傳統(tǒng)流程代碼量的1/3,跟蹤模式的決策速度相比傳統(tǒng)流程提升16%;除此之外,在面臨更復(fù)雜的場景時,無需增加代碼量,只需提供更多訓(xùn)練數(shù)據(jù),更新決策模型,便能夠準確地預(yù)測復(fù)雜邏輯下探測器的跟蹤有效性,減小漏判和誤判的概率,提高系統(tǒng)復(fù)雜邏輯的容錯性。