郭力強(qiáng),馬 亮,張 會(huì),楊 靜
(海軍潛艇學(xué)院,山東 青島,266199)
以無(wú)人水下航行器(unmanned undersea vehicle,UUV)為代表的水下無(wú)人裝備是未來海軍裝備體系中的重要組成部分,將對(duì)傳統(tǒng)水下攻防作戰(zhàn)模式帶來巨大變革。軍用方面,自主水下航行器 (autonomous undersea vehicle,AUV)可在己方兵力指揮控制或自主決策下,從預(yù)置武器發(fā)射艙上發(fā)射武器,對(duì)航道、港口和基地的敵方水面戰(zhàn)斗艦艇、潛艇、軍輔船等目標(biāo)進(jìn)行監(jiān)視、跟蹤和攻擊[1]。典型代表有美國(guó)海軍水下作戰(zhàn)中心(Naval Undersea Warfare Center,NUWC)研制的“MANTA”大 型UUV 和俄羅斯北方機(jī)械制造廠研制的“波塞冬”超大型核動(dòng)力UUV[2]。
有效陣位決策是指為保證魚雷攻擊效果,發(fā)射平臺(tái)根據(jù)當(dāng)前態(tài)勢(shì)下目標(biāo)弦角和射擊距離等陣位參數(shù),分析判斷滿足某一命中概率指標(biāo)的陣位范圍[3]。與潛艇、水面艦艇和飛機(jī)等有人平臺(tái)相比,AUV 無(wú)指揮員參與,其有效陣位決策對(duì)裝備的自主決策速度和武器攻擊效果提出了更高需求[4]。
傳統(tǒng)有效陣位決策主要通過模擬法[5-8],預(yù)估不同射擊陣位上的魚雷命中概率擬合成等概率射擊圓,以此作為判斷依據(jù)。然而,模擬法事先假定目標(biāo)以等速直線機(jī)動(dòng),忽略了實(shí)際作戰(zhàn)中目標(biāo)運(yùn)動(dòng)要素測(cè)算誤差和可能采取的機(jī)動(dòng)規(guī)避防御方式,從而影響攻擊效果。在聲自導(dǎo)魚雷對(duì)水面艦艇攻擊問題的研究上,國(guó)內(nèi)專家以聲自導(dǎo)發(fā)現(xiàn)概率為優(yōu)化目標(biāo),利用計(jì)算機(jī)仿真,提出了成熟的理論和方法[9-12]。但作戰(zhàn)仿真受計(jì)算精度和算力的制約,難以滿足AUV 短時(shí)間精準(zhǔn)決策的雙重需求。
機(jī)器學(xué)習(xí)[13]的發(fā)展為AUV 自主攻擊決策技術(shù)的研究提供了新的思路,其基本思想是使用計(jì)算機(jī)實(shí)現(xiàn)算法,使得計(jì)算機(jī)能夠?qū)W習(xí)數(shù)據(jù)、獲得經(jīng)驗(yàn),并實(shí)現(xiàn)預(yù)測(cè)或得出結(jié)果。從機(jī)器學(xué)習(xí)的角度來看,有效陣位決策的本質(zhì)是一種正負(fù)樣本不平衡的二分類問題。近年來,以極限梯度提升樹(extreme gradient boosting,XGB)為代表的集成學(xué)習(xí)算法[13-14],憑借在處理不平衡數(shù)據(jù)和特征提取中的出色性能,已經(jīng)在醫(yī)療診斷[15-16]和故障檢測(cè)[17]等重要領(lǐng)域的決策問題上得到應(yīng)用,美國(guó)國(guó)防部在最新版《2017~2042 美國(guó)無(wú)人系統(tǒng)綜合路線圖》[18]中也將人工智能和機(jī)器學(xué)習(xí)作為提高無(wú)人系統(tǒng)自主性的首要支撐因素。因此,文中針對(duì)AUV 對(duì)魚雷攻擊效果和自主決策速度的更高要求,提出將作戰(zhàn)仿真與集成學(xué)習(xí)相結(jié)合的自主決策方法,建立AUV發(fā)射聲自導(dǎo)魚雷攻擊水面艦艇有效陣位決策模型,并對(duì)該模型的可行性和適用性進(jìn)行分析和驗(yàn)證。
聲自導(dǎo)魚雷對(duì)水面艦艇的攻擊過程[9]一般分為2 個(gè)階段:一是聲自導(dǎo)裝置發(fā)現(xiàn)目標(biāo)前為方向儀操縱的直航搜索段;二是發(fā)現(xiàn)目標(biāo)后由聲自導(dǎo)裝置指令控制的聲自導(dǎo)追蹤段。在不考慮目標(biāo)聲磁干擾、反魚雷武器殺傷等防御措施的前提下,聲自導(dǎo)魚雷能否命中目標(biāo)關(guān)鍵在于聲自導(dǎo)裝置能否發(fā)現(xiàn)目標(biāo),其射擊參數(shù)通常是由AUV 指控系統(tǒng)根據(jù)有利提前角原則[3]進(jìn)行計(jì)算得到的。假設(shè)聲自導(dǎo)裝置的有效作用范圍為一個(gè)扇面,可將扇面遮蓋中心系數(shù)以常數(shù)k來表示近似求解提前角 φ。
如圖1 所示,Vm為水面艦艇航速,Vw為聲自導(dǎo)魚雷航速,m為艦艇速度與魚雷速度之比,D為魚雷射擊距離,Qm為攻擊目標(biāo)弦角,設(shè)定聲自導(dǎo)作用距離r=kr0,則應(yīng)滿足聲自導(dǎo)扇面前沿中點(diǎn)a與目標(biāo)構(gòu)成相遇條件,即?aMC為相遇三角形,φ0為直航魚雷的基本提前角,則
圖1 可調(diào)節(jié)系數(shù)的提前角計(jì)算示意圖Fig.1 Diagram of lead angle calculation by adjusted coefficient method
利用式(1),即可根據(jù)目標(biāo)運(yùn)動(dòng)規(guī)律、相對(duì)態(tài)勢(shì)以及魚雷的聲自導(dǎo)性能,近似計(jì)算提前角 φ和魚雷航向Hw。
在不使用反魚雷武器的情況下,機(jī)動(dòng)規(guī)避是水面艦艇對(duì)魚雷防御的基礎(chǔ)和前提。在收到魚雷報(bào)警后,為了盡可能遠(yuǎn)離聲自導(dǎo)魚雷自導(dǎo)作用區(qū)域,使最小安全規(guī)避預(yù)警距離[19]最大,可采取全速轉(zhuǎn)向至距離來襲魚雷最小距離最大航向的動(dòng)態(tài)規(guī)避策略[20]。如圖2 所示,以水面艦艇轉(zhuǎn)向點(diǎn)為起點(diǎn)作魚雷航速Vw反向量QO,以O(shè)點(diǎn)為圓心,以水面艦艇速度Vm大小為半徑作圓周,則過Q點(diǎn)作水面艦艇速度圓的走出方向一側(cè)的切線,對(duì)應(yīng)的方向OS即為最小距離走出航向。通過仿真水面艦艇機(jī)動(dòng)規(guī)避魚雷過程,遍歷規(guī)避航向的方法,計(jì)算水面艦艇機(jī)動(dòng)規(guī)避過程中取得最小距離最大值對(duì)應(yīng)的航向即為最優(yōu)規(guī)避航向optHm。
圖2 水面艦艇規(guī)避航向優(yōu)化計(jì)算示意圖Fig.2 Diagram of optimization calculation for surface ship evasive course
由于實(shí)際作戰(zhàn)中測(cè)算的目標(biāo)運(yùn)動(dòng)要素存在誤差,可應(yīng)用蒙特卡洛法統(tǒng)計(jì)計(jì)算發(fā)現(xiàn)概率[3],即聲自導(dǎo)魚雷發(fā)現(xiàn)目標(biāo)概率P為:在一定目標(biāo)散布條件下,發(fā)現(xiàn)目標(biāo)次數(shù)M與總攻擊次數(shù)N之比。設(shè)仿真起點(diǎn)為聲自導(dǎo)魚雷發(fā)射時(shí)刻,定義k系數(shù)的取值范圍為[0,kr],水面艦艇規(guī)避航向遍歷范圍為[0,Hr],目標(biāo)運(yùn)動(dòng)要素誤差服從高斯正態(tài)分布,計(jì)算目標(biāo)散布和機(jī)動(dòng)規(guī)避條件下聲自導(dǎo)魚雷攻擊水面艦艇的最大發(fā)現(xiàn)概率Pmax。Pmax計(jì)算流程如圖3 所示,具體方法與步驟如下。
圖3 發(fā)現(xiàn)概率優(yōu)化計(jì)算模型流程圖Fig.3 Flow chart of detective probability optimization calculation model
1) 輸入仿真計(jì)算的初始條件。水面艦艇初始相對(duì)方位橫坐標(biāo)為x0,縱坐標(biāo)為y0,初始航速為Vm0,加速后航速為Vm1,初始航向?yàn)镠m0,轉(zhuǎn)向半徑為R,轉(zhuǎn)向角速度為θ,聲吶預(yù)警距離為dship,探測(cè)扇面角為2λship;魚雷航速為Vw,有效航程為L(zhǎng),射擊距離為D,攻擊目標(biāo)舷角為Qm,聲自導(dǎo)作用距離為dtorp,聲自導(dǎo)扇面開角為2λtorp;目標(biāo)位置誤差系數(shù)為 σxy,目標(biāo)航速誤差系數(shù)為σVm,目標(biāo)方位誤差系數(shù)為σHm,作戰(zhàn)仿真總次數(shù)為Nr,仿真步長(zhǎng)為 ?T,仿真步數(shù)n=L?T/Vw。
2) 設(shè)定k系數(shù)取值范圍[0,kr],按照式(1)計(jì)算對(duì)應(yīng)的提前角 φ和魚雷航向Hw。
3) 按照時(shí)間步進(jìn)的方式仿真水面艦艇規(guī)避魚雷機(jī)動(dòng)過程,計(jì)算聲自導(dǎo)魚雷與水面艦艇之間的實(shí)時(shí)距離Dt和魚雷實(shí)時(shí)弦角Qw。實(shí)時(shí)判定Dt與dship的關(guān)系,當(dāng)Dt≤dship時(shí),水面艦艇加速至Vm1,并以航向Hm開始機(jī)動(dòng)規(guī)避。
4) 設(shè)定水面艦艇規(guī)避航向遍歷范圍[0,Hr],計(jì)算不同規(guī)避航向下水面艦艇距來襲魚雷的最小距離Dmin最大值,得到最優(yōu)規(guī)避航向optHm。
5) 仿真目標(biāo)散布條件下聲自導(dǎo)魚雷攻擊水面艦艇過程,設(shè)定目標(biāo)散布范圍,實(shí)時(shí)判定Dt與dtorp、Qw與λtorp之間的關(guān)系。若在魚雷有效航程L可達(dá)的前提下,計(jì)算結(jié)果同時(shí)滿足Dt≤dtorp和Qw≤λtorp,則判定魚雷聲自導(dǎo)裝置發(fā)現(xiàn)水面艦艇;若魚雷有效航程L結(jié)束仍不滿足發(fā)現(xiàn)條件,則判定聲自導(dǎo)魚雷未發(fā)現(xiàn)水面艦艇。
6) 在1 次作戰(zhàn)仿真過程中,若判定聲自導(dǎo)魚雷發(fā)現(xiàn)水面艦艇,則M自增1,否則自增0。作戰(zhàn)仿真循環(huán)Nr次后,統(tǒng)計(jì)計(jì)算聲自導(dǎo)魚雷攻擊水面艦艇的最高發(fā)現(xiàn)概率Pmax。
實(shí)驗(yàn)在Windows 環(huán)境下進(jìn)行,使用MATLAB R2021b,JupyterLab 3.10 IDE 和Python 3 Kernel。硬件配置為AMD Ryzen 5-5600H 處理器,主頻3.30 GHz,內(nèi)存16 GB。
將仿真戰(zhàn)場(chǎng)態(tài)勢(shì)參數(shù)輸入上述模型,生成基礎(chǔ)實(shí)驗(yàn)數(shù)據(jù)集。通過設(shè)置聲自導(dǎo)魚雷發(fā)現(xiàn)概率判斷閾值,將超過閾值條件的陣位作為有效陣位[3],進(jìn)而將AUV 有效陣位決策問題轉(zhuǎn)換為二元分類問題。
有效陣位判斷閾值由指揮員根據(jù)具體作戰(zhàn)任務(wù)進(jìn)行設(shè)置。如任務(wù)的首要前提是保證攻擊效果,則閾值應(yīng)提高到80%甚至更高;若態(tài)勢(shì)判定AUV 可能已經(jīng)暴露,則閾值僅為60%左右也應(yīng)進(jìn)行攻擊,以優(yōu)先保證生存。文中實(shí)驗(yàn)初始設(shè)置閾值為70%。將基礎(chǔ)實(shí)驗(yàn)數(shù)據(jù)集標(biāo)簽進(jìn)行二值化處理,特征矩陣進(jìn)行標(biāo)準(zhǔn)化和方差過濾后,形成分類實(shí)驗(yàn)數(shù)據(jù)集的具體信息如表1 所示,可見樣本數(shù)據(jù)具有明顯的不均衡特點(diǎn)。
表1 分類實(shí)驗(yàn)數(shù)據(jù)集信息Table 1 Information of categorized experimental data sets
在不均衡數(shù)據(jù)的分類中,僅適用單一的準(zhǔn)確率(accuracy)和召回率(recall)指標(biāo)是不全面的。因此,加入曲線下面積(area under the curve,AUC)來共同評(píng)價(jià)模型的性能。AUC 綜合考慮少數(shù)類和多數(shù)類分類的準(zhǔn)確性,表2 的混淆矩陣可以直觀地表示出各種分類情況。
表2 混淆矩陣Table 2 Confusion matrix
AUC 是接收者操作特性曲線(receiver operating characteristic curve,ROC)下的面積,取值為0~1[21]。精確率(precision)、召回率(recall)、F1 值和AUC 等指標(biāo)的計(jì)算公式如下:
式中:NP為正類樣本(少數(shù)類)總數(shù);NN為負(fù)類樣本(多數(shù)類)總數(shù);i為正類樣本;ranki為正類樣本的置信度排序??紤]到水下作戰(zhàn)以保證隱蔽性為前提,選擇AUC作為模型決策性能的評(píng)價(jià)指標(biāo)。
為檢驗(yàn)集成算法在處理不平衡分類問題的優(yōu)勢(shì),使用傳統(tǒng)的強(qiáng)分類器支持向量機(jī)(support vector machine,SVM)與隨機(jī)森林(random forest,RF)和XGB 2 種典型集成學(xué)習(xí)算法進(jìn)行比較,具體建模流程如圖4 所示。
圖4 有效陣位決策模型流程圖Fig.4 Flow chart of the effective position decision-making model
隨機(jī)劃分訓(xùn)練集和測(cè)試集后,以AUC 值作為評(píng)估指標(biāo),采用5 折交叉驗(yàn)證取均值、人工學(xué)習(xí)曲線和調(diào)用Optuna[22]框架的方法對(duì)3 種模型進(jìn)行參數(shù)優(yōu)化。3 種模型的最終分類準(zhǔn)確率為93.7%,95.9%和96.5%,決策用時(shí)分別為19.36,0.87 和1.58 s。表3 和圖5 的結(jié)果顯示:實(shí)驗(yàn)中,使用XGB模型得到的F1 值和AUC 面積最高,分別達(dá)到91.1%和0.994;RF 模型的決策速度最快,僅為0.87 s,能夠滿足AUV 有效陣位決策的要求。
表3 3 種模型分類性能Table 3 Classification performance of three models
圖5 3 種機(jī)器學(xué)習(xí)模型ROC 曲線Fig.5 Receiver operating characteristic curves of three machine learning models
為檢驗(yàn)集成算法在多種任務(wù)閾值下的分類效果。將閾值調(diào)整為60%,65%,70%,75%和80%后的實(shí)驗(yàn)數(shù)據(jù)集輸入模型,分類結(jié)果如表4 所示。分析可知,隨著閾值的增大,實(shí)驗(yàn)數(shù)據(jù)集樣本不平衡比例不斷增加,那么提升決策精度的關(guān)鍵在于分類算法處理不平衡數(shù)據(jù)的能力。由于集成學(xué)習(xí)采取多個(gè)分類器迭代訓(xùn)練取優(yōu)的方式,加入正則項(xiàng)和剪枝操作有效控制自身復(fù)雜度,修正傳統(tǒng)分類算法容易過擬合的缺陷,并預(yù)設(shè)調(diào)節(jié)正負(fù)樣本不平衡度的超參數(shù),通過過采樣的方法,在訓(xùn)練中賦予少數(shù)類更高的權(quán)重,從而在處理不平衡二分類問題上比SVM 精度高、速度快,在多種任務(wù)閾值下具有較高的適應(yīng)能力。
表4 不同閾值下模型決策性能比較Table 4 Comparison of model decision performance under different thresholds
進(jìn)一步檢驗(yàn)有效陣位決策模型在復(fù)雜海洋環(huán)境下的泛化能力,調(diào)整作戰(zhàn)仿真參數(shù)聲吶預(yù)警距離dship,聲自導(dǎo)作用距離dtorp和目標(biāo)方位誤差系數(shù)σxy如表5 所示,模擬作戰(zhàn)海域變化對(duì)聲吶設(shè)備觀測(cè)精度的干擾,并將其生成的實(shí)驗(yàn)數(shù)據(jù)作為檢驗(yàn)?zāi)P头夯芰Φ臏y(cè)試集。
表5 作戰(zhàn)仿真參數(shù)調(diào)整Table 5 Adjustment of operational simulation parameters
觀察圖6 可知,當(dāng)模擬作戰(zhàn)海域發(fā)生變化時(shí),衡量模型決策性能的AUC 值能夠保持在0.924 以上的較高范圍,說明模型在復(fù)雜海洋環(huán)境下具備一定的泛化能力。圖7 為XGB 訓(xùn)練過程特征貢獻(xiàn)度排序,得分越大表示特征對(duì)分類結(jié)果貢獻(xiàn)越大。觀察可知,魚雷攻擊目標(biāo)舷角Qm,艦艇初始航向Hm0和魚雷射擊距離D3 個(gè)特征對(duì)決策精度的影響最大,進(jìn)而從特征選擇的維度解釋了模型保持較高精度的原因。
圖6 模型在不同作戰(zhàn)海域的決策效果Fig.6 Decision-making effect of the model in different operational sea areas
圖7 模型特征貢獻(xiàn)度排序Fig.7 Contribution ranking of the features in model
針對(duì)AUV 的特點(diǎn)和裝備發(fā)展需求,在傳統(tǒng)有效陣位決策研究基礎(chǔ)上,以提升攻擊效果和決策速度為目的,提出將作戰(zhàn)仿真與機(jī)器學(xué)習(xí)算法相結(jié)合的建模方法。實(shí)驗(yàn)結(jié)果表明,以數(shù)據(jù)驅(qū)動(dòng)代替仿真驅(qū)動(dòng)的方法,能夠在保證攻擊效果的前提下,大幅加快有效陣位決策速度。決策模型在多種任務(wù)閾值和復(fù)雜海洋環(huán)境下具有較好的適應(yīng)能力和泛化能力,能夠從一定程度上改善作戰(zhàn)仿真決策時(shí)間長(zhǎng),無(wú)法動(dòng)態(tài)調(diào)整的問題??紤]到真實(shí)水下戰(zhàn)場(chǎng)干擾和對(duì)抗強(qiáng)度更大,態(tài)勢(shì)數(shù)據(jù)的獲取面臨誤差大、實(shí)時(shí)性弱的困難,下一步將探索引入時(shí)序數(shù)據(jù)處理方法,對(duì)觀測(cè)的不完全時(shí)序數(shù)據(jù)進(jìn)行分析、糾錯(cuò)和補(bǔ)全,為提高決策模型的魯棒性提供支持。