劉建生,程曉敏,丁 帥,宋麗瓊,侯宇辰
(北方自動控制技術(shù)研究所,太原 030006)
隨著無人技術(shù)、人工智能技術(shù)、大數(shù)據(jù)技術(shù)的發(fā)展,戰(zhàn)場感知越來越泛在化、集群作戰(zhàn)越來越自主化和協(xié)同化、作戰(zhàn)體系越來越云態(tài)化。傳統(tǒng)的防空火力控制技術(shù)已經(jīng)難以滿足新形勢下的作戰(zhàn)需求[1]。
在傳統(tǒng)武器裝備設(shè)計(jì)中,防空火力控制技術(shù)的實(shí)現(xiàn)方式主要是依據(jù)先驗(yàn)知識,建立一系列數(shù)學(xué)模型在探測跟蹤、運(yùn)動假定、時(shí)空配準(zhǔn)、目標(biāo)分配、決策生成、協(xié)同控制等方面進(jìn)行預(yù)測、控制、評價(jià),其整個(gè)控制過程是時(shí)不變參數(shù)、時(shí)不變結(jié)構(gòu),不具備有效利用大量在線數(shù)據(jù)、離線數(shù)據(jù)進(jìn)行挖掘分析、關(guān)聯(lián)規(guī)則形成自學(xué)習(xí)、自修正的能力。這種能力缺失導(dǎo)致傳統(tǒng)火力控制技術(shù)存在諸多不足,主要體現(xiàn)在:目標(biāo)運(yùn)動假定模型單一,只涵蓋有限幾種經(jīng)典運(yùn)動方程,對臨空攻頂、無人機(jī)蜂群、高機(jī)動等目標(biāo)缺乏有效狀態(tài)空間模型;信息融合與傳感器緊耦合,不能有效處理信息的多樣性和不確定性;決策分析沒有真正的集數(shù)據(jù)、模型、知識于一體,只是運(yùn)用模型和數(shù)據(jù)庫進(jìn)行局部推理,缺少知識的提取、歸納、管理,不具備人工智能的基因;效能評估指標(biāo)體系的構(gòu)建還是基于專家系統(tǒng),影響它的完備性、客觀性、時(shí)效性[2-5]。
綜上所述,通過引入大數(shù)據(jù)思想,有效利用歷史數(shù)據(jù)、仿真數(shù)據(jù)、實(shí)時(shí)在線數(shù)據(jù),針對傳統(tǒng)火力控制技術(shù)中時(shí)敏目標(biāo)狀態(tài)空間模型構(gòu)建、大閉環(huán)校射、協(xié)同信息處理、控制決策、效能評估等薄弱環(huán)節(jié),運(yùn)用數(shù)據(jù)挖掘、深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等技術(shù),提升火控系統(tǒng)自修正、自學(xué)習(xí)能力,推動火力控制技術(shù)的創(chuàng)新升級,為武器裝備向無人化智能化方向發(fā)展提供技術(shù)支撐[6-7]。
2017 年3 月,美軍發(fā)布《美國陸軍機(jī)器人與智能系統(tǒng)戰(zhàn)略》,是美陸軍在應(yīng)用人工智能技術(shù)方面的戰(zhàn)略規(guī)劃,提出了戰(zhàn)略發(fā)展目標(biāo),描繪了機(jī)器人和智能系統(tǒng)的發(fā)展方向;2017 年4 月份,美軍方與谷歌公司開展了“加快國防部整合大數(shù)據(jù)和機(jī)器學(xué)習(xí)”的項(xiàng)目,重點(diǎn)推動美軍在深度學(xué)習(xí)、智能算法、軍用機(jī)器人等方面的技術(shù)革新;2018 年8 月,美國防部發(fā)布《2017-2042 年無人系統(tǒng)綜合路線圖》,該路線圖針對系統(tǒng)自主性梳理了4 項(xiàng)關(guān)鍵技術(shù),將人工智能和機(jī)器學(xué)習(xí)作為第一關(guān)鍵技術(shù)[8]。
國內(nèi)對人工智能在軍事領(lǐng)域的應(yīng)用研究也逐漸成為熱點(diǎn),孫志軍等人利用深度學(xué)習(xí)方法,提高了雷達(dá)識別目標(biāo)的準(zhǔn)確率;張樂等人研究了基于自編碼神經(jīng)網(wǎng)絡(luò)的裝備體系評估指標(biāo)方法;朱豐等人研究了基于深度學(xué)習(xí)的戰(zhàn)場態(tài)勢評估;劉忠采用深度學(xué)習(xí)技術(shù)開展了智能指揮控制方法的研究等;尤其在無人機(jī)和裝備故障診斷領(lǐng)域,人工智能算法已經(jīng)在武器裝備上進(jìn)行工程實(shí)踐[9]。
本文主要探索大數(shù)據(jù)、數(shù)據(jù)挖掘、深度學(xué)習(xí)等技術(shù)與武器裝備火力控制的結(jié)合點(diǎn),用大數(shù)據(jù)思維推動火力控制技術(shù)升級,從以“模型”為核心轉(zhuǎn)變?yōu)椤皵?shù)據(jù)+模型”為核心,注重火力控制各環(huán)節(jié)相關(guān)性的挖掘分析,以數(shù)據(jù)被動應(yīng)用轉(zhuǎn)變?yōu)橹R的學(xué)習(xí)管理,從而使得武器裝備在目標(biāo)探測跟蹤、誤差自修正、分布式信息處理與控制決策、毀傷評估等方面,具備一定程度的感知推理、決策分析、自主控制等能力。
圖1 技術(shù)實(shí)現(xiàn)原理
基于大數(shù)據(jù)的目標(biāo)狀態(tài)空間模型分析方法,是將數(shù)據(jù)驅(qū)動的思想引入傳統(tǒng)的模型識別,利用存儲的大數(shù)據(jù)信息中包含的多種目標(biāo)屬性信息和運(yùn)動狀態(tài)信息進(jìn)行判斷、比對,有效地修正目標(biāo)狀態(tài)空間模型的使用種類以及使用參數(shù)。同時(shí)根據(jù)誤差分析,對選擇的目標(biāo)狀態(tài)空間模型進(jìn)行有效性判定。最終,大幅提升對空間目標(biāo)的跟蹤、解算精度,進(jìn)而提升對目標(biāo)的毀傷概率[10]。
初始模型庫的建立是根據(jù)一定的歷史數(shù)據(jù)和先驗(yàn)知識,設(shè)計(jì)一個(gè)由有限模型數(shù)據(jù)組成的模型集。其中每個(gè)模型對應(yīng)某類目標(biāo)的一種或者多種,包含有目標(biāo)飛行特性、目標(biāo)不同階段的運(yùn)動特性、預(yù)測誤差等的數(shù)據(jù)集合。
目標(biāo)狀態(tài)空間初始模型庫包含了不同類型目標(biāo)在各個(gè)階段多種可能的運(yùn)動狀態(tài)估計(jì)。它是根據(jù)每類目標(biāo)不同階段的運(yùn)動特點(diǎn),由幾種典型的運(yùn)動狀態(tài)估計(jì)擬合形成的。其中包括:勻速運(yùn)動、勻加速度運(yùn)動、變加速度運(yùn)動、轉(zhuǎn)彎運(yùn)動、俯沖運(yùn)動、懸停機(jī)動等等。
基于模型的運(yùn)動狀態(tài)估計(jì)對模型庫的依賴很大,一方面為了提高估計(jì)精度需要不斷增加模型數(shù)量,另一方面多模型組合也無法應(yīng)對越來越復(fù)雜的目標(biāo)機(jī)動,以及越來越不確定的實(shí)戰(zhàn)空情[11]。
為解決上述問題,引入深度信念網(wǎng)絡(luò)(DBN)和目標(biāo)運(yùn)動數(shù)學(xué)模型相結(jié)合,通過使用訓(xùn)練好的DBN模型產(chǎn)生運(yùn)動狀態(tài)預(yù)測值修正基于模型的目標(biāo)運(yùn)動狀態(tài)估計(jì),維持對目標(biāo)高精度預(yù)測跟蹤。
基本原理如圖2 所示。
圖2 基于數(shù)據(jù)和模型的目標(biāo)狀態(tài)空間自學(xué)習(xí)方法實(shí)現(xiàn)原理
1)實(shí)時(shí)觀測數(shù)據(jù)分別通過運(yùn)動模型和深度信念網(wǎng)絡(luò)進(jìn)行系統(tǒng)狀態(tài)估計(jì),估計(jì)值進(jìn)行時(shí)空配準(zhǔn)、誤差評估分析,誤差評估分析可采用逆解法;
2)將相關(guān)時(shí)間內(nèi)的誤差進(jìn)行統(tǒng)計(jì)分析,評估當(dāng)前空情條件下的DBN 學(xué)習(xí)能力和模型組合預(yù)測能力,實(shí)時(shí)修正跟蹤參數(shù),保持對目標(biāo)的高精度跟蹤;
3)能夠?qū)Ρ敬蔚膶W(xué)習(xí)進(jìn)行知識歸納,形成知識存儲于數(shù)據(jù)庫中;
4)深度信念網(wǎng)絡(luò)訓(xùn)練可以采用線下和線上學(xué)習(xí),線下學(xué)習(xí)主要依據(jù)數(shù)據(jù)庫進(jìn)行樣本稀疏學(xué)習(xí)。
雷達(dá)和光電探測設(shè)備是武器裝備的主要探測手段,它們的表現(xiàn)形式不同、數(shù)據(jù)精度、時(shí)空信息不一致,為綜合利用這些數(shù)據(jù),采用將單一數(shù)據(jù)源的特征提取后,研究特征空間中的融合算法[12-13]。
總體思路是運(yùn)用修正的DS 證據(jù)理論實(shí)現(xiàn)決策層上的信息融合。由于神經(jīng)網(wǎng)絡(luò)是一種提取證據(jù)的有效方法,因此,在特征層上根據(jù)多頻譜傳感器提供特征向量的特點(diǎn),分別選取合適的神經(jīng)網(wǎng)絡(luò)對目標(biāo)進(jìn)行初步的分類識別,即得到目標(biāo)對每個(gè)類別屬性的隸屬度輸出。神經(jīng)網(wǎng)絡(luò)的每次輸出作為一條證據(jù),在決策層上用證據(jù)理論的方法把每次得到的證據(jù)不斷地結(jié)合起來,得出最后的融合識別結(jié)果。
圖3 分布式異類信息處理流程
基于D-S 證據(jù)理論的融合過程如圖4 所示。
圖4 多特征綜合識別流程
具體的融合處理步驟為:首先,分別對各數(shù)據(jù)源構(gòu)造基本概率分配函數(shù)并計(jì)算相應(yīng)的證據(jù)區(qū)間;然后,利用證據(jù)合成規(guī)則得到多數(shù)據(jù)源融合后的聯(lián)合證據(jù)區(qū)間;最后,依據(jù)一定的決策規(guī)則得到融合后的目標(biāo)屬性。
將卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)與傳統(tǒng)火力控制技術(shù)相結(jié)合,挖掘火力控制各誤差環(huán)節(jié)的相關(guān)性以及誤差對脫靶量的影響值,最終實(shí)現(xiàn)系統(tǒng)自修正[14]。
彈目偏差主要與目標(biāo)位置x,y,z、速度vx,vy,vz、加速度ax,ay,az、角加速度ωβ,ωε、炮口初速v0、空氣密度ρ、海拔高度H、橫風(fēng)Fx和縱風(fēng)Fy、修正值Cβ,Cω(若無修正則為零)這18 個(gè)變量有關(guān),因此,脫靶量值所需構(gòu)造的工作式應(yīng)當(dāng)是如下的形式:
由于自變量的多樣性以及空間的復(fù)雜性,擬合的函數(shù)形式必將是一個(gè)含有多個(gè)變量,且階次較高的非線性函數(shù)?;诰矸e神經(jīng)網(wǎng)絡(luò)對于解決多變量、高階目標(biāo)函數(shù)問題一般都有較好的結(jié)果。將數(shù)據(jù)庫中的歷史數(shù)據(jù)作為學(xué)習(xí)的樣本集。具體實(shí)現(xiàn)過程如下:對訓(xùn)練樣本集進(jìn)行歸一化處理,這樣可以避免學(xué)習(xí)過程的連接權(quán)值過大的問題,得以保證學(xué)習(xí)訓(xùn)練過程不會發(fā)生計(jì)算溢出問題。
輸入層18 個(gè)輸入神經(jīng)元表示18 個(gè)輸入變量,輸出層有2 個(gè)神經(jīng)元表示彈目偏差。
圖5 基于卷積神經(jīng)網(wǎng)絡(luò)的射擊諸元修正技術(shù)
自學(xué)習(xí)防空火力控制系統(tǒng)主要包含在線自學(xué)習(xí)系統(tǒng)和線下深度學(xué)習(xí)訓(xùn)練。
在線自學(xué)習(xí)系統(tǒng)主要包括自主感知和自主攔截決策兩部分功能。自主感知能夠?qū)Ψ植际蕉嘣赐瑯?gòu)或異構(gòu)信息進(jìn)行綜合處理,消除可能存在的冗余和矛盾信息,對目標(biāo)運(yùn)動狀態(tài)和類型進(jìn)行判斷識別,形成對作戰(zhàn)環(huán)境相對完整一致的描述,為自主攔截決策提供準(zhǔn)確信息支撐;研究基于強(qiáng)化學(xué)習(xí)的自主攔截決策技術(shù),較好地集成數(shù)據(jù)、模型和知識,有效彌補(bǔ)傳統(tǒng)控制決策協(xié)同機(jī)制、規(guī)則建模難度大、決策結(jié)果穩(wěn)定性差的問題,為武器平臺間協(xié)同作戰(zhàn)提供決策支持,決策結(jié)果主要包括協(xié)同探測、跟蹤、火力分配、攔截方式等[15]。
線下深度學(xué)習(xí)訓(xùn)練方法主要進(jìn)行模型訓(xùn)練,為智能決策系統(tǒng)提供科學(xué)的模型。它利用訓(xùn)練樣本庫進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)訓(xùn)練,形成目標(biāo)軌跡預(yù)測模型、目標(biāo)類型識別模型;通過卷積神經(jīng)網(wǎng)絡(luò)估計(jì)值函數(shù)建立回報(bào)函數(shù)初始值,并通過逆向強(qiáng)化學(xué)習(xí)的方法對指揮決策范例庫數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí)完善回報(bào)函數(shù)[16]。
圖6 自學(xué)習(xí)防空火力控制系統(tǒng)原理
強(qiáng)化學(xué)習(xí)是智能體以“試錯”的方式進(jìn)行學(xué)習(xí),通過與環(huán)境進(jìn)行交互獲得的獎賞指導(dǎo)行為,目標(biāo)是使智能體獲得最大的獎賞。強(qiáng)化學(xué)習(xí)不同于連接主義學(xué)習(xí)中的監(jiān)督學(xué)習(xí)主要表現(xiàn)在信號上,強(qiáng)化學(xué)習(xí)中由環(huán)境提供的強(qiáng)化信號是對產(chǎn)生動作的好壞作一種評價(jià)標(biāo)準(zhǔn)。由于外部環(huán)境提供的信息很少,系統(tǒng)必須靠自身的經(jīng)歷進(jìn)行學(xué)習(xí)。通過這種方式,在行動-評價(jià)的環(huán)境中獲得知識,改進(jìn)行動方案以適應(yīng)環(huán)境[17]。
自主攔截決策的難點(diǎn)在于強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)和回報(bào)函數(shù)的建立。其基本流程如下:
1)隨機(jī)生成一個(gè)策略作為初始策略值;
2)通過比較“專家”的交互樣本和系統(tǒng)自身交互樣本的差別,學(xué)習(xí)得到回報(bào)函數(shù);
3)利用回報(bào)函數(shù)進(jìn)行強(qiáng)化學(xué)習(xí),提供系統(tǒng)決策水平;
4)若兩個(gè)策略的實(shí)際作戰(zhàn)效果基本相同,可停止學(xué)習(xí),否則回到第2)步。
為保證訓(xùn)練樣本庫中的數(shù)據(jù)具備良好的可信度、代表性和覆蓋性,數(shù)據(jù)來源主要依托單位在裝備型號研制過程中采集的靶場數(shù)據(jù)。裝備型號涵蓋警戒雷達(dá)、光電搜跟設(shè)備、防空高炮武器、防空導(dǎo)彈以及營連指揮控制系統(tǒng)等10 余種裝備;靶場數(shù)據(jù)主要包括S70 低速靶機(jī)、S300 高速靶機(jī)、無人機(jī)、殲7B 等目標(biāo)飛行數(shù)據(jù),以及光電/雷達(dá)探測的視頻、圖像、數(shù)據(jù)等。訓(xùn)練樣本庫中數(shù)據(jù)的數(shù)量和質(zhì)量能夠滿足模型訓(xùn)練的要求[18]。
圖7 基于強(qiáng)化學(xué)習(xí)的自主協(xié)同決策實(shí)現(xiàn)
本文旨在提出一種設(shè)想對傳統(tǒng)防空火力控制技術(shù)進(jìn)行技術(shù)升級,推動傳統(tǒng)火力控制技術(shù)的升級換代,有效解決末端防御正面臨的以下問題:如何應(yīng)對機(jī)動目標(biāo)跟蹤預(yù)測建模?如何快速決策應(yīng)對臨空目標(biāo)?如何快速形成武器平臺間自主協(xié)同決策?如何應(yīng)對飽和攻擊等一系列技術(shù)難題。研究形成的新方法新技術(shù)能指導(dǎo)未來新型防空武器火力控制系統(tǒng)、一體化協(xié)同作戰(zhàn)武器系統(tǒng),以及強(qiáng)激光/電磁炮等新概念武器的研制,提升武器的智能化作戰(zhàn)水平。