王續(xù)涵,陶九陽,吳 琳
(國防大學(xué)聯(lián)合作戰(zhàn)學(xué)院,北京 100091)
作戰(zhàn)任務(wù)籌劃(Mission Planning)是指揮員和指揮機關(guān)以戰(zhàn)場態(tài)勢為依據(jù),針對作戰(zhàn)任務(wù)進(jìn)行的一系列有序運籌設(shè)計,是最重要的作戰(zhàn)活動之一。作戰(zhàn)任務(wù)籌劃有兩個基本問題:第一,針對一個特定作戰(zhàn)任務(wù),如何分配有限的作戰(zhàn)資源;第二,針對一系列作戰(zhàn)任務(wù),如何確定任務(wù)執(zhí)行的先后順序[1]。
用于任務(wù)籌劃的理論方法不斷涌現(xiàn),傳統(tǒng)的方法主要有數(shù)學(xué)規(guī)劃方法,包括整數(shù)規(guī)劃、線性規(guī)劃、動態(tài)規(guī)劃以及多目標(biāo)規(guī)劃等;基于多Agent的仿真;啟發(fā)式方法,包括遺傳算法、粒子群算法、蟻群算法等,分布式馬爾科夫決策方法等[2-3]。上述方法多用于特定作戰(zhàn)領(lǐng)域或戰(zhàn)術(shù)行動,如無人機任務(wù)航跡規(guī)劃[4-5]、傳感器資源的任務(wù)規(guī)劃等[6-7]。針對規(guī)模較大的聯(lián)合作戰(zhàn)任務(wù)籌劃問題,目前主要以定性描述為主,如美軍和北約的基于重心的聯(lián)合籌劃概念模型,定量計算方法公開文獻(xiàn)鮮有報道。傳統(tǒng)方法主要用戰(zhàn)場偵察數(shù)據(jù)、規(guī)則來進(jìn)行推理和求解,不具備自學(xué)習(xí)應(yīng)對戰(zhàn)場不確定性的能力。
近年來,機器學(xué)習(xí)技術(shù)的快速發(fā)展,涌現(xiàn)出一批解決復(fù)雜籌劃問題的新技術(shù)和新方法,為解決上述問題提供了新思路。2020年,DeepMind發(fā)布的Muzero[8]通過基于融合表征網(wǎng)絡(luò)的自博弈方法在圍棋、將棋和國際象棋等30多款雅達(dá)利游戲中“無師自通”,展現(xiàn)了超越人類的規(guī)劃與可塑性。DeepStack采用遞歸推理和深度學(xué)習(xí)[9],“冷撲大師”(Libratus)采用了蒙特卡洛嵌套子博弈求解方法[10],在德州撲克不完美信息博弈中獨領(lǐng)風(fēng)騷,而且能夠有效應(yīng)對“咋呼”等欺騙策略;空戰(zhàn)飛行員ALPHA AI[11]采用了遺傳模糊樹技術(shù),成為最接近實際戰(zhàn)爭的人工智能;OpenAI Five[12]、AlphaStar[13]、JueWu在環(huán)境復(fù)雜、不完美信息的RTS游戲中戰(zhàn)勝了大部分人類玩家。雖然上述人工智能都在特定領(lǐng)域擊敗了人類,展示了機器學(xué)習(xí)技術(shù)在籌劃和推理方面的強大能力,但依然難以直接用于聯(lián)合作戰(zhàn)任務(wù)籌劃建模。
上述人工智能技術(shù)雖然迥異,但也具備共同點:一是基于對戰(zhàn)平臺的自博弈,二是多種智能技術(shù)集成學(xué)習(xí)。借鑒上述人工智能技術(shù)成功經(jīng)驗,本文面向作戰(zhàn)任務(wù)籌劃的兩個基本問題,首先提出了任務(wù)矩陣概念模型,為聯(lián)合作戰(zhàn)任務(wù)籌劃提供了框架;以此為基礎(chǔ),建立了“作戰(zhàn)任務(wù)-作戰(zhàn)要素”關(guān)聯(lián)關(guān)系的信念網(wǎng)絡(luò)模型,提出了一種基于想象力加速的貝葉斯學(xué)習(xí)算法,通過自博弈來學(xué)習(xí)信念網(wǎng)絡(luò)模型的參數(shù),解決聯(lián)合作戰(zhàn)任務(wù)籌劃中的資源分配問題;以學(xué)習(xí)得到的參數(shù)為基礎(chǔ),提出了深度最小威脅生成樹搜索算法,解決任務(wù)執(zhí)行的先后順序。本文的研究旨在為指揮員和籌劃人員提供理論方法和技術(shù)手段,同時也可為聯(lián)合作戰(zhàn)智能對抗仿真建模提供任務(wù)規(guī)劃算法。
本節(jié)構(gòu)建任務(wù)矩陣模型對戰(zhàn)場態(tài)勢進(jìn)行建模,使用信念網(wǎng)絡(luò)模型刻畫任務(wù)矩陣中各要素間的復(fù)雜關(guān)系,并將想象力機制融入貝葉斯方法對參數(shù)進(jìn)行學(xué)習(xí),基于參數(shù)給出任務(wù)執(zhí)行中關(guān)鍵的支撐要素與威脅要素。
聯(lián)合作戰(zhàn)指揮員在確定或受領(lǐng)作戰(zhàn)任務(wù)后,首先需要明確任務(wù)目標(biāo)和限制條件。指揮員進(jìn)行作戰(zhàn)籌劃需要關(guān)注的戰(zhàn)場態(tài)勢要素通常有三種:第一種是能夠提供任務(wù)完成所需資源和能力的己方要素,稱為支撐要素,解決指揮員“什么可以用”的問題;第二種是能夠威脅任務(wù)完成的敵方作戰(zhàn)力量或環(huán)境要素,稱為威脅要素,表明了執(zhí)行任務(wù)“面臨哪些威脅或阻力”;第三種,與任務(wù)執(zhí)行相關(guān)的重要事件,通常是任務(wù)分析和籌劃過程中需要預(yù)先設(shè)想的事件,或任務(wù)執(zhí)行過程中已經(jīng)發(fā)生的事件,稱為任務(wù)事件,充當(dāng)指揮員的“任務(wù)監(jiān)視器”。任務(wù)事件的發(fā)生,往往標(biāo)志任務(wù)需要調(diào)整、取消、終止、結(jié)束等。將作戰(zhàn)任務(wù)-支撐要素-威脅要素-任務(wù)事件按照矩陣的方式組織起來,就得到了如表1所示的作戰(zhàn)任務(wù)矩陣模型,其可以為指揮員和籌劃人員提供一種分析工具。
表1 作戰(zhàn)任務(wù)矩陣模型Tab.1 Joint operational task matrix
在高度動態(tài)聯(lián)合作戰(zhàn)背景下,海量支撐要素與威脅要素分布于陸、海、空、天、電、網(wǎng)等各個作戰(zhàn)域。指揮員或籌劃人員如果對每一個要素都進(jìn)行深入分析,必然無法跟上戰(zhàn)爭的節(jié)奏。因此,需要一種自動化的處理方法,從海量的作戰(zhàn)要素中確定關(guān)鍵的支撐要素與威脅要素,作為下一步作戰(zhàn)資源分配的依據(jù)。為此,本文建立一種信念網(wǎng)絡(luò)模型(也稱為有向概率圖),實現(xiàn)對所有的支撐要素和威脅要素進(jìn)行重要度排序。
圖1 作戰(zhàn)任務(wù)-作戰(zhàn)支撐-作戰(zhàn)威脅的信念網(wǎng)絡(luò)模型Fig.1 The element in TM model
(1)
(2)
(3)
(4)
表2 算法1:基于想象力加速的參數(shù)學(xué)習(xí)算法Tab.2 Algorithm1: parameter learning algorithm based on imagination acceleration
區(qū)別于DeepMind想象力模型解決縱向想象(想象同一個對象的后續(xù)動作),本文中使用的想象力機制是橫向想象,即想象其他不同對象在遇到相同情況會怎樣,更適合求解樣本稀疏的廣度學(xué)習(xí)問題。
(5)
(6)
基于以上排序,可以得出執(zhí)行任務(wù)mi時的關(guān)鍵支撐要素與si執(zhí)行任務(wù)mi時的關(guān)鍵威脅要素。
作戰(zhàn)籌劃人員在面臨多個任務(wù)時,需要確定任務(wù)的優(yōu)先執(zhí)行順序。在任務(wù)執(zhí)行的過程中,先執(zhí)行的任務(wù)會對后續(xù)的戰(zhàn)場態(tài)勢要素產(chǎn)生影響,因此任務(wù)執(zhí)行的順序不同,完成所有任務(wù)的戰(zhàn)損和代價往往也不同。假設(shè)完成所有任務(wù)獲得的總收益相同(如果沒有該假設(shè),將變?yōu)橐粋€更復(fù)雜的多目標(biāo)動態(tài)決策問題。實際作戰(zhàn)中該假設(shè)通常成立)。任務(wù)排序問題可以描述為以下動態(tài)規(guī)劃模型:
(7)
公式(7)所示動態(tài)規(guī)劃模型的優(yōu)化目標(biāo)是通過優(yōu)化任務(wù)執(zhí)行順序,使完成所有任務(wù)的總損耗和代價最小。約束條件為每一個任務(wù)Ti都完成,總?cè)蝿?wù)時間不能超時,并且每一個任務(wù)面臨的威脅ci非負(fù)。
(8)
(9)
圖2 單任務(wù)威脅樹Fig.2 Threat tree of single task
由此,可以將公式(7)所示的動態(tài)規(guī)劃模型等價于求解一個最小威脅樹。一種最為直接的方法就是將所有的樹全部排列一遍,時間復(fù)雜度為O(n!),在有較多的任務(wù)需要排列時,時間耗費巨大,無法滿足作戰(zhàn)時效性要求。因此,本文設(shè)計一種深度優(yōu)先最小威脅生成樹搜索算法,通過均衡搜索誤差和速度實現(xiàn)任務(wù)優(yōu)先級排序,如表3所示。
表3 算法2:深度優(yōu)先最小威脅生成樹搜索算法Tab.3 Algorithm2: depth first minimum threat spanning tree search algorithm
本文以一次火力打擊與防御作戰(zhàn)為仿真案例,檢驗上述模型和算法的有效性。首先設(shè)置初始仿真實驗條件,對模型中需要的參數(shù)進(jìn)行初始設(shè)定;然后通過多次推演來分析上述模型的學(xué)習(xí)能力和計算結(jié)果。
表4 算法初始化參數(shù)Tab.4 Initial parameters of the algorithm
在執(zhí)行任務(wù)過程中,紅方每個支撐要素被藍(lán)方要素的毀傷概率在[0,1]區(qū)間隨機生成。生成的毀傷概率表只為仿真實驗提供交互結(jié)果計算,毀傷概率表對紅方不可見。
以上述初始參數(shù)為基礎(chǔ),在仿真推演過程中,算法1和算法2的計算結(jié)果可以通過圖4所示的示意圖表示。
圖4 算法計算過程示意圖Fig.4 Diagram of the calculation process
在任意時刻,由算法1的計算結(jié)果可以確定紅方任務(wù)線和藍(lán)方的威脅線,任務(wù)線是指從某個支撐要素到某個任務(wù)目標(biāo)之間的連線,威脅線是指從威脅要素到任務(wù)線某點的連線。算法1同時確定了關(guān)鍵支撐要素和關(guān)鍵威脅要素,分別為任務(wù)線的起點和威脅線的起點。算法2確定了任務(wù)的優(yōu)先順序,如圖4所示,四個任務(wù)的執(zhí)行順序從上到下排列為4-2-1-3。
參數(shù)學(xué)習(xí)算法和深度優(yōu)先最小威脅生成樹搜索算法的有效性,可以通過紅方完成所有任務(wù)后支撐要素的損失數(shù)目來檢驗。由于作戰(zhàn)過程具有隨機性,例如,一枚導(dǎo)彈可能擊中目標(biāo)也可能沒有擊中目標(biāo),這種不確定性對于戰(zhàn)爭結(jié)果的影響可能非常大,對應(yīng)到本文的仿真實驗就是會導(dǎo)致仿真實驗結(jié)果具有較大波動性。因此,為了盡可能地消除這種不利影響,我們對每一個學(xué)習(xí)出來的參數(shù)運行10次,并對結(jié)果取平均值。得到如圖5所示的結(jié)果。
圖5 紅方執(zhí)行任務(wù)損失支撐要素數(shù)目情況Fig.5 Number of supporting elements for red party’s loss in task execution
共進(jìn)行了1 000次仿真實驗,縱坐標(biāo)表示紅方支撐要素的損失數(shù)目。藍(lán)色曲線和黃色曲線分別表示采用和未采用上文提出的想象力機制模型的學(xué)習(xí)情況。通過對比可以發(fā)現(xiàn),采用想象力機制能夠使模型收斂速度大大加快。當(dāng)需要學(xué)習(xí)的參數(shù)隨著態(tài)勢要素數(shù)目一起增多,先驗知識將會變得更加稀疏,帶有想象力機制的學(xué)習(xí)模型收斂速度優(yōu)勢會更加明顯。但也要看到,藍(lán)色曲線在收斂過程中震蕩較大,原因可能是很多參數(shù)的更新建立在想象而非真實體驗之上。
本文提出了一種基于機器學(xué)習(xí)的任務(wù)資源分配和任務(wù)優(yōu)先級排序方法,通過想象力機制加速了學(xué)習(xí)模型的收斂速度,仿真實驗表明了該方法的有效性。該方法不僅能夠為指揮員和聯(lián)合籌劃人員提供有益的分析工具,同時也可以為作戰(zhàn)博弈系統(tǒng)提供智能學(xué)習(xí)算法。由于戰(zhàn)爭問題的極端復(fù)雜性,為了建模方便,本文提出的方法對很多問題進(jìn)行了簡化,所用方法也比較簡潔,旨在探索理論方法和技術(shù)路線。本文下一步的工作是更為深入地討論并行任務(wù)的搜索、任務(wù)協(xié)同等問題。