文東日
(1.國防大學(xué) 研究生院,北京100091;2.中國人民解放軍63936 部隊,北京102202)
深度強化學(xué)習(xí)具有突出的決策規(guī)劃能力,擁有廣闊的軍事應(yīng)用前景,受到研究人員的廣泛關(guān)注。近年來,深度強化學(xué)習(xí)軍事應(yīng)用研究的相關(guān)文獻逐年增多,在態(tài)勢感知、指揮決策、裝備控制、空戰(zhàn)博弈、兵棋推演等諸多領(lǐng)域均有成果。
態(tài)勢感知是實施作戰(zhàn)行動的邏輯起點,核心是綜合處理戰(zhàn)場環(huán)境、情報偵察、兵力部署、力量對比等各種信息,做出綜合判斷,為采取作戰(zhàn)行動提供決策依據(jù)。吳志強等構(gòu)建了基于Actor-Critic 的態(tài)勢估計模型,提出基于深度強化學(xué)習(xí)的自動態(tài)勢分析技術(shù)框架[1]。Actor-Critic 架構(gòu)既有決策功能(Actor)又有評估功能(Critic),文獻[1]僅利用Critic 進行態(tài)勢估計,卻舍棄了Actor 的決策功能。冷鵬飛等提出一種基于深度強化學(xué)習(xí)的雷達(dá)輻射源個體識別方法[2],以雷達(dá)輻射源信號包絡(luò)前沿作為深度神經(jīng)網(wǎng)絡(luò)的輸入狀態(tài),以輻射源類別作為輸入狀態(tài)的可選動作,通過擬合當(dāng)前狀態(tài)動作對的Q 值完成雷達(dá)輻射源個體識別任務(wù)。利用深度強化學(xué)習(xí)進行目標(biāo)識別是深度強化學(xué)習(xí)的一種特殊應(yīng)用,此種情況下的馬爾可夫決策過程僅有一個決策步。李銀通等提出利用逆強化學(xué)習(xí)進行空戰(zhàn)態(tài)勢評估[3]。在態(tài)勢評估或目標(biāo)識別領(lǐng)域應(yīng)用深度強化學(xué)習(xí),未充分發(fā)揮其技術(shù)優(yōu)勢,相關(guān)應(yīng)用研究也較少。
深度強化學(xué)習(xí)具有突出的決策規(guī)劃能力,發(fā)揮深度強化學(xué)習(xí)這一技術(shù)特點,提升指揮控制能力、獲取決策優(yōu)勢,是深度強化學(xué)習(xí)在軍事領(lǐng)域的主要應(yīng)用方向。曹雷提出將深度強化學(xué)習(xí)應(yīng)用于作戰(zhàn)輔助決策(或作戰(zhàn)任務(wù)規(guī)劃、智能博弈對抗)的基本構(gòu)想[4],建立基于馬爾可夫決策過程的作戰(zhàn)指揮控制模型,探討獲得最優(yōu)策略的基本邏輯。針對不同領(lǐng)域、不同規(guī)模、不同階段的指揮決策問題,諸多學(xué)者進行了具體探索。如陳希亮等針對陸軍分隊?wèi)?zhàn)術(shù)決策問題,提出有限指揮決策范例數(shù)據(jù)條件下的逆向強化學(xué)習(xí)方法,給出方案推演中基于深度Q網(wǎng)絡(luò)的陸軍分隊?wèi)?zhàn)術(shù)決策技術(shù)求解框架[5]。馮利設(shè)計了基于深度Q 網(wǎng)絡(luò)的炮兵連智能決策系統(tǒng)[6],為解決炮兵戰(zhàn)術(shù)決策問題提供了借鑒。筆者曾提出基于深度強化學(xué)習(xí)的裝備組合運用方法[7],發(fā)揮深度強化學(xué)習(xí)解決組合優(yōu)化問題的優(yōu)勢,進行裝備運用方案籌劃。于彤彤等提出基于深度強化學(xué)習(xí)的艦載機在線調(diào)度方法[8]。此外,一些學(xué)者圍繞利用深度強化學(xué)習(xí)解決防空反導(dǎo)[9]、網(wǎng)電攻防[10]、低軌衛(wèi)星路由策略[11]中的輔助決策問題進行了研究。
利用深度強化學(xué)習(xí)實現(xiàn)裝備智能控制,是深度強化學(xué)習(xí)軍事應(yīng)用的又一重要方向。如付佳龍研究利用深度強化學(xué)習(xí)實現(xiàn)艦載機的自動著艦[12],張耀、相曉嘉、趙明皓等分別研究利用深度強化學(xué)習(xí)實現(xiàn)無人戰(zhàn)車[13]、無人機[14]、無人艇[15]等無人平臺的自主控制,南英、馬子杰、高昂等分別研究利用深度強化學(xué)習(xí)進行彈道導(dǎo)彈[16]、巡航導(dǎo)彈[17]、巡飛彈[18]等制導(dǎo)導(dǎo)彈的突防控制以及航跡規(guī)劃。Gaudet 等研究基于強化學(xué)習(xí)的自主高超聲速打擊武器末端自適應(yīng)制導(dǎo)方法[19]。可以說,武器裝備智能化是軍事智能化的物質(zhì)基礎(chǔ),是深度強化學(xué)習(xí)軍事應(yīng)用的重要領(lǐng)域,是催生智能化武器裝備的重要技術(shù)基礎(chǔ)。2018 年2 月,SpaceX 公司利用強化學(xué)習(xí)技術(shù)提升火箭著陸精度和可靠性,使其出色地完成自動轉(zhuǎn)向等操作,大幅減少了地面專家操作工作量[20]。
空戰(zhàn)博弈是裝備控制的一種特殊情況,相比較一般裝備控制問題,空戰(zhàn)博弈具有激烈對抗性的突出特點。2020 年8 月,美國國防高級研究計劃局(DARPA)舉辦阿爾法空戰(zhàn)格斗系列比賽(Alpha-DogFight),蒼鷺系統(tǒng)公司基于深度強化學(xué)習(xí)算法完勝F-16 頂尖飛行員,顯示出將深度強化學(xué)習(xí)應(yīng)用于空戰(zhàn)博弈的巨大潛力。圍繞空戰(zhàn)博弈問題,POPE 等研究利用分層深度強化學(xué)習(xí)進行飛機空中格斗[21],馬文等提出一種深度強化學(xué)習(xí)與博弈相結(jié)合的近距空戰(zhàn)機動決策方法[22],郭萬春等提出一種基于改進雙延遲深度確定性策略梯度法的無人機反追擊機動決策方法[23],楊霄等提出一種深度強化學(xué)習(xí)與微分對策(Differential Games,DG)相結(jié)合的無人機空戰(zhàn)決策方法[24]。正如陳希亮等指出,空戰(zhàn)決策問題與圍棋、星際爭霸等問題不同,無法簡單套用游戲中的深度強化學(xué)習(xí)算法,須針對具體軍事問題,綜合運用運籌分析、知識建模、智能搜索和機器學(xué)習(xí)等方法尋找解決方案[25]。
深度強化學(xué)習(xí)基于大量采樣和試錯進行學(xué)習(xí),為降低試錯成本,一般須構(gòu)建虛擬仿真環(huán)境,而兵棋推演正好滿足這一要求。美國國防高級研究計劃局在深度強化學(xué)習(xí)攻克星際爭霸后,立馬將其應(yīng)用于戰(zhàn)爭模擬研究[26]。筆者曾指出為使傳統(tǒng)軍事仿真平臺能和智能體進行交互,須對傳統(tǒng)軍事仿真平臺進行改造,包括實現(xiàn)環(huán)境功能的仿真平臺、實現(xiàn)智能體功能的開發(fā)平臺以及連接仿真平臺和開發(fā)平臺的接口[7]。劉靜等設(shè)計了網(wǎng)電作戰(zhàn)多智能體博弈仿真平臺[27]。崔文華等探討以兵棋系統(tǒng)為依托的基于深度強化學(xué)習(xí)的決策技術(shù)框架[28]。目前,深度強化學(xué)習(xí)成為兵棋推演智能決策的主要技術(shù)之一,國內(nèi)已有多個能夠應(yīng)用深度強化學(xué)習(xí)進行推演的仿真平臺。
深度強化學(xué)習(xí)具有不需要數(shù)據(jù)標(biāo)簽、環(huán)境模型、提取特征等內(nèi)在特點,符合許多軍事應(yīng)用問題的技術(shù)要求,使得應(yīng)用深度強化學(xué)習(xí)于軍事領(lǐng)域具有明顯優(yōu)勢。
3.1.1 不需要數(shù)據(jù)標(biāo)簽,從而擺脫數(shù)據(jù)標(biāo)記
The median follow-up period for all patients was 34.5(9.9-81) mo. Median follow-up time for group Ⅰ was 37.5 (9.9-74.5) mo and group Ⅱ was 31.2 (10.7-81) mo.Median follow-up was comparable in both groups (P =0.59).
深度強化學(xué)習(xí)不需要數(shù)據(jù)標(biāo)簽,從而使得應(yīng)用深度強化學(xué)習(xí)解決軍事問題擺脫數(shù)據(jù)標(biāo)記。以深度學(xué)習(xí)為代表的監(jiān)督學(xué)習(xí),需要大量的數(shù)據(jù)標(biāo)簽,以致產(chǎn)生對數(shù)據(jù)進行標(biāo)記的巨大市場需求。但當(dāng)人們試圖把深度學(xué)習(xí)以及大數(shù)據(jù)等技術(shù)應(yīng)用于軍事領(lǐng)域時,卻發(fā)現(xiàn)由于缺少數(shù)據(jù)標(biāo)簽或者根本沒有數(shù)據(jù)積累、數(shù)據(jù)來源,導(dǎo)致很多軍事問題難以利用監(jiān)督學(xué)習(xí)的方法。而強化學(xué)習(xí)不需要數(shù)據(jù)標(biāo)簽,其通過持續(xù)地交互“試錯”機制,不斷地“接收狀態(tài)—執(zhí)行動作—獲得收益—調(diào)整策略”,最終獲得最大收益、找到最優(yōu)策略。此種源于行為主義心理學(xué)的學(xué)習(xí)機制,使得以深度強化學(xué)習(xí)解決軍事問題時,解決了沒有數(shù)據(jù)來源、缺少數(shù)據(jù)積累以及數(shù)據(jù)標(biāo)簽的問題。
3.1.2 不需要環(huán)境模型,從而超越經(jīng)驗知識
深度強化學(xué)習(xí)不需要環(huán)境模型,從而使得應(yīng)用深度強化學(xué)習(xí)解決軍事問題超越經(jīng)驗知識。環(huán)境模型即狀態(tài)轉(zhuǎn)移函數(shù),表示在一個狀態(tài)下采取某個動作時,從當(dāng)前狀態(tài)轉(zhuǎn)移到另一狀態(tài)并獲得收益的概率。簡單理解,智能體好比是懂行的專家,其對動作的后續(xù)影響完全知悉。然而,在沒有環(huán)境模型的情況下,強化學(xué)習(xí)通過與環(huán)境交互采樣,得到狀態(tài)、動作、收益的序列,并在收益的引導(dǎo)下糾正錯誤動作、選擇正確動作,依然能夠達(dá)到最優(yōu)的行為。根據(jù)這一原理,AlphaGo Zero 在完全不懂圍棋、也不借助人類經(jīng)驗的情況下,成為圍棋頂尖高手,打敗先前版本的AlphaGo Master 。類似于此,利用深度強化學(xué)習(xí)解決軍事問題,也可能在完全沒有軍事專家指導(dǎo)、沒有軍事經(jīng)驗的情況下,成為精于計算、足智多謀的軍事助手。
3.1.3 不需要提取特征,從而回避特征工程
深度強化學(xué)習(xí)不需要提取特征,從而使得應(yīng)用深度強化學(xué)習(xí)解決軍事問題回避特征工程。傳統(tǒng)的強化學(xué)習(xí)在解決一般任務(wù)時存在以下幾點不足:一是需要根據(jù)具體任務(wù)提取特征,從而轉(zhuǎn)化為有限狀態(tài)空間及有限動作空間;二是提取特征需要人工完成,因而受人為因素的影響較大;三是有的高維任務(wù)或許根本無法轉(zhuǎn)化為有限狀態(tài)空間及動作空間。而深度強化學(xué)習(xí)利用深度神經(jīng)網(wǎng)絡(luò)強大的泛函表示能力,既能夠應(yīng)對連續(xù)狀態(tài)空間和動作空間的任務(wù),又可省去人工提取特征的環(huán)節(jié),從而克服了傳統(tǒng)強化學(xué)習(xí)的不足。運用深度強化學(xué)習(xí)解決軍事問題,不需要對特征提取進行人為選擇,即使面對不同作戰(zhàn)條件、作戰(zhàn)目標(biāo)和作戰(zhàn)意圖,也可基于同一網(wǎng)絡(luò)結(jié)構(gòu)進行訓(xùn)練,提高了網(wǎng)絡(luò)結(jié)構(gòu)的通用性。
雖然利用深度強化學(xué)習(xí)解決軍事問題具有諸多優(yōu)勢和廣闊前景,但與落地應(yīng)用仍有差距,在系統(tǒng)建構(gòu)、訓(xùn)練收斂、算法遷移等方面存在困難。
3.2.1 系統(tǒng)建構(gòu)之難
應(yīng)用深度強化學(xué)習(xí)解決軍事問題,需要開發(fā)平臺、計算平臺、仿真平臺等作為支撐,由此導(dǎo)致實現(xiàn)該方法存在相應(yīng)困難。①源于開發(fā)平臺,人工成本高。雖然利用開發(fā)平臺構(gòu)建智能體,能夠?qū)崿F(xiàn)自動學(xué)習(xí)、智能尋優(yōu),改變傳統(tǒng)仿真方法效率低、時間長等缺點,但編寫智能體專業(yè)性強、工作量大、不易實現(xiàn)。且對于軍事問題,由于戰(zhàn)場環(huán)境的開放性,任務(wù)想定總是處于動態(tài)變化之中,要為不同的想定設(shè)計不同的動作空間、狀態(tài)空間,編寫不同的訓(xùn)練環(huán)境,相當(dāng)于針對一個想定開發(fā)一個“游戲”,由此導(dǎo)致利用深度強化學(xué)習(xí)解決軍事問題仍需要較大人工成本。②源于計算平臺,計算開銷大。利用深度強化學(xué)習(xí)解決復(fù)雜問題需要高性能計算資源支持。例如,深度思維公司訓(xùn)練AlphaGo 圍棋智能體利用了多 達(dá)280 個GPU 和1 920 個CPU[29],訓(xùn) 練OpenAI Five 星際爭霸智能體利用了多達(dá)256 個GPU 和128 000 個CPU[30]。而2020 年中國超級計算排名第三的北京超級云計算中心也僅有192 000 個CPU,2018 年世界超級計算排名第一、2020 年排名第四的“太湖之光”安裝了40 960 個眾核處理器[31]。如此龐大的計算開銷,使得眾多普通的深度強化學(xué)習(xí)研究者望而卻步,限制了深度強化學(xué)習(xí)的軍事應(yīng)用。③源于仿真平臺,導(dǎo)致方法起點要求高。利用深度強化學(xué)習(xí)解決軍事問題,首先需要仿真平臺的支撐,沒有仿真平臺,方法也就無從構(gòu)建。因此,深度強化學(xué)習(xí)的軍事應(yīng)用在硬件支撐上要求更高、條件更嚴(yán)、實現(xiàn)更難。
3.2.2 訓(xùn)練收斂之難
應(yīng)用深度強化學(xué)習(xí)解決軍事問題雖具有可行性,但由于深度強化學(xué)習(xí)本身存在訓(xùn)練效率低、不穩(wěn)定等缺陷,使得探尋最優(yōu)策略需要漫長時間,且收斂存在偶然性。如深度思維公司即便擁有超強的計算資源,但訓(xùn)練OpenAI Five 星際爭霸智能體,也耗時長達(dá)10 個月。在實際軍事問題場景中,裝備實體數(shù)量大幅增加、問題復(fù)雜度成倍提高、時效性要求極其嚴(yán)苛,過長的訓(xùn)練時間直接導(dǎo)致方法不可用。另外,由于收斂的偶然性,訓(xùn)練開始并不能保證最終得到最優(yōu)結(jié)果,往往由于學(xué)習(xí)率過大或過小、網(wǎng)絡(luò)初始模型不適用、激活函數(shù)不合理、“探索—利用”沒有平衡好等因素而失敗。
3.2.3 算法遷移之難
由于深度強化學(xué)習(xí)具有過擬合、難解釋的本質(zhì)缺陷,利用深度強化學(xué)習(xí)解決軍事問題存在遷移困難。其遷移困難首先體現(xiàn)在不同想定之間難遷移。深度強化學(xué)習(xí)是基于環(huán)境的學(xué)習(xí)探索,為使智能體實現(xiàn)獎勵最大化,可以盡量地擬合環(huán)境要求。但若環(huán)境(或想定)稍做調(diào)整變化,經(jīng)過反復(fù)調(diào)試、精心訓(xùn)練,最終收斂得到的智能體就完全失效,須從頭開始、重新訓(xùn)練??梢哉f,基于深度強化學(xué)習(xí)訓(xùn)練的智能體雖然能夠解決某些問題,但只能機械地應(yīng)對,不能靈活地變化。面對多種想定情況,深度強化學(xué)習(xí)智能體不能舉一反三、觸類旁通、實現(xiàn)遷移。其遷移困難還體現(xiàn)在向現(xiàn)實環(huán)境遷移難。深度強化學(xué)習(xí)解決問題的性能非常優(yōu)異,但其只是給出方案“是什么”,至于“為什么”沒有任何信息,因而難以獲得軍事指揮員的理解、信任與采納,阻礙深度強化學(xué)習(xí)的軍事應(yīng)用。
打造仿真平臺是深度強化學(xué)習(xí)軍事應(yīng)用的基礎(chǔ)。當(dāng)前,雖有能夠利用深度強化學(xué)習(xí)的仿真平臺,但基于傳統(tǒng)仿真平臺實現(xiàn)深度強化學(xué)習(xí)軍事應(yīng)用的過程復(fù)雜,智能體的編寫需要耗費大量精力。打造智能軍事仿真平臺,簡化智能體的構(gòu)造及訓(xùn)練過程,是未來研究的重要方向。一是通過標(biāo)準(zhǔn)化的方式,統(tǒng)一智能體的結(jié)構(gòu)。不同類型的智能體,功能要求不一樣,有的智能體用于識別目標(biāo)、有的智能體用于判斷風(fēng)險、有的智能體用于作出決策等。對于不同的智能體,還可能有不同的設(shè)計方法和實現(xiàn)途徑。標(biāo)準(zhǔn)化的目的在于從概念形式上統(tǒng)一各種不同功能、不同技術(shù)途徑的智能體,為簡化智能體的構(gòu)建及部署奠定基礎(chǔ)。二是通過模塊化的方式,簡化智能體的構(gòu)建。集成模塊化的深度神經(jīng)網(wǎng)絡(luò),如卷積神經(jīng)網(wǎng)絡(luò)(CNN)、深度信念網(wǎng)絡(luò)(DBN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短時記憶網(wǎng)絡(luò)(LSTM)等;集成模塊化的強化學(xué)習(xí)算法,如深度Q學(xué)習(xí)算法(DQN)、深度確定性策略梯度算法(DDPG)、近端策略優(yōu)化算法(PPO)、異步的基于優(yōu)勢函數(shù)的“行動器—評判器”算法(A3C)、信賴域策略優(yōu)化算法(TRPO)等;集成模塊化的狀態(tài)輸入與動作輸出。當(dāng)智能體的構(gòu)建、訓(xùn)練及部署較為容易簡便時,就可以為每一個必要的模型賦予智能,從而完成認(rèn)知建模,使得模型“活”起來。如此,模型就可以更加真實地模擬真實情況,也可以更加便捷地進行推演,而不需要每個決策都由參演人員臨時輸入、每個操作都由參演人員人工控制;在推演中有的席位可以直接由智能模型替代,甚至整個藍(lán)方都由智能體扮演,大大減少陪練人員,聚焦關(guān)鍵問題。傳統(tǒng)的計算機兵棋系統(tǒng)將發(fā)生本質(zhì)性改變,實現(xiàn)智能化的升級改造。
深度強化學(xué)習(xí)本身存在采樣效率低、訓(xùn)練時間長等不足,通過構(gòu)建分布式并行訓(xùn)練模式解決軍事問題,從而提高采樣效率、降低時間成本,值得進一步研究探索。許多大規(guī)模分布式強化學(xué)習(xí)架構(gòu),如并行的基于優(yōu)勢函數(shù)的“行動器—評判器”架構(gòu)(Parallel Advantage Actor Critic,PAAC)、重要性加權(quán)的操作者—學(xué)習(xí)者架構(gòu)(Importance Weighted Actor-Learner Architecture,IMPALA)、去中心化的分布式近端策略優(yōu)化架構(gòu)(Decentralized Distributed Proximal Policy Optimization,DDPPO)等,能夠顯著改善單進程的深度強化學(xué)習(xí)在解決大規(guī)模復(fù)雜問題時的性能不足。相關(guān)實驗證明,采用分布式深度強化學(xué)習(xí)玩雅達(dá)利游戲,可以將原來需要幾十個小時甚至十幾天才能達(dá)到人類玩家水平的訓(xùn)練時間,縮短到幾個小時甚至幾分鐘。深度思維公司在分布式深度強化學(xué)習(xí)的啟發(fā)下,研究老鼠多巴胺細(xì)胞的生理機制,發(fā)現(xiàn)大腦中同樣存在分布式架構(gòu)[32],證明分布式深度強化學(xué)習(xí)比標(biāo)準(zhǔn)的深度強化學(xué)習(xí)更加類似于大腦機能,是正確的研究方向。為此,應(yīng)研究構(gòu)建基于分布式深度強化學(xué)習(xí)架構(gòu)的軍事應(yīng)用方法,探究在分布式深度強化學(xué)習(xí)架構(gòu)下仿真平臺及其接口的技術(shù)要求,分析部署分布式深度強化學(xué)習(xí)的硬件需求,評估基于分布式深度強化學(xué)習(xí)架構(gòu)的軍事應(yīng)用的優(yōu)勢,解決基于標(biāo)準(zhǔn)的深度強化學(xué)習(xí)軍事應(yīng)用存在效率低、時間長等不足。
軍事問題十分復(fù)雜,簡單套用游戲中的深度強化學(xué)習(xí)算法,存在難解釋、效率低、過擬合、不穩(wěn)定等本質(zhì)缺陷,如何有效利用知識是深度強化學(xué)習(xí)軍事應(yīng)用研究的重要突破方向。近年來,深度強化學(xué)習(xí)誕生很多前沿研究方向,如分層深度強化學(xué)習(xí)、深度逆向強化學(xué)習(xí)、多任務(wù)遷移深度強化學(xué)習(xí)、多智能體深度強化學(xué)習(xí)、基于記憶與推理的深度強化學(xué)習(xí)等,其中很多研究方向都試圖把知識融進深度強化學(xué)習(xí),以期實現(xiàn)符號主義、聯(lián)結(jié)主義、行為主義的結(jié)合。如分層深度強化學(xué)習(xí)的基本思想是將一個復(fù)雜問題分解為若干個容易解決的子問題,通過子問題的解決策略,得出整體問題的最優(yōu)策略。由于問題分解、劃分層次通常是由人工完成,這就需要特定領(lǐng)域的知識和技巧,以促進更好的學(xué)習(xí)效果。深度逆向強化學(xué)習(xí)的基本思想是針對獎勵函數(shù)難以獲得問題,通過專家示例反推得到獎勵函數(shù),進而利用獎勵函數(shù)引導(dǎo)獲得最優(yōu)策略。由于逆向強化學(xué)習(xí)以專家示例為榜樣,同樣需要特定領(lǐng)域的知識。多任務(wù)遷移深度強化學(xué)習(xí)的基本思想是為解決傳統(tǒng)的深度強化學(xué)習(xí)只能應(yīng)對單一任務(wù)、單一環(huán)境,只要任務(wù)或者環(huán)境稍有變化,之前的學(xué)習(xí)結(jié)果就會失效,泛化性能差的問題,通過將知識從源任務(wù)遷移到目標(biāo)任務(wù),從而使得智能體更好適應(yīng)新的任務(wù)場景?;谟洃浥c推理的深度強化學(xué)習(xí)的基本思想是針對傳統(tǒng)的深度強化學(xué)習(xí)模型不具備記憶、認(rèn)知、推理等高層次能力的問題,加入外部記憶組件,使得智能體具有初步的主動認(rèn)知與推理能力,從而提高智能體性能。知識是人類認(rèn)識世界的成果,是“去偽存真,去粗存精”的總結(jié)凝練,是“透過現(xiàn)象看本質(zhì)”的規(guī)律把握,比起一般數(shù)據(jù)和信息更有價值。通過融入知識,實現(xiàn)符號主義、聯(lián)結(jié)主義、行為主義的貫通,智能體在性能上均有提升,為深度強化學(xué)習(xí)的軍事應(yīng)用提供了有益借鑒。
深度強化學(xué)習(xí)具有突出的決策規(guī)劃能力,是軍事智能化的關(guān)鍵技術(shù)基礎(chǔ),在軍事領(lǐng)域具有廣闊應(yīng)用前景。應(yīng)用深度強化學(xué)習(xí)解決軍事問題既有擺脫數(shù)據(jù)標(biāo)記、超越經(jīng)驗知識、回避特征工程等技術(shù)優(yōu)勢,也有系統(tǒng)建構(gòu)、訓(xùn)練收斂、算法遷移等方面不足。應(yīng)進一步加強深度強化學(xué)習(xí)軍事應(yīng)用研究,堅持以軍事需求為牽引,以技術(shù)進步為推動,努力將深度強化學(xué)習(xí)的突出性能轉(zhuǎn)化為軍事博弈的決策優(yōu)勢,為未來戰(zhàn)爭制勝“OODA”環(huán)奠定基礎(chǔ)。