• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      聯(lián)合戰(zhàn)役仿真環(huán)境對強化學習的挑戰(zhàn)

      2023-09-20 11:25:52胡曉峰
      計算機仿真 2023年8期
      關(guān)鍵詞:戰(zhàn)役戰(zhàn)場決策

      李 東,許 霄,吳 琳, 胡曉峰

      (國防大學聯(lián)合作戰(zhàn)學院,北京 100091)

      1 引言

      隨著DeepMind公司相繼在Atari游戲[1]和圍棋[3]中取得超過人類水平,以深度強化為代表的智能決策技術(shù)吸引了學術(shù)界和工業(yè)界的廣泛關(guān)注。決策問題正成為繼計算、感知后人工智能領(lǐng)域新的研究前沿陣地。

      作為軍事指揮訓練和作戰(zhàn)問題分析的重要平臺,作戰(zhàn)仿真模擬系統(tǒng)(也稱兵棋)已成為各軍事大國研究的主要途徑之一[2]。由于歷史和學科發(fā)展原因,兵棋系統(tǒng)當前主要用于對傳統(tǒng)作戰(zhàn)理論和試驗方法的補充,即使用主體是人。將智能決策方法應(yīng)用于戰(zhàn)役推演環(huán)境的研究方興未艾。

      本文以聯(lián)合戰(zhàn)役推演仿真環(huán)境作為基礎(chǔ)平臺,從戰(zhàn)役決策問題本身出發(fā),結(jié)合聯(lián)合戰(zhàn)役仿真的特點,探討將基于深度強化學習的決策技術(shù)應(yīng)用到作戰(zhàn)決策這一特殊問題的可能性,以及面臨的困難和挑戰(zhàn),為智能決策在作戰(zhàn)指揮中的研究提供參考。

      2 相關(guān)背景

      在取得圍棋戰(zhàn)勝人類頂級選手的里程碑式的成果后,DeepMind團隊瞄準了多智能體實時交互這一領(lǐng)域,依靠自身在深度強化學習領(lǐng)域的技術(shù)積累以及Google公司強大的計算資源,一直引領(lǐng)著星際爭霸2智能技術(shù)的突破,其開發(fā)的智能體AlphaStar[3]于2019年取得了戰(zhàn)勝人類職業(yè)選手的輝煌成績,成為第一個采用端到端的學習技術(shù)達到此水準的計算機程序。在深度強化學習取得矚目之前,參加星際爭霸游戲AI賽事的隊伍們大多使用基于規(guī)則的技術(shù)嘗試打敗游戲內(nèi)置程序,普遍達不到人類專業(yè)電競選手的水準。

      作戰(zhàn)決策問題的研究一般基于作戰(zhàn)仿真平臺,按照仿真層次可分為戰(zhàn)略級、戰(zhàn)役級、戰(zhàn)術(shù)級和武器平臺級仿真。其中,基于計算機生成兵力(CGF)的戰(zhàn)術(shù)級智能決策技術(shù)研究較為充分,可大致分為兩類:面向知識工程的方法和基于傳統(tǒng)機器學習的方法[4],如表1所示。知識工程的方法以專家系統(tǒng)為代表,在領(lǐng)域知識構(gòu)建的規(guī)則集上采用模糊推理和決策樹等技術(shù),指導智能體產(chǎn)生行動。這些方法所采用的具體決策技術(shù)不盡相同,但共同缺點是規(guī)則組織難以維護,拓展性不強。基于傳統(tǒng)機器學習的方法被用到一些電子游戲,采用樹搜索、人工神經(jīng)網(wǎng)絡(luò)、基于上下文推理等技術(shù),從收集的經(jīng)驗數(shù)據(jù)訓練模型指導決策輸出。這些方法的共同缺點是高度依賴訓練數(shù)據(jù),泛化能力弱,難以應(yīng)對新情況。兩種主要技術(shù)途徑的局限阻礙了軍事智能決策技術(shù)進一步應(yīng)用更高的層次和更復雜的場景。

      表1 傳統(tǒng)智能決策技術(shù)及其局限

      盡管強化學習及一般的人工智能方法在作戰(zhàn)決策領(lǐng)域已有不少運用,但多是在軍種和戰(zhàn)術(shù)層級上進行的[5-7]。戰(zhàn)術(shù)層級的決策及控制問題由于狀態(tài)單一、動作可數(shù)、因果直接、反饋即時等原因,邊界比較容易界定,給深入研究提供了很好的環(huán)境。而與之相對地,戰(zhàn)役層級的決策問題狀態(tài)廣袤、動作眾多、反饋延遲等因素,原因不僅在于戰(zhàn)場規(guī)模及復雜度的增大,還在于高層決策本身的過程有其獨特特點。聯(lián)合戰(zhàn)役層級相對于軍種戰(zhàn)術(shù)層級決策,決策層級變高,變量規(guī)模增大,以及過程的復雜性都給決策的智能化帶來極大挑戰(zhàn),而且針對不同作戰(zhàn)場景有多種個性化研究的需求,有進一步研究的空間。

      3 聯(lián)合戰(zhàn)役仿真推演環(huán)境

      聯(lián)合戰(zhàn)役仿真旨在利用計算機仿真技術(shù),還原戰(zhàn)役進程。聯(lián)合戰(zhàn)役仿真在仿真層級上處于中間位置,決定了它相對于純戰(zhàn)術(shù)仿真的抽象性,以及較戰(zhàn)略仿真的具體性。一般認為,戰(zhàn)役級仿真的層次應(yīng)與其訓練戰(zhàn)役指揮員的目的保持一致,即避免底層過多的戰(zhàn)術(shù)動作,因戰(zhàn)役指揮員不能指揮到一機一艦;同時不能省略必要的體現(xiàn)戰(zhàn)術(shù)素養(yǎng)的交戰(zhàn)過程,才能客觀反映戰(zhàn)爭的行進。

      文獻[2]定義了戰(zhàn)爭模擬的基本元素:實體、行動和交互,在聯(lián)合戰(zhàn)役仿真層面的特點可以概況為實體多樣、行為異質(zhì)和交互復雜,下面依次簡述。

      一般認為,由兩個以上軍種戰(zhàn)役軍團共同實施的戰(zhàn)役稱為聯(lián)合戰(zhàn)役。相應(yīng)地,仿真實體應(yīng)涵蓋兩個以上軍種戰(zhàn)役兵團,必然涉及多種性能差異較大的實體。

      聯(lián)合戰(zhàn)役仿真一般模擬地面、空中、海上、情報和后勤行動的實施。為了模擬相對完整的聯(lián)合作戰(zhàn)進展,各作戰(zhàn)活動應(yīng)涵蓋以下基本功能。

      從表2中可以看出,不同行動在時間和空間維度差異性較大。當所有活動在同一世界觀下進行時,必然呈現(xiàn)行動效果的緩急差異。例如同樣是一小時時間,地面部隊可能只能移動40公里,而空中任務(wù)可以在幾千公里的廣闊疆域上來回幾趟。而海上單位可能移動更小。大部分地面或海上單位可能處于靜止狀態(tài)。情報后勤對戰(zhàn)場態(tài)勢的影響可能滯后或者不明顯。這些行動效果的差異正是對客觀世界的模擬造成的,反過來也影響在這樣的世界觀下進行的決策。

      表2 聯(lián)合戰(zhàn)役仿真行動

      在兵力交互方面,大型兵棋系統(tǒng)內(nèi)部涉及眾多參戰(zhàn)兵力,交互過程異常復雜,一般采用離散事件仿真機制對交戰(zhàn)結(jié)果進行等效,以此改變戰(zhàn)場的形態(tài)。離散事件仿真方法用事件隊列維持事件的生命周期,所有事件按事件順序發(fā)生效果,將結(jié)果依次輸出。當事件處理服務(wù)速度低于事件產(chǎn)生速度時就會出現(xiàn)排隊現(xiàn)象,一般大量事件的涌入會造成交互效果的延遲。

      4 對強化學習的挑戰(zhàn)

      從上節(jié)描述可以看出,聯(lián)合戰(zhàn)役仿真環(huán)境與即時策略游戲有很多共同點:大規(guī)模的狀態(tài)和動作空間,復雜的任務(wù)完成設(shè)定以及需要長程決策等。受到AlphaStar等一些強化學習智能體在即時策略游戲中的啟發(fā),也嘗試將類似的方法遷移到戰(zhàn)役決策中來,然而實踐并非一帆風順。本節(jié)結(jié)合強化學習問題設(shè)定和聯(lián)合戰(zhàn)役仿真的基本特點,梳理戰(zhàn)役決策對強化學習的挑戰(zhàn)。

      4.1 連續(xù)的狀態(tài)空間和動作空間

      聯(lián)合戰(zhàn)役仿真是對發(fā)生在現(xiàn)實世界中的戰(zhàn)爭活動進行模擬,整個戰(zhàn)場不僅包含多種異構(gòu)的作戰(zhàn)單元和目標,還包含多種地形和天氣信息,實體與實體之間、實體與環(huán)境之間的交互比較復雜,整個狀態(tài)變化接近連續(xù)。由于戰(zhàn)爭迷霧的影響,參戰(zhàn)一方往往只能感知局部戰(zhàn)場態(tài)勢,并且感知范圍隨著偵察能力變化而變化。從對戰(zhàn)場環(huán)境施加影響方面看,能做出動作的作戰(zhàn)單元差異巨大,有的能對局部戰(zhàn)場造成顯著影響,大部分只能影響其作用對象,通常是另一個作戰(zhàn)單元或目標。

      站在強化學習角度,代替作戰(zhàn)指揮的智能體所面臨的狀態(tài)空間可用全部參戰(zhàn)單元和戰(zhàn)場環(huán)境的高維向量表示。由戰(zhàn)爭迷霧帶來的直接影響是只能建模部分可觀測的戰(zhàn)場狀態(tài)。而智能體作用于環(huán)境的動作則包含所有能做出行動的作戰(zhàn)單元,以及行動參數(shù),這些行動種類及參數(shù)共同構(gòu)成巨大的動作空間。高維狀態(tài)空間和多維離散動作空間對智能體策略學習帶來可計算性的挑戰(zhàn)。目前學術(shù)界前沿未見類似的強化學習環(huán)境作為基線。

      4.2 狀態(tài)變化的不確定性和獎勵的模糊性

      強化學習中的模型是對環(huán)境的高度抽象,最重要的兩個功能是給出狀態(tài)轉(zhuǎn)移和釋放獎勵信號。然而這兩項基本功能在聯(lián)合戰(zhàn)役仿真環(huán)境下都是默認缺失的。

      由于戰(zhàn)役仿真層次的抽象性和全局性,很難就整場態(tài)勢在具體動作的情況下發(fā)生轉(zhuǎn)移建立模型。聯(lián)合戰(zhàn)役仿真中,作戰(zhàn)實體的交互通常只在瞬間改變相關(guān)實體的實力狀態(tài),但從長遠看可能對戰(zhàn)場態(tài)勢造成重要影響,例如通信樞紐的毀傷可能影響下級作戰(zhàn)單元的相應(yīng)速度。但將其建模為可用的狀態(tài)轉(zhuǎn)移概率或者函數(shù)面臨以下困難:1)狀態(tài)表示問題,將戰(zhàn)役全局態(tài)勢表示成可轉(zhuǎn)移的統(tǒng)一形式是前提,而全局態(tài)勢的時空多樣性和由感知真實帶來的不完全性又給統(tǒng)一表示帶來難題。2)狀態(tài)變化的機理問題,在態(tài)勢的統(tǒng)一描述下,難點在于如何解決局部態(tài)勢變化受因果機理支配進而對全局態(tài)勢的影響。3)交互效果的不定期延遲,來源為觀測狀態(tài)的延遲和動作實施的延遲。4)建模的不確定性和隨機性對狀態(tài)變化的影響,主要是戰(zhàn)役仿真引擎內(nèi)部對于交互的處理,加入了隨機性因素和近似的等效化處理。

      在獎勵信號釋放方面,戰(zhàn)役決策中呈現(xiàn)模糊、延遲和可變的性質(zhì)。獎勵信號指引著強化學習智能體學習的方向,而戰(zhàn)役決策通常由作戰(zhàn)企圖牽引,細化為作戰(zhàn)目的,具體分解為一系列作戰(zhàn)任務(wù)。表面看可用這些作戰(zhàn)任務(wù)的完成度來近似戰(zhàn)役決策的獎勵信號,但對智能體做出的行動很難具體量化以及其對作戰(zhàn)目的貢獻度。由上述討論可知,戰(zhàn)役決策帶來的不同領(lǐng)域的行動在時間上及空間上差異巨大,本身很難再同一量級下衡量其對戰(zhàn)役任務(wù)完成的貢獻。此外,異質(zhì)行動混在一起帶來的另外一個問題是獎勵分配問題(credit assignment problem):如何分配不同性質(zhì)的行動對同一作戰(zhàn)目的的貢獻度?例如一方發(fā)射導彈毀傷了對方的重要目標,前提是一個小時前派出的電子偵察機偵察到了該目標的存在,如何量化偵察部隊和導彈部隊的貢獻?

      在一定獎勵信號可用的情況下,由于作戰(zhàn)決策下達到作戰(zhàn)任務(wù)完成可能持續(xù)很長時間,該獎勵被高度延遲。其中,戰(zhàn)役仿真的獨特性體現(xiàn)在仿真機制的一定自主性以及作戰(zhàn)行動交互效果的延遲性上。戰(zhàn)場態(tài)勢并非因指揮員做出決策而直接發(fā)生變化,戰(zhàn)場態(tài)勢經(jīng)歷決策-行動-交互的過程更加漫長。

      更嚴重的是,作戰(zhàn)目的本身往往隨戰(zhàn)役進程的推進而改變。改變的動力可能來自指揮員,也可能來自戰(zhàn)場態(tài)勢本身的突變。在目標可變情況下的強化學習本身是一個待突破的科學問題。

      4.3 決策過程的非馬爾科夫性

      馬爾科夫決策過程(MDP)為形式化強化學習問題提供了一般的數(shù)學基礎(chǔ)。其中,狀態(tài)轉(zhuǎn)移的馬爾科夫假設(shè)為強化學習提供了“一步一積累”的理想情況,反映了行動如何影響回報,進而為累積回報最大的目標提供一般的計算原則。其背后存在行為改變狀態(tài)的單一因果律。然而該假設(shè)在真實世界中往往不成立,在戰(zhàn)役仿真環(huán)境中尤其如此。主要體現(xiàn)在:1)戰(zhàn)役進程的驅(qū)動因素問題,戰(zhàn)役進程的發(fā)展表面是受參戰(zhàn)方各自行動及其交互的影響,而參戰(zhàn)方行動受各自企圖以及作戰(zhàn)規(guī)劃影響。2)作戰(zhàn)任務(wù)之間的路徑依賴較為普遍,復雜任務(wù)的完成得以一系列子任務(wù)按照嚴格次序完成。

      還有一些任務(wù)是持續(xù)性的,例如偵察。決策的執(zhí)行只是觸發(fā)該任務(wù)的起點,但發(fā)揮作用的時間卻是隨機的,有時根據(jù)戰(zhàn)場態(tài)勢自行改變?nèi)蝿?wù)狀態(tài),進而對戰(zhàn)場環(huán)境產(chǎn)生持續(xù)性影響。對于這類任務(wù)的決策邏輯很難被智能體學習到。

      4.4 決策過程的非均勻性

      在聯(lián)合戰(zhàn)役推演中,因雙方兵種、實力、武器平臺等帶來的不對稱作戰(zhàn),再加上戰(zhàn)場對抗激烈程度不一,大部分時間無需頻繁決策。以3.3中描述的戰(zhàn)役三個階段為例,除第二階段直接對抗以外,第一、三階段的大部分時間無需決策。而一旦需要頻繁決策,智能體無法在單個時間步長內(nèi)控制大量單位執(zhí)行不同類型的動作,這里既有仿真模型的限制,也有不同類型的動作所需時間差異大的問題。而為了規(guī)避此問題采用全場高頻決策會帶來大量沒有反饋的空動作。另外,戰(zhàn)役級仿真模型一般因采用離散事件仿真機制,若決策頻率高于仿真模型調(diào)度事件的頻率,則決策毫無意義。

      決策過程的非均勻性導致了智能體除了要學習決策內(nèi)容本身,理論上還要學習何時以何種頻率進行決策,而后者相對于前者具有超越性,相當于在兩個維度上同時進行學習,增加了策略優(yōu)化的難度。如果推演過程的這種快慢決策具有一定模式,例如都是圍繞3.3中的三個階段固定模式進行推演,兩個維度的學習并非不可能。然而這樣的限定無疑與決策的泛化性要求背道而馳。

      4.5 智能體訓練難題

      游戲智能中大量運用的有監(jiān)督預訓練、分布式訓練、自我對抗(self-play)、聯(lián)盟技術(shù)(league)等智能體訓練方法對于聯(lián)合戰(zhàn)役仿真推演環(huán)境同樣存在難以適配問題。

      首先,戰(zhàn)役仿真推演由于推演目的、想定等因素,未能有效積累高質(zhì)量決策樣本,難以提供有監(jiān)督預訓練的樣本。對既定想定和場景,受專業(yè)性要求,人工標注決策過程的代價無法估計。

      其次,大規(guī)模分布式訓練是游戲智能領(lǐng)域中的基本手段,而戰(zhàn)役仿真引擎受管理約束無法在在商用訓練云中大規(guī)模展開訓練。單位自建訓練環(huán)境相對于戰(zhàn)役層決策智能體訓練的復雜程度,難以讓有限的經(jīng)費發(fā)揮作用。

      自我對抗的訓練模式同樣無法實現(xiàn)。典型場景下參與對抗的作戰(zhàn)雙方由于歷史和現(xiàn)實需求,通常配備較大差異的作戰(zhàn)裝備和能力,動作空間有顯著的非對稱性,無法直接應(yīng)用自我對抗的訓練方式。非對稱的智能體也限制了大規(guī)模的聯(lián)盟訓練技術(shù)。

      5 可能的解決方案

      針對在廣袤的狀態(tài)空間和動作空間中學習難題,分層強化學習提供了一條可能的道路:壓縮問題空間到可解的程度。無論是從狀態(tài)或動作垂直分層的指揮控制角度,還是以目標牽引的時序抽象角度,都可以找到合適的途徑解決部分問題。但基本維持在無模型的基于交互進行學習。

      戰(zhàn)役仿真環(huán)境帶來更本質(zhì)的挑戰(zhàn)在于模型本身,例如戰(zhàn)場狀態(tài)變化帶來的不確定性以、獎勵的模糊性、決策過程的非馬爾科夫性和非均勻性等問題,只能從環(huán)境模型層面加以解決。對于未知模型,大致可分為構(gòu)造模型和學習模型兩種途徑,前者需要進一步提煉仿真經(jīng)驗,而后者需要大量高質(zhì)量數(shù)據(jù),是戰(zhàn)役推演所欠缺的。重構(gòu)精簡環(huán)境模型的另一好處是進一步壓縮問題規(guī)模,使得訓練成本降低,但需要領(lǐng)域?qū)<医Y(jié)合學習特點進行建模。

      6 結(jié)論

      本文從梳理了當前軍事智能決策的研究現(xiàn)狀,以及將智能化方法運用到戰(zhàn)役決策的前景,從聯(lián)合戰(zhàn)役仿真推演環(huán)境的描述出發(fā),分析了將強化學習應(yīng)用到戰(zhàn)役決策所面臨的挑戰(zhàn)。這些挑戰(zhàn)來源于強化學習的問題設(shè)定和戰(zhàn)役推演環(huán)境運行之間的鴻溝,并就可能的解決方案進行了探討。這些問題不少是在將深度強化學習技術(shù)運用到戰(zhàn)役層決策的實踐活動中總結(jié)而來,旨在闡明問題的科學屬性,并為類似的嘗試提供一定的參考。

      猜你喜歡
      戰(zhàn)役戰(zhàn)場決策
      戰(zhàn)場上的神來之筆
      為可持續(xù)決策提供依據(jù)
      C-130:戰(zhàn)場多面手
      貼秋膘還有三秒到達戰(zhàn)場
      意林(2020年20期)2020-11-06 04:06:14
      戰(zhàn)役中的你
      黃河之聲(2020年5期)2020-05-21 08:24:38
      決策為什么失誤了
      也門,西方反恐的第三戰(zhàn)場
      備而不發(fā),功不可沒——評抗美援朝“第六次戰(zhàn)役”
      軍事歷史(1998年6期)1998-08-21 03:00:46
      關(guān)于抗美援朝出兵決策的幾點認識
      軍事歷史(1997年5期)1997-08-21 02:36:06
      搶占三所里 阻敵建奇功——憶抗美援朝二次戰(zhàn)役穿插作戰(zhàn)中的先遣團
      軍事歷史(1996年1期)1996-08-20 07:15:34
      白玉县| 陆丰市| 秭归县| 镇赉县| 莆田市| 定结县| 拉萨市| 萨迦县| 新闻| 巫溪县| 阿合奇县| 明溪县| 方正县| 鄱阳县| 夏河县| 工布江达县| 如东县| 屯留县| 武隆县| 苏州市| 左云县| 牙克石市| 临湘市| 衡山县| 芜湖市| 新建县| 仙居县| 同心县| 苗栗县| 周至县| 太仆寺旗| 项城市| 县级市| 绥中县| 庆元县| 曲靖市| 潜江市| 东城区| 弥渡县| 昂仁县| 盐池县|