• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      群隊(duì)級(jí)兵棋實(shí)體智能行為決策方法研究

      2022-08-17 09:44:50張宏軍徐有為馮欣亮馮玉芳
      關(guān)鍵詞:兵棋棋子決策

      劉 滿, 張宏軍, 徐有為, 馮欣亮, 馮玉芳

      (1. 陸軍工程大學(xué)指揮控制工程學(xué)院, 江蘇 南京 210007; 2. 中國(guó)人民解放軍73131部隊(duì), 福建 漳州 363000;3. 陸軍步兵學(xué)院, 江西 南昌 330000; 4. 中國(guó)人民解放軍71375部隊(duì), 黑龍江 哈爾濱 150000)

      0 引 言

      多智能體(agent)對(duì)抗系統(tǒng)的動(dòng)作空間復(fù)雜度隨智能體的個(gè)數(shù)呈指數(shù)增長(zhǎng),這導(dǎo)致了多智能體集中控制的學(xué)習(xí)異常困難。騰訊推出的“絕悟”支持王者榮耀1v1全部角色,需要使用1 064塊NVIDIA GPU訓(xùn)練超過70 h。DeepMind推出的“AlphaStar”支持星際爭(zhēng)霸Ⅱ整場(chǎng)游戲,使用了384塊TPU訓(xùn)練超過44天。然而,對(duì)于普通研究機(jī)構(gòu),很難擁有這些超大規(guī)模的計(jì)算資源。計(jì)算機(jī)兵棋推演平臺(tái)能夠?qū)硨?duì)雙方或多方的軍事行動(dòng)進(jìn)行隨機(jī)性模擬,為軍事智能決策的研究提供貼近真實(shí)戰(zhàn)爭(zhēng)的決策背景和試驗(yàn)環(huán)境。兵棋推演是典型的多智能體決策環(huán)境,指揮員(兵棋玩家)控制多個(gè)同類型或者不同類型的作戰(zhàn)實(shí)體(棋子),使之能夠協(xié)同配合,達(dá)到整體的作戰(zhàn)目標(biāo)。在戰(zhàn)術(shù)級(jí)兵棋對(duì)抗中,深度強(qiáng)化學(xué)習(xí)開始得到應(yīng)用,因訓(xùn)練難度和計(jì)算資源的限制,目前只實(shí)現(xiàn)2個(gè)同類型棋子的控制,且決策場(chǎng)景單一,無(wú)法直接遷移。對(duì)于群隊(duì)級(jí)兵棋對(duì)抗平臺(tái),單方約有50個(gè)左右的棋子需要控制(人類一般需由5個(gè)人組成小隊(duì)聯(lián)合控制),這種大量作戰(zhàn)實(shí)體的聯(lián)合行為決策給人工智能技術(shù)帶來(lái)了極大的挑戰(zhàn)。

      傳統(tǒng)的計(jì)算機(jī)生成兵力(computer generated forces, CGF)對(duì)仿真中的虛擬實(shí)體進(jìn)行行為控制,它借鑒了很多人工智能(artificial intelligence, AI)領(lǐng)域中基于知識(shí)驅(qū)動(dòng)的決策方法,如有限狀態(tài)機(jī)(finite state machine, FSM)和行為樹(behavior tree, BT)等。但是這種決策模型主要從定性分析的角度,以邏輯推理的方法得到行為輸出,其模式比較固定,對(duì)態(tài)勢(shì)變化的響應(yīng)不靈敏,缺乏類人的靈活性。

      兵棋推演的復(fù)盤數(shù)據(jù)蘊(yùn)含了較多的態(tài)勢(shì)信息和策略信息,可以為兵棋的定量決策提供信息支撐。但是,這種高維、數(shù)量巨大的數(shù)據(jù)并不能直接使用,必須要經(jīng)過特征提取等方式,才能得到人們?nèi)菀桌斫獾男畔ⅰ`崟热颂岢隽艘环N棧式稀疏降噪自編碼深度學(xué)習(xí)網(wǎng)絡(luò)模型,用于兵棋演習(xí)數(shù)據(jù)特征提取,取得較好的分類精度。張可等人設(shè)計(jì)了關(guān)鍵點(diǎn)推理遺傳模糊系統(tǒng)框架,有效整合了兵棋專家知識(shí)的建模和兵棋復(fù)盤數(shù)據(jù)的學(xué)習(xí),從而提高了關(guān)鍵點(diǎn)的推理質(zhì)量。Pan等人提出基于信息素的兵棋敵方位置估計(jì)算法,分析地形、威脅等因素,建立8類信息素,最終通過合成信息素值,預(yù)測(cè)敵方棋子可能的位置,取得了top-3的預(yù)測(cè)準(zhǔn)確率為70%。借助于這些量化信息或特征的提取方法,一些基于量化決策的兵棋AI智能框架被提了出來(lái)。田忠良等人設(shè)計(jì)了以多智能體協(xié)同進(jìn)化為設(shè)計(jì)理念的群體智能優(yōu)化算法,解決多智能體、多攻擊目標(biāo)的火力分配問題,從而輔助指揮員決策。劉滿等人通過挖掘兵棋復(fù)盤數(shù)據(jù),提取多個(gè)位置評(píng)價(jià)的指標(biāo)用于棋子的位置選擇,提出了完整的決策框架,設(shè)計(jì)的兵棋AI展現(xiàn)了較好的智能性。量化分析有效整合了復(fù)盤數(shù)據(jù)中的歷史信息和當(dāng)前的態(tài)勢(shì)信息,具有較高的靈活性和魯棒性,但是這種決策方法需要大量高質(zhì)量的人工復(fù)盤數(shù)據(jù),這一前提條件往往很難滿足。

      本文提出了知識(shí)與數(shù)據(jù)互補(bǔ)的行為決策方法,有效利用人類專家先驗(yàn)知識(shí)和基于兵棋數(shù)據(jù)的量化數(shù)據(jù)進(jìn)行綜合決策。特別是對(duì)于群隊(duì)級(jí)這種大規(guī)模作戰(zhàn)實(shí)體聯(lián)合決策的情況,進(jìn)行了針對(duì)性改進(jìn),提出了按實(shí)體類型分組決策、作戰(zhàn)目標(biāo)指引、位置評(píng)價(jià)指標(biāo)并行計(jì)算等方法。最終,設(shè)計(jì)了適用于營(yíng)級(jí)規(guī)模作戰(zhàn)實(shí)體的行為決策框架,并實(shí)現(xiàn)了一個(gè)群隊(duì)級(jí)兵棋AI,實(shí)驗(yàn)結(jié)果表明,此AI具有較強(qiáng)的靈活性和遷移能力。

      1 兵棋行為決策算法

      1.1 群隊(duì)級(jí)兵棋推演及其行為決策

      兵棋是運(yùn)用規(guī)則、數(shù)據(jù)和階段描述實(shí)際或假定的態(tài)勢(shì),對(duì)敵對(duì)雙方或多方的軍事行動(dòng)進(jìn)行模擬的統(tǒng)稱,是分析戰(zhàn)爭(zhēng)的重要手段。陸軍戰(zhàn)術(shù)級(jí)兵棋是指單方兵力規(guī)模在營(yíng)及以下的兵棋系統(tǒng),一般可以分為分隊(duì)級(jí)和群隊(duì)級(jí)。分隊(duì)級(jí)的兵力一般由連級(jí)規(guī)模的多種作戰(zhàn)力量組成,包括10個(gè)以下棋子(1個(gè)棋子代表1個(gè)班組或1個(gè)排)。群隊(duì)級(jí)的兵力一般為營(yíng)級(jí)規(guī)模的多種作戰(zhàn)力量組成,包括多個(gè)分隊(duì)級(jí)兵力和配屬力量(炮兵、空中力量),棋子個(gè)數(shù)一般在50個(gè)左右。因?yàn)樾枰刂频钠遄訑?shù)量較大,且沒有大量的人類復(fù)盤數(shù)據(jù)供監(jiān)督學(xué)習(xí),群隊(duì)級(jí)兵棋智能體決策是人機(jī)博弈領(lǐng)域有待攻克的挑戰(zhàn)。

      因地形遮擋和觀察距離的限制,棋子很多時(shí)候不能被對(duì)方觀察到,因此不完全態(tài)勢(shì)是戰(zhàn)術(shù)級(jí)兵棋的典型特點(diǎn)。戰(zhàn)術(shù)級(jí)兵棋智能決策的主要內(nèi)容是根據(jù)盤面上的不完全態(tài)勢(shì),判斷決策出作戰(zhàn)實(shí)體的行動(dòng)。該實(shí)體行動(dòng)具有4個(gè)明顯的特點(diǎn):規(guī)則性、目的性、位置主導(dǎo)和高度協(xié)同。規(guī)則性是指實(shí)體行動(dòng)必須遵循兵棋系統(tǒng)所有的規(guī)則;目的性是指實(shí)體行動(dòng)必須以作戰(zhàn)目標(biāo)(如奪控某個(gè)位置)為導(dǎo)向;位置主導(dǎo)是指實(shí)體必須依靠合適的地形、地物才能保護(hù)自己并發(fā)揮武器效能;高度協(xié)同是指各作戰(zhàn)實(shí)體間必須相互配合協(xié)同作戰(zhàn)。因此,戰(zhàn)術(shù)級(jí)兵棋智能決策是“多實(shí)體在兵棋規(guī)則的限制下,高度協(xié)同配合,在合適的時(shí)間,棋子能夠移動(dòng)到具有戰(zhàn)術(shù)優(yōu)勢(shì)的地點(diǎn),對(duì)敵人實(shí)施打擊,最終完成作戰(zhàn)目的”。

      按問題的量化程度,決策可以分為定性決策和定量決策。定性決策是指決策問題的諸因素不能用確切的數(shù)據(jù)表示,只能進(jìn)行定性分析的決策。定量決策是指決策問題能量化成數(shù)學(xué)模型并可進(jìn)行定量分析的決策。戰(zhàn)術(shù)級(jí)兵棋的具體原子動(dòng)作可以表示為動(dòng)作名稱和動(dòng)作參數(shù)的聯(lián)合,根據(jù)有無(wú)動(dòng)作參數(shù)和動(dòng)作參數(shù)的復(fù)雜程度,可以將棋子的動(dòng)作分為宏觀動(dòng)作和微觀動(dòng)作,宏觀動(dòng)作是指動(dòng)作的組合、參數(shù)未知的虛動(dòng)作或簡(jiǎn)單參數(shù)的動(dòng)作,微觀動(dòng)作是指具有復(fù)雜參數(shù)的動(dòng)作。一般來(lái)說(shuō),宏觀動(dòng)作不需要求解復(fù)雜的動(dòng)作參數(shù),可以從定性決策的角度,以態(tài)勢(shì)信息為判斷條件,利用專家知識(shí)和兵棋規(guī)則進(jìn)行推理得出;而微觀動(dòng)作需要求解復(fù)雜的動(dòng)作參數(shù),如機(jī)動(dòng)終點(diǎn)、機(jī)動(dòng)路線、射擊目標(biāo)等,可以從定量決策的角度,對(duì)兵棋數(shù)據(jù)進(jìn)行數(shù)學(xué)計(jì)算,利用量化評(píng)估的方式選出離散的動(dòng)作參數(shù)??梢?宏觀動(dòng)作和微觀動(dòng)作并沒有明顯的區(qū)分界限,二者關(guān)注動(dòng)作的方式不一樣,宏觀動(dòng)作關(guān)注的是動(dòng)作名稱,即要不要執(zhí)行某個(gè)動(dòng)作,而微觀動(dòng)作關(guān)注的是動(dòng)作的復(fù)雜參數(shù),即動(dòng)作的具體內(nèi)容。

      1.2 基于知識(shí)驅(qū)動(dòng)的決策算法

      兵棋行為決策中的知識(shí)是指人類在長(zhǎng)時(shí)間的兵棋推演中認(rèn)識(shí)和總結(jié)的行為規(guī)律和制勝方法,它能以戰(zhàn)法、策略等形式用文字概略描述出來(lái)。編程人員可以和兵棋專家合作,將這些戰(zhàn)法和策略進(jìn)行梳理、分解,形成領(lǐng)域知識(shí)庫(kù),并以邏輯推理的形式模仿專家的推理進(jìn)行決策。

      基于知識(shí)的推理是AI技術(shù)最早期的經(jīng)典方法之一,它通過專家知識(shí)構(gòu)建的規(guī)則庫(kù),用邏輯的方式實(shí)現(xiàn)決策,是符號(hào)主義的代表。FSM和BT的模型構(gòu)建比較簡(jiǎn)單,易于維護(hù),在CGF和游戲的行為控制中得到廣泛應(yīng)用。

      FSM是具有基本內(nèi)部記憶功能的抽象機(jī)器模型,表示有限離散狀態(tài)以及這些狀態(tài)之間轉(zhuǎn)移的數(shù)學(xué)模型,其在任意時(shí)刻都處于有限狀態(tài)集合中的某一個(gè)狀態(tài),當(dāng)滿足轉(zhuǎn)移條件中的某一確定事件時(shí),FSM會(huì)從當(dāng)前狀態(tài)轉(zhuǎn)移到另一個(gè)狀態(tài)。BT是適用于控制決策的分層節(jié)點(diǎn)樹,可解決可伸縮性問題。行為樹中有葉節(jié)點(diǎn)和組合節(jié)點(diǎn),同時(shí)把行為劃分成了很多層級(jí),低層級(jí)的行為為葉結(jié)點(diǎn),低層級(jí)的行為能夠組合成較高層級(jí)的行為,以組合結(jié)點(diǎn)表示。行為樹在執(zhí)行的時(shí)候,會(huì)執(zhí)行深度優(yōu)先搜索,依次達(dá)到末端的葉節(jié)點(diǎn),從而選擇出葉結(jié)點(diǎn)(底層級(jí)行為)。BT是FSM的改進(jìn),它將狀態(tài)高度模塊化,減少了狀態(tài)轉(zhuǎn)移條件,使?fàn)顟B(tài)變成一個(gè)行為,從而使模型設(shè)計(jì)更加容易。但是當(dāng)決策邏輯復(fù)雜時(shí),行為樹的組織結(jié)構(gòu)會(huì)迅速擴(kuò)張,這會(huì)造成行為樹的可讀性降低。

      對(duì)于兵棋多agent行為決策,既要考慮集體行為,也要考慮個(gè)體行為,本文提出FSM與BT分層決策的方法。FSM建模兵棋多agent作戰(zhàn)任務(wù)的轉(zhuǎn)換,可以從整場(chǎng)比賽的角度優(yōu)化決策模型;BT建模單個(gè)agent在給定任務(wù)條件下行為動(dòng)作的輸出,完成單個(gè)agent在特定任務(wù)條件下的局部?jī)?yōu)化。圖1展示了FSM和BT分層的多agent行為決策框架,FSM根據(jù)整場(chǎng)比賽的情況進(jìn)行任務(wù)轉(zhuǎn)移,輸出作戰(zhàn)任務(wù),單個(gè)agent根據(jù)作戰(zhàn)任務(wù),考慮局部態(tài)勢(shì)情況,通過行為樹決策輸出動(dòng)作。

      圖1 FSM和BT分層的多agent行為決策框架Fig.1 Hierarchical multi-agent behavior decision-making framework based on FSM and BT

      FSM、BT這種行為模型大量地依賴領(lǐng)域相關(guān)人員參與構(gòu)建,能夠較好地模擬人類頂層的推理思維,適宜兵棋智能對(duì)抗中宏觀動(dòng)作的決策。但是,包含復(fù)雜參數(shù)的微觀動(dòng)作,需要對(duì)態(tài)勢(shì)數(shù)據(jù)、地圖數(shù)據(jù)充分響應(yīng),基于知識(shí)的推理算法難以精細(xì)處理。常用的解決思路是基于方案設(shè)計(jì),即領(lǐng)域?qū)<姨崆邦A(yù)想多種情況,并充分分析地圖,將復(fù)雜的參數(shù)(如機(jī)動(dòng)終點(diǎn))提前以腳本的形式固化下來(lái),形成多套方案供決策模型選擇。但是這種做法使模型輸出的行為缺乏靈活性,同時(shí)決策模型也難以遷移到其他推演想定。

      對(duì)于復(fù)雜動(dòng)作參數(shù)的優(yōu)化問題,一個(gè)可行的方法是使用定量決策的方法,充分利用兵棋數(shù)據(jù)進(jìn)行評(píng)估優(yōu)化。

      1.3 基于數(shù)據(jù)驅(qū)動(dòng)的軟決策算法

      兵棋數(shù)據(jù)按產(chǎn)生的方式可以分為想定數(shù)據(jù)、環(huán)境數(shù)據(jù)、規(guī)則數(shù)據(jù)、復(fù)盤數(shù)據(jù)和態(tài)勢(shì)數(shù)據(jù)。想定數(shù)據(jù)是指一場(chǎng)兵棋推演對(duì)地圖、實(shí)體、作戰(zhàn)目標(biāo)等規(guī)定的數(shù)據(jù);環(huán)境數(shù)據(jù)是指兵棋系統(tǒng)對(duì)戰(zhàn)場(chǎng)環(huán)境的量化表示而產(chǎn)生的數(shù)據(jù),如地圖數(shù)據(jù)等;規(guī)則數(shù)據(jù)是指兵棋系統(tǒng)對(duì)作戰(zhàn)實(shí)體、作戰(zhàn)規(guī)則等描述而產(chǎn)生的數(shù)據(jù);復(fù)盤數(shù)據(jù)是指兵棋推演系統(tǒng)在推演整個(gè)過程中記錄下來(lái)的過程數(shù)據(jù)。態(tài)勢(shì)數(shù)據(jù)是指在兵棋推演中實(shí)時(shí)產(chǎn)生的描述戰(zhàn)場(chǎng)動(dòng)態(tài)情況的數(shù)據(jù)。這些兵棋數(shù)據(jù)蘊(yùn)含了大量兵棋行為決策的知識(shí),可以通過數(shù)據(jù)挖掘等方法將它們轉(zhuǎn)化為支持決策的量化數(shù)據(jù)。

      對(duì)于戰(zhàn)術(shù)級(jí)兵棋的棋子移動(dòng)位置決策,文獻(xiàn)[12]使用兵棋數(shù)據(jù)挖掘與融合的方法,提取了多個(gè)與棋子位置選擇相關(guān)的指標(biāo),通過多指標(biāo)綜合評(píng)價(jià)優(yōu)選算法,得出棋子的移動(dòng)位置。

      首先對(duì)多個(gè)標(biāo)準(zhǔn)化之后的指標(biāo)進(jìn)行綜合,令

      (1)

      式中:為第個(gè)終點(diǎn)位置的加權(quán)綜合評(píng)價(jià)值;為第個(gè)位置的第個(gè)標(biāo)準(zhǔn)化指標(biāo)值;為第個(gè)屬性值的加權(quán)系數(shù)。

      將綜合評(píng)價(jià)值轉(zhuǎn)換為能夠調(diào)控?zé)岫鹊母怕手?并依據(jù)概率的大小來(lái)選擇方案:

      (2)

      =random_choice()

      (3)

      式中:表示由評(píng)價(jià)值轉(zhuǎn)換的概率值;>0,稱為“溫度因子”,具有調(diào)控概率的作用;為待評(píng)估位置的總數(shù);為由組成的離散概率數(shù)組;random_choice()為依概率選擇坐標(biāo)函數(shù);為最后優(yōu)選出的棋子移動(dòng)位置。

      當(dāng)→0時(shí),趨向于最大評(píng)估值決策;當(dāng)→+∞時(shí),趨向于隨機(jī)選擇決策;當(dāng)1≤≤e時(shí),決策較好地兼顧質(zhì)量與變化。

      使用這種基于數(shù)據(jù)驅(qū)動(dòng)的軟決策方法充分利用了兵棋數(shù)據(jù)特別是態(tài)勢(shì)數(shù)據(jù)中的信息,可以部分解決不完全態(tài)勢(shì)的問題,優(yōu)選出的棋子移動(dòng)位置兼顧了質(zhì)量與變化,配合規(guī)則推理,使兵棋AI的決策具有高度的靈活性。另外,這個(gè)算法依據(jù)數(shù)據(jù)計(jì)算,不依靠專家知識(shí),有很好的可復(fù)用性。

      但是,大量高質(zhì)量的人工復(fù)盤數(shù)據(jù)集很難得到,這一前提條件限制了該算法的應(yīng)用范圍。

      2 群隊(duì)級(jí)兵棋AI關(guān)鍵技術(shù)和框架

      2.1 知識(shí)與數(shù)據(jù)互補(bǔ)的行為決策算法

      基于數(shù)據(jù)驅(qū)動(dòng)的軟決策算法具有靈活的優(yōu)勢(shì),但是需要人工高質(zhì)量的復(fù)盤數(shù)據(jù);基于知識(shí)驅(qū)動(dòng)的決策算法利用兵棋專家的領(lǐng)域知識(shí)進(jìn)行決策,無(wú)需人工復(fù)盤數(shù)據(jù),但是難以優(yōu)化復(fù)雜的動(dòng)作參數(shù)。本文將這兩種算法結(jié)合起來(lái),提出了知識(shí)與數(shù)據(jù)互補(bǔ)的行為決策算法。

      圖2展示了知識(shí)與數(shù)據(jù)互補(bǔ)的行為決策算法框架,在構(gòu)建知識(shí)庫(kù)時(shí),專家將不再對(duì)地圖具體點(diǎn)進(jìn)行分析,而是根據(jù)戰(zhàn)場(chǎng)進(jìn)程,設(shè)定agent的任務(wù)區(qū)域和任務(wù)區(qū)域內(nèi)選點(diǎn)的指標(biāo)權(quán)重。利用基于知識(shí)驅(qū)動(dòng)的決策算法對(duì)整場(chǎng)推演進(jìn)行戰(zhàn)術(shù)籌劃,即使用FSM對(duì)多agent任務(wù)進(jìn)行決策,使用BT對(duì)agent進(jìn)行行為決策,輸出動(dòng)作名稱、任務(wù)區(qū)域和指標(biāo)權(quán)重。任務(wù)區(qū)域具有全局位置優(yōu)化的能力。在任務(wù)區(qū)域和指標(biāo)權(quán)重給定的條件下,利用基于數(shù)據(jù)驅(qū)動(dòng)的軟決策算法,就可以計(jì)算出棋子在任務(wù)區(qū)域內(nèi)的移動(dòng)終點(diǎn)。當(dāng)然,我們也可以使用定量計(jì)算的方法得到其他動(dòng)作參數(shù),如機(jī)動(dòng)路線、射擊目標(biāo)等。最后,綜合動(dòng)作函數(shù)和動(dòng)作參數(shù),就可以解析出原子動(dòng)作命令。另外,基于數(shù)據(jù)驅(qū)動(dòng)的軟決策算法需要復(fù)盤數(shù)據(jù)作為支撐,本文使用隨機(jī)數(shù)據(jù)讓決策模型先運(yùn)行起來(lái),從而得到自我對(duì)戰(zhàn)的復(fù)盤數(shù)據(jù),進(jìn)而通過迭代優(yōu)化,提升復(fù)盤數(shù)據(jù)質(zhì)量,進(jìn)而優(yōu)化整個(gè)決策模型的決策質(zhì)量。

      圖2 知識(shí)與數(shù)據(jù)互補(bǔ)的行為決策算法框架Fig.2 Framework of behavior decision-making algorithm based on complementary knowledge and data

      知識(shí)與數(shù)據(jù)互補(bǔ)的行為決策算法,將全局規(guī)劃、行動(dòng)推理交給基于知識(shí)驅(qū)動(dòng)的決策算法處理,將動(dòng)作參數(shù)的計(jì)算和優(yōu)選交給基于數(shù)據(jù)驅(qū)動(dòng)的軟決策算法處理,分別發(fā)揮了兩種算法的優(yōu)勢(shì),實(shí)現(xiàn)了兵棋AI在無(wú)人類復(fù)盤數(shù)據(jù)指導(dǎo)下的靈活決策。

      2.2 群隊(duì)級(jí)兵棋實(shí)體行為決策面臨的困難和解決思路

      群隊(duì)級(jí)兵棋的作戰(zhàn)力量一般由多個(gè)分隊(duì),以及附屬的多個(gè)空中力量和炮兵力量組成,單方控制的棋子數(shù)量約50個(gè)左右,奪控點(diǎn)約5~10個(gè)。使用知識(shí)與數(shù)據(jù)互補(bǔ)的行為決策算法時(shí),這種大量作戰(zhàn)實(shí)體的控制將面臨以下幾個(gè)困難:

      (1) 作戰(zhàn)力量包括多個(gè)分隊(duì)和配屬的空中力量、炮兵力量,如果以分隊(duì)為單位設(shè)計(jì)有限狀態(tài)機(jī)和行為樹,專家的工作量將大大增加;

      (2) 奪控點(diǎn)數(shù)量增加,且數(shù)量不固定,如何為大規(guī)模的作戰(zhàn)實(shí)體分配合適的奪控點(diǎn)作為作戰(zhàn)目標(biāo);

      (3) 位置評(píng)價(jià)指標(biāo)的總時(shí)間與棋子個(gè)數(shù)的關(guān)系為()。群隊(duì)級(jí)棋子指標(biāo)的計(jì)算時(shí)間嚴(yán)重拖延了決策速度。

      為了解決以上問題,我們提出了以下方法:

      (1) 按棋子類型分組

      群隊(duì)包含多個(gè)分隊(duì),分隊(duì)包括多個(gè)不同類型的棋子,如果按照正常的人類指揮控制方式,為每個(gè)分隊(duì)確定作戰(zhàn)任務(wù),分隊(duì)內(nèi)棋子根據(jù)任務(wù)確定行為樹,這樣分解將大大增加專家的工作量,且設(shè)計(jì)出的決策模型遷移能力較差。本文采用按棋子類型分組的方式,每個(gè)類型分組內(nèi)包含同類型的多個(gè)棋子,這些棋子可以共用一個(gè)行為樹。類型組的作戰(zhàn)任務(wù)將著眼于整個(gè)戰(zhàn)場(chǎng),而不需要考慮不同類型組的作戰(zhàn)地域劃分,作戰(zhàn)任務(wù)按照作戰(zhàn)進(jìn)程進(jìn)行劃分。類型相同的棋子在作戰(zhàn)任務(wù)條件下復(fù)用同一個(gè)行為樹。為了使同類型棋子的行為輸出多樣化,以作戰(zhàn)目標(biāo)(奪控點(diǎn))來(lái)確定作戰(zhàn)區(qū)域,這樣同類型的不同棋子的作戰(zhàn)區(qū)域?qū)?huì)不同。

      (2) 類型組內(nèi)作戰(zhàn)目標(biāo)(奪控點(diǎn))自動(dòng)分配

      群隊(duì)級(jí)兵棋推演一般會(huì)設(shè)置多個(gè)奪控點(diǎn)作為作戰(zhàn)目標(biāo),敵對(duì)雙方圍繞這些奪控點(diǎn)展開爭(zhēng)奪戰(zhàn)。對(duì)于多個(gè)奪控點(diǎn),綜合考慮距離和均勻分配,為類型組內(nèi)的每個(gè)棋子分配一個(gè)奪控點(diǎn)作為作戰(zhàn)目標(biāo)。這樣該棋子行為樹中任務(wù)區(qū)域的計(jì)算將以該奪控點(diǎn)和當(dāng)前位置為定位點(diǎn),以扇形、圓形、環(huán)形區(qū)域及這些區(qū)域的集合運(yùn)算確定任務(wù)區(qū)域。

      (3) 評(píng)價(jià)指標(biāo)并行計(jì)算

      使用多指標(biāo)綜合評(píng)價(jià)軟優(yōu)選算法,一般是已知待選作戰(zhàn)區(qū)域后,才調(diào)用指標(biāo)計(jì)算函數(shù)計(jì)算這個(gè)區(qū)域的多個(gè)評(píng)價(jià)指標(biāo)。當(dāng)棋子數(shù)量急劇增加后,這種按需計(jì)算的方式,嚴(yán)重降低了決策環(huán)的速度。為此,提出了雙進(jìn)程指標(biāo)并行計(jì)算的方法。如圖3所示,單進(jìn)程指標(biāo)按需計(jì)算是指當(dāng)優(yōu)選算法需要指標(biāo)數(shù)值時(shí),調(diào)用函數(shù)計(jì)算指標(biāo)值,其計(jì)算可以分為3步。雙進(jìn)程指標(biāo)并行計(jì)算是指主進(jìn)程控制決策流程,另外開辟一個(gè)子進(jìn)程,循環(huán)計(jì)算我方每個(gè)棋子周邊區(qū)域六角格的指標(biāo)值供主進(jìn)程算法調(diào)用,其計(jì)算分為2步。主進(jìn)程使用位置評(píng)價(jià)指標(biāo)時(shí),可以直接調(diào)用子進(jìn)程計(jì)算好的數(shù)值,這樣就大大縮短了決策環(huán)的時(shí)間。

      圖3 單進(jìn)程指標(biāo)按需計(jì)算和雙進(jìn)程指標(biāo)并行計(jì)算過程對(duì)比Fig.3 Comparison of single process attribute on demand computing and dual process attribute on parallel computing

      以上3點(diǎn)改進(jìn),使知識(shí)與數(shù)據(jù)互補(bǔ)的行為決策算法在群隊(duì)級(jí)兵棋推演中能夠使用,簡(jiǎn)化了專家的工作量,提升了計(jì)算效率,也使模型的泛化性大大提升。

      2.3 群隊(duì)級(jí)兵棋AI技術(shù)框架

      OODA(Observe,Orient,Decide,Act)環(huán)理論提供了一種以觀察、判斷、決策、行動(dòng)循環(huán)來(lái)描述對(duì)抗的方法,被廣泛應(yīng)用于軍事決策過程模型的研究。反映到?jīng)Q策行為模型中,觀察和行動(dòng)是與外界環(huán)境交互的過程,分別完成了模型的輸入(戰(zhàn)場(chǎng)態(tài)勢(shì))和輸出(作戰(zhàn)行動(dòng))。態(tài)勢(shì)判斷和行動(dòng)決策運(yùn)行于模型的內(nèi)部,完成決策的生成。

      本文基于知識(shí)與數(shù)據(jù)互補(bǔ)的決策算法,并對(duì)群隊(duì)級(jí)具有大量作戰(zhàn)實(shí)體的情況進(jìn)行針對(duì)性改進(jìn),依照OODA環(huán)的流程,設(shè)計(jì)了群隊(duì)級(jí)兵棋AI技術(shù)框架。分為5個(gè)模塊:離線學(xué)習(xí)模塊、感知模塊、判斷模塊、決策模塊和行動(dòng)模塊,如圖4所示。離線學(xué)習(xí)模塊是對(duì)自對(duì)抗復(fù)盤數(shù)據(jù)集或其他復(fù)盤數(shù)據(jù)集進(jìn)行數(shù)據(jù)挖掘,增量更新知識(shí)數(shù)據(jù)。其他部分對(duì)應(yīng)于OODA環(huán)的4個(gè)部分。

      圖4 群隊(duì)級(jí)兵棋AI技術(shù)框架Fig.4 Group-level wargame AI technology framework

      離線學(xué)習(xí)模塊設(shè)計(jì)按照文獻(xiàn)[12]中數(shù)據(jù)挖掘部分的框架和流程進(jìn)行設(shè)計(jì),提取兵棋數(shù)據(jù)中一些支持決策的知識(shí)數(shù)據(jù)(棋子歷史位置概率表、奪控?zé)岫缺?、觀察表等)。

      感知模塊對(duì)兵棋推演平臺(tái)推送的態(tài)勢(shì)數(shù)據(jù)進(jìn)行格式整理和分類存放,形成狀態(tài)數(shù)據(jù)(全局狀態(tài)、我方棋子狀態(tài)、敵方可見棋子狀態(tài)、奪控點(diǎn)狀態(tài)等),便于后續(xù)模塊使用。

      判斷模塊設(shè)計(jì)參考文獻(xiàn)[12]中數(shù)據(jù)融合的方法,但是在計(jì)算方式上采取子進(jìn)程并行計(jì)算,即狀態(tài)數(shù)據(jù)不斷循環(huán)更新,指標(biāo)數(shù)據(jù)也不斷循環(huán)計(jì)算更新。得到的多個(gè)指標(biāo)傳輸?shù)街鬟M(jìn)程中存儲(chǔ),供多指標(biāo)綜合評(píng)價(jià)軟優(yōu)選算法查詢調(diào)用。

      決策模塊是兵棋智能決策引擎的核心部件,它主要由3部分組成:一是專家知識(shí)庫(kù),二是基于知識(shí)驅(qū)動(dòng)的決策算法,三是基于數(shù)據(jù)驅(qū)動(dòng)的決策算法。專家知識(shí)庫(kù)和基于知識(shí)驅(qū)動(dòng)的決策算法聯(lián)合設(shè)計(jì),可以復(fù)用的部件放入專家知識(shí)庫(kù)中,形成作戰(zhàn)任務(wù)庫(kù)、條件庫(kù)、超參數(shù)庫(kù)和動(dòng)作函數(shù)庫(kù)?;谥R(shí)的決策算法主要負(fù)責(zé)行為的推理決策,以FSM、BT的形式編程。群隊(duì)級(jí)所有作戰(zhàn)力量按照類型進(jìn)行分組,而后為每個(gè)類型組設(shè)計(jì)有限狀態(tài)機(jī),為了簡(jiǎn)單起見,本文為所有類型組設(shè)計(jì)了通用有限狀態(tài)機(jī)。另外,我們需要為類型組內(nèi)的每個(gè)棋子分配合適的奪控點(diǎn)作為作戰(zhàn)目標(biāo)?;谥R(shí)的決策算法完成多agent的動(dòng)作名稱輸出,即FSM生成類型組當(dāng)前的作戰(zhàn)任務(wù),BT生成當(dāng)前作戰(zhàn)任務(wù)下單個(gè)agent的動(dòng)作名稱、任務(wù)區(qū)域和指標(biāo)權(quán)重?;跀?shù)據(jù)驅(qū)動(dòng)的決策算法以任務(wù)區(qū)域和指標(biāo)權(quán)重為參數(shù),調(diào)用任務(wù)區(qū)域?qū)?yīng)的多個(gè)評(píng)價(jià)指標(biāo),根據(jù)軟概率優(yōu)選和路徑算法,最后生成棋子移動(dòng)路徑作為動(dòng)作參數(shù)。

      行動(dòng)模塊為每一個(gè)棋子生成原子動(dòng)作命令。原子動(dòng)作命令是兵棋對(duì)抗環(huán)境能夠識(shí)別的棋子動(dòng)作。專家建模了動(dòng)作函數(shù)庫(kù),動(dòng)作函數(shù)以動(dòng)作名稱和動(dòng)作參數(shù)為輸入,經(jīng)過基于兵棋規(guī)則的合法性篩查后,輸出多agent原子動(dòng)作序列。需要特別指出的是,動(dòng)作參數(shù)并不是都需要計(jì)算,如狀態(tài)轉(zhuǎn)換、上車、下車、奪控等只需要實(shí)體對(duì)象作為參數(shù),通過簡(jiǎn)單的邏輯判斷就可以得出。但是機(jī)動(dòng)路線、行軍路線、射擊目標(biāo)選擇等都是需要計(jì)算評(píng)估后才能得到合適的動(dòng)作參數(shù)。

      3 群隊(duì)級(jí)兵棋AI主要模塊設(shè)計(jì)

      3.1 作戰(zhàn)目標(biāo)點(diǎn)分配和通用有限狀態(tài)機(jī)設(shè)計(jì)

      群隊(duì)級(jí)兵棋AI的棋子按照類型進(jìn)行分組,小組內(nèi)每個(gè)棋子可以復(fù)用相同的行為樹進(jìn)行決策,但是為了避免小組內(nèi)棋子行為趨于一致,需要為小組內(nèi)每個(gè)棋子指定不同奪控點(diǎn)為作戰(zhàn)目標(biāo)。我們以距離為匹配標(biāo)準(zhǔn),均勻分配奪控點(diǎn)給同類型的棋子。以士兵為例,分配算法如下。

      * 設(shè)定未被選擇奪控點(diǎn)集合open,包括所有奪控點(diǎn),集合close為空集* 對(duì)每個(gè)步兵棋子i進(jìn)行循環(huán):* 從open集合中找到與i機(jī)動(dòng)時(shí)間最小的奪控點(diǎn)j,將j分配給棋子i,open集中去除j,close集中增加j* 當(dāng)open集合為空時(shí),初始化open和close集合

      為了減小設(shè)計(jì)工作量,給全部作戰(zhàn)力量按照棋子類型進(jìn)行分組后,我們僅設(shè)計(jì)一個(gè)通用有限狀態(tài)機(jī)供紅藍(lán)雙方所有類型組使用,如圖5所示,作戰(zhàn)分為3個(gè)階段:機(jī)動(dòng)滲透階段、中遠(yuǎn)攻擊階段和奪控階段,并且設(shè)計(jì)了轉(zhuǎn)移條件。這些狀態(tài)和轉(zhuǎn)移條件組成作戰(zhàn)任務(wù)庫(kù)和條件庫(kù)。

      圖5 通用FSM狀態(tài)轉(zhuǎn)移圖Fig.5 General state transition diagram of FSM

      3.2 基于棋子類型的行為樹設(shè)計(jì)

      通用FSM設(shè)計(jì)好之后,需要按照3個(gè)作戰(zhàn)階段為每個(gè)類型的棋子設(shè)定行為樹,這里以紅方步兵、裝甲車為例,描述這些類型棋子的作戰(zhàn)內(nèi)容,如表1所列。最后根據(jù)作戰(zhàn)內(nèi)容,為每類棋子設(shè)計(jì)行為樹。

      表1 紅方步兵和裝甲車各作戰(zhàn)階段的作戰(zhàn)內(nèi)容

      3.3 基于共享內(nèi)存的多進(jìn)程機(jī)制

      Python語(yǔ)言環(huán)境有兩種方式支持并行計(jì)算:多線程(調(diào)用threading模塊)和多進(jìn)程(調(diào)用multiprocessing模塊)。但是Python多線程受全局解釋器鎖(global interpreter lock, GIL)限制,不能實(shí)現(xiàn)真正意義上的并行計(jì)算。本文使用多進(jìn)程實(shí)現(xiàn)多指標(biāo)并行計(jì)算。共享內(nèi)存是最快的IPC(inter-process communication)方式,它是針對(duì)其他進(jìn)程間通信方式運(yùn)行效率低而專門設(shè)計(jì)的,本文采用這種方式進(jìn)行IPC。共享內(nèi)存的方法就是在主進(jìn)程中建立共享內(nèi)存對(duì)象,它包括3個(gè)方法:初始共享內(nèi)存建立、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)讀取。這個(gè)共享內(nèi)存對(duì)象可以被不同進(jìn)程調(diào)用,并傳遞數(shù)據(jù)。本文以多進(jìn)程和共享內(nèi)存通信實(shí)現(xiàn)文獻(xiàn)[12]介紹的位置評(píng)價(jià)指標(biāo)的并行計(jì)算。

      4 兵棋AI實(shí)現(xiàn)和對(duì)抗性能

      4.1 兵棋AI編程實(shí)現(xiàn)

      本文基于戰(zhàn)術(shù)級(jí)兵棋即時(shí)策略推演平臺(tái)“廟算·智勝”開發(fā)實(shí)現(xiàn)了一個(gè)群隊(duì)級(jí)兵棋AI。該群隊(duì)級(jí)兵棋AI使用python語(yǔ)言,采用結(jié)構(gòu)化、對(duì)象化的思想進(jìn)行編程。兵棋AI能夠運(yùn)行之后,還需要對(duì)決策模塊進(jìn)行優(yōu)化:

      (1) 優(yōu)化知識(shí)數(shù)據(jù)。開啟自對(duì)戰(zhàn)模式,收集復(fù)盤數(shù)據(jù)并離線增量更新知識(shí)數(shù)據(jù)。如果有其他復(fù)盤數(shù)據(jù)集,也可以基于這個(gè)復(fù)盤數(shù)據(jù)集更新知識(shí)數(shù)據(jù)。

      (2) 優(yōu)化超參數(shù)。專家根據(jù)機(jī)機(jī)對(duì)抗的復(fù)盤回放,觀察兵棋AI的動(dòng)作執(zhí)行效果。針對(duì)AI決策效果弱的地方,調(diào)整超參數(shù)庫(kù)中的任務(wù)區(qū)域和指標(biāo)權(quán)重,使兵棋AI在移動(dòng)位置選擇上策略更優(yōu)。

      我們實(shí)現(xiàn)的群隊(duì)級(jí)兵棋AI支持2張地圖共3個(gè)想定,命名為“道·思-group”。

      4.2 對(duì)抗性能分析

      “道·思-group”參加了全國(guó)“先知·兵圣-2019”戰(zhàn)術(shù)級(jí)人機(jī)對(duì)抗挑戰(zhàn)賽,取得前8名。因?yàn)楸荣愂褂玫氖穷A(yù)設(shè)想定,其他隊(duì)伍可以按照專家制定的作戰(zhàn)方案指導(dǎo)棋子的行為決策。相比較而言,我們的兵棋AI在作戰(zhàn)效果上并不特別突出。

      隨后,“道·思-group”參與了“廟算·智勝”人機(jī)對(duì)抗平臺(tái)組織的AI綜合能力測(cè)評(píng)。測(cè)評(píng)對(duì)象為國(guó)內(nèi)主要的5個(gè)兵棋AI團(tuán)隊(duì)開發(fā)的群隊(duì)級(jí)兵棋AI。

      表2給出了5支AI隊(duì)伍的機(jī)機(jī)對(duì)抗勝率。在既定想定的機(jī)機(jī)對(duì)抗中,“道·思-group”排名第4,展現(xiàn)了一定智能性。另外,測(cè)試組設(shè)置了臨機(jī)想定。臨機(jī)想定改變了作戰(zhàn)力量的規(guī)模和奪控點(diǎn)的個(gè)數(shù)。在臨機(jī)想定測(cè)評(píng)中,“道·思-group”的勝率由24%上升到46.5%,展現(xiàn)了基于通用FSM的設(shè)計(jì),其可移植性較強(qiáng)的特點(diǎn)。

      表2 群隊(duì)級(jí)兵棋AI對(duì)抗勝率

      但是總體對(duì)抗成績(jī)不高,也反映了只使用通用FSM,使多agent作戰(zhàn)任務(wù)的劃分不夠精細(xì),棋子間的協(xié)同配合不夠,整體作戰(zhàn)策略優(yōu)化不好。使用雙進(jìn)程指標(biāo)并行計(jì)算方式,對(duì)計(jì)算資源的要求較大,指標(biāo)計(jì)算子進(jìn)程運(yùn)算耗時(shí)長(zhǎng),計(jì)算出的指標(biāo)與實(shí)時(shí)態(tài)勢(shì)不匹配,從而影響了決策質(zhì)量。

      “廟算·智勝”測(cè)試組最后總結(jié):測(cè)評(píng)的AI可以分為基于算法驅(qū)動(dòng)和基于方案設(shè)計(jì)2類,基于算法驅(qū)動(dòng)的智能體具有更好的地形分析計(jì)算和利用能力,火力使用更為敏捷和激進(jìn);基于方案設(shè)計(jì)的智能體則表現(xiàn)更為保守,射擊頻次和戰(zhàn)果更少,但卻通過更少的戰(zhàn)損,以及較高的有效射擊效率贏得對(duì)抗的勝利。臨機(jī)想定中設(shè)置了與既定想定較大的差異,基于方案設(shè)計(jì)的團(tuán)隊(duì)多采用精細(xì)化方案設(shè)計(jì),智能體模型更擅長(zhǎng)打“有準(zhǔn)備之仗”,但遇到新情況后,原方案可能會(huì)失效;基于算法驅(qū)動(dòng)的團(tuán)隊(duì)多采用算法驅(qū)動(dòng)的智能體模型,在戰(zhàn)場(chǎng)態(tài)勢(shì)發(fā)生突變時(shí),具有更好的應(yīng)變與穩(wěn)定性。

      得益于知識(shí)與數(shù)據(jù)互補(bǔ)的決策算法,我們的兵棋AI應(yīng)屬于算法驅(qū)動(dòng)類型。有以下優(yōu)點(diǎn):

      (1) 兵棋AI構(gòu)建較為快速。FSM和BT分層決策的方法符合軍事組織指揮的架構(gòu)和任務(wù)分解模式,且免除了具體地圖點(diǎn)的分析?;跀?shù)據(jù)驅(qū)動(dòng)的決策方法無(wú)想定限制?;诳蓮?fù)用的領(lǐng)域知識(shí)庫(kù),只需要對(duì)FSM與BT進(jìn)行簡(jiǎn)單的再設(shè)計(jì),即可構(gòu)建新的兵棋AI。

      (2) 模型具有較高的靈活性和遷移性。每個(gè)兵棋想定中奪控點(diǎn)、起始點(diǎn)為已知點(diǎn),以這兩類點(diǎn)為定位點(diǎn),設(shè)計(jì)相對(duì)位置的任務(wù)區(qū)域,并且增大任務(wù)區(qū)域范圍,就可以提高決策模型的遷移性。另外,多指標(biāo)綜合評(píng)價(jià)軟優(yōu)選算法中探索因子增大后,決策模型的靈活性就會(huì)大大增加。

      5 結(jié) 論

      本文分析了群隊(duì)級(jí)兵棋智能對(duì)抗中控制大量兵棋實(shí)體面臨的困難,提出了知識(shí)與數(shù)據(jù)互補(bǔ)的決策算法,解決了無(wú)人類復(fù)盤數(shù)據(jù)情況下,實(shí)現(xiàn)棋子行為的靈活決策。我們提出了按棋子類型分類、分配奪控點(diǎn)為作戰(zhàn)目標(biāo)、位置評(píng)價(jià)指標(biāo)并行計(jì)算等方法,解決了知識(shí)與數(shù)據(jù)互補(bǔ)的決策算法控制大量實(shí)體存在的困難,設(shè)計(jì)了群隊(duì)級(jí)兵棋AI的技術(shù)框架。最后我們實(shí)現(xiàn)了群隊(duì)級(jí)兵棋AI“道·思-group”,此AI在全國(guó)智能兵棋比賽和第三方測(cè)評(píng)中性能表現(xiàn)優(yōu)異,顯示出了設(shè)計(jì)簡(jiǎn)單、決策靈活和可遷移的特點(diǎn)。

      但是使用通用有限狀態(tài)機(jī),雖然簡(jiǎn)化了設(shè)計(jì)難度,但是整體策略不夠精細(xì),導(dǎo)致高層策略并不是很優(yōu)。另外,并行計(jì)算只是部分解決了計(jì)算時(shí)間問題,此兵棋AI依然存在計(jì)算量大、占用內(nèi)存大的問題。下步將從3個(gè)方面做深入研究,一是設(shè)計(jì)更為通用的FSM和BT決策體系,并研究HTN等自動(dòng)規(guī)劃算法,使模型的可遷移能力更強(qiáng),并可以自主規(guī)劃作戰(zhàn)任務(wù);二是優(yōu)化基于數(shù)據(jù)驅(qū)動(dòng)的軟決策體系,提升計(jì)算效率,同時(shí)利用深度神經(jīng)網(wǎng)絡(luò)的感知能力對(duì)評(píng)價(jià)指標(biāo)進(jìn)行計(jì)算;三是研究超參數(shù)的自動(dòng)優(yōu)化方法,減少專家工作量,同時(shí)提升模型決策能力。

      猜你喜歡
      兵棋棋子決策
      為可持續(xù)決策提供依據(jù)
      棋子多少顆
      擺棋子
      有趣的棋子
      兵棋推演:未來(lái)戰(zhàn)爭(zhēng)的水晶球
      軍事文摘(2020年19期)2020-10-13 12:29:28
      基于兵棋推演實(shí)驗(yàn)的綜合評(píng)估指標(biāo)度量方法
      決策為什么失誤了
      棋子餓了
      大灰狼(2018年5期)2018-06-20 14:49:32
      基于深度學(xué)習(xí)的兵棋實(shí)體決策效果智能評(píng)估模型
      基于混合Beta分布的兵棋推演可信度評(píng)估方法研究
      黄龙县| 灵寿县| 哈尔滨市| 达拉特旗| 庆阳市| 兴安县| 丹寨县| 钟山县| 古田县| 恩施市| 新民市| 沈阳市| 汉沽区| 临猗县| 乌审旗| 永丰县| 石河子市| 教育| 罗田县| 灵山县| 宜阳县| 宜宾县| 巫溪县| 岳池县| 进贤县| 临沧市| 宾阳县| 嘉兴市| 淮北市| 宁波市| 宜阳县| 资溪县| 巨鹿县| 蒲江县| 宁津县| 九江县| 宜昌市| 北辰区| 遂宁市| 南投县| 德惠市|