基于不確定性的貝葉斯策略重用方法

2025-03-20 00:00:00付可陳浩王宇劉權(quán)黃健

系統(tǒng)工程與電子技術(shù) 2025年2期

摘要：針對多智能體對抗中因?qū)κ植呗宰兓瘜?dǎo)致的非平穩(wěn)性問題，在對手動作不可獲取的限制下，提出一種基于不確定性的貝葉斯策略重用算法。在離線階段，在策略學(xué)習(xí)的同時(shí)，通過自編碼器建模智能體軌跡與對手動作之間的關(guān)系表征以構(gòu)建對手模型。在在線階段，依據(jù)對手模型和有限交互信息，估計(jì)對手策略類型的不確定性，并基于此選擇最優(yōu)應(yīng)對策略并重用。最后，在兩種對抗場景下的實(shí)驗(yàn)結(jié)果表明所提算法相比3種先進(jìn)的基線方法識別精度更高，且識別速度更快。

關(guān)鍵詞：多智能體對抗; 貝葉斯策略重用; 強(qiáng)化學(xué)習(xí); 關(guān)系表征

中圖分類號： TP 301.6

文獻(xiàn)標(biāo)志碼： ADOI：10.12305/j.issn.1001 506X.2025.02.20

Uncertainty based Bayesian policy reuse method

FU Ke， CHEN Hao， WANG Yu， LIU Quan， HUANG Jian*

（College of Intelligence Science and Technology， National University of Defense Technology， Changsha 410073， China）

Abstract：To solve the non stationarity problem caused by opponent policy changes in multi agent competitions， this paper proposes an algorithm called uncertainty based Bayesian policy reuse under the restriction of unavailability of the online opponent’s actions. In the offline phase， use an autoencoder to model the relationship representation between agent trajectories and the opponent actions during policy learning. In the online phase， the agent evaluates the uncertainty of the opponent type only conditioning on limited interaction information and the built opponent models. Afterward， optimal response policy is selected for execution. The proposed algorithm on two scenarios and demonstrate that it has higher recognition accuracy and faster speed than three state of the art baseline methods.

Keywords：multi agent competition; Bayesian policy reuse; reinforcement learning; relationship representation

0 引言

多智能體系統(tǒng)（multi agent systems， MAS）通過在一個(gè)系統(tǒng)中考慮多個(gè)智能體來擴(kuò)展經(jīng)典的決策問題^［^1-2^］。多智能體對抗作為其子方向之一，已被廣泛應(yīng)用于游戲^［^3-4^］、軍事^［^5-6^］、機(jī)器人^［^7-8^］等領(lǐng)域。然而，在現(xiàn)實(shí)世界的對抗交互中，對手方可能會采取不同的策略，策略會隨著時(shí)間的推移而發(fā)生變化。MAS中的智能體共享同一個(gè)環(huán)境并相互影響，導(dǎo)致系統(tǒng)非平穩(wěn)，（藍(lán)方）智能體難以快速適應(yīng)變化的對手策略^［^9-10^］。例如，若每個(gè)玩家都配備一個(gè)策略庫，并根據(jù)交互信息選擇適當(dāng)?shù)牟呗灾赜脕碜畲蠡约旱睦?，在這種情況下，如何快速、準(zhǔn)確地識別和適應(yīng)在線交互中突然切換策略的非平穩(wěn)對手是一個(gè)具有挑戰(zhàn)性的問題。

貝葉斯策略重用（Bayesian policy reuse， BPR）框架及其衍生方法可以在面對一個(gè)未標(biāo)記（但之前見過的）任務(wù)時(shí)，有效地識別和重用已有策略^［^11-12^］。BPR+^［13^］將BPR擴(kuò)展到非平穩(wěn)對手的多智能體設(shè)定中。面向策略層面的貝葉斯心智理論策略（Bayesian theory of mind on policy， Bayes ToMoP）^［¹⁴^］算法引入了心智理論（theory of mind， TOM）^［15-16^］來應(yīng)對具備更高層次策略推理能力的對手，即假設(shè)對手同樣也可以采用BPR推理。盡管這些方法有所成效，但其信念高度依賴只使用回合獎勵作為更新信號的性能模型，不足以快速、準(zhǔn)確地識別對手的策略。

將對手行為融入BPR框架是提高識別精度的有效方法。深度BPR （deep BPR， Deep BPR+）^［¹⁷^］算法使用一個(gè)神經(jīng)網(wǎng)絡(luò)模型擬合對手策略，即從對手的歷史交互序列中描述其行為。這樣處理的優(yōu)點(diǎn)是即便在面對未訪問過的狀態(tài)時(shí)，依舊可以推斷對手的行為。然而，該方法假設(shè)在交互中可以準(zhǔn)確獲取對手的私有動作信息，這一假設(shè)在現(xiàn)實(shí)應(yīng)用中難以保證。例如，在空戰(zhàn)中，很難即時(shí)準(zhǔn)確判斷對方的機(jī)動動作，但卻可以感知由該動作引起的態(tài)勢變化。

本文重點(diǎn)關(guān)注在執(zhí)行階段對手動作信息不可獲取的對抗場景下，如何快速應(yīng)對策略可切換的非平穩(wěn)對手。針對該問題，提出基于不確定性的BPR（uncertainty based BPR， Uncertainty BPR）算法，該算法結(jié)合了BPR的推理能力和識別能力。Uncertainty BPR分為離線階段和在線階段。離線階段旨在學(xué)習(xí)智能體的軌跡和對手動作之間的關(guān)系表征。具體地，通過自編碼器（auto encoder， AE）^［18-19^］在潛在空間中構(gòu)建智能體軌跡與對手動作的關(guān)系模型，并提取潛在特征。然后，將潛在特征作為下游強(qiáng)化學(xué)習(xí)（reinforcement learning， RL）任務(wù)的輸入增益。同時(shí)，統(tǒng)計(jì)AE重建對手動作的回合累積熵，并將其擬合為高斯分布，作為對手模型。在線階段通過對手模型以在線交互所得到的回合累積熵修正關(guān)于對手策略類型與當(dāng)前所使用策略匹配度的信念，然后基于信念和性能模型，從策略庫中選擇最優(yōu)應(yīng)對策略并重用。最后，本文在兩個(gè)對抗場景中，證明所提算法相比于3個(gè)基準(zhǔn)算法在識別精度和識別速度方面性能更優(yōu)。

本文主要貢獻(xiàn)總結(jié)如下：

（1）本文結(jié)合AE模型，提出了一個(gè)基于回合累積熵的對手模型，以衡量對手策略類型的不確定性程度。

（2）本文提出了Uncertainty BPR方法，該方法在執(zhí)行過程中不需要訪問對手行為即可以準(zhǔn)確識別對手類型。

（3）經(jīng)過與3個(gè)基線方法的實(shí)驗(yàn)對比，本文所提算法在識別速度和識別精度方面均表現(xiàn)出優(yōu)異的性能。

1 準(zhǔn)備知識

1.1 問題定義

Uncertainty BPR算法的決策過程可以建模為雙人馬爾可夫博弈^［^20-21^］，并由一個(gè)5元組組成〈S，A，O，P，R 〉。其中，S是有限狀態(tài)集;A和O是智能體和對手的有限動作集;P：S×A×O×S→［0，1］是狀態(tài)轉(zhuǎn)移函數(shù)。其中，“×”表示笛卡爾積。每個(gè)玩家i有一個(gè)獎勵函數(shù)R：S×A×O→R，且試圖最大化總預(yù)期折扣回報(bào)Ri=∑^t=Tt=0γtrit，以找到最優(yōu)策略π*i。其中，R是實(shí)數(shù)集，T是回合步長，r是立即獎勵，r∈［0，1］是用于平衡即時(shí)獎勵和未來獎勵的折扣因子。

然后，定義智能體的軌跡為={st，at}^t=Tt=0。

如果對手策略固定，那么雙人馬爾可夫博弈可簡化為馬爾可夫決策過程（Markov decision process， MDP），可通過RL算法求解，如近端策略優(yōu)化（proximal policy optimization， PPO）^［22^］和優(yōu)勢演員-評論家（advantage actor critic， A2C）^［23^］等。

1.2 智能體結(jié)構(gòu)及訓(xùn)練

本文設(shè)計(jì)的智能體的內(nèi)部結(jié)構(gòu)如圖1所示，該框架結(jié)合了AE模型和RL。其中，AE模型包含一個(gè)編碼器和一個(gè)解碼器，目的是學(xué)習(xí)智能體軌跡和對手動作之間的關(guān)系表征。假設(shè)空間Z中的潛在特征zt隱含了每個(gè)時(shí)間步t對手的動作信息。接著，采用帶有長短時(shí)記憶網(wǎng)絡(luò)（long short term memory， LSTM）的編碼器學(xué)習(xí)智能體軌跡與潛在特征之間的關(guān)系，即fω：1→Z，參數(shù)為ω。然后，同樣使用參數(shù)為u的解碼器來學(xué)習(xí)對手動作和潛在特征之間的關(guān)系，定義解碼器為fu：Z→O，即重建對手動作的模型。編碼器僅以智能體軌跡為條件關(guān)聯(lián)對手動作，并生成潛在特征，并將潛在特征輸入到下游RL任務(wù)中。

在每個(gè)時(shí)間步t，編碼器基于智能體的信息（s：t，a：t－1）生成潛在特征zt。同樣地，在每個(gè)時(shí)間步t，解碼器基于zt學(xué)習(xí)重建對手動作ot，即輸出對手動作的類別分布。此時(shí)，AE模型的損失函數(shù)可以寫為

LAE=－1T∑Tt=1［ln fu（ot∣zt）］（1）

式中：zt=fw（s：t，a：t－1），t為時(shí)間步;T為回合步長。在本文的實(shí)驗(yàn)中，采用A2C^［23^］來求解智能體策略，但也可以使用其他RL算法替代。給定批次數(shù)據(jù)B，A2C的損失可以寫為

LA2C=E（st，at，rt+1，st+1）～B12（rt+1+γV（st+1，zt+1）－

V（st，zt））2－A^lnπθ（at∣st，zt）－λH（πθ（at∣st，zt））（2）

式中：V為值函數(shù);E是數(shù)學(xué)期望;A^是基本優(yōu)勢項(xiàng);H是熵;超參數(shù)λ控制了熵正則化項(xiàng)的強(qiáng)度。

1.3 BPR

BPR框架可以在面對未標(biāo)記（但之前見過的） MDP任務(wù)時(shí)有效地選擇和重用最優(yōu)策略。具體的步驟是先從離線經(jīng)驗(yàn)中學(xué)習(xí)任務(wù)x∈χ的最優(yōu)應(yīng)對策略π∈Π，其中χ是任務(wù)庫，Π是智能體的策略庫。然后，將其作為任務(wù)空間上的貝葉斯先驗(yàn)，并通過來自當(dāng)前任務(wù)的新觀測信號σ∈Σ進(jìn)行更新。信號σ可以是一個(gè)與策略π性能相關(guān)的任意信息，如即時(shí)獎勵、效用（回合獎勵、回報(bào)）或狀態(tài)-動作-狀態(tài)元組。此外，觀測模型P（σ∣x，π）是將策略π作用于任務(wù)x所產(chǎn)生的信號的概率分布。信念β是χ上的一個(gè)概率分布，它衡量了當(dāng)前任務(wù)x*與χ中已知任務(wù)的匹配程度。信念可以用先驗(yàn)概率來初始化。在每次試驗(yàn)k個(gè)回合后，根據(jù)智能體觀察到的信號，使用貝葉斯規(guī)則更新信念βk（x）：

βk（x）=P（αk∣x，πk）βk－1（x）Σx′∈χP（αk∣x′，πk）βk－1（x′）（3）

BPR使用性能模型P（U|x，π）來描述每個(gè)策略π在先前解決過的任務(wù)x上獲得的效用值的概率分布。文獻(xiàn)［11］提出了一些探索啟發(fā)式方法，來選擇最優(yōu)策略的BPR變體。BPR 預(yù)期改進(jìn)（BPR expected improvement， BPR EI）啟發(fā)式算法在所有BPR變體中表現(xiàn)最佳。假設(shè)U-=maxπ∈Π∑x∈χ·β（x）E［U|x，π］是當(dāng)前信念下的最優(yōu)估計(jì)，那么BPR EI選擇最優(yōu)策略的表達(dá)式如下：

π=arg maxπ∈Π∫^UmaxU-∑x∈χβ（τ）P（U+∣x，π）dU+（4）

式中：U-lt;U+lt;U^max，U+為積分變量，U^max為最大回合累積效用。這里回顧的BPR方法主要參考文獻(xiàn)［15］，文獻(xiàn)中將使用不同策略的對手視為不同的任務(wù)。

2 Uncertainty BPR

本節(jié)詳細(xì)描述了Uncertainty BPR算法的理論推導(dǎo)和實(shí)現(xiàn)過程。如圖2所示，圖2上半部分表示離線階段策略學(xué)習(xí)和模型生成的過程，下半部分表示在線階段信念修正和策略重用的過程。

2.1 離線策略學(xué)習(xí)和模型生成

假設(shè)紅藍(lán)雙方都分別伴隨著一個(gè)策略庫的形式而存在，那么首先需要在離線階段對藍(lán)方策略庫進(jìn)行填充。對于特定任務(wù)x*∈χ，固定對手策略τ∈T，智能體使用圖1結(jié)構(gòu)與對手進(jìn)行交互，以學(xué)習(xí)最優(yōu)應(yīng)對策略。然后，將學(xué)習(xí)到的應(yīng)對策略添加到最優(yōu)應(yīng)對策略庫Π中（算法1中的第1～3行）。此時(shí)，智能體的應(yīng)對策略已存放于最優(yōu)應(yīng)對策略庫Π中。為了從策略庫Π中準(zhǔn)確地選擇應(yīng)對策略，在線執(zhí)行時(shí)選擇輔助識別信息是一種挑戰(zhàn)。熵或信息熵是香農(nóng)利用熱力學(xué)知識引入的一個(gè)概念，描述了信息源中每個(gè)可能事件發(fā)生的不確定性^［²⁴^］。它遵循一個(gè)性質(zhì)，即熵值越大，不確定性越大，反之亦然。熵是機(jī)器學(xué)習(xí)（machine learning， ML）中理解各種概念的有用工具，在ML研究中被廣泛應(yīng)用^［²⁵^］，概率分布的熵可以解釋為對不確定性的度量^［^26-27^］。

定義 1 定義分布p在M個(gè)狀態(tài)的離散隨機(jī)變量Y的熵為

H（Y）=－∑Mm=1p（Y=m）ln p（Y=m）（5）

本文使用熵來衡量重建對手動作的準(zhǔn)確性，從而評估對手策略類型的不確定性。參考BPR建立性能模型的過程，本文統(tǒng)計(jì)了潛在特征重建對手動作時(shí)的回合累積熵。累積熵的概念與文獻(xiàn)［28］不同，指在整個(gè)回合中重建對手動作的熵累積和，可以表示為

h-=－∑Tt=0fu（ot|zt）ln fu（ot|zt）（6）

式中：fu（ot|zt）表示對手在時(shí)間步t時(shí)的動作類別分布;h-的值反映了重建對手動作的準(zhǔn)確性。理論上，當(dāng)智能體所使用的策略恰好是應(yīng)對對手的最優(yōu)策略時(shí)，h-的值最小。算法1中的第4～10行描述了性能模型和對手模型的生成過程。

算法 1 離線策略學(xué)習(xí)和模型生成

輸入智能體策略庫Π，對手策略庫Ξ

輸出性能模型P（U|Ξ，Π），對手模型P（H-|T，Π）

1. for 每個(gè)對手策略τ∈Ξ do

2." 學(xué)習(xí)最優(yōu)應(yīng)對策略并將其添加到Π

3. end

4. for 每個(gè)對手策略τ∈Ξ do

5.nbsp;" for 每個(gè)應(yīng)對策略π∈Π do

6.使用策略π對抗策略τ

7.收集回合獎勵u和回合累積熵h-

8."" end

9."" 將u，h-擬合為高斯分布以生成性能模型

P（u|Ξ，Π）和對手模型P（h-|Ξ，Π）

10. end

2.2 在線信念修正和策略重用

識別對手策略類型的準(zhǔn)確度將直接影響策略重用的性能。標(biāo)準(zhǔn)BPR中的信念僅依賴性能模型。然而，針對不同對手的性能模型可能是相同的。例如，在稀疏獎勵下，只有任務(wù)成功才能獲得收益，而任何的失誤都可能導(dǎo)致零收益。假設(shè)在某個(gè)回合中，智能體以策略πi對抗對手策略τj，如果i≠j，那么性能模型可能為

p（u=0|πi，τ1）=…=p（u=0|πi，τi－1）=…=p（u=0|π1，τn）

這導(dǎo)致在不同對手策略上的信念模型無法區(qū)分，即：

β（τ1）=…=β（τi－1）=β（τi+1）=…=β（τi+n）

因此，僅依靠性能模型難以準(zhǔn)確識別對手策略類型。為了克服此問題，本文使用對手模型P（H-|Ξ，Π）來糾正信念，并且不需要在在線執(zhí)行期間直接訪問對手的動作。直觀地說，修正后的信念可以理解為識別對手策略類型的后驗(yàn)概率。

性能模型和對手模型是相互獨(dú)立的，因?yàn)樗鼈兎謩e依賴于u和h-。因此，可以直接將兩個(gè)模型相乘，以衡量對手使用策略τ時(shí)的概率，從而得到一個(gè)更準(zhǔn)確的對手策略預(yù)測模型。此時(shí)，重寫公式中的信念更新公式為

β-k（τ）=P（h-k|τ，πk）P（uk|τ，πk）β-k－1（τ）∑τ′∈TP（h-k|τ′，πk）P（uk|τ′，πk）β-k－1（τ′）（7）

在每一回合開始時(shí)，根據(jù)信念選擇最優(yōu)匹配策略π*執(zhí)行：

π=arg maxπ∈Π∫^UmaxU-∑τ∈Tβ-（τ）P（U+∣τ，π）dU+（8）

式中：U-=maxπ∈Π∑τ∈τβ-（τ）E［U∣τ，π］。算法2詳細(xì)描述了在線階段的信念修正和策略重用過程。值得注意的是，上述信念修正的思路類似于Deep BPR+^［17^］，但也存在幾點(diǎn)差異：① Uncertainty BPR中的對手模型關(guān)注的是預(yù)測對手動作準(zhǔn)確性的熵分布，而不是從離線經(jīng)驗(yàn)中學(xué)習(xí)對手的真實(shí)策略;② Deep BPR+使用神經(jīng)網(wǎng)絡(luò)來建立對手模型，但本文使用了統(tǒng)計(jì)的方法;③ Deep BPR+在在線執(zhí)行時(shí)需要獲取整個(gè)回合中的對手動作來識別應(yīng)對策略。但是，本文所提方法不需要直接訪問對手動作。

算法 2 在線信念修正和策略重用

輸入智能體策略庫Π，對手策略庫Ξ，性能模型P（U|Ξ，Π），對手模型P（H-|Ξ，Π），最大化回合數(shù)K，回合步長T

輸出應(yīng)對策略

1. 以均勻分布初始化信念β-0（τ）

2. for 回合k=1，2，…，K do

3."" 初始化環(huán)境狀態(tài)

4."" a－1←零向量，uk=hk=0

5."" 重置編碼器中LSTM的隱藏狀態(tài)

6."" 使用公式（8）選擇應(yīng)對策略π*k

7."" While tlt;T and 游戲未停止 do

8.計(jì)算隱藏特征zt=fw（s：t，a：t－1）

9.智能體獲取環(huán)境狀態(tài)st并選擇動作

at=π*k（at|st，zt），對手選擇動作ot

10.計(jì)算編碼器重建對手動作的熵值

ht=fu（ot|zt）ln fu（ot|zt）

11.執(zhí)行動作并獲得立即獎勵rt

12.h-k=h-k+ht，uk=uk+rt

13."" end while

14."" 將uk和h-k代入公式（7），更新信念β-k（τ）

15. end

3 實(shí)驗(yàn)分析

在本節(jié)中，本文在足球游戲和追捕游戲兩種對抗環(huán)境中比較了最具代表性的3種算法，包括BPR+^［13^］、Bayes ToMoP^［14^］和Deep BPR+^［17^］。BPR+將標(biāo)準(zhǔn)BPR擴(kuò)展到對抗環(huán)境，特別是那些從一個(gè)固定策略切換到另一個(gè)的設(shè)置^［¹³^］。Bayes ToMoP假設(shè)對手也使用BPR推理。Deep BPR+提出使用神經(jīng)網(wǎng)絡(luò)來近似對手的歷史軌跡，并將其視為對手模型^［¹⁶^］。在實(shí)驗(yàn)中，所有的算法都使用相同的性能模型，并且Deep BPR+可以在在線執(zhí)行中獲取真實(shí)的對手動作。實(shí)驗(yàn)環(huán)境包括二維網(wǎng)絡(luò)世界的足球游戲以及粒子群環(huán)境^［^29-30^］中的追捕游戲，其中足球游戲的全局狀態(tài)采用獨(dú)熱編碼，由球員的位置和控球權(quán)組成，而追捕游戲中的全局狀態(tài)由相應(yīng)智能體的位置和速度數(shù)值組成。在離線階段，著重分析了足球游戲的實(shí)驗(yàn)結(jié)果。在在線階段，分別在兩種對抗環(huán)境中評估了累積獎勵、回合獎勵以及識別對手策略準(zhǔn)確度的指標(biāo)。

3.1 環(huán)境描述

3.1.1 足球游戲

球員在足球游戲世界中的初始位置如圖3所示。紅色機(jī)器人表示智能體，藍(lán)色機(jī)器人代表對手。在每一回合開始時(shí)，對手都擁有控球權(quán)。圖中的每個(gè)網(wǎng)格只能容納一個(gè)球員，而球總是與球員一起存在于同一位置。當(dāng)球員之間發(fā)生碰撞時(shí)，交換球權(quán)，但球員的位置不會改變。在每個(gè)時(shí)間步t，玩家從動作空間{上，下，左，右，不動}中選擇一個(gè)動作并執(zhí)行。一旦球員進(jìn)球或達(dá)到最大回合步長（T=50）時(shí)，游戲結(jié)束，球員和足球的位置就會被重置。在該環(huán)境中，實(shí)驗(yàn)設(shè)定了3個(gè)不同的目標(biāo)。當(dāng)智能體帶球達(dá)到3個(gè)目標(biāo)時(shí)，相應(yīng)的即時(shí)獎勵分別為：rG1=100，rG2=50，rG3=20。

在足球游戲的實(shí)驗(yàn)中，如圖3所示，共設(shè)計(jì)了6個(gè)對手策略，分別對應(yīng)圖中的（1）～（6）。G1、G2和G3分別表示3個(gè)不同的目標(biāo)，每個(gè)目標(biāo)對應(yīng)2個(gè)對手策略。實(shí)驗(yàn)設(shè)定是只有當(dāng)智能體的目標(biāo)位置與當(dāng)前對手策略的目標(biāo)位置相匹配時(shí)，該目標(biāo)才有效且可以獲得獎勵。例如，在某一任務(wù)中，如果對手使用圖3中的策略（2），那么只有當(dāng)智能體將球帶入右邊的G2目標(biāo)時(shí)，該結(jié)果才有效。在這種情況下，只有當(dāng)智能體準(zhǔn)確地識別到對手策略時(shí)，才能從環(huán)境中獲得相應(yīng)獎勵。

3.1.2 追捕游戲

追捕游戲的初始玩家位置如圖4所示，其中包含3個(gè)捕食者和1個(gè)獵物。紅色圓球代表捕食者，藍(lán)色圓球代表獵物，四周表示黑色圍墻，智能體不可越過圍墻。在每個(gè)時(shí)間步t中，捕食者試圖與獵物相撞，而獵物的目標(biāo)是避免碰撞。在每個(gè)時(shí)間步t，智能體可從動作空間{上，下，左，右，不動}中選擇一個(gè)動作并執(zhí)行。如果獵物成功避免與捕食者發(fā)生碰撞，它將得到r0=0.1的獎勵。當(dāng)碰撞次數(shù)分別為1、2和3時(shí)，獎勵則分別為r1=－1、r2=－5和r3=－10。一旦達(dá)到最大回合步長（T=50），游戲結(jié)束。

在實(shí)驗(yàn)中，藍(lán)方控制獵物，將3個(gè)捕食者視為一個(gè)對手整體，并為對手設(shè)計(jì)了4種策略，即優(yōu)先垂直追蹤、優(yōu)先水平追蹤、順時(shí)針追蹤、逆時(shí)針追蹤，4種策略的具體定義如下：優(yōu)先垂直追蹤：捕食者首先通過上下移動來縮小與獵物的垂直距離，然后在垂直距離足夠小時(shí)再向左或向右移動;優(yōu)先水平追蹤：捕食者首先向左或向右移動，以減少與獵物的水平距離，然后在水平距離足夠小時(shí)再向上或向下移動;順時(shí)針追蹤：捕食者以順時(shí)針的運(yùn)動軌跡追蹤獵物;逆時(shí)針追蹤：捕食者以逆時(shí)針的運(yùn)動軌跡追蹤獵物。

3.2 離線階段實(shí)驗(yàn)結(jié)果分析

本節(jié)重點(diǎn)分析了離線訓(xùn)練階段足球游戲的實(shí)驗(yàn)結(jié)果，圖5（a）和圖5（b）展示了性能模型的數(shù)值可視化，圖5（c）和圖5（d）則展示了對手模型的數(shù)值可視化，其中藍(lán)色系和橙色系分別表示效用值u和回合累積熵h-擬合為高斯分布后的均值和方差。從圖5（a）可以看出，性能模型中的均值在對角線位置時(shí)，效用值是最大的，即回合獎勵最大，此時(shí)恰好智能體面對某一對手時(shí)采取最優(yōu)應(yīng)對策略。但是從圖中也可以看出，由于只有在達(dá)成目標(biāo)時(shí)才會得到獎勵，因此在藍(lán)方智能體某個(gè)策略πi應(yīng)對不同對手策略時(shí)，可能會出現(xiàn)性能模型相同的情況，所以如果只依賴性能模型來識別對手類型，將會導(dǎo)致識別結(jié)果不準(zhǔn)確。

對手模型的分析與前面類似，如圖5（c）和圖5（d）所示，對角線位置依舊表示智能體的最優(yōu)應(yīng)對策略，此時(shí)均值最小，即回合累積熵值最小，不確定性也最低。相比于性能模型，對手模型中每一行內(nèi)的色塊之間顏色深淺變化更多，更能區(qū)分。因此，在性能模型的基礎(chǔ)上通過對手模型修正的信念會更加準(zhǔn)確。除此之外，圖6展示了離線訓(xùn)練階段解碼器重建對手動作的準(zhǔn)確度。圖6中，πi表示智能體i;τj表示對手j。從圖6中可以看出，隨著訓(xùn)練的進(jìn)行，該模型能夠準(zhǔn)確地重建出對手動作，并以此來關(guān)聯(lián)對手策略，由此也能證明本文所構(gòu)建出的對手模型是較為準(zhǔn)確的。

3.3 在線階段實(shí)驗(yàn)結(jié)果分析

3.3.1 足球游戲

在在線階段，實(shí)驗(yàn)分為3個(gè)階段，共運(yùn)行400個(gè)回合，重復(fù)100次。在前100個(gè)回合中，對手同樣采用BPR的方式推斷智能體的策略類型并切換策略，切換間隔為20回合/次。在第100～200回合中，對手一開始采用策略（1），然后，在每3個(gè)回合中，按［（1）→（3）→（6）］或［（5）→（2）］或［（1）→（4）］的順序切換策略。在第200～400回合中，對手按照［（3）→（1）→（5）→（3）］的順序，以50回合/次的間隔切換策略。

圖7和圖8分別展示了累積獎勵和回合獎勵，圖9表示在不同階段面對不同對手策略時(shí)的識別準(zhǔn)確率。圖中不同的顏色圖例表示不同的算法，陰影區(qū)域和灰線表示標(biāo)準(zhǔn)差。圖7和圖8中部分交替的背景顏色用以區(qū)分對手策略的切換。在第一階段的前100個(gè)回合中，對手同樣也使用性能模型對紅方智能體進(jìn)行推斷。從實(shí)驗(yàn)圖可以看出，4種算法性能基本保持一致，識別準(zhǔn)確率均可達(dá)到90%以上。

在第100～200回合中，對手每隔幾個(gè)回合就會切換一次策略。與第一階段相比，從圖8和圖9可以看出，Uncertainty BPR在第二階段的性能優(yōu)勢明顯，且能夠更快速地識別對手策略類型。特別地，在一個(gè)回合結(jié)束、更新信念后，對手就可以被識別且延遲較小。雖然Deep BPR+同樣也使用對手模型修正原始信念，但從圖中可以看出，當(dāng)策略切換間隔小于5個(gè)回合時(shí)，該算法的識別效率會降低。此外，BPR+和Beyes ToMoP都是僅依賴回合獎勵識別對手策略類型的方法。然而，當(dāng)對手策略切換間隔減小時(shí)，這兩種方法的性能皆呈現(xiàn)下降趨勢（見圖7和圖8），且Beyes ToMoP的波動較大。

在第200～400回合中，BPR+，Deep BPR+和Uncertainty BPR算法表現(xiàn)一致，皆可較快識別對手策略類型。但是，Beyes ToMoP波動最大，尤其是在第200回合開始時(shí)（見圖8），因?yàn)锽ayes ToMoP需要額外的時(shí)間判斷對手是否同樣使用BPR推理。綜上，如表1所示，Uncertainty BPR在整個(gè)實(shí)驗(yàn)過程中的識別準(zhǔn)確率最高，達(dá)到87.7%，第2位是BPR+;識別準(zhǔn)確率為84.5%，Deep BPR+和Beyes ToMoP位列第3和第4位，識別準(zhǔn)確率分別為84.1%和81.8%。

3.3.2 追捕游戲

在在線階段，追捕游戲?qū)嶒?yàn)同樣分為3個(gè)階段運(yùn)行400個(gè)回合，重復(fù)100次。在前100回合中，對手采用BPR模型推斷紅方智能體的策略類型，并以20回合/次的間隔切換策略。在第100～200回合中，對手最初采用策略（1），接著以每5個(gè)回合1次的間隔按［（1）→（2）→（4）→（3）］的順序改變策略。在第200～400回合中，對手從4個(gè)候選策略中選擇1個(gè)策略，并以50回合/次的間隔進(jìn)行切換，策略切換順序?yàn)椋郏?）→（3）→（1）→（2）］。

同樣，分析追捕游戲在在線重用階段的實(shí)驗(yàn)結(jié)果，圖例表示與足球游戲相同。在前100個(gè)回合中，對手仍然具備推理能力，如圖10所示。如圖11所示，4個(gè)算法在此階段整體表現(xiàn)優(yōu)越，識別準(zhǔn)確率皆可達(dá)到90%以上。然而，Beyes ToMoP相對其他3個(gè)算法略有波動（見圖10和圖11），這是因?yàn)锽eyes ToMoP在對手切換策略時(shí)需要額外的時(shí)間判斷對手是否使用BPR推斷。

在第100～200回合中，對手在4種策略內(nèi)以5回合/次的間隔按設(shè)定的順序切換策略。由于智能體需要在回合間更新信息，所以難以立即檢測到對手策略的類型，至少需要一次交互來更新信念。因此，從圖10和圖11可以看出，當(dāng)切換間隔減小時(shí)，所有算法的性能皆有所下降。其中，Beyes ToMoP和BPR+的識別準(zhǔn)確率相對較低，這是因?yàn)锽PR+和Beyes ToMoP過度依賴性能模型，使得當(dāng)性能模型相似時(shí)，很難區(qū)分對手。此外，Deep BPR+的識別準(zhǔn)確率僅略低于Uncertainty BPR。

在第200～400回合中，對手以50回合/次的間隔切換策略。如圖11和圖12所示，4個(gè)算法皆有較好的性能，可以快速識別和應(yīng)對對手策略切換。不過，Beyes ToMoP相對于其他3個(gè)算法性能依舊有所波動。綜上所述，如表1所示，Uncertainty BPR在整個(gè)實(shí)驗(yàn)過程中的識別準(zhǔn)確率最高，達(dá)到92.5%;第2位是Deep BPR+，識別準(zhǔn)確率為91.6%，BPR+、Beyes ToMoP排名第3和第4，識別準(zhǔn)確率分別為90.7%和89.7%。

3.3.3 對策略切換間隔影響的分析

為了研究對手策略切換間隔對識別精度的影響，實(shí)驗(yàn)比較不同算法在不同時(shí)間間隔切換策略時(shí)的性能。實(shí)驗(yàn)將對手的切換間隔分別設(shè)置為20、10、5和3回合/次，并且在每次切換時(shí)隨機(jī)從對手策略庫T中選擇一個(gè)策略。然后，在400個(gè)回合中分別重復(fù)100次實(shí)驗(yàn)。

圖13和圖14分別描述了足球游戲和追捕游戲中對手使用不同切換間隔時(shí)的識別精度。從圖中可以看出，4個(gè)算法在切換間隔較小時(shí)都有較好的效果。但是，隨著切換間隔的減小，各個(gè)算法的性能皆有所下降。其中Bayes ToMoP算法性能損失最為明顯，因?yàn)樵撍惴ㄐ枰~外的時(shí)間來判斷對手是否使用BPR推斷。而Deep BPR+的表現(xiàn)明顯優(yōu)于BPR+和Bayes ToMoP。Uncertainty BPR算法的性能則依舊是最好的。綜上所述，本文所提算法在適應(yīng)一個(gè)回合后就能識別出對手的策略。

4 結(jié) 論

在多智能體對抗中，快速地識別和適應(yīng)在線執(zhí)行中動作不可獲取的非平穩(wěn)對手是一個(gè)具有挑戰(zhàn)性的問題。本文提出合理的假設(shè)，并對具體的方法和實(shí)驗(yàn)進(jìn)行描述性分析。在理論上，為了避免在線執(zhí)行時(shí)直接獲取對手動作，本文以離線建模、在線使用的思路，結(jié)合AE模型，通過統(tǒng)計(jì)重建對手動作的回合累積熵建立對手模型。然后，利用對手模型以在線交互回合累積熵修正信念，選擇最優(yōu)策略并重用，并通過實(shí)驗(yàn)驗(yàn)證所提方法的有效性。具體地，Uncertainty BPR相比于僅依賴回合獎勵作為更新信號的BPR+和Bayes ToMoP，識別速度更快。此外，雖然Uncertainty BPR不能直接訪問對手動作，但是依舊可以取得與Deep BPR+相同、甚至更好的識別效果。

參考文獻(xiàn)

［1］ ZHOU Z Y， LIU G J， TANG Y. Multi agent reinforcement learning： methods， applications， visionary prospects， and cha llenges［EB/OL］. ［2023-09-05］. https：∥doi.org/10.48550/arXiv.2305.10091.

［2］WEN M N， KUBA J， LIN R J， et al. Multi agent reinforcement learning is a sequence modeling problem［J］. Advances in Neural Information Processing Systems， 2022， 35： 16509-16521.

［3］VINYALS O， BABUSCHKIN I， CZARNECKI W M， et al. Grandmaster level in StarCraft II using multi agent reinforcement learning［J］. Nature， 2019， 575（7782）： 350-354.

［4］GAO Y M， LIU F Y， WANG L， et al. Towards effective and interpretable human agent collaboration in MOBA games： a communication perspective［C］∥Proc.of the 11th International Conference on Learning Representations， 2023.

［5］張磊，李姜，侯進(jìn)永，等. 基于改進(jìn)強(qiáng)化學(xué)習(xí)的多無人機(jī)協(xié)同對抗算法研究［J］. 兵器裝備工程學(xué)報(bào)， 2023， 44（5）： 230-238.

ZHANG L， LI J， HOU J Y， et al. Research on multi UAV cooperative confrontation algorithm based on improved reinforcement learning［J］. Journal of Ordnance Equipment Engineering， 2023， 44（5）： 230-238.

［6］POPE A P， IDE J S， MICOVIC D， et al. Hierarchical reinforcement learning for air combat at DARPA's Alpha dog fight trials［J］. IEEE Trans.on Artificial Intelligence， 2022， 4（6）： 1371-1385.

［7］ANDRIES S， HERMAN A E， WILLIE B， et al. Scaling multi agent reinforcement learning to full 11 versus 11 simulated robotic football［J］. Autonomous Agents and Multi Agent Systems， 2023， 37（1）： 30.

［8］孫輝輝，胡春鶴，張軍國. 基于主動風(fēng)險(xiǎn)防御機(jī)制的多機(jī)器人強(qiáng)化學(xué)習(xí)協(xié)同對抗策略［J］. 控制與決策， 2023， 38（5）： 1429-1450.

SUN H H， HU C H， ZHANG J G. Cooperative countermeasure strategy based on active risk defense multiagent reinforcement learning［J］. Control and Decision， 2023， 38（5）： 1429-1450.

［9］ZHANG T. Opponent modelling in multi agent systems［D］. London： University College London， 2021.

［10］HU H M， SHI D X， YANG H H， et al. Independent multi agent reinforcement learning using common knowledge［C］∥Proc.of the IEEE International Conference on Systems， Man， and Cybernetics， 2022： 2703-2708.

［11］ROSMAN B， HAWASLY M， RAMAMOORTHY S. Bayesian policy reuse［J］. Machine Learning， 2016， 104： 99-127.

［12］何立，沈亮，李輝，等. 強(qiáng)化學(xué)習(xí)中的策略重用：研究進(jìn)展［J］. 系統(tǒng)工程與電子技術(shù)， 2022， 44（3）： 884-899.

HE L， SHEN L， LI H， et al. Survey on policy reuse in reinforcement learning［J］. Systems Engineering and Electronics， 2022， 44（3）： 884-899.

［13］HERNANDEZ LEAL P， TAYLOR M E， ROSMAN B， et al. Identifying and tracking switching， non stationary opponents： a Bayesian approach［C］∥Proc.of the 30th Conference on Artificial Intelligence， 2016.

［14］YANG T P， MENG Z P， HAO J Y， et al. Towards efficient detection and optimal response against sophisticated opponents［C］∥Proc.of the 28th International Joint Conference on Artificial Intelligence， 2019： 623-629.

［15］WEERD H D， VERBRUFFE R， VERHEIJ B. How much does it help to know what she knows you know？ an agent based simulation study［J］. Artificial Intelligence， 2013， 199： 67-92.

［16］HERNANDEZ LEAL P， KARTAL B， TAYLOR M E. A survey and critique of multiagent deep reinforcement learning［J］. Autonomous Agents and Multi Agent Systems， 2019， 33： 750-797.

［17］ZHENG Y， MENG Z P， HAO J Y， et al. A deep Bayesian policy reuse approach against non stationary agents［C］∥Proc.of the Advances in Neural Information Processing Systems， 2018.

［18］BANK D， KOENIGSTEIN N， GIRYES R. Autoencoders［J］. Machine Learning for Data Science Handbook， 2023. DOI：https：∥doi.org/10.1007/978 3 031 24628 9_16.

［19］ZHAI J H， ZHANG S F， CHEN J F， et al. Autoencoder and its various variants［C］∥Proc.of the IEEE International Conference on Systems， Man， and Cybernetics， 2018： 415-419.

［20］LI C J， ZHOU D， GU Q， et al. Learning two player Markov games： neural function approximation and correlated equilibrium［J］. Advances in Neural Information Processing Systems， 2022， 35： 33262-33274.

［21］GUO W B， WU X， HUANG S， et al. Adversarial policy learning in two player competitive games［C］∥Proc.of the 38th International Conference on Machine Learning， 2021： 3910-3919.

［22］SCHULMAN J， WOLSKI F， DHARIWAL P， et al. Proximal policy optimization algorithms［EB/OL］. ［2023-09-05］. https：∥doi.org/10.48550/arXiv.1707.06347.

［23］VOLODYMYR M， ADRIA P B， MEH D， et al. Asynchronous methods for deep reinforcement learning［C］∥Proc.of the 33th International Conference on Machine Learning， 2016.

［24］姜楠，王健. 信息論與編碼理論［M］. 北京：清華大學(xué)出版社， 2010.

JIANG N， WANG J. The theory of information and coding［M］. Beijing： Tsinghua University Press， 2020.

［25］ZHANG T， YING W G， GONG Z C， et al. A regularized opponent model with maximum entropy objective［C］∥Proc.of the 29th International Joint Conference on Artificial Intelligence， 2019.

［26］WIMMER L， SALE Y， HOFMAN P， et al. Quantifying aleatoric and epistemic uncertainty in machine learning： are conditional entropy and mutual information appropriate measures？［C］∥Proc.of the 39th Conference on Uncertainty in Artificial Intelligence， 2023： 2282-2292.

［27］MURPHY K P. Probabilistic machine learning： an introduction［M］. Cambridge： Massachusetts Institute of Technology Press， 2022.

［28］CRESCENZO D A， LONGOBARD M. On cumulative entropies［J］. Journal of Statistical Planning and Inference， 2009， 139（12）： 4072-4087.

［29］PAPOUDAKIS G， CHRISTIANOU F， ALBRECHT S. Agent modelling under partial observability for deep reinforcement learning［J］. Advances in Neural Information Processing Systems， 2021， 34： 19210-19222.

［30］LOWE R， WU Y I， TAMAR A， et al. Multi agent actor critic for mixed cooperative competitive environments［C］∥Proc.of the 31st International Conference on Neural Information Processing Systems， 2017： 6382-6393.

作者簡介

付可（1993—），女，博士研究生，主要研究方向?yàn)槎嘀悄荏w強(qiáng)化學(xué)習(xí)、系統(tǒng)仿真。

陳浩（1993—），男，講師，博士，主要研究方向?yàn)槎嘀悄荏w強(qiáng)化學(xué)習(xí)、系統(tǒng)仿真。

王宇（1998—），男，博士研究生，主要研究方向?yàn)槎嘀悄荏w強(qiáng)化學(xué)習(xí)、系統(tǒng)仿真。

劉權(quán)（1985—），男，副研究員，博士，主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、無線傳感器網(wǎng)絡(luò)。

黃 ?。?971—），女，研究員，博士，主要研究方向?yàn)橄到y(tǒng)仿真、機(jī)器學(xué)習(xí)。