一種無人機(jī)集群對抗多耦合任務(wù)智能決策方法

2021-05-24 07:31:58文永明石曉榮黃雪梅

宇航學(xué)報 2021年4期

文永明，石曉榮，黃雪梅，余躍

(北京控制與電子技術(shù)研究所，北京100038)

0 引言

隨著集群技術(shù)和人工智能的發(fā)展，基于群體智能的集群協(xié)同技術(shù)逐漸發(fā)展為未來智能化戰(zhàn)爭的發(fā)展方向[1-3]。無人機(jī)集群利用低成本、大規(guī)模和分布式的優(yōu)勢，協(xié)同偵查作戰(zhàn)可以體現(xiàn)出顯著的靈活性和智能性。無人機(jī)集群協(xié)同偵查在線決策主要包括協(xié)同目標(biāo)分配和突防軌跡規(guī)劃等多個相互耦合的任務(wù)，無人機(jī)集群需要根據(jù)戰(zhàn)場態(tài)勢和作戰(zhàn)任務(wù)決策出每架無人機(jī)的偵查目標(biāo)和突防軌跡，以最大化集群對抗效能。隨著對抗環(huán)境愈加復(fù)雜動態(tài)，對抗手段愈加多樣智能，無人機(jī)集群對抗在線決策存在耦合任務(wù)多、決策空間大和場景不確定難題，導(dǎo)致傳統(tǒng)基于專家知識和現(xiàn)代優(yōu)化算法的決策方法難以同時滿足在線決策的實(shí)時性、最優(yōu)性和泛化性。

隨著人工智能技術(shù)的發(fā)展與突破[4]，尤其是深度強(qiáng)化學(xué)習(xí)在智能決策等方面得到了廣泛關(guān)注與研究[5-7]。深度強(qiáng)化學(xué)習(xí)是深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的有機(jī)結(jié)合，深度學(xué)習(xí)善于擬合，可通過深層神經(jīng)網(wǎng)絡(luò)表征復(fù)雜空間的非線性和泛化性，強(qiáng)化學(xué)習(xí)善于決策，可通過迭代學(xué)習(xí)使累計(jì)獎勵最大化來獲得高性能策略。深度強(qiáng)化學(xué)習(xí)基于大量離線訓(xùn)練得到智能策略網(wǎng)絡(luò)，進(jìn)行快速在線決策，可彌補(bǔ)無人機(jī)集群對抗程序化策略帶來的局限性，提升應(yīng)對復(fù)雜飛行環(huán)境和突發(fā)事件的適應(yīng)能力[8]。

在深度強(qiáng)化學(xué)習(xí)架構(gòu)方面，當(dāng)決策問題由單個任務(wù)或少數(shù)簡單任務(wù)構(gòu)成時，通常采用集中式深度強(qiáng)化學(xué)習(xí)架構(gòu)來解決。如圖1所示，集中式架構(gòu)的多耦合任務(wù)使用同一套策略網(wǎng)絡(luò)、獎勵函數(shù)和經(jīng)驗(yàn)池，進(jìn)行集中式耦合訓(xùn)練，在決策時一次同時輸出各個任務(wù)的動作。集中式架構(gòu)建模簡單，并且在理論上可保證存在全局最優(yōu)解。

圖1 集中式架構(gòu)Fig.1 Centralized architecture

文獻(xiàn)[9]基于DDPG集中式架構(gòu)優(yōu)化一類變體飛行器外形，因其決策空間較小，故可以快速收斂到最優(yōu)變外形策略。文獻(xiàn)[10]采用DQN(Deep Q-Network)算法對多個Atari小游戲(比如“乒乓球”、“打磚塊”等)進(jìn)行建模和訓(xùn)練，最終在多款游戲上的表現(xiàn)超越了人類玩家。然而，在“蒙特祖瑪?shù)膹?fù)仇”這款游戲中，DQN算法的勝率為0%[11]，其原因是這款游戲的任務(wù)較多且相互耦合(比如爬樓梯、躲避敵人、拿鑰匙等)，策略空間巨大，集中式架構(gòu)在有限計(jì)算資源下難以收斂。為了解決多個耦合復(fù)雜任務(wù)所帶來的決策空間爆炸等問題，分層式深度強(qiáng)化學(xué)習(xí)架構(gòu)被提出[12]。如圖2所示，分層式架構(gòu)的多耦合任務(wù)使用多套對應(yīng)的策略網(wǎng)絡(luò)、獎勵函數(shù)和經(jīng)驗(yàn)池，按照任務(wù)間的邏輯關(guān)系進(jìn)行分層單獨(dú)訓(xùn)練，在決策時輸出各自的動作進(jìn)行組合來完成整個決策問題。分層式架構(gòu)將多耦合任務(wù)進(jìn)行解耦建模與分層單獨(dú)訓(xùn)練，可以縮小整個決策問題的策略空間，使得各個任務(wù)的策略網(wǎng)絡(luò)收斂速度加快。

圖2 分層式架構(gòu)Fig.2 Hierarchical architecture

文獻(xiàn)[13]采用分層深度強(qiáng)化學(xué)習(xí)架構(gòu)將“蒙特祖瑪?shù)膹?fù)仇”抽象成多個不同層次的子任務(wù)進(jìn)行建模，AI可以完成游戲任務(wù)。文獻(xiàn)[14]采用分層深度強(qiáng)化學(xué)習(xí)架構(gòu)對一款籃球游戲建模，基于下層已熟練掌握的籃球技巧，智能體學(xué)到了上層的有效策略。文獻(xiàn)[15]基于高斯過程回歸與深度強(qiáng)化學(xué)習(xí)的分層人機(jī)協(xié)作控制方法,并以人機(jī)協(xié)作控制球桿系統(tǒng)為例檢驗(yàn)該方法的高效性。然而，分層式架構(gòu)的各個子任務(wù)的策略網(wǎng)絡(luò)分離，即使各個子任務(wù)都收斂到各自的全局最優(yōu)解，但是將它們組合后，得到的結(jié)果很可能不是整個任務(wù)的全局最優(yōu)解。例如在無人機(jī)集群對抗中，目標(biāo)分配結(jié)果是軌跡規(guī)劃的輸入，而軌跡規(guī)劃性能是目標(biāo)分配的依據(jù)，分層式架構(gòu)將這兩個子任務(wù)分開訓(xùn)練，沒有充分考慮它們之間固有的耦合關(guān)系，因此多耦合任務(wù)間的協(xié)同性無法充分體現(xiàn)，集群對抗效能無法充分發(fā)揮。本文針對無人機(jī)集群對抗中耦合任務(wù)多和決策空間大難題，結(jié)合集中式和分層式架構(gòu)的優(yōu)點(diǎn)，設(shè)計(jì)了面向多耦合任務(wù)的混合式深度強(qiáng)化學(xué)習(xí)架構(gòu)，通過構(gòu)建多套相關(guān)聯(lián)的多耦合任務(wù)分層策略網(wǎng)絡(luò)進(jìn)行集中耦合訓(xùn)練，可提升多耦合任務(wù)間的協(xié)同性和集群對抗效能。

在深度強(qiáng)化學(xué)習(xí)獎勵函數(shù)設(shè)計(jì)方面，序貫動作導(dǎo)致的稀疏獎勵問題是指在多步強(qiáng)化學(xué)習(xí)中，往往只在最后一步存在明確獎勵，而中間過程的即時獎勵函數(shù)難以人為設(shè)計(jì)且存在主觀性和經(jīng)驗(yàn)性。例如無人機(jī)集群對抗的多步軌跡規(guī)劃只在結(jié)束時才能得到是否被攔截或者偵查目標(biāo)的結(jié)果，而中間過程很難根據(jù)當(dāng)前的位置和速度等信息設(shè)計(jì)合適的即時獎勵函數(shù)來引導(dǎo)突防和偵查目標(biāo)。強(qiáng)化學(xué)習(xí)是求累計(jì)獎勵期望最大時的最優(yōu)策略，獎勵函數(shù)不同將直接影響策略的性能，如果沒有合適的即時獎勵，稀疏獎勵問題會導(dǎo)致策略網(wǎng)絡(luò)難以快速且穩(wěn)定收斂[16]。為了解決稀疏獎勵問題，文獻(xiàn)[17]提出逆向強(qiáng)化學(xué)習(xí)方法，即專家在完成某項(xiàng)任務(wù)時，其決策往往是最優(yōu)或接近最優(yōu)，可以假設(shè)，當(dāng)所有的策略所產(chǎn)生的累積獎勵期望都不比專家策略所產(chǎn)生的累積獎勵期望大時，所對應(yīng)的獎勵函數(shù)就是根據(jù)示例學(xué)到的獎勵函數(shù)。為了使逆向強(qiáng)化學(xué)習(xí)可以很好地?cái)U(kuò)展到具有大量狀態(tài)的系統(tǒng)，將其與深度學(xué)習(xí)相結(jié)合，在神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)狀態(tài)動作對的獎勵，如基于最大邊際法的深度逆向強(qiáng)化學(xué)習(xí)[18]和基于深度Q網(wǎng)絡(luò)的深度學(xué)徒學(xué)習(xí)[19]等。然而，逆向強(qiáng)化學(xué)習(xí)和深度逆向強(qiáng)化學(xué)習(xí)都是從專家示例中學(xué)習(xí)獎勵函數(shù)，在復(fù)雜場景下無人機(jī)集群對抗問題中難以獲取足夠的專家示例來支撐上述方法。本文針對軌跡規(guī)劃序貫決策的稀疏獎勵難題，設(shè)計(jì)了基于軌跡構(gòu)造的一步式動作空間設(shè)計(jì)方法，回避了多步?jīng)Q策的中間過程，從而避免了稀疏獎勵問題，可使策略網(wǎng)絡(luò)穩(wěn)定快速收斂。

在深度強(qiáng)化學(xué)習(xí)的泛化性研究方面，泛化性是指訓(xùn)練好的智能策略網(wǎng)絡(luò)在未見過的場景中也具有一定的適應(yīng)能力，其體現(xiàn)在深度神經(jīng)網(wǎng)絡(luò)對獨(dú)立同分布數(shù)據(jù)強(qiáng)大的擬合和預(yù)測能力。因此，在深度強(qiáng)化學(xué)習(xí)訓(xùn)練過程中，使策略網(wǎng)絡(luò)探索到盡可能大的決策空間，增加數(shù)據(jù)的多樣性，是提升其泛化性的有效途徑。2017年，DeepMind團(tuán)隊(duì)在《Nature》上推出了圍棋人工智能AlphaZero[20]，AlphaZero不需要人類專家知識，只使用純粹的深度強(qiáng)化學(xué)習(xí)和蒙特卡洛樹搜索，經(jīng)過3天的自我博弈就以100比0的成績完敗了AlphaGo，AlphaZero強(qiáng)大的搜索能力和泛化性得益于海量且多樣的自我博弈數(shù)據(jù)。文獻(xiàn)[21]指出，AlphaZero智能化方法框架可以啟發(fā)人工智能在智能指揮決策等領(lǐng)域的應(yīng)用。本文針對強(qiáng)對抗條件下的場景不確定難題，基于無人機(jī)集群紅藍(lán)對抗仿真平臺，設(shè)計(jì)了基于多隨機(jī)場景的紅藍(lán)博弈訓(xùn)練方法，通過隨機(jī)變化對抗雙方的初始位置和速度等，來設(shè)置每局的對抗態(tài)勢，從而得到多樣化的對抗訓(xùn)練數(shù)據(jù)；通過設(shè)計(jì)藍(lán)方AI，采用紅藍(lán)博弈的方式獲得更加智能的藍(lán)方策略作為紅方AI的陪練，從而可以進(jìn)一步提升紅方AI的泛化性。

本文的主要創(chuàng)新點(diǎn)和貢獻(xiàn)：1)針對無人機(jī)集群對抗中耦合任務(wù)多和決策空間大難題，設(shè)計(jì)了面向多耦合任務(wù)的混合式深度強(qiáng)化學(xué)習(xí)架構(gòu)，可提升多耦合任務(wù)間的協(xié)同性和集群對抗效能；2)針對軌跡規(guī)劃序貫決策的稀疏獎勵難題，設(shè)計(jì)了基于軌跡構(gòu)造的一步式動作空間設(shè)計(jì)方法，可加快策略網(wǎng)絡(luò)收斂速度；3)針對強(qiáng)對抗條件下的場景不確定難題，設(shè)計(jì)了基于多隨機(jī)場景的紅藍(lán)博弈訓(xùn)練方法，可增強(qiáng)策略網(wǎng)絡(luò)的泛化性。

1 混合式深度強(qiáng)化學(xué)習(xí)架構(gòu)

混合式架構(gòu)將集中式架構(gòu)和分層式架構(gòu)進(jìn)行結(jié)合。多耦合任務(wù)使用多套與子任務(wù)對應(yīng)的執(zhí)行者-評估者(Actor-Critic, AC)神經(jīng)網(wǎng)絡(luò)與獎勵函數(shù)分層構(gòu)建網(wǎng)絡(luò)，且多個經(jīng)驗(yàn)池中的經(jīng)驗(yàn)相互關(guān)聯(lián)。在策略網(wǎng)絡(luò)訓(xùn)練控制器的調(diào)度下，多個策略網(wǎng)絡(luò)按照多任務(wù)間的分層關(guān)系進(jìn)行集中耦合訓(xùn)練。在訓(xùn)練過程中，每個評估者(Critic)網(wǎng)絡(luò)收集所有任務(wù)的狀態(tài)和動作信息作為評價的輸入，從而為策略更新提供準(zhǔn)確且穩(wěn)定的信號，更充分的狀態(tài)和動作信息有助于提高耦合任務(wù)間的協(xié)同性；在策略執(zhí)行過程中，各任務(wù)只需根據(jù)自己的狀態(tài)和執(zhí)行者(Actor)網(wǎng)絡(luò)，進(jìn)行決策控制，如圖3所示。

圖3 混合式架構(gòu)Fig.3 Hybrid architecture

混合式架構(gòu)保留了集中式和分層式架構(gòu)的主要優(yōu)點(diǎn)，又克服了它們的突出缺點(diǎn)，既保證了各個耦合任務(wù)之間相對穩(wěn)定的訓(xùn)練環(huán)境，有利于得到多任務(wù)協(xié)同下的全局最優(yōu)解，又使得策略空間規(guī)?？山邮埽欣诓呗跃W(wǎng)絡(luò)快速收斂。三種深度強(qiáng)化學(xué)習(xí)架構(gòu)特點(diǎn)對比如表1所示。

混合式深度強(qiáng)化學(xué)習(xí)架構(gòu)主要由多任務(wù)策略網(wǎng)絡(luò)和策略網(wǎng)絡(luò)訓(xùn)練控制器組成，多任務(wù)策略網(wǎng)絡(luò)利用多套相關(guān)聯(lián)的AC網(wǎng)絡(luò)對子任務(wù)進(jìn)行建模并分層，策略網(wǎng)絡(luò)訓(xùn)練控制器按照多任務(wù)間的分層關(guān)系進(jìn)行集中耦合訓(xùn)練?；旌鲜郊軜?gòu)的建模和訓(xùn)練流程如圖4所示。

表1 三種架構(gòu)特點(diǎn)對比Table 1 Comparison of three architectures

圖4 混合式架構(gòu)建模與訓(xùn)練流程圖Fig.4 Hybrid architecture modeling and training flow chart

1.1 多任務(wù)策略網(wǎng)絡(luò)

多耦合任務(wù)M由N個子任務(wù)mi組成，即M={mi}(i表示子任務(wù)編號且i=1,2,…,N)，根據(jù)多耦合任務(wù)之間的邏輯關(guān)系，將N個子任務(wù)進(jìn)行分層。任務(wù)mi基于AC架構(gòu)構(gòu)建執(zhí)行者(Actor)神經(jīng)網(wǎng)絡(luò)Ai和評估者(Critic)神經(jīng)網(wǎng)絡(luò)Ci。任務(wù)mi的狀態(tài)空間為si，動作空間為ai，獎勵值為ri。任務(wù)mi的經(jīng)驗(yàn)池設(shè)計(jì)為：

ei={s1,s2,…,sN,a1,a2,…,aN,

s′1,s′2,…,s′N,ri,d1,d2,…,dN}

(1)

式中：s′i為任務(wù)mi下一步的狀態(tài)，di為任務(wù)mi結(jié)束標(biāo)志，且當(dāng)任務(wù)mi結(jié)束時，di=1，反之，di=0。

任務(wù)mi的評估者神經(jīng)網(wǎng)絡(luò)Ci的輸入層為所有任務(wù)的狀態(tài)S={s1,s2,…,sN}和所有任務(wù)的動作A={a1,a2,…,aN}，Ci的輸出層為1維的全局評估值。任務(wù)mi的執(zhí)行者神經(jīng)網(wǎng)絡(luò)Ai的輸入層為任務(wù)mi的狀態(tài)si，Ai的輸出層為任務(wù)mi的動作ai。

1.2 策略網(wǎng)絡(luò)訓(xùn)練控制器

為了多耦合任務(wù)M的整個策略網(wǎng)絡(luò)能夠快速穩(wěn)定收斂，下層任務(wù)需要給上層任務(wù)創(chuàng)造良好的學(xué)習(xí)環(huán)境基礎(chǔ)，故策略網(wǎng)絡(luò)訓(xùn)練控制器設(shè)計(jì)為先訓(xùn)練下層任務(wù)，達(dá)到設(shè)計(jì)指標(biāo)后，再耦合訓(xùn)練上一層任務(wù)，即上下層集中訓(xùn)練。

策略網(wǎng)絡(luò)訓(xùn)練控制器設(shè)計(jì)訓(xùn)練流程如下：

1)初始化：設(shè)置多任務(wù)策略網(wǎng)絡(luò)和策略網(wǎng)絡(luò)訓(xùn)練控制器參數(shù)；

2)生成下層動作：根據(jù)下層執(zhí)行者神經(jīng)網(wǎng)絡(luò)Ai的策略生成動作：

ai=Ai(si)+δi

(2)

3)生成上層動作：上層任務(wù)隨機(jī)生成動作：

ai=ξi

(3)

式中：ξi為服從均勻分布的隨機(jī)數(shù)；

4)與仿真環(huán)境交互：將得到動作集合A={a1,a2,…,aN}在仿真環(huán)境中執(zhí)行，得到獎勵值集合R={r1,r2,…,rN}，下一個狀態(tài)集合S′={s′1,s′2,…,s′N}和任務(wù)是否結(jié)束標(biāo)志集合D={d1,d2,…,dN}；

5)保存經(jīng)驗(yàn)：將經(jīng)驗(yàn)

ei={S,A,S′,ri,D}={s1,s2,…,sN,a1,a2,…,

aN,s′1,s′2,…,s′N,ri,d1,d2,…,dN}

(4)

存入任務(wù)mi的經(jīng)驗(yàn)池Ei；

6)策略網(wǎng)絡(luò)訓(xùn)練：當(dāng)任務(wù)mi的經(jīng)驗(yàn)池Ei總經(jīng)驗(yàn)數(shù)達(dá)到開始訓(xùn)練的條件時，開始對任務(wù)mi的策略網(wǎng)絡(luò)進(jìn)行訓(xùn)練：

(2)定義累計(jì)獎勵函數(shù)：令任務(wù)mi的累計(jì)獎勵為：

(5)

(3)定義損失函數(shù)：令任務(wù)mi的損失函數(shù)為：

(6)

式中：Ci(·)為任務(wù)mi在神經(jīng)網(wǎng)絡(luò)參數(shù)為θCi下的評估者神經(jīng)網(wǎng)絡(luò)價值函數(shù)。通過求L(θCi)的極小值來更新θCi；

(4)定義采樣策略梯度函數(shù)：令任務(wù)mi的采樣策略梯度為：

(7)

(5)更新策略網(wǎng)絡(luò)參數(shù)：根據(jù)式(7)估計(jì)的策略梯度通過深度學(xué)習(xí)優(yōu)化器來更新任務(wù)mi的執(zhí)行者神經(jīng)網(wǎng)絡(luò)參數(shù)θAi；

(6)更新目標(biāo)網(wǎng)絡(luò)參數(shù)：滿足一定條件時，按照式(8)來更新任務(wù)mi的目標(biāo)執(zhí)行者神經(jīng)網(wǎng)絡(luò)參數(shù)θ′Ai和目標(biāo)評估者神經(jīng)網(wǎng)絡(luò)參數(shù)θ′Ci：

(8)

式中：τi為神經(jīng)網(wǎng)絡(luò)參數(shù)更新頻率，“←”表示賦值。

(7)測試與訓(xùn)練層級遞進(jìn)：訓(xùn)練一定次數(shù)后，測試當(dāng)前層對應(yīng)的所有任務(wù)是否都達(dá)到設(shè)計(jì)指標(biāo)，如果是，則開始上一層任務(wù)的訓(xùn)練；否則，繼續(xù)本層任務(wù)的訓(xùn)練；

(8)循環(huán)：重復(fù)流程(1)至流程(8)，直至多耦合任務(wù)M訓(xùn)練結(jié)束，且測試達(dá)到預(yù)定指標(biāo)。

1.3 無人機(jī)集群對抗混合式架構(gòu)建模

1) 多任務(wù)策略網(wǎng)絡(luò)。上層：協(xié)同目標(biāo)分配，決策紅方無人機(jī)集群中每架無人機(jī)的偵查目標(biāo)，以最大化集群對抗效能(偵查總得分)；下層：突防軌跡規(guī)劃，決策紅方無人機(jī)的突防和偵查軌跡，既要進(jìn)行躲避機(jī)動又要保留足夠的機(jī)動能力對目標(biāo)進(jìn)行偵查，以最大化突防概率(突防成功的紅方無人機(jī)數(shù)量除以紅方無人機(jī)總數(shù)量)和偵查成功率(偵查成功的紅方無人機(jī)數(shù)量除以紅方無人機(jī)總數(shù)量)。

2)狀態(tài)空間。目標(biāo)分配策略網(wǎng)絡(luò)的狀態(tài)主要包括：紅方無人機(jī)數(shù)量、位置、速度和藍(lán)方待偵查目標(biāo)數(shù)量、位置、價值等；軌跡規(guī)劃策略網(wǎng)絡(luò)的狀態(tài)主要包括：紅方無人機(jī)位置、速度和藍(lán)方待偵查目標(biāo)位置等。

3)動作空間。目標(biāo)分配策略網(wǎng)絡(luò)的動作為：紅方無人機(jī)偵查目標(biāo)的編號；軌跡規(guī)劃策略網(wǎng)絡(luò)的動作為：紅方無人機(jī)軌跡構(gòu)造函數(shù)的參數(shù)。

4)獎勵函數(shù)。確定3個元獎勵分別為突防元獎勵ro_tf、偵查元獎勵ro_zc和效能元獎勵ro_xn。紅方無人機(jī)突防成功，則ro_tf=1，否則ro_tf=-1；紅方無人機(jī)成功偵查目標(biāo)，則ro_zc=1，否則ro_zc=-1；集群對抗效能歸一化作為效能元獎勵ro_xn。為了進(jìn)一步體現(xiàn)各個耦合任務(wù)之間的協(xié)同性，采用元獎勵加權(quán)的方式使目標(biāo)分配和軌跡規(guī)劃的獎勵函數(shù)相互關(guān)聯(lián)。根據(jù)目標(biāo)分配對各個元獎勵的影響確定目標(biāo)分配的突防權(quán)重wo_tf_mb、偵查權(quán)重wo_zc_mb和效能權(quán)重wo_xn_mb，且滿足wo_tf_mb+wo_zc_mb+wo_xn_mb=1。同理，根據(jù)軌跡規(guī)劃對各個元獎勵的影響確定軌跡規(guī)劃的突防權(quán)重wo_tf_gj、偵查權(quán)重wo_zc_gj和效能權(quán)重wo_xn_gj，且滿足wo_tf_gj+wo_zc_gj+wo_xn_gj=1。則目標(biāo)分配獎勵函數(shù)為：

rmb=wo_tf_mbro_tf+wo_zc_mbro_zc+wo_xn_mbro_xn

(9)

軌跡規(guī)劃的獎勵函數(shù)為：

rgj=wo_tf_gjro_tf+wo_zc_gjro_zc+wo_xn_gjro_xn

(10)

5)策略網(wǎng)絡(luò)訓(xùn)練控制器。先訓(xùn)練下層軌跡規(guī)劃策略網(wǎng)絡(luò)。當(dāng)突防概率和偵查成功率達(dá)到指標(biāo)要求后，再訓(xùn)練上層目標(biāo)分配策略網(wǎng)絡(luò)，兩個任務(wù)進(jìn)行集中耦合訓(xùn)練，直至突防概率、偵查成功率和集群對抗效能達(dá)到指標(biāo)要求后，訓(xùn)練完畢。

2 基于軌跡構(gòu)造的一步式動作空間設(shè)計(jì)方法

在突防軌跡規(guī)劃中，紅方無人機(jī)通過在線生成機(jī)動指令來達(dá)到躲避攔截和偵查目標(biāo)的目的。通常采用多步序貫決策方式會帶來稀疏獎勵問題，它是指在每個決策周期都生成無人機(jī)的機(jī)動指令，但只在最后一步存在明確的獎勵，而過程獎勵難以設(shè)計(jì)，會導(dǎo)致策略網(wǎng)絡(luò)難以快速穩(wěn)定收斂。針對上述問題，設(shè)計(jì)了基于軌跡構(gòu)造的一步式動作空間設(shè)計(jì)方法。

根據(jù)紅方無人機(jī)機(jī)動特性和藍(lán)方攔截?zé)o人機(jī)的攔截特點(diǎn)確定突防軌跡構(gòu)造函數(shù)表示為：

nc(t)=F(P,t)+a0(t)

(11)

式中：nc(t)表示t時刻無人機(jī)的機(jī)動指令。a0(t)表示t時刻無人機(jī)的比例導(dǎo)引指令，引導(dǎo)無人機(jī)飛向目標(biāo)。F(P,t)表示t時刻無人機(jī)的附加機(jī)動指令函數(shù)，控制機(jī)動突防，P為函數(shù)參數(shù)集合。F(P,t)的具體表達(dá)形式可以根據(jù)無人機(jī)的機(jī)動特性和攔截?zé)o人機(jī)的攔截特點(diǎn)確定，比如無人機(jī)的動態(tài)性能良好且藍(lán)方攔截策略簡單，F(xiàn)(P,t)可確定為方波函數(shù)；無人機(jī)的動態(tài)性能一般且藍(lán)方攔截策略簡單，F(xiàn)(P,t)可確定為正弦函數(shù)；藍(lán)方攔截策略復(fù)雜，F(xiàn)(P,t)可確定為多項(xiàng)式函數(shù)。

從函數(shù)參數(shù)集合P中確定待優(yōu)化的參數(shù)，表示為：

P=C∪X

(12)

式中：C={c1,c2,…,cm}表示m個常值參數(shù)集合，X={x1,x2,…,xn}表示n個待優(yōu)化參數(shù)集合。

確定深度強(qiáng)化學(xué)習(xí)的動作空間表示為：

A=[x1,x2,…,xn]T(ximin≤xi≤ximax,i=1,2,…,n)

(13)

式中：ximin表示待優(yōu)化參數(shù)xi的最小值，ximax表示待優(yōu)化參數(shù)xi的最大值。

基于軌跡構(gòu)造的一步式動作空間設(shè)計(jì)方法只需決策一次突防軌跡構(gòu)造函數(shù)的參數(shù)就可以規(guī)劃出完整的軌跡，對抗仿真后即可得到一次明確的獎勵，即一個動作對應(yīng)一個獎勵，因此避免了序貫動作的稀疏獎勵問題，使收斂速度和穩(wěn)定性有效提升。

3 基于多隨機(jī)場景的紅藍(lán)博弈訓(xùn)練方法

針對強(qiáng)對抗條件下的場景不確定難題，基于無人機(jī)集群紅藍(lán)對抗仿真平臺，設(shè)計(jì)基于多隨機(jī)場景的紅藍(lán)博弈訓(xùn)練方法。

紅方無人機(jī)集群的作戰(zhàn)任務(wù)為最大化偵查覆蓋藍(lán)方目標(biāo)編隊(duì)，紅方無人機(jī)在飛行過程中會受到藍(lán)方攔截?zé)o人機(jī)的攔截，在紅方無人機(jī)突防后，需要飛到待偵查目標(biāo)附近且保留一定的機(jī)動能力進(jìn)行偵查。如圖5所示，無人機(jī)集群紅藍(lán)對抗的主要場景及設(shè)計(jì)要素如下：1)紅方偵查無人機(jī)集群：由NH架偵查無人機(jī)組成；2)藍(lán)方待偵查目標(biāo)編隊(duì)：由NL個待偵查目標(biāo)組成，五角星表示主要待偵查目標(biāo)(需要3架紅方無人機(jī)偵查保證覆蓋目標(biāo))，三角形表示次要目標(biāo)(需要2架紅方無人機(jī)偵查保證覆蓋目標(biāo))；3)藍(lán)方攔截?zé)o人機(jī)：針對1架紅方無人機(jī)最多可用2架藍(lán)方無人機(jī)進(jìn)行攔截；4)集群對抗效能：1架紅方無人機(jī)成功偵查目標(biāo)得1分，成功偵查主要目標(biāo)最多得3分，成功偵查次要目標(biāo)最多得2分，所得總分即為集群對抗效能；5)集群對抗效能比：為了對比不同想定之間的效能，定義集群對抗效能比為集群對抗效能除以理論最大效能。想定的名稱用“NHV NL”表示。

圖5 典型對抗場景示意圖Fig.5 Typical confrontation scenarios

設(shè)置多個典型無人機(jī)集群對抗想定(如8V5、8V7、12V10、18V12、18V14等)訓(xùn)練策略網(wǎng)絡(luò)，設(shè)定紅藍(lán)對抗雙方的初始位置和速度等參數(shù)的合理變化范圍，每一局對抗訓(xùn)練隨機(jī)選取一個想定和一組參數(shù)來設(shè)置對抗態(tài)勢，則通過大量對抗仿真可得到多樣化的對抗訓(xùn)練數(shù)據(jù)。

藍(lán)方的對抗模型和策略通常采用基于專家知識的方式進(jìn)行建模，然后進(jìn)行紅藍(lán)對抗仿真對紅方策略網(wǎng)絡(luò)進(jìn)行單方面訓(xùn)練，而基于藍(lán)方單一策略對紅方策略網(wǎng)絡(luò)進(jìn)行訓(xùn)練容易過擬合，導(dǎo)致紅方策略單一且對藍(lán)方策略的變化缺乏泛化性，難以適應(yīng)高動態(tài)的實(shí)際戰(zhàn)場環(huán)境。

設(shè)計(jì)藍(lán)方策略網(wǎng)絡(luò)，智能決策藍(lán)方攔截?zé)o人機(jī)的攔截目標(biāo)和起飛時機(jī)，紅藍(lán)策略網(wǎng)絡(luò)在無人機(jī)集群紅藍(lán)對抗仿真平臺上采用紅藍(lán)博弈方式進(jìn)行訓(xùn)練。紅藍(lán)博弈訓(xùn)練方法流程如圖6所示，在每個并行的博弈環(huán)境中，紅藍(lán)策略網(wǎng)絡(luò)視對方為環(huán)境進(jìn)行學(xué)習(xí)。為增強(qiáng)博弈訓(xùn)練中策略學(xué)習(xí)的穩(wěn)定性，在每個博弈周期的訓(xùn)練中，固定紅藍(lán)雙方中一方的策略，訓(xùn)練另一方。在每一個博弈周期結(jié)束后，根據(jù)紅藍(lán)方策略的表現(xiàn)進(jìn)行優(yōu)勝劣汰，將實(shí)力相當(dāng)?shù)募t藍(lán)策略網(wǎng)絡(luò)配對，進(jìn)行下一周期的博弈，如此往復(fù)，不斷提升紅方策略網(wǎng)絡(luò)對不同藍(lán)方策略的泛化性。

多平臺分布式紅藍(lán)博弈訓(xùn)練場景如圖7所示。

圖6 紅藍(lán)博弈訓(xùn)練流程Fig.6 Red blue game training process

圖7 多平臺分布式紅藍(lán)博弈訓(xùn)練場景Fig.7 Multi platform distributed red blue game training scenario

4 仿真校驗(yàn)

4.1 有效性校驗(yàn)

采用基于多隨機(jī)場景的紅藍(lán)博弈訓(xùn)練方法對紅方和藍(lán)方策略網(wǎng)絡(luò)進(jìn)行訓(xùn)練，得到最優(yōu)的紅方策略網(wǎng)絡(luò)(紅AI)，以18架無人機(jī)集群偵查14個藍(lán)方目標(biāo)編隊(duì)(18V14)為例來闡述仿真與測試結(jié)果。紅方按照遺傳算法決策，得到的典型紅藍(lán)對抗平面軌跡如圖8(a)所示；紅方按照策略網(wǎng)絡(luò)決策，得到的典型紅藍(lán)對抗平面軌跡如圖8(b)所示。

圖8 典型平面軌跡Fig.8 Typical plane trajectory

圖8中，軌跡末端“×”表示紅方無人機(jī)被藍(lán)方無人機(jī)攔截或機(jī)動能力不足導(dǎo)致偵查失敗。由圖8可得遺傳算法的突防概率為8÷18=44%，集群對抗效能比為7÷18=39%；紅AI的突防概率為16÷18=89%，集群對抗效能比為15÷18=83%。通過對比可知：紅AI可以為紅方無人機(jī)集群分配合理的偵查目標(biāo)和規(guī)劃有效的突防和成功偵查目標(biāo)軌跡，有效提高了集群對抗效能。

紅AI訓(xùn)練過程曲線如圖9所示。

圖9 集群對抗效能訓(xùn)練曲線Fig.9 Efficiency training curve of group confrontation

圖9中的訓(xùn)練曲線為單平臺訓(xùn)練過程，仿真次數(shù)為200時，紅AI收斂。采用60個無人機(jī)集群紅藍(lán)對抗仿真平臺進(jìn)行多平臺分布式紅藍(lán)博弈訓(xùn)練，因此紅AI的訓(xùn)練收斂次數(shù)約為200×60=12000次。

遺傳算法和紅AI測試得到的性能對比如表2所示。由表2可得，紅AI相比基于遺傳算法在集群對抗效能上提升了約95%，說明了本文方法的有效性。

表2 遺傳算法與紅AI性能對比Table 2 Performance comparison between genetic algorithm and red AI

4.2 泛化性校驗(yàn)

通過對12V10、18V14等場景進(jìn)行隨機(jī)訓(xùn)練，得到的策略網(wǎng)絡(luò)在未訓(xùn)練過的場景上(13V10、17V15)進(jìn)行泛化性測試，得到的結(jié)果如表3所示。由表3可得，策略網(wǎng)絡(luò)在未訓(xùn)練過場景上的適應(yīng)性平均大于90%，說明紅AI具有一定的泛化性。

表3 泛化性測試Table 3 Generalization testing

4.3 先進(jìn)性校驗(yàn)

將集中式架構(gòu)訓(xùn)練得到的集中式AI、分層式架構(gòu)訓(xùn)練得到的分層式AI分別在無人機(jī)集群紅藍(lán)對抗仿真平臺測試，得到的性能對比結(jié)果如表4所示。

從表4中可以得到以下結(jié)論：1)集中式AI在有限計(jì)算資源條件下難以收斂；2)分層式AI多任務(wù)迭代訓(xùn)練耗時大，且未得到全任務(wù)最優(yōu)策略；3)混合式AI學(xué)到了多耦合任務(wù)間的協(xié)同能力，得到了全任務(wù)最優(yōu)策略，相比分層式AI在集群對抗效能上提升了約31%；混合式AI策略網(wǎng)絡(luò)收斂速度較快，相比分層式AI收斂速度提升567%。上述結(jié)果表明：在多耦合任務(wù)決策問題上，混合式深度強(qiáng)化學(xué)習(xí)架構(gòu)相比集中式和分層式架構(gòu)，具有較強(qiáng)的先進(jìn)性。

表4 三種架構(gòu)性能對比Table 4 Performance comparison of three architectures

5 結(jié) 論

本文針對復(fù)雜場景下無人機(jī)集群對抗中協(xié)同目標(biāo)分配和突防軌跡規(guī)劃等多耦合任務(wù)的決策問題，提出了一種集群對抗多耦合任務(wù)智能決策方法。設(shè)計(jì)了面向多耦合任務(wù)的混合式深度強(qiáng)化學(xué)習(xí)架構(gòu)、基于軌跡構(gòu)造的一步式動作空間設(shè)計(jì)方法和基于多隨機(jī)場景的紅藍(lán)博弈訓(xùn)練方法，解決了無人機(jī)集群對抗在線決策耦合任務(wù)多、決策空間大和場景不確定等難題，增強(qiáng)了策略網(wǎng)絡(luò)的收斂性能和泛化性，提升了無人機(jī)集群對抗多耦合任務(wù)間的協(xié)同性、集群對抗效能。通過與傳統(tǒng)方法、集中式架構(gòu)方法和分層式架構(gòu)方法進(jìn)行對比，驗(yàn)證了本文提出方法的有效性和先進(jìn)性。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看