• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種無人機(jī)集群對抗多耦合任務(wù)智能決策方法

      2021-05-24 07:31:58文永明石曉榮黃雪梅
      宇航學(xué)報 2021年4期
      關(guān)鍵詞:紅藍(lán)紅方集群

      文永明,石曉榮,黃雪梅,余 躍

      (北京控制與電子技術(shù)研究所,北京100038)

      0 引 言

      隨著集群技術(shù)和人工智能的發(fā)展,基于群體智能的集群協(xié)同技術(shù)逐漸發(fā)展為未來智能化戰(zhàn)爭的發(fā)展方向[1-3]。無人機(jī)集群利用低成本、大規(guī)模和分布式的優(yōu)勢,協(xié)同偵查作戰(zhàn)可以體現(xiàn)出顯著的靈活性和智能性。無人機(jī)集群協(xié)同偵查在線決策主要包括協(xié)同目標(biāo)分配和突防軌跡規(guī)劃等多個相互耦合的任務(wù),無人機(jī)集群需要根據(jù)戰(zhàn)場態(tài)勢和作戰(zhàn)任務(wù)決策出每架無人機(jī)的偵查目標(biāo)和突防軌跡,以最大化集群對抗效能。隨著對抗環(huán)境愈加復(fù)雜動態(tài),對抗手段愈加多樣智能,無人機(jī)集群對抗在線決策存在耦合任務(wù)多、決策空間大和場景不確定難題,導(dǎo)致傳統(tǒng)基于專家知識和現(xiàn)代優(yōu)化算法的決策方法難以同時滿足在線決策的實(shí)時性、最優(yōu)性和泛化性。

      隨著人工智能技術(shù)的發(fā)展與突破[4],尤其是深度強(qiáng)化學(xué)習(xí)在智能決策等方面得到了廣泛關(guān)注與研究[5-7]。深度強(qiáng)化學(xué)習(xí)是深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的有機(jī)結(jié)合,深度學(xué)習(xí)善于擬合,可通過深層神經(jīng)網(wǎng)絡(luò)表征復(fù)雜空間的非線性和泛化性,強(qiáng)化學(xué)習(xí)善于決策,可通過迭代學(xué)習(xí)使累計(jì)獎勵最大化來獲得高性能策略。深度強(qiáng)化學(xué)習(xí)基于大量離線訓(xùn)練得到智能策略網(wǎng)絡(luò),進(jìn)行快速在線決策,可彌補(bǔ)無人機(jī)集群對抗程序化策略帶來的局限性,提升應(yīng)對復(fù)雜飛行環(huán)境和突發(fā)事件的適應(yīng)能力[8]。

      在深度強(qiáng)化學(xué)習(xí)架構(gòu)方面,當(dāng)決策問題由單個任務(wù)或少數(shù)簡單任務(wù)構(gòu)成時,通常采用集中式深度強(qiáng)化學(xué)習(xí)架構(gòu)來解決。如圖1所示,集中式架構(gòu)的多耦合任務(wù)使用同一套策略網(wǎng)絡(luò)、獎勵函數(shù)和經(jīng)驗(yàn)池,進(jìn)行集中式耦合訓(xùn)練,在決策時一次同時輸出各個任務(wù)的動作。集中式架構(gòu)建模簡單,并且在理論上可保證存在全局最優(yōu)解。

      圖1 集中式架構(gòu)Fig.1 Centralized architecture

      文獻(xiàn)[9]基于DDPG集中式架構(gòu)優(yōu)化一類變體飛行器外形,因其決策空間較小,故可以快速收斂到最優(yōu)變外形策略。文獻(xiàn)[10]采用DQN(Deep Q-Network)算法對多個Atari小游戲(比如“乒乓球”、“打磚塊”等)進(jìn)行建模和訓(xùn)練,最終在多款游戲上的表現(xiàn)超越了人類玩家。然而,在“蒙特祖瑪?shù)膹?fù)仇”這款游戲中,DQN算法的勝率為0%[11],其原因是這款游戲的任務(wù)較多且相互耦合(比如爬樓梯、躲避敵人、拿鑰匙等),策略空間巨大,集中式架構(gòu)在有限計(jì)算資源下難以收斂。為了解決多個耦合復(fù)雜任務(wù)所帶來的決策空間爆炸等問題,分層式深度強(qiáng)化學(xué)習(xí)架構(gòu)被提出[12]。如圖2所示,分層式架構(gòu)的多耦合任務(wù)使用多套對應(yīng)的策略網(wǎng)絡(luò)、獎勵函數(shù)和經(jīng)驗(yàn)池,按照任務(wù)間的邏輯關(guān)系進(jìn)行分層單獨(dú)訓(xùn)練,在決策時輸出各自的動作進(jìn)行組合來完成整個決策問題。分層式架構(gòu)將多耦合任務(wù)進(jìn)行解耦建模與分層單獨(dú)訓(xùn)練,可以縮小整個決策問題的策略空間,使得各個任務(wù)的策略網(wǎng)絡(luò)收斂速度加快。

      圖2 分層式架構(gòu)Fig.2 Hierarchical architecture

      文獻(xiàn)[13]采用分層深度強(qiáng)化學(xué)習(xí)架構(gòu)將“蒙特祖瑪?shù)膹?fù)仇”抽象成多個不同層次的子任務(wù)進(jìn)行建模,AI可以完成游戲任務(wù)。文獻(xiàn)[14]采用分層深度強(qiáng)化學(xué)習(xí)架構(gòu)對一款籃球游戲建模,基于下層已熟練掌握的籃球技巧,智能體學(xué)到了上層的有效策略。文獻(xiàn)[15]基于高斯過程回歸與深度強(qiáng)化學(xué)習(xí)的分層人機(jī)協(xié)作控制方法,并以人機(jī)協(xié)作控制球桿系統(tǒng)為例檢驗(yàn)該方法的高效性。然而,分層式架構(gòu)的各個子任務(wù)的策略網(wǎng)絡(luò)分離,即使各個子任務(wù)都收斂到各自的全局最優(yōu)解,但是將它們組合后,得到的結(jié)果很可能不是整個任務(wù)的全局最優(yōu)解。例如在無人機(jī)集群對抗中,目標(biāo)分配結(jié)果是軌跡規(guī)劃的輸入,而軌跡規(guī)劃性能是目標(biāo)分配的依據(jù),分層式架構(gòu)將這兩個子任務(wù)分開訓(xùn)練,沒有充分考慮它們之間固有的耦合關(guān)系,因此多耦合任務(wù)間的協(xié)同性無法充分體現(xiàn),集群對抗效能無法充分發(fā)揮。本文針對無人機(jī)集群對抗中耦合任務(wù)多和決策空間大難題,結(jié)合集中式和分層式架構(gòu)的優(yōu)點(diǎn),設(shè)計(jì)了面向多耦合任務(wù)的混合式深度強(qiáng)化學(xué)習(xí)架構(gòu),通過構(gòu)建多套相關(guān)聯(lián)的多耦合任務(wù)分層策略網(wǎng)絡(luò)進(jìn)行集中耦合訓(xùn)練,可提升多耦合任務(wù)間的協(xié)同性和集群對抗效能。

      在深度強(qiáng)化學(xué)習(xí)獎勵函數(shù)設(shè)計(jì)方面,序貫動作導(dǎo)致的稀疏獎勵問題是指在多步強(qiáng)化學(xué)習(xí)中,往往只在最后一步存在明確獎勵,而中間過程的即時獎勵函數(shù)難以人為設(shè)計(jì)且存在主觀性和經(jīng)驗(yàn)性。例如無人機(jī)集群對抗的多步軌跡規(guī)劃只在結(jié)束時才能得到是否被攔截或者偵查目標(biāo)的結(jié)果,而中間過程很難根據(jù)當(dāng)前的位置和速度等信息設(shè)計(jì)合適的即時獎勵函數(shù)來引導(dǎo)突防和偵查目標(biāo)。強(qiáng)化學(xué)習(xí)是求累計(jì)獎勵期望最大時的最優(yōu)策略,獎勵函數(shù)不同將直接影響策略的性能,如果沒有合適的即時獎勵,稀疏獎勵問題會導(dǎo)致策略網(wǎng)絡(luò)難以快速且穩(wěn)定收斂[16]。為了解決稀疏獎勵問題,文獻(xiàn)[17]提出逆向強(qiáng)化學(xué)習(xí)方法,即專家在完成某項(xiàng)任務(wù)時,其決策往往是最優(yōu)或接近最優(yōu),可以假設(shè),當(dāng)所有的策略所產(chǎn)生的累積獎勵期望都不比專家策略所產(chǎn)生的累積獎勵期望大時,所對應(yīng)的獎勵函數(shù)就是根據(jù)示例學(xué)到的獎勵函數(shù)。為了使逆向強(qiáng)化學(xué)習(xí)可以很好地?cái)U(kuò)展到具有大量狀態(tài)的系統(tǒng),將其與深度學(xué)習(xí)相結(jié)合,在神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)狀態(tài)動作對的獎勵,如基于最大邊際法的深度逆向強(qiáng)化學(xué)習(xí)[18]和基于深度Q網(wǎng)絡(luò)的深度學(xué)徒學(xué)習(xí)[19]等。然而,逆向強(qiáng)化學(xué)習(xí)和深度逆向強(qiáng)化學(xué)習(xí)都是從專家示例中學(xué)習(xí)獎勵函數(shù),在復(fù)雜場景下無人機(jī)集群對抗問題中難以獲取足夠的專家示例來支撐上述方法。本文針對軌跡規(guī)劃序貫決策的稀疏獎勵難題,設(shè)計(jì)了基于軌跡構(gòu)造的一步式動作空間設(shè)計(jì)方法,回避了多步?jīng)Q策的中間過程,從而避免了稀疏獎勵問題,可使策略網(wǎng)絡(luò)穩(wěn)定快速收斂。

      在深度強(qiáng)化學(xué)習(xí)的泛化性研究方面,泛化性是指訓(xùn)練好的智能策略網(wǎng)絡(luò)在未見過的場景中也具有一定的適應(yīng)能力,其體現(xiàn)在深度神經(jīng)網(wǎng)絡(luò)對獨(dú)立同分布數(shù)據(jù)強(qiáng)大的擬合和預(yù)測能力。因此,在深度強(qiáng)化學(xué)習(xí)訓(xùn)練過程中,使策略網(wǎng)絡(luò)探索到盡可能大的決策空間,增加數(shù)據(jù)的多樣性,是提升其泛化性的有效途徑。2017年,DeepMind團(tuán)隊(duì)在《Nature》上推出了圍棋人工智能AlphaZero[20],AlphaZero不需要人類專家知識,只使用純粹的深度強(qiáng)化學(xué)習(xí)和蒙特卡洛樹搜索,經(jīng)過3天的自我博弈就以100比0的成績完敗了AlphaGo,AlphaZero強(qiáng)大的搜索能力和泛化性得益于海量且多樣的自我博弈數(shù)據(jù)。文獻(xiàn)[21]指出,AlphaZero智能化方法框架可以啟發(fā)人工智能在智能指揮決策等領(lǐng)域的應(yīng)用。本文針對強(qiáng)對抗條件下的場景不確定難題,基于無人機(jī)集群紅藍(lán)對抗仿真平臺,設(shè)計(jì)了基于多隨機(jī)場景的紅藍(lán)博弈訓(xùn)練方法,通過隨機(jī)變化對抗雙方的初始位置和速度等,來設(shè)置每局的對抗態(tài)勢,從而得到多樣化的對抗訓(xùn)練數(shù)據(jù);通過設(shè)計(jì)藍(lán)方AI,采用紅藍(lán)博弈的方式獲得更加智能的藍(lán)方策略作為紅方AI的陪練,從而可以進(jìn)一步提升紅方AI的泛化性。

      本文的主要創(chuàng)新點(diǎn)和貢獻(xiàn):1)針對無人機(jī)集群對抗中耦合任務(wù)多和決策空間大難題,設(shè)計(jì)了面向多耦合任務(wù)的混合式深度強(qiáng)化學(xué)習(xí)架構(gòu),可提升多耦合任務(wù)間的協(xié)同性和集群對抗效能;2)針對軌跡規(guī)劃序貫決策的稀疏獎勵難題,設(shè)計(jì)了基于軌跡構(gòu)造的一步式動作空間設(shè)計(jì)方法,可加快策略網(wǎng)絡(luò)收斂速度;3)針對強(qiáng)對抗條件下的場景不確定難題,設(shè)計(jì)了基于多隨機(jī)場景的紅藍(lán)博弈訓(xùn)練方法,可增強(qiáng)策略網(wǎng)絡(luò)的泛化性。

      1 混合式深度強(qiáng)化學(xué)習(xí)架構(gòu)

      混合式架構(gòu)將集中式架構(gòu)和分層式架構(gòu)進(jìn)行結(jié)合。多耦合任務(wù)使用多套與子任務(wù)對應(yīng)的執(zhí)行者-評估者(Actor-Critic, AC)神經(jīng)網(wǎng)絡(luò)與獎勵函數(shù)分層構(gòu)建網(wǎng)絡(luò),且多個經(jīng)驗(yàn)池中的經(jīng)驗(yàn)相互關(guān)聯(lián)。在策略網(wǎng)絡(luò)訓(xùn)練控制器的調(diào)度下,多個策略網(wǎng)絡(luò)按照多任務(wù)間的分層關(guān)系進(jìn)行集中耦合訓(xùn)練。在訓(xùn)練過程中,每個評估者(Critic)網(wǎng)絡(luò)收集所有任務(wù)的狀態(tài)和動作信息作為評價的輸入,從而為策略更新提供準(zhǔn)確且穩(wěn)定的信號,更充分的狀態(tài)和動作信息有助于提高耦合任務(wù)間的協(xié)同性;在策略執(zhí)行過程中,各任務(wù)只需根據(jù)自己的狀態(tài)和執(zhí)行者(Actor)網(wǎng)絡(luò),進(jìn)行決策控制,如圖3所示。

      圖3 混合式架構(gòu)Fig.3 Hybrid architecture

      混合式架構(gòu)保留了集中式和分層式架構(gòu)的主要優(yōu)點(diǎn),又克服了它們的突出缺點(diǎn),既保證了各個耦合任務(wù)之間相對穩(wěn)定的訓(xùn)練環(huán)境,有利于得到多任務(wù)協(xié)同下的全局最優(yōu)解,又使得策略空間規(guī)??山邮埽欣诓呗跃W(wǎng)絡(luò)快速收斂。三種深度強(qiáng)化學(xué)習(xí)架構(gòu)特點(diǎn)對比如表1所示。

      混合式深度強(qiáng)化學(xué)習(xí)架構(gòu)主要由多任務(wù)策略網(wǎng)絡(luò)和策略網(wǎng)絡(luò)訓(xùn)練控制器組成,多任務(wù)策略網(wǎng)絡(luò)利用多套相關(guān)聯(lián)的AC網(wǎng)絡(luò)對子任務(wù)進(jìn)行建模并分層,策略網(wǎng)絡(luò)訓(xùn)練控制器按照多任務(wù)間的分層關(guān)系進(jìn)行集中耦合訓(xùn)練?;旌鲜郊軜?gòu)的建模和訓(xùn)練流程如圖4所示。

      表1 三種架構(gòu)特點(diǎn)對比Table 1 Comparison of three architectures

      圖4 混合式架構(gòu)建模與訓(xùn)練流程圖Fig.4 Hybrid architecture modeling and training flow chart

      1.1 多任務(wù)策略網(wǎng)絡(luò)

      多耦合任務(wù)M由N個子任務(wù)mi組成,即M={mi}(i表示子任務(wù)編號且i=1,2,…,N),根據(jù)多耦合任務(wù)之間的邏輯關(guān)系,將N個子任務(wù)進(jìn)行分層。任務(wù)mi基于AC架構(gòu)構(gòu)建執(zhí)行者(Actor)神經(jīng)網(wǎng)絡(luò)Ai和評估者(Critic)神經(jīng)網(wǎng)絡(luò)Ci。任務(wù)mi的狀態(tài)空間為si,動作空間為ai,獎勵值為ri。任務(wù)mi的經(jīng)驗(yàn)池設(shè)計(jì)為:

      ei={s1,s2,…,sN,a1,a2,…,aN,

      s′1,s′2,…,s′N,ri,d1,d2,…,dN}

      (1)

      式中:s′i為任務(wù)mi下一步的狀態(tài),di為任務(wù)mi結(jié)束標(biāo)志,且當(dāng)任務(wù)mi結(jié)束時,di=1,反之,di=0。

      任務(wù)mi的評估者神經(jīng)網(wǎng)絡(luò)Ci的輸入層為所有任務(wù)的狀態(tài)S={s1,s2,…,sN}和所有任務(wù)的動作A={a1,a2,…,aN},Ci的輸出層為1維的全局評估值。任務(wù)mi的執(zhí)行者神經(jīng)網(wǎng)絡(luò)Ai的輸入層為任務(wù)mi的狀態(tài)si,Ai的輸出層為任務(wù)mi的動作ai。

      1.2 策略網(wǎng)絡(luò)訓(xùn)練控制器

      為了多耦合任務(wù)M的整個策略網(wǎng)絡(luò)能夠快速穩(wěn)定收斂,下層任務(wù)需要給上層任務(wù)創(chuàng)造良好的學(xué)習(xí)環(huán)境基礎(chǔ),故策略網(wǎng)絡(luò)訓(xùn)練控制器設(shè)計(jì)為先訓(xùn)練下層任務(wù),達(dá)到設(shè)計(jì)指標(biāo)后,再耦合訓(xùn)練上一層任務(wù),即上下層集中訓(xùn)練。

      策略網(wǎng)絡(luò)訓(xùn)練控制器設(shè)計(jì)訓(xùn)練流程如下:

      1)初始化:設(shè)置多任務(wù)策略網(wǎng)絡(luò)和策略網(wǎng)絡(luò)訓(xùn)練控制器參數(shù);

      2)生成下層動作:根據(jù)下層執(zhí)行者神經(jīng)網(wǎng)絡(luò)Ai的策略生成動作:

      ai=Ai(si)+δi

      (2)

      3)生成上層動作:上層任務(wù)隨機(jī)生成動作:

      ai=ξi

      (3)

      式中:ξi為服從均勻分布的隨機(jī)數(shù);

      4)與仿真環(huán)境交互:將得到動作集合A={a1,a2,…,aN}在仿真環(huán)境中執(zhí)行,得到獎勵值集合R={r1,r2,…,rN},下一個狀態(tài)集合S′={s′1,s′2,…,s′N}和任務(wù)是否結(jié)束標(biāo)志集合D={d1,d2,…,dN};

      5)保存經(jīng)驗(yàn):將經(jīng)驗(yàn)

      ei={S,A,S′,ri,D}={s1,s2,…,sN,a1,a2,…,

      aN,s′1,s′2,…,s′N,ri,d1,d2,…,dN}

      (4)

      存入任務(wù)mi的經(jīng)驗(yàn)池Ei;

      6)策略網(wǎng)絡(luò)訓(xùn)練:當(dāng)任務(wù)mi的經(jīng)驗(yàn)池Ei總經(jīng)驗(yàn)數(shù)達(dá)到開始訓(xùn)練的條件時,開始對任務(wù)mi的策略網(wǎng)絡(luò)進(jìn)行訓(xùn)練:

      (2)定義累計(jì)獎勵函數(shù):令任務(wù)mi的累計(jì)獎勵為:

      (5)

      (3)定義損失函數(shù):令任務(wù)mi的損失函數(shù)為:

      (6)

      式中:Ci(·)為任務(wù)mi在神經(jīng)網(wǎng)絡(luò)參數(shù)為θCi下的評估者神經(jīng)網(wǎng)絡(luò)價值函數(shù)。通過求L(θCi)的極小值來更新θCi;

      (4)定義采樣策略梯度函數(shù):令任務(wù)mi的采樣策略梯度為:

      (7)

      (5)更新策略網(wǎng)絡(luò)參數(shù):根據(jù)式(7)估計(jì)的策略梯度通過深度學(xué)習(xí)優(yōu)化器來更新任務(wù)mi的執(zhí)行者神經(jīng)網(wǎng)絡(luò)參數(shù)θAi;

      (6)更新目標(biāo)網(wǎng)絡(luò)參數(shù):滿足一定條件時,按照式(8)來更新任務(wù)mi的目標(biāo)執(zhí)行者神經(jīng)網(wǎng)絡(luò)參數(shù)θ′Ai和目標(biāo)評估者神經(jīng)網(wǎng)絡(luò)參數(shù)θ′Ci:

      (8)

      式中:τi為神經(jīng)網(wǎng)絡(luò)參數(shù)更新頻率,“←”表示賦值。

      (7)測試與訓(xùn)練層級遞進(jìn):訓(xùn)練一定次數(shù)后,測試當(dāng)前層對應(yīng)的所有任務(wù)是否都達(dá)到設(shè)計(jì)指標(biāo),如果是,則開始上一層任務(wù)的訓(xùn)練;否則,繼續(xù)本層任務(wù)的訓(xùn)練;

      (8)循環(huán):重復(fù)流程(1)至流程(8),直至多耦合任務(wù)M訓(xùn)練結(jié)束,且測試達(dá)到預(yù)定指標(biāo)。

      1.3 無人機(jī)集群對抗混合式架構(gòu)建模

      1) 多任務(wù)策略網(wǎng)絡(luò)。上層:協(xié)同目標(biāo)分配,決策紅方無人機(jī)集群中每架無人機(jī)的偵查目標(biāo),以最大化集群對抗效能(偵查總得分);下層:突防軌跡規(guī)劃,決策紅方無人機(jī)的突防和偵查軌跡,既要進(jìn)行躲避機(jī)動又要保留足夠的機(jī)動能力對目標(biāo)進(jìn)行偵查,以最大化突防概率(突防成功的紅方無人機(jī)數(shù)量除以紅方無人機(jī)總數(shù)量)和偵查成功率(偵查成功的紅方無人機(jī)數(shù)量除以紅方無人機(jī)總數(shù)量)。

      2)狀態(tài)空間。目標(biāo)分配策略網(wǎng)絡(luò)的狀態(tài)主要包括:紅方無人機(jī)數(shù)量、位置、速度和藍(lán)方待偵查目標(biāo)數(shù)量、位置、價值等;軌跡規(guī)劃策略網(wǎng)絡(luò)的狀態(tài)主要包括:紅方無人機(jī)位置、速度和藍(lán)方待偵查目標(biāo)位置等。

      3)動作空間。目標(biāo)分配策略網(wǎng)絡(luò)的動作為:紅方無人機(jī)偵查目標(biāo)的編號;軌跡規(guī)劃策略網(wǎng)絡(luò)的動作為:紅方無人機(jī)軌跡構(gòu)造函數(shù)的參數(shù)。

      4)獎勵函數(shù)。確定3個元獎勵分別為突防元獎勵ro_tf、偵查元獎勵ro_zc和效能元獎勵ro_xn。紅方無人機(jī)突防成功,則ro_tf=1,否則ro_tf=-1;紅方無人機(jī)成功偵查目標(biāo),則ro_zc=1,否則ro_zc=-1;集群對抗效能歸一化作為效能元獎勵ro_xn。為了進(jìn)一步體現(xiàn)各個耦合任務(wù)之間的協(xié)同性,采用元獎勵加權(quán)的方式使目標(biāo)分配和軌跡規(guī)劃的獎勵函數(shù)相互關(guān)聯(lián)。根據(jù)目標(biāo)分配對各個元獎勵的影響確定目標(biāo)分配的突防權(quán)重wo_tf_mb、偵查權(quán)重wo_zc_mb和效能權(quán)重wo_xn_mb,且滿足wo_tf_mb+wo_zc_mb+wo_xn_mb=1。同理,根據(jù)軌跡規(guī)劃對各個元獎勵的影響確定軌跡規(guī)劃的突防權(quán)重wo_tf_gj、偵查權(quán)重wo_zc_gj和效能權(quán)重wo_xn_gj,且滿足wo_tf_gj+wo_zc_gj+wo_xn_gj=1。則目標(biāo)分配獎勵函數(shù)為:

      rmb=wo_tf_mbro_tf+wo_zc_mbro_zc+wo_xn_mbro_xn

      (9)

      軌跡規(guī)劃的獎勵函數(shù)為:

      rgj=wo_tf_gjro_tf+wo_zc_gjro_zc+wo_xn_gjro_xn

      (10)

      5)策略網(wǎng)絡(luò)訓(xùn)練控制器。先訓(xùn)練下層軌跡規(guī)劃策略網(wǎng)絡(luò)。當(dāng)突防概率和偵查成功率達(dá)到指標(biāo)要求后,再訓(xùn)練上層目標(biāo)分配策略網(wǎng)絡(luò),兩個任務(wù)進(jìn)行集中耦合訓(xùn)練,直至突防概率、偵查成功率和集群對抗效能達(dá)到指標(biāo)要求后,訓(xùn)練完畢。

      2 基于軌跡構(gòu)造的一步式動作空間設(shè)計(jì)方法

      在突防軌跡規(guī)劃中,紅方無人機(jī)通過在線生成機(jī)動指令來達(dá)到躲避攔截和偵查目標(biāo)的目的。通常采用多步序貫決策方式會帶來稀疏獎勵問題,它是指在每個決策周期都生成無人機(jī)的機(jī)動指令,但只在最后一步存在明確的獎勵,而過程獎勵難以設(shè)計(jì),會導(dǎo)致策略網(wǎng)絡(luò)難以快速穩(wěn)定收斂。針對上述問題,設(shè)計(jì)了基于軌跡構(gòu)造的一步式動作空間設(shè)計(jì)方法。

      根據(jù)紅方無人機(jī)機(jī)動特性和藍(lán)方攔截?zé)o人機(jī)的攔截特點(diǎn)確定突防軌跡構(gòu)造函數(shù)表示為:

      nc(t)=F(P,t)+a0(t)

      (11)

      式中:nc(t)表示t時刻無人機(jī)的機(jī)動指令。a0(t)表示t時刻無人機(jī)的比例導(dǎo)引指令,引導(dǎo)無人機(jī)飛向目標(biāo)。F(P,t)表示t時刻無人機(jī)的附加機(jī)動指令函數(shù),控制機(jī)動突防,P為函數(shù)參數(shù)集合。F(P,t)的具體表達(dá)形式可以根據(jù)無人機(jī)的機(jī)動特性和攔截?zé)o人機(jī)的攔截特點(diǎn)確定,比如無人機(jī)的動態(tài)性能良好且藍(lán)方攔截策略簡單,F(xiàn)(P,t)可確定為方波函數(shù);無人機(jī)的動態(tài)性能一般且藍(lán)方攔截策略簡單,F(xiàn)(P,t)可確定為正弦函數(shù);藍(lán)方攔截策略復(fù)雜,F(xiàn)(P,t)可確定為多項(xiàng)式函數(shù)。

      從函數(shù)參數(shù)集合P中確定待優(yōu)化的參數(shù),表示為:

      P=C∪X

      (12)

      式中:C={c1,c2,…,cm}表示m個常值參數(shù)集合,X={x1,x2,…,xn}表示n個待優(yōu)化參數(shù)集合。

      確定深度強(qiáng)化學(xué)習(xí)的動作空間表示為:

      A=[x1,x2,…,xn]T(ximin≤xi≤ximax,i=1,2,…,n)

      (13)

      式中:ximin表示待優(yōu)化參數(shù)xi的最小值,ximax表示待優(yōu)化參數(shù)xi的最大值。

      基于軌跡構(gòu)造的一步式動作空間設(shè)計(jì)方法只需決策一次突防軌跡構(gòu)造函數(shù)的參數(shù)就可以規(guī)劃出完整的軌跡,對抗仿真后即可得到一次明確的獎勵,即一個動作對應(yīng)一個獎勵,因此避免了序貫動作的稀疏獎勵問題,使收斂速度和穩(wěn)定性有效提升。

      3 基于多隨機(jī)場景的紅藍(lán)博弈訓(xùn)練方法

      針對強(qiáng)對抗條件下的場景不確定難題,基于無人機(jī)集群紅藍(lán)對抗仿真平臺,設(shè)計(jì)基于多隨機(jī)場景的紅藍(lán)博弈訓(xùn)練方法。

      紅方無人機(jī)集群的作戰(zhàn)任務(wù)為最大化偵查覆蓋藍(lán)方目標(biāo)編隊(duì),紅方無人機(jī)在飛行過程中會受到藍(lán)方攔截?zé)o人機(jī)的攔截,在紅方無人機(jī)突防后,需要飛到待偵查目標(biāo)附近且保留一定的機(jī)動能力進(jìn)行偵查。如圖5所示,無人機(jī)集群紅藍(lán)對抗的主要場景及設(shè)計(jì)要素如下:1)紅方偵查無人機(jī)集群:由NH架偵查無人機(jī)組成;2)藍(lán)方待偵查目標(biāo)編隊(duì):由NL個待偵查目標(biāo)組成,五角星表示主要待偵查目標(biāo)(需要3架紅方無人機(jī)偵查保證覆蓋目標(biāo)),三角形表示次要目標(biāo)(需要2架紅方無人機(jī)偵查保證覆蓋目標(biāo));3)藍(lán)方攔截?zé)o人機(jī):針對1架紅方無人機(jī)最多可用2架藍(lán)方無人機(jī)進(jìn)行攔截;4)集群對抗效能:1架紅方無人機(jī)成功偵查目標(biāo)得1分,成功偵查主要目標(biāo)最多得3分,成功偵查次要目標(biāo)最多得2分,所得總分即為集群對抗效能;5)集群對抗效能比:為了對比不同想定之間的效能,定義集群對抗效能比為集群對抗效能除以理論最大效能。想定的名稱用“NHV NL”表示。

      圖5 典型對抗場景示意圖Fig.5 Typical confrontation scenarios

      設(shè)置多個典型無人機(jī)集群對抗想定(如8V5、8V7、12V10、18V12、18V14等)訓(xùn)練策略網(wǎng)絡(luò),設(shè)定紅藍(lán)對抗雙方的初始位置和速度等參數(shù)的合理變化范圍,每一局對抗訓(xùn)練隨機(jī)選取一個想定和一組參數(shù)來設(shè)置對抗態(tài)勢,則通過大量對抗仿真可得到多樣化的對抗訓(xùn)練數(shù)據(jù)。

      藍(lán)方的對抗模型和策略通常采用基于專家知識的方式進(jìn)行建模,然后進(jìn)行紅藍(lán)對抗仿真對紅方策略網(wǎng)絡(luò)進(jìn)行單方面訓(xùn)練,而基于藍(lán)方單一策略對紅方策略網(wǎng)絡(luò)進(jìn)行訓(xùn)練容易過擬合,導(dǎo)致紅方策略單一且對藍(lán)方策略的變化缺乏泛化性,難以適應(yīng)高動態(tài)的實(shí)際戰(zhàn)場環(huán)境。

      設(shè)計(jì)藍(lán)方策略網(wǎng)絡(luò),智能決策藍(lán)方攔截?zé)o人機(jī)的攔截目標(biāo)和起飛時機(jī),紅藍(lán)策略網(wǎng)絡(luò)在無人機(jī)集群紅藍(lán)對抗仿真平臺上采用紅藍(lán)博弈方式進(jìn)行訓(xùn)練。紅藍(lán)博弈訓(xùn)練方法流程如圖6所示,在每個并行的博弈環(huán)境中,紅藍(lán)策略網(wǎng)絡(luò)視對方為環(huán)境進(jìn)行學(xué)習(xí)。為增強(qiáng)博弈訓(xùn)練中策略學(xué)習(xí)的穩(wěn)定性,在每個博弈周期的訓(xùn)練中,固定紅藍(lán)雙方中一方的策略,訓(xùn)練另一方。在每一個博弈周期結(jié)束后,根據(jù)紅藍(lán)方策略的表現(xiàn)進(jìn)行優(yōu)勝劣汰,將實(shí)力相當(dāng)?shù)募t藍(lán)策略網(wǎng)絡(luò)配對,進(jìn)行下一周期的博弈,如此往復(fù),不斷提升紅方策略網(wǎng)絡(luò)對不同藍(lán)方策略的泛化性。

      多平臺分布式紅藍(lán)博弈訓(xùn)練場景如圖7所示。

      圖6 紅藍(lán)博弈訓(xùn)練流程Fig.6 Red blue game training process

      圖7 多平臺分布式紅藍(lán)博弈訓(xùn)練場景Fig.7 Multi platform distributed red blue game training scenario

      4 仿真校驗(yàn)

      4.1 有效性校驗(yàn)

      采用基于多隨機(jī)場景的紅藍(lán)博弈訓(xùn)練方法對紅方和藍(lán)方策略網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到最優(yōu)的紅方策略網(wǎng)絡(luò)(紅AI),以18架無人機(jī)集群偵查14個藍(lán)方目標(biāo)編隊(duì)(18V14)為例來闡述仿真與測試結(jié)果。紅方按照遺傳算法決策,得到的典型紅藍(lán)對抗平面軌跡如圖8(a)所示;紅方按照策略網(wǎng)絡(luò)決策,得到的典型紅藍(lán)對抗平面軌跡如圖8(b)所示。

      圖8 典型平面軌跡Fig.8 Typical plane trajectory

      圖8中,軌跡末端“×”表示紅方無人機(jī)被藍(lán)方無人機(jī)攔截或機(jī)動能力不足導(dǎo)致偵查失敗。由圖8可得遺傳算法的突防概率為8÷18=44%,集群對抗效能比為7÷18=39%;紅AI的突防概率為16÷18=89%,集群對抗效能比為15÷18=83%。通過對比可知:紅AI可以為紅方無人機(jī)集群分配合理的偵查目標(biāo)和規(guī)劃有效的突防和成功偵查目標(biāo)軌跡,有效提高了集群對抗效能。

      紅AI訓(xùn)練過程曲線如圖9所示。

      圖9 集群對抗效能訓(xùn)練曲線Fig.9 Efficiency training curve of group confrontation

      圖9中的訓(xùn)練曲線為單平臺訓(xùn)練過程,仿真次數(shù)為200時,紅AI收斂。采用60個無人機(jī)集群紅藍(lán)對抗仿真平臺進(jìn)行多平臺分布式紅藍(lán)博弈訓(xùn)練,因此紅AI的訓(xùn)練收斂次數(shù)約為200×60=12000次。

      遺傳算法和紅AI測試得到的性能對比如表2所示。由表2可得,紅AI相比基于遺傳算法在集群對抗效能上提升了約95%,說明了本文方法的有效性。

      表2 遺傳算法與紅AI性能對比Table 2 Performance comparison between genetic algorithm and red AI

      4.2 泛化性校驗(yàn)

      通過對12V10、18V14等場景進(jìn)行隨機(jī)訓(xùn)練,得到的策略網(wǎng)絡(luò)在未訓(xùn)練過的場景上(13V10、17V15)進(jìn)行泛化性測試,得到的結(jié)果如表3所示。由表3可得,策略網(wǎng)絡(luò)在未訓(xùn)練過場景上的適應(yīng)性平均大于90%,說明紅AI具有一定的泛化性。

      表3 泛化性測試Table 3 Generalization testing

      4.3 先進(jìn)性校驗(yàn)

      將集中式架構(gòu)訓(xùn)練得到的集中式AI、分層式架構(gòu)訓(xùn)練得到的分層式AI分別在無人機(jī)集群紅藍(lán)對抗仿真平臺測試,得到的性能對比結(jié)果如表4所示。

      從表4中可以得到以下結(jié)論:1)集中式AI在有限計(jì)算資源條件下難以收斂;2)分層式AI多任務(wù)迭代訓(xùn)練耗時大,且未得到全任務(wù)最優(yōu)策略;3)混合式AI學(xué)到了多耦合任務(wù)間的協(xié)同能力,得到了全任務(wù)最優(yōu)策略,相比分層式AI在集群對抗效能上提升了約31%;混合式AI策略網(wǎng)絡(luò)收斂速度較快,相比分層式AI收斂速度提升567%。上述結(jié)果表明:在多耦合任務(wù)決策問題上,混合式深度強(qiáng)化學(xué)習(xí)架構(gòu)相比集中式和分層式架構(gòu),具有較強(qiáng)的先進(jìn)性。

      表4 三種架構(gòu)性能對比Table 4 Performance comparison of three architectures

      5 結(jié) 論

      本文針對復(fù)雜場景下無人機(jī)集群對抗中協(xié)同目標(biāo)分配和突防軌跡規(guī)劃等多耦合任務(wù)的決策問題,提出了一種集群對抗多耦合任務(wù)智能決策方法。設(shè)計(jì)了面向多耦合任務(wù)的混合式深度強(qiáng)化學(xué)習(xí)架構(gòu)、基于軌跡構(gòu)造的一步式動作空間設(shè)計(jì)方法和基于多隨機(jī)場景的紅藍(lán)博弈訓(xùn)練方法,解決了無人機(jī)集群對抗在線決策耦合任務(wù)多、決策空間大和場景不確定等難題,增強(qiáng)了策略網(wǎng)絡(luò)的收斂性能和泛化性,提升了無人機(jī)集群對抗多耦合任務(wù)間的協(xié)同性、集群對抗效能。通過與傳統(tǒng)方法、集中式架構(gòu)方法和分層式架構(gòu)方法進(jìn)行對比,驗(yàn)證了本文提出方法的有效性和先進(jìn)性。

      猜你喜歡
      紅藍(lán)紅方集群
      如何在方格紙上確定位置
      最愛紅藍(lán)飯
      海上小型無人機(jī)集群的反制裝備需求與應(yīng)對之策研究
      一種無人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計(jì)
      電子制作(2018年11期)2018-08-04 03:25:40
      Python與Spark集群在收費(fèi)數(shù)據(jù)分析中的應(yīng)用
      勤快又呆萌的集群機(jī)器人
      紅藍(lán)飯飄香
      西江月(2014年3期)2014-11-17 05:49:49
      試論棋例裁決難點(diǎn)
      棋藝(2014年3期)2014-05-29 14:27:14
      提示棋例的盲點(diǎn)
      棋藝(2009年8期)2009-04-29 08:53:52
      象摸殘局
      中國青年(1983年2期)1983-08-21 03:00:18
      吴川市| 苏尼特右旗| 武强县| 渝中区| 宜州市| 宜章县| 朔州市| 襄城县| 芦溪县| 永清县| 项城市| 永宁县| 同德县| 土默特左旗| 陆川县| 页游| 岑溪市| 南靖县| 增城市| 英德市| 丹阳市| 汕尾市| 玛纳斯县| 广南县| 文昌市| 赫章县| 湖口县| 香格里拉县| 射阳县| 南华县| 大方县| 义马市| 祁连县| 井冈山市| 玉山县| 疏勒县| 长沙市| 吴堡县| 察隅县| 米林县| 扎赉特旗|