• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于多智能體深度強(qiáng)化學(xué)習(xí)的無人機(jī)集群自主決策*

      2022-05-25 01:46:52劉志飛陳希亮
      關(guān)鍵詞:藍(lán)方集群決策

      劉志飛,曹 雷,賴 俊,陳希亮

      (陸軍工程大學(xué) 指揮控制工程學(xué)院,江蘇 南京 210007)

      0 引言

      對(duì)人工操縱無人機(jī)來說,同時(shí)操控多架無人機(jī)完成多項(xiàng)任務(wù)且無人機(jī)之間形成有效配合是相當(dāng)困難的,注意力分散或者操控失誤都會(huì)造成較大的安全風(fēng)險(xiǎn)。無人機(jī)的操控還受到電磁干擾和遠(yuǎn)程控制距離的限制,因此,無人機(jī)靈活自主決策能力顯得尤為重要。近年來,多智能體深度強(qiáng)化學(xué)習(xí)(Multi-Agent Deep Reinforcement Learning,MADRL)在復(fù)雜游戲中取得完勝人類專家水平的勝利,表明多智能體深度強(qiáng)化學(xué)習(xí)在解決復(fù)雜序貫問題上取得重要突破。強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用到無人機(jī)群可以提高無人機(jī)群的靈活智能性。本文以一個(gè)由6架無人機(jī)組成的無人機(jī)群為例,使用墨子AI仿真實(shí)驗(yàn)平臺(tái),無人機(jī)群組成一個(gè)巨大的動(dòng)作空間,時(shí)間步內(nèi)有200多個(gè)組合的動(dòng)作空間,為每架無人機(jī)在每一步行為的機(jī)動(dòng)方向、航線或向目標(biāo)發(fā)出攻擊都有提供了上千種選擇。使用深度神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)每個(gè)無人機(jī)在每個(gè)時(shí)間步的最優(yōu)動(dòng)作,并根據(jù)每個(gè)無人機(jī)的局部觀察產(chǎn)生自主決策。MADRL方法生成無人機(jī)群作戰(zhàn)決策對(duì)無人機(jī)作戰(zhàn)研究具有重要的參考價(jià)值,是未來人工智能應(yīng)用在軍事領(lǐng)域的重要方向。

      1 無人機(jī)集群研究現(xiàn)狀

      無人機(jī)集群作戰(zhàn)被公認(rèn)為未來智能化戰(zhàn)爭(zhēng)的典型作戰(zhàn)樣式。由于無人機(jī)集群作戰(zhàn)概念處在不斷探索階段,因而采用建模仿真方法對(duì)無人機(jī)集群作戰(zhàn)的有關(guān)問題開展研究,為這一新型作戰(zhàn)樣式的發(fā)展提供理論支撐。當(dāng)前,無人機(jī)集群研究面臨的挑戰(zhàn)有:

      (1)無人機(jī)集群的個(gè)體行為刻畫簡(jiǎn)單。魚群算法、蟻群算法等源自對(duì)生物界集群行為觀察,其規(guī)則簡(jiǎn)單,涉及群體智能的涌現(xiàn)。但是隨著人工智能發(fā)展和計(jì)算機(jī)算力的提高,深度學(xué)習(xí)得到進(jìn)一步發(fā)展,神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)擬合能力得到極大提升,具備不同任務(wù)能力的智能個(gè)體組成的異構(gòu)集群成為重要發(fā)展趨勢(shì),由多智能體組成的智能集群將具有較高的智能水平。

      (2)無人機(jī)集群協(xié)同作戰(zhàn)研究不足。目前無人機(jī)集群作戰(zhàn)建模與仿真研究中,大多只針對(duì)單一機(jī)型和單一簡(jiǎn)單任務(wù),而實(shí)際作戰(zhàn)中則需要不同功能類型的無人機(jī)組成的異構(gòu)集群協(xié)同完成整體作戰(zhàn)任務(wù)。

      (3)仿真無人機(jī)不具備自主決策的能力。現(xiàn)有無人機(jī)集群建模研究大多采用規(guī)則方法,該方法通常采用If-then式的反應(yīng)結(jié)構(gòu)來表達(dá)無人機(jī)個(gè)體的行為決策,這種方法難以適應(yīng)未來戰(zhàn)場(chǎng)復(fù)雜多變的環(huán)境

      2 強(qiáng)化學(xué)習(xí)

      近年來,深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)[1]取得顯著成績(jī),這導(dǎo)致了強(qiáng)化學(xué)習(xí)的應(yīng)用場(chǎng)景和方法與日俱增。最近的研究從單智能體發(fā)展到多智能體系統(tǒng)。盡管在多智能體領(lǐng)域面臨諸多挑戰(zhàn),但深度強(qiáng)化學(xué)習(xí)在一些相對(duì)復(fù)雜的游戲領(lǐng)域取得了許多成功,如圍棋[2-3]、撲克[4-5]、DOTA2[6]和星際爭(zhēng)霸(StarCraft)[7]。這些領(lǐng)域的成功都依賴于強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)和深度學(xué)習(xí)(Deep Learning,DL)兩個(gè)技術(shù)的組合。

      2.1 單智能體強(qiáng)化學(xué)習(xí)

      強(qiáng)化學(xué)習(xí)是一項(xiàng)通過不斷試錯(cuò)來學(xué)習(xí)的技術(shù)。智能體通過一系列的步數(shù)與環(huán)境進(jìn)行交互,在每一步上基于當(dāng)前的策略來獲取環(huán)境狀態(tài),到達(dá)下一個(gè)狀態(tài)并獲得該動(dòng)作獎(jiǎng)勵(lì),智能體的目標(biāo)是更新自己的策略以最大化累計(jì)獎(jiǎng)勵(lì)。如果環(huán)境滿足馬爾可夫性質(zhì)(Markov Decision Process,MDP)[8],強(qiáng)化學(xué)習(xí)可以建模為一個(gè)馬爾可夫決策過程,如式(1)所示。

      其中st表示時(shí)間步t時(shí)的狀態(tài)。

      MDP可以用式(2)來表示。

      其中S表示狀態(tài)空間(st∈S),A表示動(dòng)作空間,at∈A,R表 示 獎(jiǎng) 勵(lì) 空 間(rt∈R),ρ表 示 狀 態(tài) 轉(zhuǎn) 移 矩 陣(ρSS′=P[st+1=s′|st=s]),γ表示折扣因子,它用于表示及時(shí)獎(jiǎng)勵(lì)對(duì)未來獎(jiǎng)勵(lì)的影響程度。在深度學(xué)習(xí)中,有兩個(gè)重要的概念:狀態(tài)價(jià)值函數(shù)和動(dòng)作價(jià)值函數(shù)。

      狀態(tài)價(jià)值函數(shù)用來衡量智能體所處狀態(tài)的好壞,用式(3)表示:

      動(dòng)作價(jià)值函數(shù)用來衡量智能體采取特定動(dòng)作的好壞,用式(4)表示。

      2.2 多智能體強(qiáng)化學(xué)習(xí)

      深度學(xué)習(xí)已被應(yīng)用于解決具有挑戰(zhàn)性的問題,如從雅塔麗游戲到Alpha Go、Alpha Zero、Alpha Star,再到無人駕駛和工業(yè)機(jī)器人。深度學(xué)習(xí)的大多數(shù)成功都集中在單智能體領(lǐng)域,建?;蝾A(yù)測(cè)其他智能體行為在很大程度上是不必要的。然而,在許多實(shí)際應(yīng)用中涉及多個(gè)智能體之間的交互,其中緊急行為和行為復(fù)雜性是由多個(gè)智能體共同作用產(chǎn)生的。例如,在多機(jī)器人控制、通信、多人游戲以及社會(huì)困境分析等領(lǐng)域中,多智能體自我博弈也是一種有用的訓(xùn)練方法。將單智能體擴(kuò)展到多智能體系統(tǒng)中,對(duì)于構(gòu)建能夠與人類進(jìn)行高效交互的人工智能系統(tǒng)至關(guān)重要。但是傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法(如Q-Learning)和策略梯度算法不太適合多智能體環(huán)境。隨著訓(xùn)練的進(jìn)行,每個(gè)智能體的策略都在發(fā)生變化,環(huán)境的不確定性帶來了學(xué)習(xí)穩(wěn)定性的挑戰(zhàn),并且阻止了直接使用過去的經(jīng)驗(yàn)回放。同時(shí),當(dāng)需要多個(gè)智能體協(xié)調(diào)時(shí),策略梯度的方法通常表現(xiàn)出非常高的方差。

      多智能體強(qiáng)化學(xué)習(xí)可以建模為分布式部分可觀測(cè)馬爾可夫決策過程(Dec-POMDP)[9]:一個(gè)完全合作的多智能體強(qiáng)化學(xué)習(xí)任務(wù)可以用分布式部分可觀測(cè)馬爾可夫決策過程(Dec-POMDP)來描述。Dec-POMDP可 由 元 組G=(n,S,U,P,r,Z,O,γ)表示。其中n表示智能體的數(shù)量;s∈S表示狀態(tài);ua∈U表示智能體的動(dòng)作;ua∈U≡Un表示智能體的聯(lián)合動(dòng)作集合,P(s′|s,u):S×U×S→[0,1]表示狀態(tài)s下采取聯(lián)合動(dòng)作u轉(zhuǎn)移到s′狀態(tài)轉(zhuǎn)移概率;r(s,u):S×U→R表示獎(jiǎng)勵(lì)函數(shù);z∈Z表示每個(gè)智能體的觀察值由O(s,a):S×A→Z來 描 述;γ∈(0,1)表 示 折 扣 因 子。

      2.3 強(qiáng)化學(xué)習(xí)方法在無人機(jī)群上的研究現(xiàn)狀

      深度學(xué)習(xí)在游戲領(lǐng)域取得巨大成功,將該方法應(yīng)用到無人機(jī)操控方面的研究也越來越多。文獻(xiàn)[10]提出了將單智能體深度學(xué)習(xí)方法應(yīng)用到單個(gè)無人機(jī)的靈活操控上。文獻(xiàn)[11]使用近端策略優(yōu)化(Proximal Policy Optimization,PPO)算法對(duì)單個(gè)無人機(jī)的飛行姿態(tài)進(jìn)行靈活的控制以應(yīng)對(duì)復(fù)雜惡劣的環(huán)境。文獻(xiàn)[12]提出使用深度學(xué)習(xí)方法對(duì)無人機(jī)在陌生環(huán)境中進(jìn)行導(dǎo)航。文獻(xiàn)[13]提出一種基于深度學(xué)習(xí)的城市無人機(jī),其在在線和離線狀態(tài)下均能規(guī)劃出較優(yōu)路徑。目前研究熱點(diǎn)在集中在基于深度學(xué)習(xí)的單個(gè)無人機(jī)的操控上,基于MADRL的無人機(jī)群的研究還比較少。基于MADRL方法應(yīng)用到無人機(jī)群上主要面臨狀態(tài)動(dòng)作空間維度災(zāi)難、環(huán)境不穩(wěn)定性和信用分配的挑戰(zhàn)。

      3 無人機(jī)集群作戰(zhàn)建模

      3.1 無人機(jī)集群的強(qiáng)化學(xué)習(xí)建模

      采用MADRL方法[14]對(duì)無人機(jī)集群作戰(zhàn)進(jìn)行建模,可認(rèn)為是在連續(xù)狀態(tài)空間上的及時(shí)決策過程,其遵循馬爾可夫過程,用以下五元組形式表示:

      其中,n表示無人機(jī)的個(gè)數(shù);i表示無人機(jī)的編號(hào)下標(biāo);Ai表示第i個(gè)無人機(jī)的動(dòng)作空間;Ri表示無人機(jī)i在執(zhí)行動(dòng)作Ai后獲得的及時(shí)回報(bào);T表示狀態(tài)轉(zhuǎn)移函數(shù):S×A1×…×An→S′;γ表示折扣率,γ∈(0,1)。N個(gè)智能體的POMDP由所有智能體的組成一組狀態(tài)S,一組動(dòng)作A1,…Ai,…An和每個(gè)智能體的一組觀測(cè)O1,…Oi,…On來定義。為了選擇動(dòng)作,每個(gè)無人 機(jī)i使 用 隨 機(jī) 策 略πθi:Oi×Ai→[0,1],其 根 據(jù) 狀 態(tài)轉(zhuǎn) 移 函 數(shù)S×A1×…×An→S′產(chǎn) 生 下 一 個(gè) 狀 態(tài)。每 個(gè) 智能體i獲得作為該狀態(tài)和智能體的動(dòng)作的獎(jiǎng)勵(lì)函數(shù)ri:S×Ai→R的獎(jiǎng)勵(lì),并且接收與狀態(tài)相關(guān)的觀察Oi:S→Oi。初 始 狀 態(tài) 由 分 布:S→[0,1]確 定。

      N個(gè)無人機(jī)在做出聯(lián)合動(dòng)作A1,…Ai,…An后從環(huán)境中獲取獎(jiǎng)勵(lì)R1,…Ri,…Rn。在POMDP中,無人機(jī)集群的目標(biāo)是學(xué)習(xí)到最優(yōu)聯(lián)合策略,即最大化整體獎(jiǎng)勵(lì)。本文采用墨子AI的實(shí)驗(yàn)環(huán)境,實(shí)驗(yàn)場(chǎng)景如圖1所示。

      圖1 墨子實(shí)驗(yàn)場(chǎng)景

      其中紅方由6架灰鷹無人機(jī)組成無人機(jī)集群,使用MADRL算法進(jìn)行自主決策行動(dòng)。藍(lán)方由6個(gè)坦克排(T-72型主戰(zhàn)坦克×4)和3個(gè)地空導(dǎo)彈排(薩姆-22“灰狗”)組成,使用固定戰(zhàn)術(shù)規(guī)則。紅方無人機(jī)群的任務(wù)是在最短的時(shí)間內(nèi)避開雷達(dá)找到地方坦克并有效催化目標(biāo)。

      3.2 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

      當(dāng)無人機(jī)擊毀一個(gè)坦克排,獲取及時(shí)獎(jiǎng)R=1,當(dāng)無人機(jī)進(jìn)入藍(lán)方地空導(dǎo)彈防御范圍并被擊毀,獲取獎(jiǎng)勵(lì)R=-1,給予懲罰。當(dāng)無人機(jī)互相碰撞時(shí)給予獎(jiǎng)勵(lì)R=-0.1,為了引導(dǎo)無人機(jī)更快地學(xué)習(xí)到最優(yōu)攻擊策略,設(shè)計(jì)連續(xù)性函數(shù)引導(dǎo)無人機(jī)到達(dá)預(yù)先設(shè)定的區(qū)域,距離值越小獲得的獎(jiǎng)勵(lì)越多。無人機(jī)集群的作戰(zhàn)任務(wù)最優(yōu)策略是避開藍(lán)方地空導(dǎo)彈,保存自身實(shí)力并摧毀藍(lán)方全部坦克排。

      3.3 訓(xùn)練流程

      訓(xùn)練偽代碼如下:

      1.For episode=1 to M do 2.初始化一個(gè)隨機(jī)過程以便進(jìn)行動(dòng)作探索3.接收初始狀態(tài)4.for t=1 to max-episode-length do:5. 對(duì)于每個(gè)無人機(jī)i,根據(jù)策略網(wǎng)絡(luò)加噪聲采樣動(dòng)作ai=μθi(Oi)+Nt 6. 執(zhí)行聯(lián)合動(dòng)作a1,…ai,…an獲得獎(jiǎng)勵(lì)和下一個(gè)狀態(tài)S′7 將(x,a,r,x′)存 入 經(jīng) 驗(yàn) 回 放 集D中8. S′x′賦 值 給x 9.for無人機(jī)i=1 to N do 10. 從經(jīng)驗(yàn)回放集D中采集s個(gè)mini批的 數(shù) 據(jù)xj,aj,rj,x′j 11. 設(shè)置聯(lián)合動(dòng)作值函數(shù)為:y j=rj i+γQμ′i(x′j,a′1,…,a′i)

      12. 最小化損失函數(shù)L(θi)=1∑(yj-Qμ S j i·(xj,aj 1,…,aj n))2來更新評(píng)論家網(wǎng)絡(luò)13. 更新演員策略網(wǎng)絡(luò):▽?duì)萯 J=1∑▽?duì)萯 μi(Oj i)▽ai Qj S j i(xj,aj 1,…,aj i,…aj N)14. 更新每個(gè)無人機(jī)的目標(biāo)網(wǎng)絡(luò)參數(shù):θ′ i ←τθi+(1-τ)θ′i 15. end for 16.end for

      4 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析

      實(shí)驗(yàn)環(huán)境如下:

      仿真環(huán)境:墨子AI實(shí)驗(yàn)平臺(tái);

      硬件環(huán)境:Windows 10操作系統(tǒng);

      CPU:酷睿i5處理器;

      內(nèi)存容量:16 GB;

      開發(fā)語言:Python3.7。

      實(shí)驗(yàn)結(jié)果:經(jīng)過500輪的訓(xùn)練,紅方無人機(jī)逐漸學(xué)會(huì)了最優(yōu)策略,能夠在最快的時(shí)間避開雷達(dá)到達(dá)目標(biāo)對(duì)藍(lán)方坦克進(jìn)行有效的攻擊,紅方無人機(jī)集群到達(dá)目標(biāo)并摧毀敵方目標(biāo)的成功率逐漸提高。如圖2所示,紅方無人機(jī)集群能有效地完成作戰(zhàn)任務(wù)。損失函數(shù)曲線如圖3所示。

      圖2 無人機(jī)群到達(dá)目標(biāo)并擊毀敵方坦克的成功率

      圖3 損失函數(shù)曲線

      通過MADRL方法進(jìn)行仿真訓(xùn)練,無人機(jī)集群可以學(xué)習(xí)到三種戰(zhàn)術(shù):

      (1)6架無人機(jī)集中優(yōu)勢(shì)兵力采取編隊(duì)飛行從左側(cè)依次對(duì)藍(lán)方進(jìn)行攻擊,如圖4所示。

      圖4 無人機(jī)群保持隊(duì)形從左路飛行

      (2)6架無人機(jī)集中優(yōu)勢(shì)兵力采取編隊(duì)飛行從右側(cè)依次對(duì)藍(lán)方進(jìn)行攻擊,如圖5所示。

      圖5 無人機(jī)群保持隊(duì)形從右路飛行

      (3)6架無人機(jī)兵分兩路從左右兩側(cè)各三架采取編隊(duì)飛行依次對(duì)藍(lán)方進(jìn)行攻擊,如圖6所示。

      圖6 無人機(jī)群保持隊(duì)形從兩側(cè)包抄

      5 結(jié)論

      本文采用多智能深度強(qiáng)化學(xué)習(xí)的技術(shù),通過最先進(jìn)的MADRL算法對(duì)無人機(jī)集群行動(dòng)進(jìn)行了建模,并在墨子AI試驗(yàn)平臺(tái)進(jìn)行了測(cè)試。測(cè)試證明,無人機(jī)可以在戰(zhàn)場(chǎng)環(huán)境中獲取狀態(tài)信息,產(chǎn)生最優(yōu)動(dòng)作,并作出自主決策,為無人機(jī)集群提供靈活的飛行控制,并在遂行任務(wù)中開展協(xié)調(diào)和配合。未來將在無人機(jī)上安裝訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)控制器,在實(shí)際場(chǎng)景中再度進(jìn)行訓(xùn)練和試驗(yàn)。此項(xiàng)研究成果提供了一種無人駕駛集群化的飛行控制方式,在醫(yī)療、農(nóng)業(yè)、安全等不同領(lǐng)域都具有應(yīng)用價(jià)值。

      猜你喜歡
      藍(lán)方集群決策
      為可持續(xù)決策提供依據(jù)
      海上小型無人機(jī)集群的反制裝備需求與應(yīng)對(duì)之策研究
      決策為什么失誤了
      一種無人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計(jì)
      電子制作(2018年11期)2018-08-04 03:25:40
      精彩的足球比賽
      Python與Spark集群在收費(fèi)數(shù)據(jù)分析中的應(yīng)用
      暗號(hào)
      勤快又呆萌的集群機(jī)器人
      暗號(hào)
      小小說月刊(2015年5期)2016-01-22 08:39:19
      暗號(hào)
      观塘区| 日照市| 宁河县| 昌图县| 图木舒克市| 长宁县| 宁远县| 博白县| 新蔡县| 仁布县| 麦盖提县| 河津市| 积石山| 南阳市| 合川市| 铜川市| 威宁| 马鞍山市| 腾冲县| 定日县| 东乡族自治县| 崇义县| 南溪县| 宜兴市| 惠东县| 平昌县| 沐川县| 醴陵市| 荥阳市| 遂昌县| 英超| 搜索| 高阳县| 伊宁县| 伊宁市| 隆回县| 东方市| 苏尼特右旗| 白银市| 容城县| 皋兰县|