• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于MA2IDDPG算法的異構多無人機協(xié)同突防方法

      2022-08-05 10:08:10李艷斌杜宇峰劉東輝
      河北工業(yè)科技 2022年4期
      關鍵詞:藍方紅方異構

      暢 鑫,李艷斌,趙 研,杜宇峰,2,劉東輝

      (1.中國電子科技集團公司第五十四研究所,河北石家莊 050081;2.河北省電磁頻譜認知與管控重點實驗室,河北石家莊 050081;3.石家莊鐵道大學經濟管理學院,河北石家莊 050043)

      異構無人機突防是指揮控制決策體系博弈中的重要策略組成部分[1-5]。在指揮控制博弈中,功能不同的無人機將依據突防任務安排編組為異構多無人機群。異構多無人機如何智能化地產生博弈策略,對于提高指揮控制體系博弈具有關鍵作用[6]。因此,異構多無人機智能化協(xié)同突防方法的研究對于指揮控制決策領域具有重要的研究意義。

      當前,國內外協(xié)同突防博弈策略產生和優(yōu)化問題可以分為自動化、自適應化和智能化3個階段?;谂袛噙壿嬍侄螌崿F(xiàn)系統(tǒng)自動化,能夠按照預設任務等信息,不考慮與環(huán)境的交互,靜態(tài)的實現(xiàn)任務?;趯<医涷炛R,考慮環(huán)境變化的影響,人工梳理和構建完成任務需求的目標函數(shù)和約束函數(shù),實現(xiàn)動態(tài)自適應化的系統(tǒng),如國內外研究中的經典算法包括動態(tài)規(guī)劃方法、最速下降法、牛頓法、共軛梯度法、擬牛頓法、信賴域方法、最小二乘法和最優(yōu)控制法等。上述方法存在共同的缺點,面對不同任務,需要分別人工提煉任務目標函數(shù)和約束函數(shù),且通常要求目標函數(shù)連續(xù)可導。為了解決該問題,引入啟發(fā)式尋優(yōu)等方法改進,使得突防效果提升。但是該思路依然需要人工構建目標函數(shù)和約束函數(shù),且多目標優(yōu)化問題始終是元啟發(fā)算法的重難點問題,如多目標進化計算。為了提高自動化程度,并且降低人工參與對于系統(tǒng)性能的影響,終極目標是通過機器學習等智能手段,構建通用框架,從環(huán)境中提取特征,并且隨著在環(huán)境中不斷地探索和學習,從博弈狀態(tài)中提取特征,并迭代出最優(yōu)或者多個次優(yōu)策略,不斷提升任務達成效果。在當前國內外無人機協(xié)同突防的研究中,強化學習在博弈策略的智能化產生問題上具有良好表現(xiàn)。

      強化學習可以分為值函數(shù)方法和策略梯度方法。Q-learning方法是值函數(shù)方法中最具代表性的方法[7]。該算法的特點在于基于“狀態(tài)-動作”配對的價值選擇最優(yōu)動作,具有魯棒性強、收斂速度快等特點,廣泛應用于無人機自動控制領域。但是,由于需要通過查表的方式進行策略訓練,在高維狀態(tài)空間中存在維度爆炸的問題。針對這一問題,深度Q網絡(deep Q network,DQN)算法結合深度學習和Q-learning,利用深度神經網絡對狀態(tài)空間的特征提取能力,將Q表保存在神經網絡中,解決了維度爆炸的問題。除此之外,依據經驗的重要性對重放次數(shù)進行加權,提高學習效率。進一步通過算法引入優(yōu)勢函數(shù)等數(shù)學模型,改進傳統(tǒng)DQN的神經網絡結構,提出了多種不同神經網絡結構的改進DQN算法,如Dueling DQN,Noisy DQN,Distributed DQN,Rainbow等算法[8]。除此之外,在多智能體強化學習領域中也出現(xiàn)了Independent Q-Learning,Value-Decomposition Networks,QMIX等優(yōu)秀的值函數(shù)強化學習算法?;谥岛瘮?shù)的深度強化學習的最大缺點表現(xiàn)在對于連續(xù)動作空間的處理?;谥岛瘮?shù)的深度強化學習的本質是采用深度學習的分類網絡,使用離散的動作空間。在連續(xù)的動作空間中,需要對動作空間進行采樣,將會導致動作空間爆炸的問題。對此,以Actor-Critic算法為代表的策略梯度方法在連續(xù)控制問題上表現(xiàn)出了巨大優(yōu)勢。Actor-Critic算法分別構建用于連續(xù)動作選擇和時域離散估計價值神經網絡,將值函數(shù)和策略梯度方法相結合,解決了連續(xù)動作空間的決策問題。Advantage Actor-Critic算法引入了基線提高算法的性能。Asynchronous Advantage Actor-Critic提出了多線程并行訓練框架,有效地解決了強化學習在環(huán)境中交互經驗利用效率低的問題。為了進一步解決AC算法收斂難的問題,利用DQN算法的經驗回放和雙網絡估值的思路,提出了深度確定性策略梯度(deep deterministic policy gradient,DDPG)方法[9-11]。DDPG方法與MADDPG方法廣泛應用于無人機追擊、路徑尋優(yōu)、圍捕等問題,在自動控制領域表現(xiàn)出了巨大的生命力[12-17]。在上述指揮控制問題中,深度強化學習的落地關鍵在于提高數(shù)據的利用率。除此之外,獎賞函數(shù)的設計也將影響智能水平。如果獎賞函數(shù)描述的過于微觀,將導致智能體的探索受限,而獎賞函數(shù)描述的過于宏觀,智能體將陷入局部最優(yōu)。

      為了智能化產生異構多無人機協(xié)同突防策略,提出多智能體異步模仿深度確定性策略梯度算法(multi-agent asynchronous imitative deep deterministic policy gradient,MA2IDDPG)的異構多無人機協(xié)同突防方法,后文中簡稱MA2IDDPG方法。圍繞方法創(chuàng)新,構建異構多無人機協(xié)同突防策略優(yōu)化和生成優(yōu)化框架,實現(xiàn)智能突防。本文的關鍵貢獻和主要創(chuàng)新在于:首先,面對異構多無人機協(xié)同突防策略生成和優(yōu)化問題,采用異步并行框架改進DDPG算法,提高協(xié)同突防經驗數(shù)據的收集效率;然后,構建共享經驗池,增加經驗數(shù)據的多樣性,提高異構多無人機智能體的學習效率;其次,構建基于專家經驗知識的牽引性獎賞函數(shù)和基于異構無人機任務結果的描述性獎賞函數(shù),分階段使用兩種獎賞函數(shù)對異構無人機智能體進行訓練,使得異構多無人機智能體在快速達到專家知識水平后,進一步提高智能水平,最后,在詳述算法原理的基礎上,給出了算法流程。在異構無人機協(xié)同突防環(huán)境下,從任務達成度的角度對改進算法進行了對比驗證。實驗結果表明,改進算法能夠有效產生異構多無人機協(xié)同突防策略。

      1 異構多無人機協(xié)同突防問題描述與建模

      1.1 博弈環(huán)境

      多無人機協(xié)同突防博弈環(huán)境的特點在于無人機具有異構性,即為了貼近實戰(zhàn),博弈環(huán)境中實體的功能各不相同。除此之外,被突防方非靜止,同樣具有智能水平,以此充實樣本的多樣性。在突防方和被突防方相互動態(tài)博弈的過程中,不斷提高智能水平。

      在圖1所示的博弈環(huán)境中,紅方作為防守方,通過紅方攔截智能體攔截藍方攻擊智能體,達到保護紅方基地的目標。而藍方作為突防方,通過藍方攔截智能體和藍方攻擊智能體的相互配合,達到突防攻擊紅方基地的目標。

      圖1 博弈環(huán)境Fig.1 Game environment

      通過分析場景可知,智能體之間通過不斷與博弈環(huán)境進行交互形成動態(tài)博弈,提升異構多無人機系統(tǒng)突防的智能水平,故適合采用深度強化學習方法產生博弈策略。

      1.2 馬爾可夫決策過程模型

      采用深度強化學習的前提是需要將博弈環(huán)境梳理為馬爾可夫決策過程。抽象要素為智能體位置信息組成的狀態(tài)空間,與引起狀態(tài)轉移的動作空間和博弈過程得到獎勵。智能體通過基于狀態(tài)選擇動作,然后與博弈環(huán)境交互進行博弈訓練。

      狀態(tài)st可以表示為

      st=[x1,y1,x2,y2,x3,y3,x4,y4],

      (1)

      式中:st∈S,S是狀態(tài)空間;x為智能體的橫坐標;y為智能體的縱坐標;1代表基地坐標;2代表紅方攔截智能體;3代表藍方攻擊智能體;4代表藍方攔截智能體。

      動作a可以表示為

      a=[ax,ay],

      (2)

      式中:a∈A,A是狀態(tài)空間;ax和ay分別為智能體沿橫坐標和縱坐標的動作,取值范圍為[-amax,amax],amax表示最大速度。

      2 基于MA2IDDPG算法的異構多無人機協(xié)同突防方法原理

      2.1 異步并行框架與共享經驗池

      MA2IDDPG方法框架如圖2所示,其核心是通過聯(lián)合獎賞產生多智能體的協(xié)同策略。博弈場景由博弈環(huán)境和多個DDPG算法框架組成。借鑒遷移學習和課程學習的理念,博弈場景分為2個類型,分別為牽引性訓練場景和描述性遷移場景。首先,多智能體在基于經驗知識的牽引性訓練場景中進行自博弈[18],產生牽引性聯(lián)合經驗存入共享經驗池,通過批經驗更新生成策略;然后,進一步在描述性訓練場景中進行探索,生成超越經驗知識的博弈策略;最后,通過與典型規(guī)則進行對戰(zhàn),針對性訓練智能體,使其產生針對性的博弈策略。

      圖2 算法框架Fig.2 Algorithm framework

      2.2 獎賞函數(shù)設計

      獎賞函數(shù)的設計分為基于專家經驗知識的牽引性設計方法和基于任務結果的描述性設計方法,分別對應牽引性獎賞函數(shù)和描述性獎賞函數(shù)。

      對于抽象后的博弈環(huán)境而言,紅方攔截智能體的任務是攔截藍方攻擊智能體對重要目標的進攻。從博弈過程角度分析,可知紅方攔截智能體越靠近藍方攻擊智能體,則有效攔截藍方攻擊智能體的效果越好。定義紅方攔截智能體與藍方攻擊智能體的距離d1為

      (3)

      故利用紅方攔截智能體與藍方攻擊智能體位置的距離,得到牽引性獎勵函數(shù)r1,表示紅方攔截智能體在當前狀態(tài)下選取動作所獲得的反饋值:

      (4)

      同理,藍方攔截智能體越靠近紅方攔截智能體,則有效攔截紅方攻擊智能體的效果越好。定義紅方攔截智能體與藍方攔截智能體的距離d2為

      (5)

      利用藍方攔截智能體與紅方攔截智能體位置的距離,得到牽引性獎勵函數(shù)r2,表示藍方攔截智能體在當前狀態(tài)下選取動作所獲得的反饋值:

      (6)

      同理,紅方攻擊智能體越靠近藍方重點目標,則攻擊效果越好。定義藍方攻擊智能體與紅方基地的距離d3為

      (7)

      利用藍方攻擊智能體與紅方基地位置的距離,得到牽引性獎勵函數(shù)r3,表示藍方攻擊智能體在當前狀態(tài)下選取動作所獲得的反饋值:

      (8)

      利用牽引性獎賞函數(shù)能夠使得智能體經過少量訓練能快速達到基于專家知識的自動化水平。為了智能體能夠通過不斷訓練達到超過專家知識的智能化水平,本算法首先利用遷移性獎賞函數(shù)達到基于專家知識的自動化水平,然后設置描述性獎賞函數(shù),取消專家經驗知識對智能體的限制,使得智能體能夠以專家經驗知識為基礎,進一步探索獲得更優(yōu)的博弈策略,從而不斷提高博弈效果。

      描述性獎賞函數(shù)直接將博弈取勝的結果通過公式化表述為獎賞。

      (9)

      (10)

      式中ε為判定距離。

      在沒有得到結果的回合中,為了促進智能的探索,每個回合獎賞都為-1。

      描述性獎勵除可以用于訓練智能體外,也將用于評估智能體的對戰(zhàn)勝率。

      2.3 智能體算法模型

      在博弈系統(tǒng)中的智能單體使用DDPG算法框架[19],為藍方在突防過程中不斷提供多樣化的經驗,促進智能體的智能水平。

      DDPG算法的神經網絡結構包含策略神經網絡Actor和值函數(shù)神經網絡Critic。Actor擬合策略函數(shù)μ,完成狀態(tài)st到動作a的映射。除此之外,將動作和隨機噪聲相疊加,能夠提高智能體對于未知動作和狀態(tài)的探索概率。

      a=μ(st)。

      (11)

      Critic擬合價值函數(shù),輸入狀態(tài)s到動作a,擬合價值Q。Actor采用策略梯度下降法更新神經網絡參數(shù)θ:

      (12)

      Critic采用均方誤差損失函數(shù)更新神經網絡參數(shù)ω:

      ri-Q(si,ai|ω)]2,

      (13)

      式中:γ為獎勵折扣;μ′為目標策略神經網絡Actor,μ′的參數(shù)權重為θ′;Q′為目標值函數(shù)神經網絡Critic,Q′的參數(shù)權重為ω′。

      為了提高學習的穩(wěn)定性,對神經網絡參數(shù)進行軟更新。

      (14)

      式中τ為軟更新比例系數(shù)。

      2.4 規(guī)則算法模型

      規(guī)則算法針對特定任務設置,用于驗證MA2IDDPG算法的性能和效果。在智能體完成牽引性訓練場景和描述性遷移場景泛化訓練后,基于遷移學習的理念,針對特定任務進行特異性任務的訓練,使得智能體能夠更有針對性的產生博弈策略。具體到本博弈場景中的紅方規(guī)則算法可以描述為

      (15)

      式中mod表示取余。

      2.5 算法模型訓練流程

      算法訓練流程具體分為3個階段。其中前2個階段為訓練階段,包含牽引性訓練和描述性訓練,最后1個階段為評估階段。

      第1階段為牽引性訓練。利用牽引性獎賞對紅藍方智能體進行牽引訓練,以專家經驗初始化神經網絡參數(shù)收斂趨勢,且不進行勝率評估。第2階段為描述性訓練,利用描述性獎賞使得紅藍方智能體進行自博弈,使得神經網絡關聯(lián)長時間跨度下的狀態(tài)、動作和獎賞,進一步泛化神經網絡擬合得到的策略。第3階段為評估階段,將完成訓練后的藍方多智能體與紅方規(guī)則算法在同場景下進行博弈,評估智能體訓練效果。

      3 實驗結果與分析

      3.1 參數(shù)配置和實驗步驟

      本文實驗博弈場景中,紅藍方實體數(shù)量為4個,包括紅方基地、紅方攔截智能體、藍方攔截智能體和藍方攻擊智能體。

      實驗訓練階段:設置1 000輪博弈訓練,每輪博弈回合數(shù)為1 000步。其中牽引性訓練500輪,描述性訓練500輪。評估階段設置100輪博弈。

      在牽引性訓練階段中,紅方攔截智能體采用DDPG算法,由藍方攔截智能體和藍方攻擊智能體構成的藍方異構多無人機群采用MA2IDDPG算法,采用牽引性獎賞函數(shù)進行訓練;在描述性訓練階段,紅方攔截智能體采用DDPG算法,由藍方攔截智能體和藍方攻擊智能體構成的藍方異構多無人機群采用MA2IDDPG方法,用描述性獎賞函數(shù)進行訓練;在評估階段,紅方攔截智能體采用規(guī)則算法模型,由藍方攔截智能體和藍方攻擊智能體構成的藍方異構多無人機群采用MA2IDDPG算法。

      在仿真實驗中,通過本文提出的MA2IDDPG方法與典型DDPG方法進行對比,表明本文提出算法的創(chuàng)新性。

      神經網絡模型架構參數(shù)配置如表1所示。

      表1 神經網絡模型架構參數(shù)配置

      訓練參數(shù)配置如表2所示。

      表2 訓練參數(shù)配置

      3.2 實驗結果與討論

      在1 000輪博弈訓練過程中,本文方法和DDPG方法的累計回報獎賞如圖3所示。由圖3可知,在算法訓練的過程中,回報獎賞不斷提高。MA2IDDPG方法相比于DDPG方法,累計回報獎賞增長更為穩(wěn)定。

      圖3 回報獎賞Fig.3 Reward

      在博弈評估下,描述性訓練500輪如圖4所示。描述性訓練500輪的自博弈過程中,MA2IDDPG方法勝率最終達到76%,而DDPG方法勝率達到58%??梢奙A2IDDPG方法在描述性訓練階段的表現(xiàn)優(yōu)于DDPG方法。

      圖4 訓練勝率Fig.4 Training win rate

      在評估階段中,采用2.4節(jié)中的規(guī)則方法,對DDPG方法和MA2IDDPG方法進行對比驗證。評估回報獎賞如圖5所示。

      圖5 評估勝率Fig.5 Evaluated win rate

      通過分析圖5可知,經過訓練后,MA2IDDPG方法和經典DDPG方法評估勝率一致,表明均能夠有效戰(zhàn)勝基于規(guī)則算法的紅方。但是結合訓練實驗結果表明,MA2IDDPG算法不但能夠有效產生博弈對抗策略,而且在訓練階段的穩(wěn)定性和效果上均優(yōu)于經典DDPG方法。

      圖6 典型博弈過程Fig.6 Typical game process

      在整個博弈過程中,典型博弈過程如圖6所示。通過分析可知,在場景給定的獎賞趨勢下,藍方攔截智能體趨向于對藍方攔截智能體進行保護,即通過對于藍方攻擊智能體策略擬合,形成聯(lián)合策略,在保護藍方攻擊智能體的過程中,對紅方攻擊智能體進行攔截,從而達成對于藍方基地的進攻。

      4 結 語

      為了能夠智能化產生超過基于專家經驗知識的異構多無人機協(xié)同突防策略,基于MA2IDDPG算法提出了異構多無人機協(xié)同突防方法。

      首先,基于經典DDPG方法框架,通過采用異步并行的方法對其進行改進,得到了MA2IDDPG方法框架,能有效提高經驗數(shù)據的收集效率。然后,構建共享經驗池,將不同獎賞下獲得的經驗同時存儲,增加經驗數(shù)據的多樣性。其次,為了解決用于神經網絡訓練的優(yōu)質樣本問題,構建基于專家經驗知識的牽引性獎賞函數(shù)。在牽引性獎賞函數(shù)的反饋下,異構多無人機能夠快速生成達到領域專家水平的策略。再次,為了解決異構無人機智能遷移性的問題,構建基于博弈結果的描述性獎賞函數(shù)。最后,借鑒遷移學習和課程學習的理念,分別采用牽引性獎賞和描述性獎賞,將訓練階段分成為牽引性訓練階段和描述性訓練階段,分階段對神經網絡進行訓練,使得神經網絡能夠在快速達到專家知識水平后,進一步提高產生的策略水平。在仿真實驗中,構建了異構多無人機協(xié)同突防環(huán)境,將MA2IDDPG方法與典型DDPG方法進行了對比驗證。實驗結果表明,MA2IDDPG方法在訓練過程中更穩(wěn)定,對抗效果更優(yōu)。

      研究受限于場景的逼真度,將在后續(xù)研究中進一步考慮攔截概率對多智能體策略的影響。當前研究的關鍵在于深度神經網絡的可解釋性,當前改善多從超參數(shù)調整和神經網絡結構調整等外因方面入手,需要深入研究深度神經網絡的解釋性,從而實現(xiàn)對算力、訓練時間和對抗效果之間的預測。

      猜你喜歡
      藍方紅方異構
      如何在方格紙上確定位置
      試論同課異構之“同”與“異”
      精彩的足球比賽
      暗號
      overlay SDN實現(xiàn)異構兼容的關鍵技術
      電信科學(2016年11期)2016-11-23 05:07:56
      LTE異構網技術與組網研究
      暗號
      小小說月刊(2015年5期)2016-01-22 08:39:19
      暗號
      在新興異構SoCs上集成多種系統(tǒng)
      試論棋例裁決難點
      棋藝(2014年3期)2014-05-29 14:27:14
      古浪县| 临澧县| 迭部县| 江西省| 金湖县| 栾城县| 时尚| 青阳县| 内黄县| 林州市| 邢台市| 阜新市| 扎赉特旗| 宁国市| 娄底市| 卢湾区| 封丘县| 辽阳市| 探索| 西平县| 绵竹市| 松溪县| 紫阳县| 晋州市| 正阳县| 保康县| 确山县| 陵水| 库尔勒市| 汉沽区| 海兴县| 靖州| 开远市| 富民县| 望谟县| 桂阳县| 册亨县| 兴业县| 织金县| 浦北县| 淮南市|