• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于多智能體深度強(qiáng)化學(xué)習(xí)的多星觀測(cè)任務(wù)分配方法

      2024-03-08 02:52:42王楨朗何慧群金云飛
      上海航天 2024年1期
      關(guān)鍵詞:觀測(cè)決策衛(wèi)星

      王楨朗,何慧群,周 軍,金云飛

      (1.上海衛(wèi)星工程研究所,上海 201109;2.上海航天技術(shù)研究院,上海 201109)

      0 引言

      由于衛(wèi)星數(shù)量大量增加,導(dǎo)致衛(wèi)星觀測(cè)任務(wù)需求也井噴式發(fā)展[1]。傳統(tǒng)集成大量功能的大型衛(wèi)星被分解為多個(gè)單一功能的小型衛(wèi)星,這些小型衛(wèi)星具備較高的靈活性,并組成星群,可快速根據(jù)空間環(huán)境及任務(wù)變化調(diào)整自身情況,適應(yīng)靈活任務(wù)需求[2-3]。這種情況下,會(huì)面臨集中式?jīng)Q策模式信息傳遞難度大、時(shí)間復(fù)雜度過(guò)高等問(wèn)題。隨著邊緣計(jì)算的發(fā)展,帶來(lái)新的分布式?jīng)Q策模式,邊緣節(jié)點(diǎn)具有一定的算力,并有自主決策能力[4-5]。該模式更適應(yīng)未來(lái)的復(fù)雜環(huán)境及多變的任務(wù)需求,更適合多星觀測(cè)任務(wù)分配。

      可將上述問(wèn)題理解為一個(gè)全局最優(yōu)化問(wèn)題,面對(duì)小規(guī)模問(wèn)題時(shí),采用確定性的精確算法,其問(wèn)題規(guī)模變大后,會(huì)帶來(lái)更復(fù)雜的時(shí)空條件約束,增大求解難度,甚至無(wú)法求解[6]。

      強(qiáng)化學(xué)習(xí)算法是一種不斷根據(jù)環(huán)境調(diào)整學(xué)習(xí)并受啟發(fā)的算法,智能體通過(guò)不斷地“試錯(cuò)”與環(huán)境進(jìn)行交互,獲得反饋并優(yōu)化自身。隨著深度強(qiáng)化學(xué)習(xí)技術(shù)的發(fā)展應(yīng)用,該算法在動(dòng)態(tài)路由、通信鏈路分配、邊緣計(jì)算節(jié)點(diǎn)數(shù)據(jù)管理等領(lǐng)域取得了較為成功的應(yīng)用[7-9]。在多星觀測(cè)系統(tǒng)中,將衛(wèi)星看作決策智能體,并將觀測(cè)任務(wù)分配轉(zhuǎn)化為一個(gè)多智能體強(qiáng)化學(xué)習(xí)任務(wù)。

      當(dāng)前由于暫未有多智能體深度強(qiáng)化學(xué)習(xí)算法在多星觀測(cè)任務(wù)分配中的實(shí)際應(yīng)用,因此本文做出以下工作[10]。

      1)對(duì)多星觀測(cè)場(chǎng)景建模。

      2)提出一個(gè)基于多智能體深度強(qiáng)化學(xué)習(xí)的多星觀測(cè)任務(wù)分配算法,在上述場(chǎng)景中解決分配問(wèn)題。

      3)設(shè)置對(duì)比算法,對(duì)比證明上述算法的優(yōu)越性。

      1 背景

      1.1 多星觀測(cè)任務(wù)分配決策方式

      集中式?jīng)Q策與分布式?jīng)Q策是當(dāng)前2 種主要決策方式[11],在集中式?jīng)Q策場(chǎng)景中,存在一個(gè)中心決策節(jié)點(diǎn)來(lái)處理全局的信息,將決策好的序列分配給衛(wèi)星執(zhí)行。而分布式?jīng)Q策系統(tǒng)中不存在為系統(tǒng)統(tǒng)一進(jìn)行決策的中心決策節(jié)點(diǎn),各衛(wèi)星的調(diào)度方案均由自身結(jié)合獲取的信息獨(dú)立決策集中式?jīng)Q策方案,往往由于系統(tǒng)復(fù)雜度高、信息過(guò)多導(dǎo)致決策時(shí)效性和質(zhì)量下降。同時(shí)面對(duì)通信受限的場(chǎng)景時(shí),由于信息傳遞不到位,造成信息獲取不全,可能會(huì)導(dǎo)致決策錯(cuò)誤。

      在多星觀測(cè)任務(wù)分配中,由于衛(wèi)星數(shù)量多,響應(yīng)時(shí)間要求高,且可能面對(duì)通信受限的場(chǎng)景,集中式?jīng)Q策難以得出最優(yōu)解,因此采用分布式?jīng)Q策系統(tǒng)解決該問(wèn)題。分布式系統(tǒng)的各個(gè)子模塊能按照自身獲取的信息及預(yù)先確定的內(nèi)置規(guī)則自行決策,但這些系統(tǒng)不能實(shí)時(shí)更新決策規(guī)則,在多星觀測(cè)任務(wù)分配問(wèn)題中,由于環(huán)境的動(dòng)態(tài)性、任務(wù)的多樣性、約束的多樣性等原因,決策方案需要不斷進(jìn)行自我調(diào)整,人為更新速度跟不上應(yīng)用環(huán)境的變化。

      作為一種端到端的人工智能方法,強(qiáng)化學(xué)習(xí)不需要頻繁地為新環(huán)境制定策略,其決策方案隨著智能體與環(huán)境的動(dòng)態(tài)交互制定并不斷優(yōu)化,且已被成功地應(yīng)用于多個(gè)領(lǐng)域[12]。

      1.2 多智能體深度強(qiáng)化學(xué)習(xí)

      強(qiáng)化學(xué)習(xí)是近年發(fā)展起來(lái)的機(jī)器學(xué)習(xí)方法,通過(guò)讓智能體(Agent)與環(huán)境不斷交互,進(jìn)而在獲得回報(bào)獎(jiǎng)勵(lì)的過(guò)程中不斷學(xué)習(xí)并優(yōu)化策略,達(dá)到獲得最大累積獎(jiǎng)勵(lì)的目標(biāo)。這一交互過(guò)程不斷重復(fù),最終智能體通過(guò)收集的數(shù)據(jù),達(dá)到最優(yōu)的策略。與監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)不同的是,強(qiáng)化學(xué)習(xí)的智能體在學(xué)習(xí)與交互過(guò)程中,沒有標(biāo)準(zhǔn)答案或事先制定的標(biāo)簽,而是嘗試采取不同的行動(dòng)來(lái)學(xué)習(xí)如何在給定的場(chǎng)景下獲得最大的獎(jiǎng)勵(lì)。強(qiáng)化學(xué)習(xí)的框架如圖1所示。

      圖1 強(qiáng)化學(xué)習(xí)的框架Fig.1 Frame of reinforcement learning

      深度強(qiáng)化學(xué)習(xí)結(jié)合深度學(xué)習(xí)及強(qiáng)化學(xué)習(xí)的優(yōu)點(diǎn),其數(shù)學(xué)基礎(chǔ)和建模工具是馬爾可夫決策過(guò)程[13](Markov Decision Process,MDP)。這使得其算法能夠更好地適應(yīng)復(fù)雜、大規(guī)模、連續(xù)、離散、高維、時(shí)變、不準(zhǔn)確、不確定等真實(shí)世界中的各種問(wèn)題。

      當(dāng)環(huán)境中存在多個(gè)智能體交互時(shí),即是一個(gè)多智能體系統(tǒng)[14](Multi-Agent System,MAS)。每個(gè)智能體都各自遵循強(qiáng)化學(xué)習(xí)的目標(biāo),且彼此競(jìng)爭(zhēng)或協(xié)作,以最大化回報(bào)獎(jiǎng)勵(lì)。由于在系統(tǒng)中,智能體之間彼此互相作用影響,因此需要考慮聯(lián)合動(dòng)作對(duì)環(huán)境和策略制定的影響。與單智能體強(qiáng)化學(xué)習(xí)問(wèn)題相比,其問(wèn)題難度較高,兩者之間主要存在以下區(qū)別。

      1)環(huán)境的不穩(wěn)定性:智能體在做決策的同時(shí),由于其他智能體也在采取動(dòng)作,環(huán)境狀態(tài)會(huì)隨著每個(gè)智能體采取動(dòng)作而做出相應(yīng)改變。

      2)智能體獲取信息的局限性:不一定能夠獲得全局的信息,智能體僅能獲取局部的觀測(cè)信息,但無(wú)法得知其他智能體的觀測(cè)信息、動(dòng)作、獎(jiǎng)勵(lì)等信息。

      3)個(gè)體的目標(biāo)一致性:各智能體的目標(biāo)可能是最優(yōu)的全局回報(bào),也可能是各自局部回報(bào)的最優(yōu)。

      4)可拓展性:在大規(guī)模的多智能體系統(tǒng)中,會(huì)涉及高維度的狀態(tài)空間和動(dòng)作空間,對(duì)模型表達(dá)能力和真實(shí)場(chǎng)景中的硬件算力有一定的要求。

      近年來(lái),較多研究均將訓(xùn)練與執(zhí)行過(guò)程拆分開來(lái),采用策略-評(píng)論家算法(Actor-Critic,AC)來(lái)訓(xùn)練模型,訓(xùn)練階段通過(guò)價(jià)值網(wǎng)絡(luò)(Critic)獲取全局信息來(lái)訓(xùn)練策略網(wǎng)絡(luò)(Actor),執(zhí)行階段只留下Actor 網(wǎng)絡(luò)獨(dú)立根據(jù)自身獲取的信息選取動(dòng)作執(zhí)行。

      2 多星觀測(cè)任務(wù)分配問(wèn)題的馬爾科夫模型

      多星觀測(cè)任務(wù)分配問(wèn)題的模型構(gòu)建是通過(guò)抽象多星觀測(cè)任務(wù)分配問(wèn)題中的各要素,使其成為馬爾科夫決策過(guò)程中的狀態(tài)、動(dòng)作、回報(bào)等,進(jìn)而構(gòu)建馬爾科夫決策模型,并在此基礎(chǔ)上進(jìn)一步設(shè)計(jì)深度強(qiáng)化學(xué)習(xí)算法框架。

      2.1 馬爾科夫過(guò)程

      大部分強(qiáng)化學(xué)習(xí)算法均可解釋為馬爾科夫決策過(guò)程在場(chǎng)景中,智能體會(huì)根據(jù)當(dāng)前時(shí)刻的環(huán)境狀態(tài),通過(guò)內(nèi)置策略,選取一個(gè)對(duì)應(yīng)當(dāng)前狀態(tài)的動(dòng)作,執(zhí)行動(dòng)作后,改變當(dāng)前環(huán)境并獲得回報(bào)獎(jiǎng)勵(lì),得到序 列:s0,a0,r1,s1,a1,r2,s2,a2,r3,…,sn-1,an-1,rn,sn,此序列t時(shí)刻的數(shù)據(jù)元組st,at,rt+1,st+1即是一個(gè)馬爾科夫決策過(guò)程。

      馬爾科夫決策過(guò)程其下一個(gè)時(shí)刻的狀態(tài)只與當(dāng)前時(shí)刻的狀態(tài)有關(guān),可表示為

      式中:Pr為狀態(tài)轉(zhuǎn)移函數(shù);h為在時(shí)間t之前的任意時(shí)間;s為當(dāng)前的觀測(cè)狀態(tài)空間;s′為下一時(shí)刻狀態(tài)。

      在馬爾科夫決策過(guò)程中,動(dòng)作執(zhí)行后一定會(huì)造成當(dāng)前狀態(tài)以一定概率向下一個(gè)狀態(tài)轉(zhuǎn)移,如圖2所示。

      圖2 馬爾科夫決策過(guò)程Fig.2 Diagram of the MDP

      用元組(s,a,r,p)表示一個(gè)卡爾科夫決策過(guò)程,a為策略中可以執(zhí)行的動(dòng)作空間;為在狀態(tài)s下執(zhí)行決策動(dòng)作a,并使過(guò)程從s狀態(tài)轉(zhuǎn)移到s′的狀態(tài)轉(zhuǎn)移概率為,并獲得回報(bào)。表達(dá)式為

      狀態(tài)值函數(shù)表示在遵循某一策略情況下,轉(zhuǎn)移狀態(tài)與目標(biāo)狀態(tài)相似程度的函數(shù),可以反映當(dāng)前策略的好壞。在策略π下的狀態(tài)值函數(shù)為

      式中:V為狀態(tài)價(jià)值函數(shù);γ為折扣函數(shù);π為當(dāng)前策略。

      當(dāng)馬爾科夫決策過(guò)程進(jìn)行到一定程度轉(zhuǎn)移狀態(tài)非常接近目標(biāo)狀態(tài)時(shí),即可得出最優(yōu)狀態(tài)值函數(shù)或最優(yōu)動(dòng)作值函數(shù),并通過(guò)最優(yōu)值函數(shù)推導(dǎo)獲得最優(yōu)策略π*,最優(yōu)策略π*的推導(dǎo)公式如下:

      最優(yōu)狀態(tài)值函數(shù)的一般形式如下:

      式中:Rt為回報(bào)獎(jiǎng)勵(lì)總和;rt+k為在狀態(tài)st+k時(shí)采用動(dòng)作at+k后的回報(bào)獎(jiǎng)勵(lì)值,并通過(guò)最大化回報(bào)獎(jiǎng)勵(lì)求解最優(yōu)策略π*和狀態(tài)值函數(shù)Vπ(s)。

      2.2 MDP 模型構(gòu)建

      提取對(duì)多星任務(wù)的資源、任務(wù)、約束進(jìn)行數(shù)學(xué)化抽象后的要素[15],再用馬爾科夫決策過(guò)程對(duì)其描述,得出以下過(guò)程:智能體在當(dāng)前環(huán)境中獲取狀態(tài)s,依據(jù)自身制定的策略π選擇下一步要執(zhí)行的動(dòng)作a,執(zhí)行過(guò)動(dòng)作a后,動(dòng)作影響會(huì)使環(huán)境狀態(tài)轉(zhuǎn)變至s′,并獲得獎(jiǎng)勵(lì)回報(bào)r。多星觀測(cè)任務(wù)分配的MDP模型如圖3 所示。

      圖3 多星觀測(cè)任務(wù)分配的MDP 模型Fig.3 MDP model for multi-satellite observation task allocation

      3 基于多智能體深度確定性策略梯度算法(MADDPG)的多星觀測(cè)任務(wù)分配算法

      3.1 狀態(tài)空間設(shè)計(jì)

      根據(jù)之前建立的MDP 模型,假設(shè)在時(shí)間t下,給定當(dāng)前智能體i的輸入環(huán)境狀態(tài)為Sit,智能體根據(jù)自身策略輸出動(dòng)作Ait,整個(gè)環(huán)境的環(huán)境狀態(tài)空間為St={S1t,S2t,…,Sit},多智能體的聯(lián)合動(dòng)作集合為Ait={A1t,A2t,…,Ait},執(zhí)行完當(dāng)前動(dòng)作獲得獎(jiǎng)勵(lì)Rt,在多星觀測(cè)任務(wù)分配方法中,星群之間是完全合作關(guān)系,所以共享獎(jiǎng)勵(lì),可促進(jìn)星群之間的合作,盡可能讓全局收益最大化。同時(shí)執(zhí)行完動(dòng)作后,智能體i所處的狀態(tài)Sit會(huì)以Pit(Sit|Sit+1,Ait)轉(zhuǎn)移到下一時(shí)刻t+1 的狀態(tài)Sit+1。

      資源集中的智能體i在t時(shí)刻的狀態(tài)信息可用元組表示,其中(xi,yi,zi,vxi,vyi,vzi)為當(dāng)前智能體的位置坐標(biāo)以及速度矢量,(pi1,pi2,…,pin)為智能體各項(xiàng)能力數(shù)值的集合。

      任務(wù)集中的子任務(wù)j在t時(shí)刻的狀態(tài)信息可用元組表示,其中(xj,yj,zj,vxj,vyj,vzj)為當(dāng)前任務(wù)的位置坐標(biāo)及速度矢量,為任務(wù)完成需要的各項(xiàng)指標(biāo)數(shù)值的集合。

      當(dāng)智能體i與任務(wù)j的元組計(jì)算滿足可見性約束dij,如式(7)~式(12),以及衛(wèi)星各項(xiàng)能力值pin與任務(wù)各項(xiàng)能力需求的比值Pbij時(shí),如式(13),在滿足約束集要求時(shí),Pbij越大說(shuō)明該智能體i與任務(wù)j的匹配效果越好,在滿足可見性約束dij=1 時(shí),可以進(jìn)行任務(wù)分配。

      式中:heij為Pbij的調(diào)節(jié)系數(shù),如智能體i的能力系數(shù)都大于任務(wù)j對(duì)應(yīng)的能力系數(shù)時(shí),則認(rèn)為當(dāng)前分配效果好,將賦值為2,否則賦值為1/2。

      3.2 動(dòng)作空間設(shè)計(jì)

      本文將多星觀測(cè)任務(wù)的資源分配設(shè)計(jì)歸結(jié)為對(duì)目標(biāo)觀測(cè)的離散控制問(wèn)題,其取值范圍為{a1,a2,…,an},n為目標(biāo)數(shù)量,智能體i的動(dòng)作決策表示:Ait=πi(·|Sit)。

      3.3 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

      對(duì)智能體的回報(bào)獎(jiǎng)勵(lì)函數(shù)進(jìn)行以下設(shè)計(jì):R為回報(bào)獎(jiǎng)勵(lì)函數(shù),式(15)中第1 項(xiàng)為任務(wù)與智能體兩者的能力匹配情況和的倒數(shù),作為觀測(cè)執(zhí)行質(zhì)量的體現(xiàn),其中ai為智能體i的決策結(jié)果,第2 項(xiàng)為未分配任務(wù)的懲罰值,其中k為固定參數(shù),用于調(diào)整回報(bào)獎(jiǎng)勵(lì)函數(shù)中的未分配任務(wù)對(duì)系統(tǒng)的影響程度,n0為未分配任務(wù)數(shù)。

      在上述多星觀測(cè)任務(wù)分配場(chǎng)景中,因?yàn)橹悄荏w之間是完全協(xié)作的,因此共享一個(gè)回報(bào)獎(jiǎng)勵(lì)值。

      3.4 MADDPG 算法框架

      在多智能體深度確定性策略梯度算法(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)[16]中,每個(gè)智能體都有一組Actor和Critic,其根據(jù)觀測(cè)狀態(tài)si,輸出動(dòng)作ai使智能體整體獲得最大回報(bào)獎(jiǎng)勵(lì);Critic 僅在進(jìn)行中心化訓(xùn)練階段使用,在訓(xùn)練階段,Critic 根據(jù)Actor 輸出的動(dòng)作,對(duì)動(dòng)作進(jìn)行評(píng)價(jià)分析,并反饋給Actor,實(shí)現(xiàn)Actor 的調(diào)優(yōu)。

      模型訓(xùn)練的框圖如圖4 所示,圖中MADDPG 算法是由多個(gè)智能體分別實(shí)現(xiàn)一個(gè)深度確定性策略梯度算法[17](Deep Deterministic Policy Gradient,DDPG)組成,所有智能體i從環(huán)境獲取當(dāng)前的觀測(cè)數(shù)據(jù)si后,其在線策略網(wǎng)絡(luò)(Online Actor,OA)根據(jù)si決策出動(dòng)作ai,將其作為智能體i的動(dòng)作輸出,多個(gè)智能體決策過(guò)后組成動(dòng)作集合a,環(huán)境受到動(dòng)作集合a的影響,更新當(dāng)前狀態(tài)至s′,并反饋回報(bào)獎(jiǎng)勵(lì)r={r1,r2,…,ri},之后將獲得的四元組(si,ai,ri,si′)存儲(chǔ)到經(jīng)驗(yàn)回放池[18](Experience Relay Pool,ERP)中,供下一步訓(xùn)練需要。

      圖4 MADDPG 模型訓(xùn)練的框Fig.4 Block diagram of MADDPG model training

      在模型訓(xùn)練的過(guò)程中,從經(jīng)驗(yàn)回放池中抽取小批量樣本(Sample Mini-Batch,SMB)訓(xùn)練[19]。在線價(jià)值網(wǎng)絡(luò)(Online Critic,OC)會(huì)把當(dāng)前的(s,a)={s1,s2,…,si|a1,a2,…,ai}作為輸入用于自身訓(xùn)練,輸出一維的Q值Q(s,a),同時(shí)結(jié)合回放樣本的Q′(s,a)以時(shí)序差分誤差構(gòu)建兩者的MSE 損失函數(shù),并結(jié)合獎(jiǎng)勵(lì)r利用梯度下降更新Online Critic 網(wǎng)絡(luò)的參數(shù),再通過(guò)軟更新(Soft Update,SU)算法更新目標(biāo)價(jià)值網(wǎng)絡(luò)(Target Critic,TC)的參數(shù),進(jìn)而實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)參數(shù)的更新。在計(jì)算自身Actor 的前向傳播時(shí),Online Actor 只將自身局部觀測(cè)到的s={s1,s2,…,si}作為其輸入,輸出一個(gè)確定的動(dòng)作ai,同時(shí)計(jì)算時(shí)序差分誤差的MSE損失函數(shù),并結(jié)合Q(s,a) 利用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)更新參數(shù),再通過(guò)軟更新算法更新目標(biāo)策略網(wǎng)絡(luò)(Target Actor,TA)的參數(shù)。

      3.5 AC 網(wǎng)絡(luò)結(jié)構(gòu)

      智能體的Actor 網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示,其包括輸入層、隱含層、Softmax 層、輸出層,以及激活函數(shù)。將智能體觀測(cè)到的自身與其他智能體和任務(wù)的信息作為觀測(cè)狀態(tài)si輸入,狀態(tài)si經(jīng)神經(jīng)網(wǎng)絡(luò)的處理后獲得的一維向量為對(duì)應(yīng)每個(gè)動(dòng)作選擇[20],并使用Gumbel-softmax 方法激活函數(shù),得到選擇每個(gè)動(dòng)作對(duì)應(yīng)的概率pi,依此制定策略π,對(duì)應(yīng)pi_max的動(dòng)作ai作為智能體i在狀態(tài)si時(shí)的輸出結(jié)果。

      圖5 Actor 網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Diagram of the Actor network structure

      智能體的Critic 網(wǎng)絡(luò)結(jié)構(gòu)如圖6 所示,Critic 網(wǎng)絡(luò)分為輸入層、隱含層、輸出層及激活函數(shù),將所有智能體的狀態(tài)信息s={s1,s2,…,si}和動(dòng)作決策a={a1,a2,…,ai}作為輸入,經(jīng)神經(jīng)網(wǎng)絡(luò)處理后獲得一個(gè)一維向量,再通過(guò)這個(gè)向量計(jì)算所有智能體共享的回報(bào)獎(jiǎng)勵(lì)值r={r1,r2,…,ri}。

      圖6 Critic 網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Diagram of the Critic network structure

      根據(jù)以下算法完成模型訓(xùn)練后,各智能體根據(jù)制定的策略,獨(dú)立地在不同觀測(cè)狀態(tài)下選擇合適動(dòng)作。

      輸入初始化策略網(wǎng)絡(luò)參數(shù)θ={θ1,θ2,…,θM}和價(jià)值網(wǎng)絡(luò)參數(shù)?={?1,?2,…,?M}。

      輸出訓(xùn)練后的最優(yōu)參數(shù)θ*,?*。

      4 實(shí)驗(yàn)

      4.1 對(duì)比算法設(shè)置

      為了證明基于上述設(shè)計(jì)的算法在建立的場(chǎng)景下具有有效性,選取DDPG 算法以及傳統(tǒng)隨機(jī)策略(Random)算法[21]作為對(duì)比算法。

      4.2 實(shí)驗(yàn)環(huán)境

      本文設(shè)計(jì)了一個(gè)多星觀測(cè)任務(wù)分配場(chǎng)景,在該場(chǎng)景中,有一定數(shù)量的通信受到限制的衛(wèi)星和任務(wù)節(jié)點(diǎn),各衛(wèi)星處于固定運(yùn)行的軌道上,觀測(cè)任務(wù)目標(biāo)節(jié)點(diǎn)隨機(jī)生成在WGS84 坐標(biāo)下地面或近地空間的位置[22],此外每個(gè)衛(wèi)星均擁有3 種類型能力,如分辨率、能源、最大可視距離等,能力數(shù)值根據(jù)正態(tài)分布隨機(jī)生成;對(duì)任務(wù)節(jié)點(diǎn),也相應(yīng)設(shè)置對(duì)這3 種能力的需求值,其大小根據(jù)正態(tài)分布隨機(jī)生成[23]。各衛(wèi)星節(jié)點(diǎn)沒有中心決策節(jié)點(diǎn)對(duì)系統(tǒng)進(jìn)行統(tǒng)一決策,各個(gè)衛(wèi)星需自行根據(jù)觀測(cè)情況并結(jié)合自身策略選擇動(dòng)作。由于該分配任務(wù)場(chǎng)景是完全協(xié)作的,所以各個(gè)衛(wèi)星的動(dòng)作回報(bào)獎(jiǎng)勵(lì)將作為各智能體的獎(jiǎng)勵(lì),使得在協(xié)作的情況下,達(dá)到回報(bào)獎(jiǎng)勵(lì)的全局最大化,并以此回報(bào)獎(jiǎng)勵(lì)作為對(duì)算法性能的評(píng)估指標(biāo)[24]。

      本文算法采用Python 實(shí)現(xiàn),硬件配置為1 臺(tái)Geforce RTX 4080 顯 卡、Intel-Corei7-12700KCPU的計(jì)算機(jī),MADDPG 與DDPG 的網(wǎng)絡(luò)參數(shù)設(shè)定采用相同的配置,見表1。

      表1 網(wǎng)絡(luò)超參數(shù)Tab.1 Hyperparameters of the network

      4.3 實(shí)驗(yàn)結(jié)果分析

      采用MADDPG 算法時(shí)的回報(bào)獎(jiǎng)勵(lì)曲線如圖7所示,橫縱坐標(biāo)分別表示訓(xùn)練回合數(shù)Epoch 及回報(bào)獎(jiǎng)勵(lì)Reward。由圖7 可知,智能體獲得的回報(bào)獎(jiǎng)勵(lì)值階梯式變化,最終穩(wěn)定收斂在88 左右。在模型開始訓(xùn)練階段,智能體獲得的回報(bào)獎(jiǎng)勵(lì)波動(dòng)較大,因?yàn)樵撾A段智能體之間還未學(xué)會(huì)協(xié)同任務(wù)分配,導(dǎo)致其互相搶占相同任務(wù),造成資源浪費(fèi)。但由于不斷“試錯(cuò)”,智能體在沒有中心決策節(jié)點(diǎn)的情況下,也逐漸分階段地學(xué)會(huì)了僅根據(jù)自身狀態(tài)和觀測(cè)信息的分布式協(xié)同任務(wù)分配策略。

      圖7 采用MADDPG 算法訓(xùn)練的智能體平均獎(jiǎng)勵(lì)曲線Fig.7 Average reward curve of agents trained by the MADDPG algorithm

      采用DDPG 算法解決多星觀測(cè)任務(wù)分配問(wèn)題的訓(xùn)練曲線如圖8 所示。由圖8 可知,采用該方法時(shí),從訓(xùn)練開始到結(jié)束回報(bào)獎(jiǎng)勵(lì)的波動(dòng)起伏較大。由于智能體之間不共享回報(bào)獎(jiǎng)勵(lì),導(dǎo)致其不是完全協(xié)作關(guān)系,并將彼此視為影響環(huán)境的因素,使得環(huán)境狀態(tài)難以穩(wěn)定下來(lái),最終造成算法難以收斂。

      圖8 采用DDPG 算法訓(xùn)練的智能體平均獎(jiǎng)勵(lì)曲線Fig.8 Average reward curve of agents trained by the DDPG algorithm

      采用Random 算法解決多星觀測(cè)任務(wù)分配問(wèn)題的訓(xùn)練曲線如圖9 所示。由圖9 可知,其大致收斂在65 左右,但比采用MADDPG 算法時(shí)收斂的回報(bào)獎(jiǎng)勵(lì)低,采用MADDPG 算法解決多星觀測(cè)任務(wù)分配問(wèn)題的效果更佳。

      圖9 采用Random 算法訓(xùn)練的平均獎(jiǎng)勵(lì)曲線Fig.9 Average reward curve trained by the Random algorithm

      5 結(jié)束語(yǔ)

      在天基星座快速發(fā)展的當(dāng)下,衛(wèi)星及任務(wù)需求大量增加,空間環(huán)境復(fù)雜,傳統(tǒng)觀測(cè)任務(wù)分配方案難以適應(yīng)未來(lái)需求,因此要求衛(wèi)星有更強(qiáng)大的自主決策能力。

      本文設(shè)計(jì)的基于MADDPG 算法的多星觀測(cè)任務(wù)分配算法,對(duì)動(dòng)作空間的離散化改進(jìn)動(dòng)作空間選擇[25],設(shè)計(jì)了合適的回報(bào)獎(jiǎng)勵(lì)函數(shù)優(yōu)化決策方案,采用集中式訓(xùn)練、分布式執(zhí)行的模式,賦予衛(wèi)星一定的自主決策能力[26]。在訓(xùn)練階段,綜合全局信息開展訓(xùn)練;在執(zhí)行階段,衛(wèi)星只需通過(guò)自身的觀測(cè)情況,即可做出決策,使其在通信受限的場(chǎng)景下也能進(jìn)行觀測(cè)任務(wù)分配。實(shí)驗(yàn)結(jié)果顯示,采用DDPG算法與Random 算法相比,采用MADDPG 訓(xùn)練出來(lái)的各智能體收斂更穩(wěn)定,且能獲得更高的回報(bào)獎(jiǎng)勵(lì),說(shuō)明其具備更好的協(xié)同能力,其多星觀測(cè)任務(wù)分配方案效果更好。

      猜你喜歡
      觀測(cè)決策衛(wèi)星
      觀測(cè)到恒星死亡瞬間
      軍事文摘(2023年18期)2023-11-03 09:45:42
      miniSAR遙感衛(wèi)星
      為可持續(xù)決策提供依據(jù)
      靜止衛(wèi)星派
      科學(xué)家(2019年3期)2019-08-18 09:47:43
      決策為什么失誤了
      天測(cè)與測(cè)地VLBI 測(cè)地站周圍地形觀測(cè)遮掩的討論
      Puma" suede shoes with a focus on the Product variables
      可觀測(cè)宇宙
      太空探索(2016年7期)2016-07-10 12:10:15
      高分辨率對(duì)地觀測(cè)系統(tǒng)
      太空探索(2015年8期)2015-07-18 11:04:44
      What Would Happen If All Satellites Stopped Working? 假如衛(wèi)星罷工一天
      屏南县| 东至县| 永德县| 石景山区| 泽普县| 云和县| 新津县| 天峨县| 陆丰市| 宜章县| 额敏县| 仁化县| 高雄市| 武宣县| 富阳市| 龙胜| 名山县| 星子县| 昌宁县| 新余市| 宁都县| 新龙县| 淳化县| 沿河| 天柱县| 太谷县| 贺兰县| 黎平县| 灌云县| 永福县| 吴旗县| 馆陶县| 阿巴嘎旗| 云阳县| 华宁县| 宝鸡市| 永寿县| 潼关县| 黄陵县| 泾源县| 北安市|