王楨朗,何慧群,周 軍,金云飛
(1.上海衛(wèi)星工程研究所,上海 201109;2.上海航天技術(shù)研究院,上海 201109)
由于衛(wèi)星數(shù)量大量增加,導(dǎo)致衛(wèi)星觀測(cè)任務(wù)需求也井噴式發(fā)展[1]。傳統(tǒng)集成大量功能的大型衛(wèi)星被分解為多個(gè)單一功能的小型衛(wèi)星,這些小型衛(wèi)星具備較高的靈活性,并組成星群,可快速根據(jù)空間環(huán)境及任務(wù)變化調(diào)整自身情況,適應(yīng)靈活任務(wù)需求[2-3]。這種情況下,會(huì)面臨集中式?jīng)Q策模式信息傳遞難度大、時(shí)間復(fù)雜度過(guò)高等問(wèn)題。隨著邊緣計(jì)算的發(fā)展,帶來(lái)新的分布式?jīng)Q策模式,邊緣節(jié)點(diǎn)具有一定的算力,并有自主決策能力[4-5]。該模式更適應(yīng)未來(lái)的復(fù)雜環(huán)境及多變的任務(wù)需求,更適合多星觀測(cè)任務(wù)分配。
可將上述問(wèn)題理解為一個(gè)全局最優(yōu)化問(wèn)題,面對(duì)小規(guī)模問(wèn)題時(shí),采用確定性的精確算法,其問(wèn)題規(guī)模變大后,會(huì)帶來(lái)更復(fù)雜的時(shí)空條件約束,增大求解難度,甚至無(wú)法求解[6]。
強(qiáng)化學(xué)習(xí)算法是一種不斷根據(jù)環(huán)境調(diào)整學(xué)習(xí)并受啟發(fā)的算法,智能體通過(guò)不斷地“試錯(cuò)”與環(huán)境進(jìn)行交互,獲得反饋并優(yōu)化自身。隨著深度強(qiáng)化學(xué)習(xí)技術(shù)的發(fā)展應(yīng)用,該算法在動(dòng)態(tài)路由、通信鏈路分配、邊緣計(jì)算節(jié)點(diǎn)數(shù)據(jù)管理等領(lǐng)域取得了較為成功的應(yīng)用[7-9]。在多星觀測(cè)系統(tǒng)中,將衛(wèi)星看作決策智能體,并將觀測(cè)任務(wù)分配轉(zhuǎn)化為一個(gè)多智能體強(qiáng)化學(xué)習(xí)任務(wù)。
當(dāng)前由于暫未有多智能體深度強(qiáng)化學(xué)習(xí)算法在多星觀測(cè)任務(wù)分配中的實(shí)際應(yīng)用,因此本文做出以下工作[10]。
1)對(duì)多星觀測(cè)場(chǎng)景建模。
2)提出一個(gè)基于多智能體深度強(qiáng)化學(xué)習(xí)的多星觀測(cè)任務(wù)分配算法,在上述場(chǎng)景中解決分配問(wèn)題。
3)設(shè)置對(duì)比算法,對(duì)比證明上述算法的優(yōu)越性。
集中式?jīng)Q策與分布式?jīng)Q策是當(dāng)前2 種主要決策方式[11],在集中式?jīng)Q策場(chǎng)景中,存在一個(gè)中心決策節(jié)點(diǎn)來(lái)處理全局的信息,將決策好的序列分配給衛(wèi)星執(zhí)行。而分布式?jīng)Q策系統(tǒng)中不存在為系統(tǒng)統(tǒng)一進(jìn)行決策的中心決策節(jié)點(diǎn),各衛(wèi)星的調(diào)度方案均由自身結(jié)合獲取的信息獨(dú)立決策集中式?jīng)Q策方案,往往由于系統(tǒng)復(fù)雜度高、信息過(guò)多導(dǎo)致決策時(shí)效性和質(zhì)量下降。同時(shí)面對(duì)通信受限的場(chǎng)景時(shí),由于信息傳遞不到位,造成信息獲取不全,可能會(huì)導(dǎo)致決策錯(cuò)誤。
在多星觀測(cè)任務(wù)分配中,由于衛(wèi)星數(shù)量多,響應(yīng)時(shí)間要求高,且可能面對(duì)通信受限的場(chǎng)景,集中式?jīng)Q策難以得出最優(yōu)解,因此采用分布式?jīng)Q策系統(tǒng)解決該問(wèn)題。分布式系統(tǒng)的各個(gè)子模塊能按照自身獲取的信息及預(yù)先確定的內(nèi)置規(guī)則自行決策,但這些系統(tǒng)不能實(shí)時(shí)更新決策規(guī)則,在多星觀測(cè)任務(wù)分配問(wèn)題中,由于環(huán)境的動(dòng)態(tài)性、任務(wù)的多樣性、約束的多樣性等原因,決策方案需要不斷進(jìn)行自我調(diào)整,人為更新速度跟不上應(yīng)用環(huán)境的變化。
作為一種端到端的人工智能方法,強(qiáng)化學(xué)習(xí)不需要頻繁地為新環(huán)境制定策略,其決策方案隨著智能體與環(huán)境的動(dòng)態(tài)交互制定并不斷優(yōu)化,且已被成功地應(yīng)用于多個(gè)領(lǐng)域[12]。
強(qiáng)化學(xué)習(xí)是近年發(fā)展起來(lái)的機(jī)器學(xué)習(xí)方法,通過(guò)讓智能體(Agent)與環(huán)境不斷交互,進(jìn)而在獲得回報(bào)獎(jiǎng)勵(lì)的過(guò)程中不斷學(xué)習(xí)并優(yōu)化策略,達(dá)到獲得最大累積獎(jiǎng)勵(lì)的目標(biāo)。這一交互過(guò)程不斷重復(fù),最終智能體通過(guò)收集的數(shù)據(jù),達(dá)到最優(yōu)的策略。與監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)不同的是,強(qiáng)化學(xué)習(xí)的智能體在學(xué)習(xí)與交互過(guò)程中,沒有標(biāo)準(zhǔn)答案或事先制定的標(biāo)簽,而是嘗試采取不同的行動(dòng)來(lái)學(xué)習(xí)如何在給定的場(chǎng)景下獲得最大的獎(jiǎng)勵(lì)。強(qiáng)化學(xué)習(xí)的框架如圖1所示。
圖1 強(qiáng)化學(xué)習(xí)的框架Fig.1 Frame of reinforcement learning
深度強(qiáng)化學(xué)習(xí)結(jié)合深度學(xué)習(xí)及強(qiáng)化學(xué)習(xí)的優(yōu)點(diǎn),其數(shù)學(xué)基礎(chǔ)和建模工具是馬爾可夫決策過(guò)程[13](Markov Decision Process,MDP)。這使得其算法能夠更好地適應(yīng)復(fù)雜、大規(guī)模、連續(xù)、離散、高維、時(shí)變、不準(zhǔn)確、不確定等真實(shí)世界中的各種問(wèn)題。
當(dāng)環(huán)境中存在多個(gè)智能體交互時(shí),即是一個(gè)多智能體系統(tǒng)[14](Multi-Agent System,MAS)。每個(gè)智能體都各自遵循強(qiáng)化學(xué)習(xí)的目標(biāo),且彼此競(jìng)爭(zhēng)或協(xié)作,以最大化回報(bào)獎(jiǎng)勵(lì)。由于在系統(tǒng)中,智能體之間彼此互相作用影響,因此需要考慮聯(lián)合動(dòng)作對(duì)環(huán)境和策略制定的影響。與單智能體強(qiáng)化學(xué)習(xí)問(wèn)題相比,其問(wèn)題難度較高,兩者之間主要存在以下區(qū)別。
1)環(huán)境的不穩(wěn)定性:智能體在做決策的同時(shí),由于其他智能體也在采取動(dòng)作,環(huán)境狀態(tài)會(huì)隨著每個(gè)智能體采取動(dòng)作而做出相應(yīng)改變。
2)智能體獲取信息的局限性:不一定能夠獲得全局的信息,智能體僅能獲取局部的觀測(cè)信息,但無(wú)法得知其他智能體的觀測(cè)信息、動(dòng)作、獎(jiǎng)勵(lì)等信息。
3)個(gè)體的目標(biāo)一致性:各智能體的目標(biāo)可能是最優(yōu)的全局回報(bào),也可能是各自局部回報(bào)的最優(yōu)。
4)可拓展性:在大規(guī)模的多智能體系統(tǒng)中,會(huì)涉及高維度的狀態(tài)空間和動(dòng)作空間,對(duì)模型表達(dá)能力和真實(shí)場(chǎng)景中的硬件算力有一定的要求。
近年來(lái),較多研究均將訓(xùn)練與執(zhí)行過(guò)程拆分開來(lái),采用策略-評(píng)論家算法(Actor-Critic,AC)來(lái)訓(xùn)練模型,訓(xùn)練階段通過(guò)價(jià)值網(wǎng)絡(luò)(Critic)獲取全局信息來(lái)訓(xùn)練策略網(wǎng)絡(luò)(Actor),執(zhí)行階段只留下Actor 網(wǎng)絡(luò)獨(dú)立根據(jù)自身獲取的信息選取動(dòng)作執(zhí)行。
多星觀測(cè)任務(wù)分配問(wèn)題的模型構(gòu)建是通過(guò)抽象多星觀測(cè)任務(wù)分配問(wèn)題中的各要素,使其成為馬爾科夫決策過(guò)程中的狀態(tài)、動(dòng)作、回報(bào)等,進(jìn)而構(gòu)建馬爾科夫決策模型,并在此基礎(chǔ)上進(jìn)一步設(shè)計(jì)深度強(qiáng)化學(xué)習(xí)算法框架。
大部分強(qiáng)化學(xué)習(xí)算法均可解釋為馬爾科夫決策過(guò)程在場(chǎng)景中,智能體會(huì)根據(jù)當(dāng)前時(shí)刻的環(huán)境狀態(tài),通過(guò)內(nèi)置策略,選取一個(gè)對(duì)應(yīng)當(dāng)前狀態(tài)的動(dòng)作,執(zhí)行動(dòng)作后,改變當(dāng)前環(huán)境并獲得回報(bào)獎(jiǎng)勵(lì),得到序 列:s0,a0,r1,s1,a1,r2,s2,a2,r3,…,sn-1,an-1,rn,sn,此序列t時(shí)刻的數(shù)據(jù)元組st,at,rt+1,st+1即是一個(gè)馬爾科夫決策過(guò)程。
馬爾科夫決策過(guò)程其下一個(gè)時(shí)刻的狀態(tài)只與當(dāng)前時(shí)刻的狀態(tài)有關(guān),可表示為
式中:Pr為狀態(tài)轉(zhuǎn)移函數(shù);h為在時(shí)間t之前的任意時(shí)間;s為當(dāng)前的觀測(cè)狀態(tài)空間;s′為下一時(shí)刻狀態(tài)。
在馬爾科夫決策過(guò)程中,動(dòng)作執(zhí)行后一定會(huì)造成當(dāng)前狀態(tài)以一定概率向下一個(gè)狀態(tài)轉(zhuǎn)移,如圖2所示。
圖2 馬爾科夫決策過(guò)程Fig.2 Diagram of the MDP
用元組(s,a,r,p)表示一個(gè)卡爾科夫決策過(guò)程,a為策略中可以執(zhí)行的動(dòng)作空間;為在狀態(tài)s下執(zhí)行決策動(dòng)作a,并使過(guò)程從s狀態(tài)轉(zhuǎn)移到s′的狀態(tài)轉(zhuǎn)移概率為,并獲得回報(bào)。表達(dá)式為
狀態(tài)值函數(shù)表示在遵循某一策略情況下,轉(zhuǎn)移狀態(tài)與目標(biāo)狀態(tài)相似程度的函數(shù),可以反映當(dāng)前策略的好壞。在策略π下的狀態(tài)值函數(shù)為
式中:V為狀態(tài)價(jià)值函數(shù);γ為折扣函數(shù);π為當(dāng)前策略。
當(dāng)馬爾科夫決策過(guò)程進(jìn)行到一定程度轉(zhuǎn)移狀態(tài)非常接近目標(biāo)狀態(tài)時(shí),即可得出最優(yōu)狀態(tài)值函數(shù)或最優(yōu)動(dòng)作值函數(shù),并通過(guò)最優(yōu)值函數(shù)推導(dǎo)獲得最優(yōu)策略π*,最優(yōu)策略π*的推導(dǎo)公式如下:
最優(yōu)狀態(tài)值函數(shù)的一般形式如下:
式中:Rt為回報(bào)獎(jiǎng)勵(lì)總和;rt+k為在狀態(tài)st+k時(shí)采用動(dòng)作at+k后的回報(bào)獎(jiǎng)勵(lì)值,并通過(guò)最大化回報(bào)獎(jiǎng)勵(lì)求解最優(yōu)策略π*和狀態(tài)值函數(shù)Vπ(s)。
提取對(duì)多星任務(wù)的資源、任務(wù)、約束進(jìn)行數(shù)學(xué)化抽象后的要素[15],再用馬爾科夫決策過(guò)程對(duì)其描述,得出以下過(guò)程:智能體在當(dāng)前環(huán)境中獲取狀態(tài)s,依據(jù)自身制定的策略π選擇下一步要執(zhí)行的動(dòng)作a,執(zhí)行過(guò)動(dòng)作a后,動(dòng)作影響會(huì)使環(huán)境狀態(tài)轉(zhuǎn)變至s′,并獲得獎(jiǎng)勵(lì)回報(bào)r。多星觀測(cè)任務(wù)分配的MDP模型如圖3 所示。
圖3 多星觀測(cè)任務(wù)分配的MDP 模型Fig.3 MDP model for multi-satellite observation task allocation
根據(jù)之前建立的MDP 模型,假設(shè)在時(shí)間t下,給定當(dāng)前智能體i的輸入環(huán)境狀態(tài)為Sit,智能體根據(jù)自身策略輸出動(dòng)作Ait,整個(gè)環(huán)境的環(huán)境狀態(tài)空間為St={S1t,S2t,…,Sit},多智能體的聯(lián)合動(dòng)作集合為Ait={A1t,A2t,…,Ait},執(zhí)行完當(dāng)前動(dòng)作獲得獎(jiǎng)勵(lì)Rt,在多星觀測(cè)任務(wù)分配方法中,星群之間是完全合作關(guān)系,所以共享獎(jiǎng)勵(lì),可促進(jìn)星群之間的合作,盡可能讓全局收益最大化。同時(shí)執(zhí)行完動(dòng)作后,智能體i所處的狀態(tài)Sit會(huì)以Pit(Sit|Sit+1,Ait)轉(zhuǎn)移到下一時(shí)刻t+1 的狀態(tài)Sit+1。
資源集中的智能體i在t時(shí)刻的狀態(tài)信息可用元組表示,其中(xi,yi,zi,vxi,vyi,vzi)為當(dāng)前智能體的位置坐標(biāo)以及速度矢量,(pi1,pi2,…,pin)為智能體各項(xiàng)能力數(shù)值的集合。
任務(wù)集中的子任務(wù)j在t時(shí)刻的狀態(tài)信息可用元組表示,其中(xj,yj,zj,vxj,vyj,vzj)為當(dāng)前任務(wù)的位置坐標(biāo)及速度矢量,為任務(wù)完成需要的各項(xiàng)指標(biāo)數(shù)值的集合。
當(dāng)智能體i與任務(wù)j的元組計(jì)算滿足可見性約束dij,如式(7)~式(12),以及衛(wèi)星各項(xiàng)能力值pin與任務(wù)各項(xiàng)能力需求的比值Pbij時(shí),如式(13),在滿足約束集要求時(shí),Pbij越大說(shuō)明該智能體i與任務(wù)j的匹配效果越好,在滿足可見性約束dij=1 時(shí),可以進(jìn)行任務(wù)分配。
式中:heij為Pbij的調(diào)節(jié)系數(shù),如智能體i的能力系數(shù)都大于任務(wù)j對(duì)應(yīng)的能力系數(shù)時(shí),則認(rèn)為當(dāng)前分配效果好,將賦值為2,否則賦值為1/2。
本文將多星觀測(cè)任務(wù)的資源分配設(shè)計(jì)歸結(jié)為對(duì)目標(biāo)觀測(cè)的離散控制問(wèn)題,其取值范圍為{a1,a2,…,an},n為目標(biāo)數(shù)量,智能體i的動(dòng)作決策表示:Ait=πi(·|Sit)。
對(duì)智能體的回報(bào)獎(jiǎng)勵(lì)函數(shù)進(jìn)行以下設(shè)計(jì):R為回報(bào)獎(jiǎng)勵(lì)函數(shù),式(15)中第1 項(xiàng)為任務(wù)與智能體兩者的能力匹配情況和的倒數(shù),作為觀測(cè)執(zhí)行質(zhì)量的體現(xiàn),其中ai為智能體i的決策結(jié)果,第2 項(xiàng)為未分配任務(wù)的懲罰值,其中k為固定參數(shù),用于調(diào)整回報(bào)獎(jiǎng)勵(lì)函數(shù)中的未分配任務(wù)對(duì)系統(tǒng)的影響程度,n0為未分配任務(wù)數(shù)。
在上述多星觀測(cè)任務(wù)分配場(chǎng)景中,因?yàn)橹悄荏w之間是完全協(xié)作的,因此共享一個(gè)回報(bào)獎(jiǎng)勵(lì)值。
在多智能體深度確定性策略梯度算法(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)[16]中,每個(gè)智能體都有一組Actor和Critic,其根據(jù)觀測(cè)狀態(tài)si,輸出動(dòng)作ai使智能體整體獲得最大回報(bào)獎(jiǎng)勵(lì);Critic 僅在進(jìn)行中心化訓(xùn)練階段使用,在訓(xùn)練階段,Critic 根據(jù)Actor 輸出的動(dòng)作,對(duì)動(dòng)作進(jìn)行評(píng)價(jià)分析,并反饋給Actor,實(shí)現(xiàn)Actor 的調(diào)優(yōu)。
模型訓(xùn)練的框圖如圖4 所示,圖中MADDPG 算法是由多個(gè)智能體分別實(shí)現(xiàn)一個(gè)深度確定性策略梯度算法[17](Deep Deterministic Policy Gradient,DDPG)組成,所有智能體i從環(huán)境獲取當(dāng)前的觀測(cè)數(shù)據(jù)si后,其在線策略網(wǎng)絡(luò)(Online Actor,OA)根據(jù)si決策出動(dòng)作ai,將其作為智能體i的動(dòng)作輸出,多個(gè)智能體決策過(guò)后組成動(dòng)作集合a,環(huán)境受到動(dòng)作集合a的影響,更新當(dāng)前狀態(tài)至s′,并反饋回報(bào)獎(jiǎng)勵(lì)r={r1,r2,…,ri},之后將獲得的四元組(si,ai,ri,si′)存儲(chǔ)到經(jīng)驗(yàn)回放池[18](Experience Relay Pool,ERP)中,供下一步訓(xùn)練需要。
圖4 MADDPG 模型訓(xùn)練的框Fig.4 Block diagram of MADDPG model training
在模型訓(xùn)練的過(guò)程中,從經(jīng)驗(yàn)回放池中抽取小批量樣本(Sample Mini-Batch,SMB)訓(xùn)練[19]。在線價(jià)值網(wǎng)絡(luò)(Online Critic,OC)會(huì)把當(dāng)前的(s,a)={s1,s2,…,si|a1,a2,…,ai}作為輸入用于自身訓(xùn)練,輸出一維的Q值Q(s,a),同時(shí)結(jié)合回放樣本的Q′(s,a)以時(shí)序差分誤差構(gòu)建兩者的MSE 損失函數(shù),并結(jié)合獎(jiǎng)勵(lì)r利用梯度下降更新Online Critic 網(wǎng)絡(luò)的參數(shù),再通過(guò)軟更新(Soft Update,SU)算法更新目標(biāo)價(jià)值網(wǎng)絡(luò)(Target Critic,TC)的參數(shù),進(jìn)而實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)參數(shù)的更新。在計(jì)算自身Actor 的前向傳播時(shí),Online Actor 只將自身局部觀測(cè)到的s={s1,s2,…,si}作為其輸入,輸出一個(gè)確定的動(dòng)作ai,同時(shí)計(jì)算時(shí)序差分誤差的MSE損失函數(shù),并結(jié)合Q(s,a) 利用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)更新參數(shù),再通過(guò)軟更新算法更新目標(biāo)策略網(wǎng)絡(luò)(Target Actor,TA)的參數(shù)。
智能體的Actor 網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示,其包括輸入層、隱含層、Softmax 層、輸出層,以及激活函數(shù)。將智能體觀測(cè)到的自身與其他智能體和任務(wù)的信息作為觀測(cè)狀態(tài)si輸入,狀態(tài)si經(jīng)神經(jīng)網(wǎng)絡(luò)的處理后獲得的一維向量為對(duì)應(yīng)每個(gè)動(dòng)作選擇[20],并使用Gumbel-softmax 方法激活函數(shù),得到選擇每個(gè)動(dòng)作對(duì)應(yīng)的概率pi,依此制定策略π,對(duì)應(yīng)pi_max的動(dòng)作ai作為智能體i在狀態(tài)si時(shí)的輸出結(jié)果。
圖5 Actor 網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Diagram of the Actor network structure
智能體的Critic 網(wǎng)絡(luò)結(jié)構(gòu)如圖6 所示,Critic 網(wǎng)絡(luò)分為輸入層、隱含層、輸出層及激活函數(shù),將所有智能體的狀態(tài)信息s={s1,s2,…,si}和動(dòng)作決策a={a1,a2,…,ai}作為輸入,經(jīng)神經(jīng)網(wǎng)絡(luò)處理后獲得一個(gè)一維向量,再通過(guò)這個(gè)向量計(jì)算所有智能體共享的回報(bào)獎(jiǎng)勵(lì)值r={r1,r2,…,ri}。
圖6 Critic 網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Diagram of the Critic network structure
根據(jù)以下算法完成模型訓(xùn)練后,各智能體根據(jù)制定的策略,獨(dú)立地在不同觀測(cè)狀態(tài)下選擇合適動(dòng)作。
輸入初始化策略網(wǎng)絡(luò)參數(shù)θ={θ1,θ2,…,θM}和價(jià)值網(wǎng)絡(luò)參數(shù)?={?1,?2,…,?M}。
輸出訓(xùn)練后的最優(yōu)參數(shù)θ*,?*。
為了證明基于上述設(shè)計(jì)的算法在建立的場(chǎng)景下具有有效性,選取DDPG 算法以及傳統(tǒng)隨機(jī)策略(Random)算法[21]作為對(duì)比算法。
本文設(shè)計(jì)了一個(gè)多星觀測(cè)任務(wù)分配場(chǎng)景,在該場(chǎng)景中,有一定數(shù)量的通信受到限制的衛(wèi)星和任務(wù)節(jié)點(diǎn),各衛(wèi)星處于固定運(yùn)行的軌道上,觀測(cè)任務(wù)目標(biāo)節(jié)點(diǎn)隨機(jī)生成在WGS84 坐標(biāo)下地面或近地空間的位置[22],此外每個(gè)衛(wèi)星均擁有3 種類型能力,如分辨率、能源、最大可視距離等,能力數(shù)值根據(jù)正態(tài)分布隨機(jī)生成;對(duì)任務(wù)節(jié)點(diǎn),也相應(yīng)設(shè)置對(duì)這3 種能力的需求值,其大小根據(jù)正態(tài)分布隨機(jī)生成[23]。各衛(wèi)星節(jié)點(diǎn)沒有中心決策節(jié)點(diǎn)對(duì)系統(tǒng)進(jìn)行統(tǒng)一決策,各個(gè)衛(wèi)星需自行根據(jù)觀測(cè)情況并結(jié)合自身策略選擇動(dòng)作。由于該分配任務(wù)場(chǎng)景是完全協(xié)作的,所以各個(gè)衛(wèi)星的動(dòng)作回報(bào)獎(jiǎng)勵(lì)將作為各智能體的獎(jiǎng)勵(lì),使得在協(xié)作的情況下,達(dá)到回報(bào)獎(jiǎng)勵(lì)的全局最大化,并以此回報(bào)獎(jiǎng)勵(lì)作為對(duì)算法性能的評(píng)估指標(biāo)[24]。
本文算法采用Python 實(shí)現(xiàn),硬件配置為1 臺(tái)Geforce RTX 4080 顯 卡、Intel-Corei7-12700KCPU的計(jì)算機(jī),MADDPG 與DDPG 的網(wǎng)絡(luò)參數(shù)設(shè)定采用相同的配置,見表1。
表1 網(wǎng)絡(luò)超參數(shù)Tab.1 Hyperparameters of the network
采用MADDPG 算法時(shí)的回報(bào)獎(jiǎng)勵(lì)曲線如圖7所示,橫縱坐標(biāo)分別表示訓(xùn)練回合數(shù)Epoch 及回報(bào)獎(jiǎng)勵(lì)Reward。由圖7 可知,智能體獲得的回報(bào)獎(jiǎng)勵(lì)值階梯式變化,最終穩(wěn)定收斂在88 左右。在模型開始訓(xùn)練階段,智能體獲得的回報(bào)獎(jiǎng)勵(lì)波動(dòng)較大,因?yàn)樵撾A段智能體之間還未學(xué)會(huì)協(xié)同任務(wù)分配,導(dǎo)致其互相搶占相同任務(wù),造成資源浪費(fèi)。但由于不斷“試錯(cuò)”,智能體在沒有中心決策節(jié)點(diǎn)的情況下,也逐漸分階段地學(xué)會(huì)了僅根據(jù)自身狀態(tài)和觀測(cè)信息的分布式協(xié)同任務(wù)分配策略。
圖7 采用MADDPG 算法訓(xùn)練的智能體平均獎(jiǎng)勵(lì)曲線Fig.7 Average reward curve of agents trained by the MADDPG algorithm
采用DDPG 算法解決多星觀測(cè)任務(wù)分配問(wèn)題的訓(xùn)練曲線如圖8 所示。由圖8 可知,采用該方法時(shí),從訓(xùn)練開始到結(jié)束回報(bào)獎(jiǎng)勵(lì)的波動(dòng)起伏較大。由于智能體之間不共享回報(bào)獎(jiǎng)勵(lì),導(dǎo)致其不是完全協(xié)作關(guān)系,并將彼此視為影響環(huán)境的因素,使得環(huán)境狀態(tài)難以穩(wěn)定下來(lái),最終造成算法難以收斂。
圖8 采用DDPG 算法訓(xùn)練的智能體平均獎(jiǎng)勵(lì)曲線Fig.8 Average reward curve of agents trained by the DDPG algorithm
采用Random 算法解決多星觀測(cè)任務(wù)分配問(wèn)題的訓(xùn)練曲線如圖9 所示。由圖9 可知,其大致收斂在65 左右,但比采用MADDPG 算法時(shí)收斂的回報(bào)獎(jiǎng)勵(lì)低,采用MADDPG 算法解決多星觀測(cè)任務(wù)分配問(wèn)題的效果更佳。
圖9 采用Random 算法訓(xùn)練的平均獎(jiǎng)勵(lì)曲線Fig.9 Average reward curve trained by the Random algorithm
在天基星座快速發(fā)展的當(dāng)下,衛(wèi)星及任務(wù)需求大量增加,空間環(huán)境復(fù)雜,傳統(tǒng)觀測(cè)任務(wù)分配方案難以適應(yīng)未來(lái)需求,因此要求衛(wèi)星有更強(qiáng)大的自主決策能力。
本文設(shè)計(jì)的基于MADDPG 算法的多星觀測(cè)任務(wù)分配算法,對(duì)動(dòng)作空間的離散化改進(jìn)動(dòng)作空間選擇[25],設(shè)計(jì)了合適的回報(bào)獎(jiǎng)勵(lì)函數(shù)優(yōu)化決策方案,采用集中式訓(xùn)練、分布式執(zhí)行的模式,賦予衛(wèi)星一定的自主決策能力[26]。在訓(xùn)練階段,綜合全局信息開展訓(xùn)練;在執(zhí)行階段,衛(wèi)星只需通過(guò)自身的觀測(cè)情況,即可做出決策,使其在通信受限的場(chǎng)景下也能進(jìn)行觀測(cè)任務(wù)分配。實(shí)驗(yàn)結(jié)果顯示,采用DDPG算法與Random 算法相比,采用MADDPG 訓(xùn)練出來(lái)的各智能體收斂更穩(wěn)定,且能獲得更高的回報(bào)獎(jiǎng)勵(lì),說(shuō)明其具備更好的協(xié)同能力,其多星觀測(cè)任務(wù)分配方案效果更好。