王 鑫,趙清杰,于重重,張長春,陳涌泉
(1. 北京理工大學(xué)計算機學(xué)院,北京 100081; 2. 北京工商大學(xué)人工智能學(xué)院,北京 100048)
小行星探測是一項學(xué)科綜合、高技術(shù)集成的系統(tǒng)工程,體現(xiàn)了一個國家的綜合實力和競爭力。探測器的著陸是小行星探測任務(wù)中的一個關(guān)鍵階段,它直接影響整個探測任務(wù)的成敗。探測器在著陸時會受到空中失效航天器與碎片等動態(tài)障礙物的干擾以及小行星表面的巖石、陡坡、隕坑等靜態(tài)障礙物的干擾,影響自身著陸的安全性和姿態(tài)的穩(wěn)定性,因此規(guī)劃出一條最優(yōu)路徑是后續(xù)安全著陸的保證。此外,由于小行星與地球距離較遠,而且小行星環(huán)境具有未知性和特殊性,地面控制站無法對著陸實施全程監(jiān)控,所以探測器需要具有一定的自適應(yīng)、自學(xué)習(xí)和自主決策能力。
劉建軍等利用啟發(fā)式搜索算法和動態(tài)路徑最優(yōu)算法提出了一種基于可通過性的月面巡視探測器的路徑規(guī)劃算法。Liu等根據(jù)激光測距儀的信息對月壤地面的地形進行建模,提出了基于虛擬機體模型的自主避障策略。徐帷等采用Sarsa(λ)強化學(xué)習(xí)實現(xiàn)空間機械臂的自主路徑規(guī)劃。鄧泓等通過建立路徑規(guī)劃的環(huán)境模型、綜合適應(yīng)度函數(shù),設(shè)計遺傳算子,提出了基于遺傳算法的攻擊衛(wèi)星安全穿越路徑尋優(yōu)方法。羅汝斌等提出了一種基于深度強化學(xué)習(xí)的自適應(yīng)協(xié)同探測方法,用以解決行星車探測未知區(qū)域的問題。郭繼峰等提出了一種全局與局部規(guī)劃結(jié)合的行星車自主探測融合路徑規(guī)劃方法。周思雨等采用D3QNPER方法對行星車在著陸過程中進行路徑規(guī)劃,避免了傳統(tǒng)規(guī)劃算法對先驗地圖信息的依賴。當(dāng)面對更加復(fù)雜、不確定的環(huán)境時,上述方法的穩(wěn)定性和可行性都面臨一定的挑戰(zhàn)。
近年來,深度強化學(xué)習(xí)在很多方面得到了應(yīng)用,如自動駕駛、機器人、推薦系統(tǒng)、智能電網(wǎng)等。引入深度強化學(xué)習(xí),面對不同的著陸環(huán)境時,探測器通過與環(huán)境交互,接收從環(huán)境獲得的評價反饋,自主學(xué)習(xí),得到不同環(huán)境狀態(tài)下的最優(yōu)策略,可以實現(xiàn)對環(huán)境的自適應(yīng)能力。自注意力機制和多任務(wù)學(xué)習(xí)可以進一步提升系統(tǒng)對環(huán)境的搜索能力,二者在人工智能相關(guān)的多個領(lǐng)域已得到應(yīng)用。
目前的小行星探測器大多是單節(jié)點,著陸時容易出現(xiàn)翻轉(zhuǎn)、傾覆、失聯(lián)等現(xiàn)象。面向小行星探測任務(wù)的需要,柔性連接的多節(jié)點(多智能體)系統(tǒng)是針對探測器著陸不穩(wěn)定問題的一種解決方案。本文構(gòu)建了一種采用柔性連接的三節(jié)點探測器并對其著陸情況進行建模研究,進而提出了一種融合時間上下文的自注意力機制的多任務(wù)深度強化學(xué)習(xí)方法,對探測器各節(jié)點的速度、加速度等進行協(xié)同規(guī)劃,使得探測器具有更優(yōu)的著陸自控性能。
傳統(tǒng)的單節(jié)點探測器依靠人類先驗知識來確定飛行策略,進而實現(xiàn)探測器著陸。但是,小行星的很多參數(shù)未知,單節(jié)點探測器在著陸過程中容易失控、傾覆或反彈逃逸,亦或無法實現(xiàn)確定的著陸策略而導(dǎo)致探測器不能實施精確著陸。針對上述問題,本文構(gòu)建了一種采用柔性連接的三節(jié)點探測器,并對其著陸情況進行建模。
深空探測器在著陸過程中,探測器以小行星為參照物來描述自身的狀態(tài),可以表示為一個四元組<,,,>,其中,表示探測器的運行速度,表示探測器相對于小行星的角速度,表示探測器相對于小行星的距離,表示探測器相對于小行星的角度。
圖1 探測器每個節(jié)點運動情況圖Fig.1 Motion chart of each node of the probe
深度強化學(xué)習(xí)是一種將深度學(xué)習(xí)的感知能力與強化學(xué)習(xí)的決策能力相結(jié)合的一種更接近人類思維的人工智能方法。深度確定策略梯度算法(Deep deterministic policy gradient, DDPG)是將深度學(xué)習(xí)和確定性策略梯度(Deterministic policy gradient, DPG)進行融合,采用卷積神經(jīng)網(wǎng)絡(luò)對actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)進行模擬,然后使用深度學(xué)習(xí)的方法訓(xùn)練actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)。由于critic網(wǎng)絡(luò)參數(shù)在頻繁地進行梯度更新的同時又用于計算critic網(wǎng)絡(luò)和actor網(wǎng)絡(luò)的梯度,導(dǎo)致學(xué)習(xí)過程不穩(wěn)定,因此DDPG為actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)各創(chuàng)建兩個神經(jīng)網(wǎng)絡(luò),一個是Online網(wǎng)絡(luò),一個是Target網(wǎng)絡(luò),結(jié)構(gòu)如圖2所示。其中,Online網(wǎng)絡(luò)和Target網(wǎng)絡(luò)均由六個全連接層構(gòu)成的多感知機(Mulitlayer perceptron, MLP)組成。
圖2 DDPG網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Network structure of DDPG
多任務(wù)學(xué)習(xí)是一種歸納遷移學(xué)習(xí),目的是通過使用給定的多個任務(wù)中包含的知識來幫助提升各個任務(wù)的性能。近年來,多任務(wù)學(xué)習(xí)與監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、主動學(xué)習(xí)相結(jié)合,解決了多個領(lǐng)域的難題。
探測器在著陸過程中,探測器各節(jié)點的位置、速度、角速度等都是動態(tài)變化的,同時深空中的障礙物也處于運動狀態(tài),這些因素都對探測器的穩(wěn)定成功著陸具有一定的影響。為保證探測器可以成功著陸,需要對探測器的各個節(jié)點進行協(xié)同規(guī)劃,以及協(xié)同避障。
鑒于多任務(wù)學(xué)習(xí)的優(yōu)點,本文構(gòu)建關(guān)于探測器節(jié)點和障礙物的多任務(wù)學(xué)習(xí)模型,通過將其他節(jié)點任務(wù)和障礙物任務(wù)作為當(dāng)前正在學(xué)習(xí)的任務(wù)的監(jiān)督信號來提升自己的學(xué)習(xí)能力,進一步提高模型整體的性能。由于探測器計算資源有限,基于參數(shù)軟共享方式的結(jié)構(gòu)需要每個任務(wù)具有自己的模型和參數(shù),計算開銷較大,而基于參數(shù)硬共享方式的結(jié)構(gòu),任務(wù)共享模型及參數(shù),所需的計算資源開銷較少。本文選擇參數(shù)硬共享方式來構(gòu)建探測器的多任務(wù)學(xué)習(xí)模型,結(jié)構(gòu)如圖3所示。
圖3 智能體參數(shù)共享結(jié)構(gòu)圖Fig.3 Parameter-sharing structure chart of agents
近年來,在人工智能領(lǐng)域,注意力機制已經(jīng)成為神經(jīng)網(wǎng)絡(luò)的重要組成部分,并且在計算機視覺、自然語言處理和統(tǒng)計學(xué)習(xí)等領(lǐng)域被廣泛使用。網(wǎng)絡(luò)結(jié)構(gòu)中的注意力模塊自動學(xué)習(xí)注意力權(quán)重,可以自動地捕獲編碼器隱藏狀態(tài)和解碼器隱藏狀態(tài)之間的相關(guān)性,即注意力模塊可以使模型動態(tài)地關(guān)注有利于當(dāng)前任務(wù)的某些信息。
自注意力機制是注意力機制的一種,其減少了對外部信息的依賴性,更加擅長捕捉數(shù)據(jù)或特征的內(nèi)部相關(guān)性。探測器在進行多任務(wù)學(xué)習(xí)時,通過采用自注意力機制有助于探測器節(jié)點更加關(guān)注有利于使自己獲得最大回報的信息進行學(xué)習(xí)。
深空探測環(huán)境不確定,智能體在進行空間狀態(tài)搜索時,具有時間多樣性,為避免探測器陷入最近時間學(xué)習(xí)的較差局部狀態(tài),本文引入時間上下文信息,采用更多的歷史先驗知識指導(dǎo)探測器學(xué)習(xí)到最優(yōu)的狀態(tài)。
本文按式(1)~(3)構(gòu)建時間上下文自注意力機制,首先將式(1)自注意力機制的輸出與MLP的第個全連接層輸出的特征圖進行矩陣運算,得到加權(quán)特征圖,然后將該加權(quán)特征圖與MLP的第-1個全連接層輸出的特征圖進行矩陣相加,得到最終的特征圖。
=softmax((-1(,)))
(1)
=*
(2)
=+-1
(3)
其中,表示第個智能體的觀測值;表示第個智能體的行為,∈{1,2,…,};表示智能體的個數(shù);表示激活函數(shù)ReLU;-1表示MLP的第-1層的特征圖;softmax表示歸一化指數(shù)函數(shù),將函數(shù)的每個輸出都映射到(0,1);表示元素取值為(0,1)的注意力權(quán)重矩陣;*表示矩陣對應(yīng)位置元素相乘;表示MLP的第層的特征圖;∈{2,…,-1},表示MLP全連接層的個數(shù)。
為解決柔性連接的三節(jié)點探測器著陸問題,本文提出了融合時間上下文自注意力機制的多任務(wù)深度強化學(xué)習(xí)方法AMTDRL(Fusion attention and multi-task in deep reinforcement learning, AMTDRL),探測器節(jié)點的觀測值和行為作為MLP的輸入,MLP通過時間上下文的自注意力機制來獲取使自身獲得最大收益的特征信息進行學(xué)習(xí),之后每個節(jié)點學(xué)習(xí)自己的actor和critic網(wǎng)絡(luò),模型結(jié)構(gòu)如圖4所示。
圖4 AMTDRL模型結(jié)構(gòu)Fig.4 Model structure of AMTDRL
(4)
(5)
(6)
(7)
其中,()表示關(guān)于的損失函數(shù);,,,′表示智能體在觀測值為、行為為、獎勵為、新觀測值為′時獲得獎勵誤差的期望值;表示智能體獎勵的真實值;′={′,…,′}表示智能體的策略函數(shù),其參數(shù)為′;表示第個智能體獲得的獎勵;表示折扣因子。
(8)
(9)
(10)
(11)
本文探測器設(shè)置三個節(jié)點,三個動態(tài)障礙物,初始速度為3 m/s,加速度為0.5 m/s,最大速度為8 m/s,一個靜態(tài)障礙物,MLP網(wǎng)絡(luò)的參數(shù)采用高斯初始化,DDPG的噪聲采用Ornstein-Uhlenbeck噪聲,初始參數(shù)均值為0,方差為0.2,為0.15,AMTDRL模型的超參數(shù)設(shè)置見表1。Online網(wǎng)絡(luò)和Target網(wǎng)絡(luò)每迭代20次軟更新一次。探測器參數(shù)初始參數(shù)見表2。根據(jù)探測器節(jié)點的運行情況獎勵函數(shù)的設(shè)置見表3。
表1 AMTDRL模型超參數(shù)Table 1 Hyperparameters of AMTDRL
表2 探測器參數(shù)Table 2 Parameters of deep space probe
表3 獎勵函數(shù)Table 3 Function of reward
本文以MADDPG模型為基準(zhǔn)進行對比。為了證明算法的收斂性、適應(yīng)性和魯棒性,AMTDRL算法和MADDPG算法在參數(shù)設(shè)置不變情況下,分別進行三次仿真實驗,每次仿真實驗迭代30000次。每次實驗算法都達到了收斂,并且對每次仿真實驗得到的平均獎勵進行累加,然后再取平均值,探測器最終獲得的平均獎勵如圖5所示。
圖5 MADDPG與AMTDRL的平均獎勵對比Fig.5 Mean rewards of MADDPG and AMTDRL
通過圖5可以看出,在迭代前15000次,探測器的平均獎勵在穩(wěn)步增長,在迭代后15000 次,平均獎勵平穩(wěn)下降,然后保持穩(wěn)定,說明探測器穩(wěn)定著陸。此外,將AMTDRL與MADDPG進行對比,可以看出,在每次迭代過程中,AMTDRL獲得的獎勵均高于MADDPG,30000次迭代過程中,AMTDRL總的平均獎勵比MADDPG高9.94,說明AMTDRL學(xué)習(xí)效果更好,探測器能夠更好地避障和著陸。
AMTDRL模型的actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)同時采用attention機制與只有actor網(wǎng)絡(luò)采用attention機制進行對比,通過圖6可以看出,在迭代10000次左右時同時使用attention的效果更好,說明探測器仍在搜索最優(yōu)的狀態(tài),隨著迭代次數(shù)的增加,當(dāng)探測器逐漸靠近最優(yōu)狀態(tài)時,attention機制對critic來說效果不明顯。
圖6 只actor網(wǎng)絡(luò)采用attention (p_attention)與兩個網(wǎng)絡(luò)同時采用attention (pq_attention)的平均獎勵Fig.6 Mean rewards of only actor network with attention (p_attention)and both networks with attention (pq_attention)
探測器在著陸過程中,空間中的障礙物也處于運動狀態(tài),導(dǎo)致探測器著陸的環(huán)境時刻處于變化之中,同時小行星表面也存在陡坡等靜態(tài)障礙物,面對這些不同的情況,深度強化學(xué)習(xí)通過及時地調(diào)整策略使探測器具有自主規(guī)劃能力,可以成功避障。
實驗仿真環(huán)境為長寬高都為40 m的正方體,圓表示空間中失效的航天器與碎片等動態(tài)障礙物,三角形表示小行星表面的陡坡或巖石等靜態(tài)障礙物,十六角星表示探測器。探測器的起點坐標(biāo)為(-7.5, 18, 17),終點坐標(biāo)為(14.5, 2.5,-20),動態(tài)障礙物1的起始坐標(biāo)為(-12.5, 16, 13),終點坐標(biāo)為(-14, 13.5, 7),動態(tài)障礙物2的起始坐標(biāo)為(-17.5, 3, -6),終點坐標(biāo)為(-13, -2.5, -10.5),動態(tài)障礙物3的起始坐標(biāo)為(-8, -9, -12),終點坐標(biāo)為(0, -3, -16.5),靜態(tài)障礙物的坐標(biāo)為(12.5, -2.5, -20)。探測器的運動路線如圖7所示,探測器在著陸過程中,無論是在空間中遇到動態(tài)障礙物,還是在附著時遇到小行星表面的靜態(tài)障礙物,都會根據(jù)AMTDRL學(xué)習(xí)的策略及時調(diào)整自身的狀態(tài),遠離障礙物,實現(xiàn)成功著陸。
圖7 路徑規(guī)劃結(jié)果Fig.7 Path planning result
由于更多的節(jié)點數(shù)會使系統(tǒng)的復(fù)雜性明顯提升,因此我們只對兩節(jié)點和三節(jié)點情況進行對比研究。以迭代10000 次為例,分析DDPG、MADDPG和AMTDRL三種方法的表現(xiàn),結(jié)果如圖8所示。
圖8 DDPG、MADDPG及AMTDRL分別在兩節(jié)點和三節(jié)點情況的平均獎勵Fig.8 Mean rewards of DDPG, MADDPG and AMTDRL for 2 & 3 nodes
從圖8(a)中可以看出,具有兩個節(jié)點的探測器在運行過程中獲得的獎勵在20~30之間;從圖8(b)中可以看出,隨著訓(xùn)練次數(shù)的增加,具有兩個節(jié)點的探測器在運行過程中獲得的獎勵在30~40之間,三節(jié)點探測器的平均獎勵比兩節(jié)點的獎勵高出10左右,說明三節(jié)點探測器運行更加穩(wěn)定。另外可以看出,DDPG方法獲得的獎勵相對較低,說明探測器在運行過程中節(jié)點之間或者與障礙物之間容易發(fā)生碰撞;MADDPG方法波動較大,說明探測器運行狀態(tài)不穩(wěn)定;AMTDRL具有較高的獎勵,而且波動較小,說明探測器在運行過程中比較穩(wěn)定。
針對傳統(tǒng)的單節(jié)點探測器在著陸過程中因缺乏自主規(guī)劃能力而導(dǎo)致著陸失敗的問題,本文提出了一種融合自注意力機制的多任務(wù)多智能體深度強化學(xué)習(xí)方法,實現(xiàn)柔性連接的多節(jié)點探測器的成功軟著陸。我們以柔性連接的三節(jié)點探測器為例進行研究,以探測器主體為參照物來描述節(jié)點自身的狀態(tài),探測器節(jié)點與節(jié)點之間、節(jié)點與障礙物之間通過聯(lián)合學(xué)習(xí),來提高各智能體的適應(yīng)能力;在對探測器和障礙物進行特征提取時,采用注意力機制來提高對自己任務(wù)的關(guān)注,從而獲得最大的獎勵。通過與其他方法的對比,證明了本文提出的方法更有利于探測器穩(wěn)定地著陸。