• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      航天器反應(yīng)式碎片規(guī)避動作規(guī)劃方法

      2023-03-18 13:17:44吳健發(fā)魏春嶺張海博
      宇航學(xué)報 2023年2期
      關(guān)鍵詞:反應(yīng)式航天器規(guī)劃

      吳健發(fā),魏春嶺,張海博

      (1. 北京控制工程研究所,北京 100094; 2. 空間智能控制技術(shù)重點實驗室,北京 100094)

      0 引 言

      根據(jù)NASA軌道碎片項目辦公室的統(tǒng)計,截至2022年3月,編目的空間碎片總數(shù)已接近26000個[1]。密集分布的空間碎片對航天器的在軌安全運行造成嚴(yán)重威脅,近年來已發(fā)生多起航天器與碎片的交會事件,例如,2021年5月12日,國際空間站在例行檢查中發(fā)現(xiàn)其機械臂已被未知的空間碎片撞出一個明顯的破洞;2022年1月18日,我國清華科學(xué)衛(wèi)星與俄羅斯的宇宙1408衛(wèi)星碎片發(fā)生了一次極危險交會,雙方最近距離僅14.5 m。如何使航天器自主、安全地規(guī)避規(guī)模日漸龐大的空間碎片群,已成為目前各航天大國研究的重要課題。

      航天器自主規(guī)避技術(shù)主要涵蓋感知、規(guī)劃和控制三個層面,其中規(guī)劃技術(shù)基于感知的空間態(tài)勢,生成航天器的最優(yōu)規(guī)避路徑和機動動作,并對姿軌控制系統(tǒng)下達控制指令,在三個層面技術(shù)中起“大腦中樞”的關(guān)鍵作用,受到廣泛的關(guān)注。從目前的文獻來看,如果以決策行為模式的角度分類,則相應(yīng)的規(guī)避動作規(guī)劃方法可分為慎思式和反應(yīng)式兩類方法[2]。慎思式動作規(guī)劃方法通過對當(dāng)前/歷史狀態(tài)信息進行邏輯推理的方式實現(xiàn)決策,形式上表現(xiàn)為“狀態(tài)-估計-預(yù)測-建模-規(guī)劃-動作”的分層串行規(guī)劃過程,其典型方法為基于預(yù)測控制的動作規(guī)劃方法,即預(yù)測有限步長內(nèi)的威脅狀態(tài),基于此優(yōu)化該時間段內(nèi)的控制序列,最后執(zhí)行當(dāng)前時刻所需控制輸入,例如,Weiss等[3]針對航天器交會對接問題,提出一種動態(tài)可重構(gòu)約束的線性二次模型預(yù)測控制制導(dǎo)方法,該方法基于測量的相對距離和角度估計航天器狀態(tài),進而根據(jù)估計信息并結(jié)合視野錐、控制器帶寬和羽流方向等非線性約束條件,采用二次規(guī)劃方法求解相應(yīng)控制量;Li等[4]針對軌道追逃問題,首先采用無跡Kalman濾波算法估計對手的未知信息,進而將估計參數(shù)輸入基于微分對策的最優(yōu)逃逸策略中,實現(xiàn)不完全信息條件下的軌道博弈??傮w而言,這類方法能取得不錯的規(guī)劃效果,但求解流程比較復(fù)雜,各環(huán)節(jié)累加計算耗時較長,不利于對威脅做出快速反應(yīng)[2]。

      與之相對的是反應(yīng)式規(guī)劃方法,即根據(jù)一定規(guī)則直接基于當(dāng)前/歷史狀態(tài)信息映射出對應(yīng)動作,形式上表現(xiàn)為沒有“預(yù)測”、“建?!钡拳h(huán)節(jié)的“狀態(tài)-動作”端到端決策過程,例如文獻[5-6]提到的應(yīng)急機動決策方法。由于空間光照條件復(fù)雜,可能會影響航天器探測設(shè)備成像的連續(xù)性,容易造成空間碎片的漏檢[7]。當(dāng)航天器重新檢測到碎片時,二者距離可能已相當(dāng)接近,必須盡快規(guī)劃并執(zhí)行相應(yīng)的規(guī)避動作。相較于慎思式方法,反應(yīng)式方法在這類場景下可能具有更好的適用性,原因在于反應(yīng)式方法具有更快的決策速度,有利于對多發(fā)、突發(fā)、動態(tài)的空間碎片群做出及時地響應(yīng)。然而,由于不存在直接的“預(yù)測”和“建模”環(huán)節(jié),導(dǎo)致部分基于簡單規(guī)則的反應(yīng)式方法因不能充分利用歷史和模型信息而產(chǎn)生并不理想的規(guī)劃效果。

      近年來,以深度強化學(xué)習(xí)為代表的新一代人工智能方法廣泛應(yīng)用于各類復(fù)雜系統(tǒng)的優(yōu)化控制問題,其具有如下優(yōu)點[8]:(1)引入的深度神經(jīng)網(wǎng)絡(luò)一方面能在與環(huán)境的交互過程中充分提取歷史信息的特征并學(xué)習(xí)到其中的狀態(tài)變化規(guī)律,實現(xiàn)間接的高質(zhì)量“預(yù)測”,另一方面具備強大的非線性逼近能力,可有效應(yīng)對高維連續(xù)狀態(tài)-動作空間下的優(yōu)化控制問題;(2)深度強化學(xué)習(xí)得到的策略在使用時只需進行一個神經(jīng)網(wǎng)絡(luò)的前向傳播過程,適用于具有高實時性需求的決策任務(wù)。這些優(yōu)點使得通過反應(yīng)式規(guī)劃方法生成高質(zhì)量的規(guī)避動作成為可能,從而吸引了眾多學(xué)者進行探索,例如,針對離散動作空間,Ge等[9]提出一種可采用深度Q學(xué)習(xí)的航天器反應(yīng)式魯棒軌跡規(guī)劃方法,可生成針對動態(tài)威脅的無碰撞軌跡走廊;在此基礎(chǔ)上,一些研究進一步提出面向連續(xù)動作空間的深度強化學(xué)習(xí)方法,其搜索空間更大,求解質(zhì)量更高,在航空宇航領(lǐng)域目前已應(yīng)用于無人機機動控制和導(dǎo)彈制導(dǎo)中[10-13],但對于航天器規(guī)避動作規(guī)劃問題尚缺乏針對性研究。

      圍繞空間碎片規(guī)避任務(wù)需求,本文提出一種航天器反應(yīng)式規(guī)避動作規(guī)劃方法,該方法將一種成熟有效的自然啟發(fā)式規(guī)避動作規(guī)劃算法:擾動流體動態(tài)系統(tǒng)(Interfered fluid dynamical system, IFDS)與目前比較先進的一類深度強化學(xué)習(xí)算法:雙延遲深度確定性策略梯度(Twin delayed deep deterministic policy gradient, TD3)有機結(jié)合,并引入優(yōu)先級經(jīng)驗回放和漸進式學(xué)習(xí)策略以提升深度強化學(xué)習(xí)的訓(xùn)練效率,最終面向多發(fā)、突發(fā)、動態(tài)且形狀各異的空間碎片群,實現(xiàn)規(guī)避機動動作的“狀態(tài)-動作”端對端快速規(guī)劃。

      1 問題描述

      1.1 航天器軌道運動建模

      當(dāng)航天器感知到空間碎片并準(zhǔn)備進行規(guī)避機動時,記此時處于工作軌道的航天器為參考航天器,位置為o,以o為原點建立LVLH坐標(biāo)系,ox軸沿參考航天器地心矢徑方向;oy軸沿參考航天器軌道面內(nèi)運動方向;oz軸垂直于參考航天器軌道面,與ox,oy軸構(gòu)成右手系。在LVLH坐標(biāo)系下,航天器相對于參考航天器的軌道動力學(xué)方程可簡化為Clohessy-Wiltshire(C-W)方程:

      (1)

      式中:X=[x,y,z]T為航天器相較于參考航天器的位置;ω為參考航天器的軌道角速度;u=[ux,uy,uz]T為航天器的軌控加速度,滿足有界約束條件|ui|≤umax,i=x,y,z。

      1.2 空間碎片群建模

      空間碎片或碎片群可用球體或橢球體等效安全包絡(luò)建模,模型定義如下:

      (2)

      (3)

      注1:航天器對空間碎片的規(guī)避是一個包含態(tài)勢感知、交會預(yù)警、規(guī)避決策、動作規(guī)劃、控制執(zhí)行等多個環(huán)節(jié)的復(fù)雜系統(tǒng)工程[7],本文聚焦于整個系統(tǒng)工程中的動作規(guī)劃環(huán)節(jié),而對于式(2)中碎片群參數(shù)的測定則屬于態(tài)勢感知環(huán)節(jié),目前已具有相對成熟的技術(shù)方案,且測量精度較高,例如:對于碎片群包絡(luò)形狀參數(shù)的測定可采取類似點云數(shù)據(jù)聚類的思路,這種思路目前已在地外探測[14]、自動駕駛[15]等領(lǐng)域得到廣泛應(yīng)用;對于碎片群的位置速度,可由航天器敏感器自主測定并進行軌道外推,或由航天器與體系化的天基/地基觀測系統(tǒng)聯(lián)合測定,具體方案可見文獻[7,16-17]。因此本文假設(shè)由感知環(huán)節(jié)給出的碎片群參數(shù)具有較高的置信度。

      2 基于擾動流體動態(tài)系統(tǒng)的航天器規(guī)避動作規(guī)劃基礎(chǔ)算法

      本文選取擾動流體動態(tài)系統(tǒng)(IFDS)作為規(guī)避動作規(guī)劃的基礎(chǔ)算法,該方法原本是一種三維路徑規(guī)劃方法,其模擬了自然界水流的宏觀特性,原理是將威脅視為河流中的巖石,將規(guī)劃的路徑視為流水的流線,當(dāng)流線經(jīng)過巖石時,根據(jù)流體力學(xué)理論,巖石會對其施加一個可量化的擾動效應(yīng),使水流改變方向從而平滑的繞過巖石。該方法具有如下優(yōu)點:(1)面對并發(fā)、動態(tài)威脅時仍具有較高的計算效率;(2)規(guī)劃路徑平滑,便于控制器跟蹤;(3)可調(diào)參數(shù)較少,且物理意義明確。目前該方法已在無人機、水下機器人等自主無人系統(tǒng)中得到應(yīng)用[11,18-19],但其在航天領(lǐng)域的應(yīng)用仍有待進一步探索。由于航天器的運動學(xué)特性以及軌道規(guī)避任務(wù)場景與上述無人系統(tǒng)相比存在較大差異,因此本文對IFDS算法進行了一定的針對性改進,以使其能夠規(guī)劃航天器的軌道規(guī)避機動動作u=[ux,uy,uz]T,具體如下:

      (4)

      式中:wk(ΔXk)為第k個包絡(luò)的權(quán)重系數(shù),其取決于航天器與包絡(luò)表面的距離,距離越大權(quán)重系數(shù)越小(即產(chǎn)生的擾動效應(yīng)越小);Mk(ΔXk)為第k個包絡(luò)的擾動矩陣。wk(ΔXk)和Mk(ΔXk)的公式如下:

      (5)

      (6)

      式中:I3為三階單位吸引矩陣,引導(dǎo)航天器沿原有軌跡運行;第二項和第三項分別為排斥矩陣和切向矩陣;ρk和σk分別為對應(yīng)包絡(luò)的排斥反應(yīng)系數(shù)和切向反應(yīng)系數(shù),決定航天器的規(guī)避時機(值越大,時機越早);nk(ΔXk)為徑向法向量,垂直于包絡(luò)向外;tk(ΔXk,θk)為單位切向矩陣,其可分解為垂直于nk(ΔXk)且相互垂直的兩個向量tk,1(ΔXk)和tk,2(ΔXk):

      (7)

      由tk,1(ΔXk)和tk,2(ΔXk)所組成切平面內(nèi)的任意單位切向量可表示為:

      (8)

      式中:θk∈[0, 2π]為任意切向量與tk,1(ΔXk)的夾角,稱為切向方向系數(shù),決定規(guī)避方向。

      以tk,1(ΔXk),tk,2(ΔXk)和nk(ΔXk)分別為x,y和z軸建立新的直角坐標(biāo)系,由該坐標(biāo)系到坐標(biāo)系Dx′y′z′下的坐標(biāo)轉(zhuǎn)換矩陣P如式(9)所示,則t′k可通過P轉(zhuǎn)化為tk(ΔXk),即tk(ΔXk)=P·t′k。

      (9)

      (10)

      在此基礎(chǔ)上,考慮到輸入有界約束,航天器的可達軌控加速度可按如下步驟解算:

      (11)

      其中,ΔTc為動力學(xué)計算采樣時間步長。

      (12)

      最終基于輸入有界約束對uc進行限幅處理,得到實際可達的軌控加速度u。

      3 基于雙延遲深度確定性策略梯度的反應(yīng)式動作規(guī)劃方法

      3.1 總體設(shè)計

      圖1 反應(yīng)式規(guī)避動作規(guī)劃方法的總體架構(gòu)Fig.1 Overall framework of the reactive collision-avoidance action planning method

      3.2 訓(xùn)練機制

      TD3[20]改進自深度確定性策略梯度[21](Deep deterministic policy gradient, DDPG)算法,是目前比較先進的一類面向連續(xù)狀態(tài)/動作空間的深度強化學(xué)習(xí)算法。DDPG基于動作-評價機制,利用深度神經(jīng)網(wǎng)絡(luò)逼近價值函數(shù)和確定性策略,可視為深度Q學(xué)習(xí)(Deep Q-learning)與動作-評價機制的結(jié)合。然而,由于DDPG在價值估計過程中存在不可避免的噪聲,因此常出現(xiàn)價值過高估計現(xiàn)象,導(dǎo)致算法獲得較差的策略。為降低過估計的效果,借鑒van Hasselt等[22]提出的雙Q學(xué)習(xí)(Double Q-lear-ning)思路,TD3采用了兩套評價網(wǎng)絡(luò)估計價值函數(shù),并使用動作網(wǎng)絡(luò)延遲更新和目標(biāo)動作網(wǎng)絡(luò)平滑正則化等操作來進一步提高算法的收斂性。

      TD3中一共使用了6個神經(jīng)網(wǎng)絡(luò),動作現(xiàn)實網(wǎng)絡(luò),動作目標(biāo)網(wǎng)絡(luò),以及2個評價現(xiàn)實網(wǎng)絡(luò)和2個評價目標(biāo)網(wǎng)絡(luò),結(jié)構(gòu)如圖2所示。本文所構(gòu)造的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示:動作網(wǎng)絡(luò)由輸入層(INPUT)、全連接層(FC)、線性整流單元層(ReLU)和雙曲正切層(tanh)組成,僅包含觀測量o的輸入通道;評價網(wǎng)絡(luò)則包含觀測量o和動作量a兩個輸入通道,由INPUT、FC、ReLU和疊加層(ADD)組成;括號中的數(shù)字表示FC層的節(jié)點數(shù)。

      圖2 TD3的結(jié)構(gòu)Fig.2 Structure of the TD3

      圖3 動作和評價網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structures of actor and critic networks

      觀測量o和動作量a定義如下:

      (13)

      a=[ρ,σ,θ]

      (14)

      式中:o中各量分別表示航天器到包絡(luò)表面的距離,以及航天器與包絡(luò)中心的相對位置和速度;a為包絡(luò)對應(yīng)的IFDS規(guī)劃參數(shù)組合。

      針對航天器規(guī)避動作規(guī)劃問題,相應(yīng)訓(xùn)練機制設(shè)計如下:

      1) 動作現(xiàn)實網(wǎng)絡(luò)根據(jù)從訓(xùn)練環(huán)境中獲得的觀測量ot選擇一個動作輸出at,并與隨機噪聲?t疊加以增強探索性,上述過程可表述為:

      (15)

      2) 在訓(xùn)練環(huán)境中執(zhí)行at,計算對應(yīng)的獎勵函數(shù)rt并更新觀測量ot→ot+1。在此基礎(chǔ)上,將狀態(tài)轉(zhuǎn)移過程{ot,at,rt,ot+1}存入經(jīng)驗池中。

      (16)

      式中:μ為折扣因子;ε為截斷的隨機噪聲,用于目標(biāo)策略平滑。

      (17)

      式中:Pi為采樣概率;α∈[0, 1]用于調(diào)節(jié)優(yōu)先程度;FRK(|δi|)表示|δi|由大到小的排名數(shù)。

      最后,由于基于優(yōu)先級的經(jīng)驗回放引入了偏差,改變了樣本的采樣頻率,因此需要引入重要性采樣更新樣本計算梯度時的誤差權(quán)重i:

      (18)

      式中:β用于控制校正程度。

      (19)

      (20)

      (21)

      式中:τ為軟更新平滑因子。然后循環(huán)跳轉(zhuǎn)至步驟1。

      當(dāng)循環(huán)數(shù)達到最大值T或滿足終止條件時,更新回合數(shù),重置訓(xùn)練環(huán)境,直至最大回合N時結(jié)束訓(xùn)練,并提取動作網(wǎng)絡(luò)用于在線反應(yīng)式動作規(guī)劃。通過上述迭代過程,智能體可以根據(jù)自身與訓(xùn)練環(huán)境的交互不斷調(diào)整網(wǎng)絡(luò)參數(shù)以增強自身性能。

      3.3 基于漸進式學(xué)習(xí)策略的訓(xùn)練環(huán)境建模方法

      基于深度強化學(xué)習(xí)的動作規(guī)劃方法需要智能體與訓(xùn)練環(huán)境不斷交互以提升自身策略水平。為實現(xiàn)高效交互,提升訓(xùn)練效果,必須對訓(xùn)練環(huán)境進行合理設(shè)計。針對此需求,本文引入漸進式學(xué)習(xí)策略,提出如下可適配IFDS動作規(guī)劃算法的、具有規(guī)范化設(shè)計步驟的訓(xùn)練環(huán)境建模方法:

      1) 設(shè)計如式(22)的環(huán)境重置條件Φ,當(dāng)滿足條件Cond1、 Cond2或Cond3之一時,觸發(fā)重置條件。

      (22)

      式中:Cond1表示航天器進入包絡(luò)的后半球區(qū)域(即Cond1,a),且按進入時雙方的位置速度推演,一定步長Ω內(nèi)不會出現(xiàn)Γ(ΔX)≤1(即Cond1,b)的情況(可判定航天器已脫離危險);Cond2表示航天器與包絡(luò)發(fā)生接觸的情況;Cond3表示達到最大循環(huán)數(shù)的情況。

      3) 在環(huán)境中設(shè)置一個碎片群包絡(luò),繼而在一定邊界內(nèi),隨機給定包絡(luò)的形狀參數(shù)A,B,C和φ1,φ2,φ3。

      4) 在LVLH坐標(biāo)系下定義用于描述包絡(luò)相對航天器初始方位的角度χ∈[0, 2π]和γ∈[-0.5π, 0.5π],如圖4所示,其中,Rini表示包絡(luò)中心與航天器的初始距離。

      圖4 包絡(luò)初始方位角Fig.4 Initial azimuthal angles of the envelope

      5) 設(shè)定Rini∈[max(A,B,C)+ΔR,Rmax],其中,上限為航天器的最大探測距離Rmax,下限為包絡(luò)尺寸的最長半軸max(A,B,C)與一個確保航天器與包絡(luò)表面相對距離大于0的距離閾值ΔR之和,則包絡(luò)中心的初始位置為:

      XD=Rini·[cosγcosχ, cosγsinχ, sinγ]T

      (23)

      6) 設(shè)定包絡(luò)的初始速度Vini:

      (24)

      (25)

      式中:σV為標(biāo)準(zhǔn)差,Vbase,j為均值,clip表示相應(yīng)的截斷。

      然后進入如下循環(huán):

      當(dāng)處于訓(xùn)練回合j時,給定Vbase,j,按上述步驟生成相應(yīng)的訓(xùn)練場景。經(jīng)訓(xùn)練后,提取動作網(wǎng)絡(luò),在相同Vbase,j的條件下生成F個場景中進行Monte Carlo測試(本文中F=100):

      1)當(dāng)規(guī)避成功率大于等于設(shè)定閾值η時(本文中η=90%),可認為智能體已掌握面向此場景的有效應(yīng)對策略,則回合數(shù)j→j+1,并將均值平移ΔVbase,即:

      Vbase, j+1=Vbase, j+ΔVbase

      (26)

      2)當(dāng)規(guī)避成功率小于設(shè)定閾值η時,表示仍需要在此場景下繼續(xù)訓(xùn)練,則回合數(shù)j→j+1,但仍保持原有均值,即:

      Vbase, j+1=Vbase, j

      (27)

      (28)

      除了訓(xùn)練場景外,獎勵函數(shù)r的設(shè)計也遵循漸進式學(xué)習(xí)策略,如式(29)所示:

      (29)

      4 仿真校驗

      表1 航天器初始軌道根數(shù)Table 1 Spacecraft initial orbital elements

      表2 空間碎片群包絡(luò)參數(shù)Table 2 Parameters of envelopes of the space debris clusters

      不同時刻(總共1200 s)的航天器機動軌跡如圖5所示,各包絡(luò)Γ(ΔX)的最小值(表征與包絡(luò)等效表面的最近距離)如圖6所示,各軸軌控加速度如圖7所示。

      圖6 各包絡(luò)Γ(ΔX)的最小值Fig.6 Minimum values of Γ(ΔX)

      圖7 各軸軌控加速度Fig.7 Orbit control accelerations in each axis

      如圖5(a)所示,若航天器不進行規(guī)避,則將與包絡(luò)1發(fā)生交會,而基于本文方法實施機動后,航天器能夠順利規(guī)避密集分布的碎片群包絡(luò)1~4,如圖5(b)所示。如圖5(c)所示,若航天器不對突發(fā)包絡(luò)5做出及時反應(yīng),則預(yù)期在1093.1 s時雙方交會,此時本文方法迅速使航天器做出反應(yīng),實現(xiàn)對碎片群包絡(luò)5的安全規(guī)避,如圖5(d-e)所示。如圖6~7所示,所提方法可使航天器在輸入受限的情況下安全規(guī)避多發(fā)、突發(fā)、動態(tài)且形狀各異的空間碎片群包絡(luò),規(guī)避機動軌跡相對平滑,有利于控制器跟蹤,且根據(jù)統(tǒng)計,動作規(guī)劃算法的單步運行時間在6~8 ms范圍內(nèi)(均值約6.7 ms),可滿足相應(yīng)的快速反應(yīng)需求。

      表3 Monte Carlo測試結(jié)果Table 3 Monte Carlo test results

      圖8 訓(xùn)練過程中的獎勵函數(shù)Fig.8 Reward functions in the training processes

      結(jié)果可見,經(jīng)過16000回合充分訓(xùn)練后,二者獎勵函數(shù)和指標(biāo)數(shù)值基本趨同,且達到了較好的規(guī)避效果,表明本文方法和對比項均能使獎勵函數(shù)進入收斂狀態(tài)。對比項的獎勵函數(shù)總體較平滑,但與本文方法相比,當(dāng)訓(xùn)練回合數(shù)較低時(4000、7000和10000回合),對比項的規(guī)避成功率明顯偏低,而當(dāng)回合數(shù)較高時(13000回合),盡管二者規(guī)避成功率接近,但對比項整個規(guī)避過程的能量消耗要高于所提方法,表明在反應(yīng)式規(guī)劃方法中引入本文策略后可以提升訓(xùn)練效率,加快深度強化學(xué)習(xí)的收斂速度,且能夠使反應(yīng)式規(guī)劃方法生成質(zhì)量更高的規(guī)劃動作,證實了策略對深度強化學(xué)習(xí)訓(xùn)練的積極作用。所提方法的獎勵函數(shù)出現(xiàn)了幾次急劇下降的過程,原因在于漸進式學(xué)習(xí)策略的引入使得訓(xùn)練環(huán)境發(fā)生較大的變化,導(dǎo)致舊環(huán)境下訓(xùn)練成型的策略在新環(huán)境下短暫地陷入了局部最優(yōu)。不過經(jīng)過后續(xù)充分訓(xùn)練,智能體很快適應(yīng)了新的訓(xùn)練環(huán)境,從而不斷跳出局部最優(yōu)情況,使獎勵函數(shù)回升,最終進入收斂狀態(tài)。此外,盡管測試場景與訓(xùn)練場景存在一定差異,但經(jīng)過充分訓(xùn)練后的動作網(wǎng)絡(luò)在測試時仍具有較高的規(guī)避成功率,表明網(wǎng)絡(luò)具有較強的泛化能力。

      綜上所述,本文所提反應(yīng)式方法具有規(guī)劃質(zhì)量高、計算速度快等優(yōu)點,能夠滿足復(fù)雜空間碎片環(huán)境下的規(guī)避任務(wù)需求。

      5 結(jié) 論

      針對復(fù)雜的空間碎片環(huán)境,本文提出一種航天器反應(yīng)式規(guī)避動作規(guī)劃方法,該方法將IFDS和TD3兩種算法相結(jié)合,通過TD3在線優(yōu)化IFDS規(guī)劃參數(shù),實現(xiàn)對空間碎片群的“狀態(tài)-動作”最優(yōu)、快速規(guī)避決策。在此基礎(chǔ)上,引入優(yōu)先級經(jīng)驗回放和漸進式學(xué)習(xí)等策略提升所提方法的訓(xùn)練效率。仿真結(jié)果表明,面向多發(fā)、突發(fā)、動態(tài)且形狀各異的空間碎片群,所提方法能夠快速規(guī)劃出航天器的安全規(guī)避動作指令。

      猜你喜歡
      反應(yīng)式航天器規(guī)劃
      2022 年第二季度航天器發(fā)射統(tǒng)計
      國際太空(2022年7期)2022-08-16 09:52:50
      電極反應(yīng)式的書寫方法
      2019 年第二季度航天器發(fā)射統(tǒng)計
      國際太空(2019年9期)2019-10-23 01:55:34
      2018 年第三季度航天器發(fā)射統(tǒng)計
      國際太空(2018年12期)2019-01-28 12:53:20
      2018年第二季度航天器發(fā)射統(tǒng)計
      國際太空(2018年9期)2018-10-18 08:51:32
      規(guī)劃引領(lǐng)把握未來
      快遞業(yè)十三五規(guī)劃發(fā)布
      商周刊(2017年5期)2017-08-22 03:35:26
      多管齊下落實規(guī)劃
      迎接“十三五”規(guī)劃
      本刊數(shù)學(xué)式和反應(yīng)式的要求
      龙泉市| 历史| 丹江口市| 会东县| 墨江| 丰县| 鹰潭市| 张家界市| 保山市| 东莞市| 呼伦贝尔市| 荆州市| 平潭县| 河西区| 凤台县| 法库县| 西丰县| 和顺县| 利川市| 安庆市| 临猗县| 容城县| 留坝县| 通江县| 沅江市| 张家港市| 元阳县| 湘潭市| 柳河县| 湟中县| 苍梧县| 昌图县| 长汀县| 黔西县| 海伦市| 千阳县| 福鼎市| 三台县| 独山县| 乌拉特后旗| 九寨沟县|