• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度增強學習的衛(wèi)星姿態(tài)控制方法

      2019-10-15 05:44:14
      中國空間科學技術 2019年4期
      關鍵詞:姿態(tài)控制角速度姿態(tài)

      西安微電子技術研究所,西安 710065

      良好的姿態(tài)控制方法對空間衛(wèi)星的穩(wěn)定在軌運行至關重要。衛(wèi)星在軌運行中,由于燃料的長期消耗、載荷的在軌捕獲與釋放(如從宇宙飛船上釋放衛(wèi)星,捕獲目標、清除軌道垃圾等)、與其他航天器的對接等,且星體本身具有非線性、高階、時變等特性[1],都會導致系統(tǒng)的運動狀態(tài)及質量特性發(fā)生變化,且很多變化是劇烈的(如捕獲、釋放衛(wèi)星,與目標的對接等)、無法確知的(如對非合作目標的操作、軌道垃圾的清理等)[2]。現(xiàn)有的姿態(tài)控制算法大部分依賴被控對象的質量參數(shù)(包括質量、轉動慣量等),需要通過各種手段辨識其質量參數(shù),此種情況下難以給出準確的參數(shù)辨識[3-4],且此類系統(tǒng)動力學模型復雜,具有較強的非線性,容易導致現(xiàn)有的姿態(tài)控制系統(tǒng)失效[5]。因此,迫切需要一種高自主的具備高度智能化程度的姿態(tài)控制技術,解決傳統(tǒng)控制難以對付的航天器質量特性在軌變化情況下的航天器高性能控制問題。

      目前,衛(wèi)星姿態(tài)控制的實際問題是外部干擾、轉動慣量的不確定性和模型的非線性問題[6]。針對此類復雜情況下的姿態(tài)控制問題,文獻[7]基于Backstepping法,設計能解決轉動慣量不確定的自適應控制律,可以解決系統(tǒng)Lyapunov函數(shù)構造困難的問題。Yoon等人針對航天器姿態(tài)控制中存在慣量的不確定性,提出了一種非線性哈密頓MIMO系統(tǒng)新型控制律[8]。Queiroz等人利用完整系統(tǒng)的動力學模型設計了非線性自適應控制,證明了在干擾為未知量的情況下閉環(huán)系統(tǒng)的跟蹤誤差全局漸進收斂[9]。苗雙全利用一種自適應滑??刂撇呗越鉀Q了大型撓性航天器機動過程中出現(xiàn)的振動問題[10]??偟膩砜?,目前面向空間飛行器姿態(tài)控制的算法智能化程度低,且通常都是針對具體應用進行設計,不具備普適性。所以,隨著航天探索任務復雜程度的不斷提高,需要設計一種具備高度智能化程度的姿態(tài)控制技術。

      深度增強學習是直接從高維原始數(shù)據(jù)學習控制策略的一項技術[11],為了解決從感知到?jīng)Q策的計算機控制問題,從而實現(xiàn)通用人工智能。它在過去兩年中得到了迅速發(fā)展,并在視頻游戲和機器人領域取得了突破性進展[12]。而DQN(Deep Q Network)是深度增強學習的典型算法之一,它將神經(jīng)網(wǎng)絡和Q-Learning結合起來,輸入是原始圖像數(shù)據(jù),輸出則是每個動作對應的價值評估(Q值)[13]。2013年Google公司的DeepMind團隊在NIPS的深度學習研討會上提出DQN算法[14],在Atari游戲平臺展示了此類算法在智能決策方面的巨大應用潛力。

      本文擬采用深度增強學習算法,針對空間衛(wèi)星智能姿態(tài)控制問題,提出一種通過自主學習實現(xiàn)衛(wèi)星智能姿態(tài)控制的方法,突破現(xiàn)有方法被控對象依賴復雜動力學模型和嚴格質量參數(shù)的局限,解決遭遇突發(fā)隨機擾動的衛(wèi)星姿態(tài)不穩(wěn)定問題,提高姿態(tài)控制算法的姿態(tài)穩(wěn)定度和控制精度。

      1 姿態(tài)控制方法

      本文將衛(wèi)星智能姿態(tài)控制問題定義為:軌道坐標系上保持穩(wěn)定姿態(tài)角速度運轉的空間衛(wèi)星,在遭遇突發(fā)擾動姿態(tài)發(fā)生變化后,如何操作控制力矩以穩(wěn)定衛(wèi)星的姿態(tài)為初始狀態(tài)。已有的傳統(tǒng)解決方法PD控制器由于依賴嚴格的質量參數(shù)條件,往往使得輸出的姿態(tài)角速度發(fā)散。為此這里使用深度增強學習技術解決這一問題,過程分為如下兩步:1)搭建隨機擾動下控制力矩與姿態(tài)角速度互相反饋的動力學環(huán)境;2)使用DQN算法進行控制力矩的深度增強訓練。設計流程如圖1所示。

      圖1 基于深度增強學習的衛(wèi)星姿態(tài)控制方法示意Fig.1 Sketch map of satellite attitude control method based on deep reinforcement learning

      1.1 動力學環(huán)境搭建

      為了研究衛(wèi)星姿態(tài)控制問題,本文基于空間衛(wèi)星的動態(tài)特性建立了軌道坐標系; 也就是說,坐標原點位于衛(wèi)星的質心,Z軸指向地球中心,Y軸位于衛(wèi)星軌道平面的負法線,X,Y和Z軸構成一個右手系統(tǒng)。 同時為描述衛(wèi)星姿態(tài)在力矩作用下的運動情況,需建立正確的姿態(tài)動力學和運動學模型[15]。

      (1)建立姿態(tài)動力學模型方程

      衛(wèi)星的動力學模型由單剛體的歐拉動力學方程描述如下:

      (1)

      式中:T為作用于剛體質心上的控制力矩;I為剛體的轉動慣量矩陣;ω=[ωxωyωz]T為剛體的姿態(tài)角速度。若已知姿態(tài)角速度的初值為ω0,給定控制力矩T,將I設為定值,則能夠通過積分式(1)得到任意時刻衛(wèi)星的姿態(tài)角速度。

      (2)建立姿態(tài)運動學模型方程

      由于衛(wèi)星的姿態(tài)可通過姿態(tài)四元數(shù)來表征。下式為衛(wèi)星基于四元數(shù)的姿態(tài)運動學方程,ω=[ωxωyωz]T為衛(wèi)星的姿態(tài)角速度,若已知衛(wèi)星在初始時刻的姿態(tài)四元數(shù)為Q0,則可通過積分表示衛(wèi)星在任意時刻的姿態(tài)。

      (2)

      (3)搭建動力學環(huán)境

      搭建動力學環(huán)境過程如下:

      第1步,初始化衛(wèi)星的姿態(tài)角速度ω0及姿態(tài)四元數(shù)Q0;

      第2步,給定一個隨機擾動力矩Tr,設定周期為I;

      第3步,依次對式(1)(2)積分,求解第i(i=1,…,I)個周期內的姿態(tài)角速度ωi及姿態(tài)四元數(shù)Qi,循環(huán)輸出整個周期的姿態(tài)(ω,Q);

      第4步,以(ω,Q)作為衛(wèi)星的初始姿態(tài)輸入到神經(jīng)網(wǎng)絡中,返回至第3步,不斷循環(huán)。

      作為對比,引入PD控制的方法,同樣以此向量作為衛(wèi)星的初始姿態(tài)輸入到PD控制器中,輸出控制力矩。

      1.2 深度增強訓練

      本節(jié)在動力學環(huán)境的基礎上,以衛(wèi)星姿態(tài)為輸入,使用DQN算法智能輸出衛(wèi)星的控制力矩[16],并送入動力學環(huán)境中獲得衛(wèi)星姿態(tài),繼續(xù)輸入到神經(jīng)網(wǎng)絡中訓練權重。

      (1)離散化控制力矩的連續(xù)輸出

      DQN是一個面向離散控制的算法,即輸出的Action是離散的,無法輸出連續(xù)的Action,因為Q值的更新需要通過求最大的Action來實現(xiàn)。然而在要解決的衛(wèi)星控制問題中,控制力矩的輸出是連續(xù)高維的,無法使用傳統(tǒng)的DQN解決,故此處對輸出的控制力矩進行離散化。

      衛(wèi)星的控制力矩是一個三維向量T=[TxTyTz]T,設定控制力矩中每一個方向分量的取值范圍,如Tx∈[ax,bx],Ty∈[ay,by],Tz∈[az,bz],分別等分Tx、Ty、Tz為5等份,為每一份設置標志向量,分別為[1 0 0 0 0]、[0 1 0 0 0]、[0 0 1 0 0]、[0 0 0 1 0]、[0 0 0 0 1],以此向量代表控制力矩進行Q值迭代。

      (2) 定義reward函數(shù)及終止條件

      深度增強訓練的目標是輸出衛(wèi)星的控制力矩,使得衛(wèi)星的姿態(tài)角速度與期望姿態(tài)角速度之間的誤差越來越小,衡量的標準是得到盡可能多的回報,因此獎勵(reward)函數(shù)需要具有角速度差值(定義為error)越小,reward越大的性質,適用的高斯函數(shù)如下:

      (3)

      前述DQN算法中提到了訓練中需要設置任務的終止條件,要為每一次輸出的控制力矩進行是否完成任務的判斷,即此力矩能否使衛(wèi)星姿態(tài)恢復穩(wěn)定。此處根據(jù)衛(wèi)星姿態(tài)角速度的取值范圍,定義每次迭代姿態(tài)角速度與期望姿態(tài)角速度之間的誤差處于某個確定范圍時,任務繼續(xù)訓練,反之任務終止。

      (3) 神經(jīng)網(wǎng)絡訓練流程

      本文使用兩層的全連接神經(jīng)網(wǎng)絡,以衛(wèi)星當前的姿態(tài)角速度和姿態(tài)四元數(shù)作為輸入,輸出一個數(shù)值指示控制力矩大小的概率。與卷積神經(jīng)網(wǎng)絡不同,每個神經(jīng)元僅連接到少量神經(jīng)元[17],全連接神經(jīng)網(wǎng)絡連接到上層的所有神經(jīng)元。綜上,基于DQN的深度增強訓練流程如下:

      1)初始化經(jīng)驗池D的容量為N,用于存儲訓練的樣本。

      2)用一個深度神經(jīng)網(wǎng)絡作為Q值網(wǎng)絡,初始化權重參數(shù)θ。

      3)設定控制任務訓練總數(shù)M,初始化網(wǎng)絡輸入狀態(tài)x1,并且計算網(wǎng)絡輸出a1。循環(huán)開始:

      ②在環(huán)境中執(zhí)行at后,得到獎勵rt和下一個網(wǎng)絡的輸入xt+1;

      ③將4個參數(shù)(xtatrtxt+1)作為此刻的狀態(tài)一起存入D中(D中存放著N個時刻的狀態(tài));

      ④當D積累到一定程度,每次執(zhí)行完①~③步后再隨機從D中取出minibatch個狀態(tài);

      ⑤計算每一個狀態(tài)(xjajrjxj+1)的目標值yj=

      ⑥通過SGD更新網(wǎng)絡權重參數(shù),使用均方差定義損失函數(shù)[yj-Q(xj,aj;θ)]2,返回①,循環(huán)執(zhí)行,不斷訓練模型。

      4)多次訓練,獲得模型。

      2 仿真試驗

      為驗證所提出方法的有效性,本節(jié)進行了仿真試驗。首先利用動力學模型模擬衛(wèi)星在太空中的運動狀態(tài),然后為模擬衛(wèi)星執(zhí)行的目標捕獲或載荷釋放等任務,在上述動力學模型的基礎上對衛(wèi)星施加一個隨機擾動力矩,并同時隨機改變轉動慣量以模擬衛(wèi)星質量參數(shù)變化。所提出的方法應在此狀態(tài)下不斷輸出控制力矩,以控制衛(wèi)星恢復穩(wěn)定的飛行姿態(tài)。

      具體來說,定義隨機擾動力矩Tr=10-8×[0.5 -0.5 0.5]T×r,其中r為隨機數(shù)。初始化衛(wèi)星的姿態(tài)角速度ω0=[0.001,0.001,0.001]Trad/s及姿態(tài)四元數(shù)Q0=[1 0 0 0]T。姿態(tài)控制算法在此擾動后,不斷輸出控制力矩,使衛(wèi)星的姿態(tài)角速度能夠收斂到一定值,且此值與期望姿態(tài)角速度ω0之間的誤差趨于零時,說明姿態(tài)控制算法具有有效性。作為對比,本文同樣仿真基于PD控制器的傳統(tǒng)姿態(tài)控制方法,并輸出了控制結果。算法在Anaconda3軟件包和TensorFlow深度學習軟件框架的基礎上實現(xiàn)。

      2.1 基于PD控制器的姿態(tài)控制

      PD控制器嚴格依賴于被控對象的質量參數(shù)即轉動慣量I,當I隨機取一定值時,衛(wèi)星遭遇干擾后迭代30次的姿態(tài)角速度及其誤差如圖2所示。圖2表明,隨著迭代次數(shù)的增加,姿態(tài)角速度與期望姿態(tài)角速度的誤差均逐漸增大未能收斂,這一發(fā)散的姿態(tài)角速度誤差表明衛(wèi)星不能保持姿態(tài)穩(wěn)定。

      2.2 基于DQN訓練的姿態(tài)控制

      定義循環(huán)次數(shù)為3 000,訓練前觀測的時間步為1 000,經(jīng)驗池的容量為500,觀測的衰減率為0.99,將遭遇干擾的動力學模型作為環(huán)境,轉動慣量矩陣隨機取值,進行基于DQN算法的深度增強訓練。每迭代100次記1次衛(wèi)星的姿態(tài)角速度及誤差向量,并展示其迭代3 000次的變化趨勢如圖3~圖5所示。

      圖2 姿態(tài)角速度及其誤差的發(fā)散曲線Fig.2 Divergent curve of the attitude angular velocity and its error

      圖3 姿態(tài)角速度及其誤差的x分量變化曲線Fig.3 Varying curve of attitude angular velocity and its error of x

      圖4 姿態(tài)角速度及其誤差的y分量變化曲線Fig.4 Varying curve of attitude angular velocity and its error of y

      圖5 姿態(tài)角速度及其誤差的z分量變化曲線Fig.5 Varying curve of attitude angular velocity and its error of z

      姿態(tài)角速度3個方向分量的變化曲線表明,隨著迭代次數(shù)的增加,衛(wèi)星的姿態(tài)角速度收斂于[0.000 985 37,0.001 004 03,0.001 002 19] rad/s,與期望姿態(tài)角速度的誤差收斂于[1.463 389 90×10-5,4.029 654 22×10-6,2.192 512 30×10-6] rad/s,誤差變化曲線表明,3個分量的值均減小并收斂,說明衛(wèi)星姿態(tài)達到穩(wěn)定狀態(tài),基于DQN的姿態(tài)控制方法具有有效性。與圖2的對比也驗證了這一算法在隨機參數(shù)變化下仍具有穩(wěn)定衛(wèi)星姿態(tài)的性能優(yōu)勢。

      每迭代100次記錄1次reward的平均值,并繪圖如圖6所示。由圖6可以看出reward函數(shù)遵循減函數(shù)的性質,從快速提升到基本達到了高峰,說明增強學習取得了最優(yōu)決策。

      圖6 reward的變化曲線Fig.6 Varying curve of reward

      綜上,當轉動慣量隨機取值時,DQN能夠獲得控制力矩的最優(yōu)智能輸出,也即DQN并不依賴于被控對象的質量參數(shù),能夠在衛(wèi)星受到突發(fā)的隨機擾動后自主地對衛(wèi)星姿態(tài)進行穩(wěn)定,可以解決傳統(tǒng)的PD控制器無法解決的復雜任務中的衛(wèi)星姿態(tài)穩(wěn)定問題。

      然而,本文提出的姿態(tài)控制方法的系統(tǒng)穩(wěn)定性目前還不能保證,盡管模擬的仿真動力學環(huán)境中能夠很好地在衛(wèi)星受到突發(fā)隨機擾動后控制衛(wèi)星的姿態(tài),但真實星上環(huán)境復雜,干擾眾多,計算資源有限,在模擬環(huán)境中訓練好的智能體還不能直接應用于真實空間環(huán)境中的星上姿態(tài)控制,還需要進一步模擬更加完善的空間環(huán)境,以便進一步訓練更好的智能體,從而保證系統(tǒng)的穩(wěn)定性。

      3 結束語

      本文提出的基于深度增強學習的衛(wèi)星姿態(tài)控制方法是一種基于學習(訓練)的方法,學習階段是在地面上進行的。在學習階段之后,獲得一個訓練好的神經(jīng)網(wǎng)絡模型作為智能體,直接將其應用于衛(wèi)星,智能體將充當大腦來控制仿真動力學環(huán)境中的衛(wèi)星的飛行姿態(tài)。在本文中,訓練好的智能體的有效性在仿真動力學環(huán)境中已經(jīng)得到了驗證。

      目前僅在仿真動力學環(huán)境中驗證了本文所提方法的有效性,還未開展應用于星上的研究,暫未考慮快速性。下一步的工作,計劃搭建地面半實物仿真試驗系統(tǒng),利用二維伺服轉臺模擬衛(wèi)星在軌飛行真實姿態(tài),仿真過程中將傳感器(陀螺儀、加速度計等)安裝在轉臺上以采集控制系統(tǒng)所需輸入信息,以伺服控制技術模擬控制器輸出,從而對在動力學仿真環(huán)境中提出的姿態(tài)控制方法進行訓練和測試。待到智能體訓練得足夠好時,最終將訓練好的智能體直接應用于星上,根據(jù)衛(wèi)星當下的姿態(tài)在線實時得到控制序列,并作用于衛(wèi)星的發(fā)動機上,達到控制衛(wèi)星姿態(tài)的目的。

      猜你喜歡
      姿態(tài)控制角速度姿態(tài)
      風擾動下空投型AUV的飛行姿態(tài)控制研究
      攀爬的姿態(tài)
      學生天地(2020年3期)2020-08-25 09:04:16
      全新一代宋的新姿態(tài)
      汽車觀察(2018年9期)2018-10-23 05:46:40
      跑與走的姿態(tài)
      中國自行車(2018年8期)2018-09-26 06:53:44
      多星發(fā)射上面級主動抗擾姿態(tài)控制技術研究
      自動化學報(2018年2期)2018-04-12 05:46:05
      圓周運動角速度測量方法賞析
      基于UC/OS-II四旋翼姿態(tài)控制系統(tǒng)設計
      半捷聯(lián)雷達導引頭視線角速度提取
      基于構架點頭角速度的軌道垂向長波不平順在線檢測
      組合式航天器分離后姿態(tài)控制器設計
      邻水| 沾益县| 隆安县| 云林县| 杭锦后旗| 兰州市| 正蓝旗| 五常市| 中超| 长海县| 永安市| 浠水县| 赤水市| 锦屏县| 丰都县| 新宁县| 冕宁县| 榆中县| 太康县| 米易县| 慈利县| 阳东县| 理塘县| 洪江市| 乐东| 措勤县| 什邡市| 衢州市| 永昌县| 抚顺市| 定南县| 莫力| 南召县| 九寨沟县| 彭水| 扎赉特旗| 靖远县| 郸城县| 邵阳县| 达州市| 剑河县|