• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      再入飛行器自適應(yīng)最優(yōu)姿態(tài)控制

      2019-03-14 09:48:06張振寧聶文明李惠峰
      宇航學(xué)報(bào) 2019年2期
      關(guān)鍵詞:姿態(tài)控制最優(yōu)控制飛行器

      張振寧,張 冉,聶文明,李惠峰

      (北京航空航天大學(xué)宇航學(xué)院,北京100191)

      0 引 言

      航天任務(wù)中,姿態(tài)控制器的設(shè)計(jì)是飛行器設(shè)計(jì)的關(guān)鍵環(huán)節(jié)之一,其控制性能與任務(wù)能否成功密切相關(guān)。姿態(tài)控制精度、收斂時(shí)間、控制量需求是衡量控制性能的主要因素。目前,再入飛行器的姿態(tài)控制器設(shè)計(jì)思路主要有兩種。一是線性設(shè)計(jì)方法,對(duì)飛行器原始模型在選定工作點(diǎn)處進(jìn)行小擾動(dòng)線性化,采用線性系統(tǒng)理論及增益整定得到全彈道控制器[1]。但再入飛行包線大,速度通常在5馬赫以上,存在極強(qiáng)非線性特征,因此在機(jī)動(dòng)過(guò)程中采用線性控制器容易產(chǎn)生失穩(wěn)現(xiàn)象。二是非線性設(shè)計(jì)方法,它一定程度上體現(xiàn)了模型中的非線性因素,如:反饋線性化方法[2-3]通過(guò)嚴(yán)格的狀態(tài)變化與反饋將非線性系統(tǒng)代數(shù)地轉(zhuǎn)化為線性系統(tǒng),再應(yīng)用線性系統(tǒng)理論設(shè)計(jì)控制器,但有相當(dāng)多的系統(tǒng)無(wú)法進(jìn)行反饋線性化;反步法[3]通過(guò)對(duì)系統(tǒng)進(jìn)行多步遞推設(shè)計(jì),獲得較好的全局或局部穩(wěn)定性,但容易發(fā)生微分膨脹現(xiàn)象;滑模法[5-6]以一階鎮(zhèn)定問(wèn)題取代原高階跟蹤問(wèn)題,設(shè)計(jì)過(guò)程比較簡(jiǎn)單且性能很好,文獻(xiàn)[7]還用神經(jīng)網(wǎng)絡(luò)對(duì)估計(jì)模型、耦合等擾動(dòng)進(jìn)行估計(jì),進(jìn)一步改善了控制性能,但該方法容易出現(xiàn)控制量的顫振。

      近年來(lái),最優(yōu)控制理論已成為現(xiàn)代控制系統(tǒng)設(shè)計(jì)的基礎(chǔ)理論之一。針對(duì)再入飛行器的姿態(tài)控制,通過(guò)最優(yōu)控制理論設(shè)計(jì)控制器可以最大程度優(yōu)化舵面偏轉(zhuǎn)量、姿態(tài)跟蹤精度和速度等性能。動(dòng)態(tài)規(guī)劃作為一種傳統(tǒng)的最優(yōu)控制問(wèn)題求解方法,由于“維數(shù)災(zāi)難”導(dǎo)致Hamilton-Jacobian-Bellman(HJB)方程難以直接求解。隨著計(jì)算技術(shù)的不斷進(jìn)步,求解HJB方程的迭代方法得到廣泛探索。Werbos[8]首先提出了自適應(yīng)動(dòng)態(tài)規(guī)劃(Adaptive dynamic programming,ADP),建立執(zhí)行-評(píng)價(jià)估計(jì)結(jié)構(gòu),并通過(guò)值迭代方法求解。Al-Tamimi等[9]證明了這種方法在離散系統(tǒng)上的收斂性。 近幾年,Xu等[10]、Lakshmikanth等[11]學(xué)者將該方法直接應(yīng)用于連續(xù)系統(tǒng),但對(duì)數(shù)據(jù)采樣時(shí)間的苛刻要求導(dǎo)致算法收斂性難以保證,且加重了計(jì)算負(fù)擔(dān)。為使連續(xù)系統(tǒng)的HJB方程求解更加穩(wěn)定,基于策略迭代提出的積分型強(qiáng)化學(xué)習(xí)(Integral reinforcement learning,IRL)算法作為一種新興算法受到廣泛關(guān)注[12-13],該算法采用評(píng)價(jià)和執(zhí)行兩個(gè)網(wǎng)絡(luò)分別估計(jì)值函數(shù)和控制策略,并同時(shí)更新直到兩個(gè)網(wǎng)絡(luò)均收斂到最優(yōu)。Modares等[14]針對(duì)最優(yōu)跟蹤問(wèn)題,提出了一種非二次型的代價(jià)函數(shù),采用IRL算法完成了跟蹤控制器的設(shè)計(jì);Wang等[15]在Modares等[14]工作的基礎(chǔ)上通過(guò)修改代價(jià)函數(shù)設(shè)計(jì)了魯棒跟蹤控制器; Lee等[16]對(duì)IRL算法的收斂性進(jìn)行了深入研究,并提出了四種衍生算法;Song等[17]通過(guò)將Off-Policy與IRL算法結(jié)合,大大減弱了控制器對(duì)模型的依賴(lài)性。以上研究均采用執(zhí)行-評(píng)價(jià)雙網(wǎng)絡(luò)結(jié)構(gòu)對(duì)HJB方程進(jìn)行求解,但雙網(wǎng)絡(luò)結(jié)構(gòu)的計(jì)算效率和所占用的存儲(chǔ)空間不能滿(mǎn)足目前再入飛行器姿態(tài)控制器的設(shè)計(jì)要求。

      本文提出了單網(wǎng)絡(luò)積分型強(qiáng)化學(xué)習(xí)(Single-network integral reinforcement learning, SNIRL)算法,將原評(píng)價(jià)-執(zhí)行結(jié)構(gòu)中執(zhí)行網(wǎng)絡(luò)的迭代過(guò)程用解析式表達(dá),保留評(píng)價(jià)網(wǎng)絡(luò)的迭代對(duì)值函數(shù)進(jìn)行估計(jì),減少了近一半的計(jì)算量和存儲(chǔ)空間。該算法的收斂性及閉環(huán)系統(tǒng)的穩(wěn)定性均通過(guò)李雅普諾夫穩(wěn)定性理論得到了證明。

      本文的結(jié)構(gòu)如下:第1節(jié)構(gòu)建再入飛行器的最優(yōu)姿態(tài)控制問(wèn)題;第2節(jié)在策略迭代框架下用評(píng)價(jià)網(wǎng)絡(luò)估計(jì)值函數(shù),采用SNIRL算法求解最優(yōu)控制問(wèn)題,設(shè)計(jì)姿態(tài)控制器;第3節(jié)給出算法收斂性和系統(tǒng)穩(wěn)定性證明;第4節(jié)進(jìn)行縱向和橫側(cè)向姿態(tài)控制仿真。

      1 問(wèn)題描述

      從最優(yōu)控制角度出發(fā),將再入飛行器的姿態(tài)控制問(wèn)題建模為最優(yōu)控制問(wèn)題。

      參考文獻(xiàn)[18],用于控制器設(shè)計(jì)的再入飛行器模型為

      (1)

      式中:α為攻角,β為側(cè)滑角,μ為傾側(cè)角,p為偏航角速率,q為俯仰角速率,q為滾轉(zhuǎn)角速率;g為地球引力加速度,取常值;Ix,Iy,Ixz為轉(zhuǎn)動(dòng)慣量,也為常值;Z為升力,Y為橫向力,L為滾轉(zhuǎn)力矩,N為偏航力矩,M為俯仰力矩,X(·)表示X對(duì)(·)的偏導(dǎo)數(shù)(例如Mα表示俯仰力矩對(duì)攻角的偏導(dǎo)數(shù))。

      該模型是在原始模型上進(jìn)行適當(dāng)簡(jiǎn)化后的仿射模型,不包含速度及位置的相關(guān)狀態(tài),控制量顯式出現(xiàn)在方程中,可簡(jiǎn)寫(xiě)為

      (2)

      式中:x∈Rn為狀態(tài)量,u∈Rm為控制輸入;F(x)∈Rn,G(x)∈Rn×m是只與x相關(guān)的非線性函數(shù)。

      最優(yōu)控制策略可以通過(guò)最小化某個(gè)人為選擇的代價(jià)函數(shù)V(在ADP中也稱(chēng)為值函數(shù))得到,V的形式為

      (3)

      式中:

      r(x,u)=Q(x)+uTRu

      (4)

      最優(yōu)控制問(wèn)題描述為:對(duì)于由方程組(2)定義的系統(tǒng),尋找最優(yōu)控制策略u(píng)*,最小化代價(jià)函數(shù)(3)。

      容許控制[19]定義為:若F+Gu在集合Ω∈RN上連續(xù),μ在Ω上連續(xù)且μ(0)=0,若μ在Ω上鎮(zhèn)定系統(tǒng)(2)且對(duì)?x0∈Ω,V(x0)有界,則稱(chēng)μ容許控制,記作μ∈Ψ(Ω)。

      對(duì)μ∈Ψ(Ω),可以將式(3)轉(zhuǎn)化為極小形式,它是一個(gè)李雅普諾夫方程

      (5)

      式中:Vx表示V對(duì)x的偏導(dǎo)。

      這個(gè)無(wú)限時(shí)間最優(yōu)控制問(wèn)題的哈密頓方程為

      (6)

      根據(jù)極大值原理,最優(yōu)控制μ*可通過(guò)最小化式(6)得到。實(shí)際上對(duì)形如式(2)的系統(tǒng),對(duì)式(6)應(yīng)用駐點(diǎn)條件,能得到最優(yōu)控制策略與最優(yōu)代價(jià)函數(shù)的關(guān)系,為

      (7)

      (8)

      2 自適應(yīng)最優(yōu)姿態(tài)控制器設(shè)計(jì)

      將策略迭代作為算法框架,保證迭代計(jì)算結(jié)果向最優(yōu)控制律收斂;設(shè)計(jì)評(píng)價(jià)網(wǎng)絡(luò),在迭代計(jì)算中估計(jì)值函數(shù);最后提出SNIRL算法使估計(jì)值向最優(yōu)值收斂,完成求解,得到自適應(yīng)最優(yōu)控制器。

      2.1 策略迭代

      策略迭代是利用強(qiáng)化學(xué)習(xí)求解最優(yōu)控制問(wèn)題的一種迭代方法。具體過(guò)程為:

      (1)確定當(dāng)前控制策略下的值函數(shù)

      (9)

      (2)求解最小化哈密頓方程的控制策略,并對(duì)當(dāng)前控制策略進(jìn)行更新

      (10)

      事實(shí)上,對(duì)系統(tǒng)(2),通過(guò)式(10)可以解析得到

      (11)

      (3)在步驟(1)和步驟(2)之間不斷迭代直至收斂。

      當(dāng)初始控制策略為容許控制時(shí),該算法過(guò)程中的每次迭代都會(huì)使得控制策略向更優(yōu)的方向收斂,并最終收斂到最優(yōu)控制策略u(píng)*(x)以及相應(yīng)的最優(yōu)代價(jià)函數(shù)V*(x)。該算法的收斂性在早年文獻(xiàn)中已有證明[21]。

      針對(duì)由式(2)~式(3)構(gòu)成的最優(yōu)控制問(wèn)題,策略迭代過(guò)程包括依據(jù)式(5)進(jìn)行策略評(píng)價(jià)(即確定值函數(shù)),以及依據(jù)式(7)進(jìn)行策略更新。

      2.2 評(píng)價(jià)網(wǎng)絡(luò)設(shè)計(jì)

      從第1節(jié)的分析可以看出,控制策略對(duì)應(yīng)的值函數(shù)難以求解,導(dǎo)致策略迭代過(guò)程的步驟1無(wú)法實(shí)現(xiàn),故設(shè)計(jì)評(píng)價(jià)網(wǎng)絡(luò)估計(jì)值函數(shù)。

      選取Φ(x)=[φ1(x),φ2(x),…,φN(x)]T保證φ1(x),φ2(x),…,φN(x)互相獨(dú)立,并對(duì)Φ(x)各元素加權(quán)達(dá)到估計(jì)值函數(shù)的目的,該估計(jì)結(jié)構(gòu)被稱(chēng)為評(píng)價(jià)網(wǎng)絡(luò),其表達(dá)式為

      V=WTΦ(x)+ε

      式中:W∈RN為網(wǎng)絡(luò)權(quán)重,Φ(x):Rn→RN為激勵(lì)函數(shù),ε為估計(jì)誤差。

      在上述估計(jì)結(jié)構(gòu)下,值函數(shù)V對(duì)狀態(tài)量x的偏導(dǎo)為

      (12)

      在計(jì)算過(guò)程中,由于W為未知量,故采用其估計(jì)量來(lái)推動(dòng)迭代運(yùn)行

      (13)

      2.3 基于單網(wǎng)絡(luò)積分型強(qiáng)化學(xué)習(xí)的控制器設(shè)計(jì)

      將網(wǎng)絡(luò)當(dāng)前輸出與期望輸出之間的差異描述為誤差函數(shù)

      (14)

      迭代過(guò)程中采用式(13)估計(jì)值函數(shù)后,誤差函數(shù)為

      (15)

      采用梯度下降法調(diào)整網(wǎng)絡(luò)權(quán)重最小化Δ,從而使網(wǎng)絡(luò)輸出向期望輸出收斂,首先定義最小方差形式代價(jià)函數(shù)

      (16)

      (17)

      為增強(qiáng)梯度下降法在求解多維方程組時(shí)的性能,借鑒Levenberg-Marquardt算法在式(17)中加入歸一化處理項(xiàng)得到

      (18)

      式中:a∈R+為學(xué)習(xí)速率,

      (19)

      在IRL算法中,用于估計(jì)控制策略的執(zhí)行網(wǎng)絡(luò)結(jié)構(gòu)為

      (20)

      Vamvoudakis等[13]和Zhang等[15]提出了一種“非標(biāo)準(zhǔn)形式的更新律”來(lái)更新執(zhí)行網(wǎng)絡(luò)。在文獻(xiàn)[13]中,這一更新律為

      式中:aact是學(xué)習(xí)速率,為常值;ms=(T最后一項(xiàng)是為李雅普諾夫穩(wěn)定性證明增加的量。

      圖1 算法流程Fig.1 Algorithm progress

      基于以上猜想,提出SNIRL算法,下面給出整個(gè)算法流程。

      (21)

      求解。

      (3)相應(yīng)的控制策略的計(jì)算式為

      (22)

      SNIRL算法將IRL算法中執(zhí)行網(wǎng)絡(luò)的迭代過(guò)程替換為解析式(22),單網(wǎng)絡(luò)的設(shè)計(jì)使得算法結(jié)構(gòu)更加簡(jiǎn)潔。該算法使初始給出的容許控制在迭代過(guò)程中逐步收斂到最優(yōu)控制策略。

      整個(gè)控制系統(tǒng)的結(jié)構(gòu)如圖1所示。圖中xcmd為指令信號(hào);自適應(yīng)最優(yōu)控制策略記為uN,通過(guò)SNIRL求解最優(yōu)控制問(wèn)題獲得;前饋網(wǎng)絡(luò)是一個(gè)神經(jīng)網(wǎng)絡(luò),作用是對(duì)飛行器配平點(diǎn)進(jìn)行擬合,給出前饋控制量uF。總控制策略為

      utotal=uN+uF

      (23)

      圖2 控制系統(tǒng)結(jié)構(gòu)圖Fig.2 Control system structure

      3 性能分析

      下面進(jìn)行算法的收斂性分析。

      取李雅普諾夫候選函數(shù)

      記ξ=(T+1)2,L的導(dǎo)數(shù)為

      由柯西不等式:

      由于實(shí)數(shù)具有稠密性,?κ,使

      因此只要

      為了增強(qiáng)參數(shù)調(diào)節(jié)的靈活性,在實(shí)際應(yīng)用時(shí),學(xué)習(xí)速率取

      a=diag(a1,a2,a3,…,aN)

      (24)

      式中:a1,a2,…,aN∈R+,為常值。

      下面在代價(jià)函數(shù)為二次型,即C=xTQx+uTRu時(shí),給出閉環(huán)系統(tǒng)穩(wěn)定性分析。

      定理2. 對(duì)系統(tǒng)(2),當(dāng)網(wǎng)絡(luò)更新律為式(18),控制律由式(22)計(jì)算時(shí),存在時(shí)間T,使得x(t)一致最終有界。且

      式中:η>0,λmin(Q)為矩陣Q的最小特征值。

      證. 考慮指令信號(hào)xcmd,記z=x-xcmd,有:

      (25)

      由式(8)得

      (26)

      對(duì)V(z)沿式(25)取時(shí)間導(dǎo)數(shù),有

      (27)

      代入式(26),得

      (28)

      將式(22)代入式(28),得

      考慮到R正定,有

      則η有界且

      4 仿真校驗(yàn)

      本節(jié)以X33為對(duì)象,分縱向和橫側(cè)向?qū)ψ赃m應(yīng)最優(yōu)姿態(tài)控制器進(jìn)行仿真校驗(yàn)。在縱向姿態(tài)仿真中與IRL算法進(jìn)行對(duì)比,驗(yàn)證SNIRL可以提升收斂速度和計(jì)算效率,節(jié)省存儲(chǔ)空間;同時(shí)在兩種仿真中均以相同的Q,R矩陣設(shè)計(jì)傳統(tǒng)的LQR控制器作為對(duì)比,對(duì)自適應(yīng)最優(yōu)控制器的有效性進(jìn)行校驗(yàn)。

      4.1 縱向姿態(tài)控制

      在高度h=45.09 km,速度v=3748 m/s,α=10°的工況下,給出機(jī)動(dòng)指令αcmd=13°。

      值函數(shù)由式(3)確定,式中:

      權(quán)重記為

      激勵(lì)函數(shù)φ定義為

      故有

      初始權(quán)重為

      圖2給出了SNIRL算法及雙網(wǎng)絡(luò)的IRL算法的權(quán)重收斂過(guò)程圖。圖中Wcritic和Wactor分別為IRL算法的評(píng)價(jià)網(wǎng)絡(luò)權(quán)重和執(zhí)行網(wǎng)絡(luò)權(quán)重,W為SNIRL算法的評(píng)價(jià)網(wǎng)絡(luò)權(quán)重。兩種算法的權(quán)重均最終收斂到

      圖3為兩種算法的權(quán)重收斂過(guò)程圖,下表為對(duì)兩種算法的計(jì)算時(shí)間、存儲(chǔ)占用、收斂時(shí)間的統(tǒng)計(jì):

      表1 SNIRL與IRL算法對(duì)比Table 1 Comparison of SNIRL and IRL

      在迭代過(guò)程中,兩種算法的W1均幾乎沒(méi)有變化,這是由于W1在式(22)的計(jì)算中沒(méi)有貢獻(xiàn),故算法不會(huì)對(duì)該值進(jìn)行自適應(yīng)學(xué)習(xí),是合理的結(jié)果。

      那么可以得到

      總控制策略由式(24)計(jì)算。

      控制結(jié)果在圖4中展示。LQR控制器的仿真結(jié)果也在圖中作為對(duì)比繪出。

      圖3 SNIRL和IRL算法的收斂過(guò)程Fig.3 Convergence of IRL and SNIRL algorithm

      圖4 狀態(tài)量和控制量曲線Fig.4 State and control versus time

      從圖3可以看出,SNIRL算法能夠收斂到最優(yōu)解,且相比IRL算法,由于SNIRL算法在迭代過(guò)程中將執(zhí)行網(wǎng)絡(luò)逐漸更新的過(guò)程代替為解析式,消除了滯后的執(zhí)行網(wǎng)絡(luò)的收斂過(guò)程,故在每一次迭代中,權(quán)重都可以更快地收斂,因而總的收斂時(shí)間有所減少;從表1可以看出,SNIRL比IRL算法收斂更快,計(jì)算效率提高了近一倍。同時(shí)又由于SNIRL算法不需要存儲(chǔ)執(zhí)行網(wǎng)絡(luò)的權(quán)重?cái)?shù)據(jù),故相比IRL算法可以節(jié)省近一半的存儲(chǔ)空間。

      從圖4可以看出,自適應(yīng)最優(yōu)控制器完成了姿態(tài)跟蹤任務(wù)。且由于該控制器的設(shè)計(jì)是以非線性模型的最優(yōu)控制理論為基礎(chǔ)進(jìn)行的,對(duì)比LQR控制器穩(wěn)態(tài)誤差更小,快速性也更好。

      4.2 橫側(cè)向姿態(tài)控制

      在高度h=45.09 km,速度v=3748 m/s,β=0.1293°,μ=-65.9°的工況下,給出機(jī)動(dòng)指令βcmd=0°,μcmd=-68°。

      值函數(shù)由式(3)確定,式中:

      激勵(lì)函數(shù)φ定義為

      φ(x)=[β2βμβpβrμ2μpμrp2prr2]T

      權(quán)重記為

      W=[W1W2W3W4W5W6W7W8W9W10]T

      本節(jié)同樣對(duì)兩種算法進(jìn)行了對(duì)比,仿真結(jié)果如圖5、圖6所示。表2進(jìn)一步驗(yàn)證了SNIRL算法能夠提高計(jì)算效率和節(jié)省存儲(chǔ)空間。

      從圖5可以看出,在橫側(cè)向姿態(tài)控制中,自適應(yīng)最優(yōu)控制器相比LQR控制器表現(xiàn)出了更好的快速性和更小的穩(wěn)態(tài)誤差。圖6為控制量隨時(shí)間的變化曲線,可以看到LQR控制器所給出的控制量存在震蕩,而自適應(yīng)最優(yōu)控制器的控制策略則更加平滑,這是自適應(yīng)最優(yōu)控制器更好地滿(mǎn)足了性能指標(biāo)要求的體現(xiàn)。

      表2 SNIRL與IRL算法對(duì)比Table 2 Comparison of SNIRL and IRL

      圖5 狀態(tài)量曲線Fig.5 State versus time

      圖6 控制量曲線Fig.6 Control versus time

      5 結(jié) 論

      針對(duì)再入飛行器姿態(tài)控制問(wèn)題,通過(guò)估計(jì)值函數(shù),采用基于策略迭代的單網(wǎng)絡(luò)積分型強(qiáng)化學(xué)習(xí)算法,設(shè)計(jì)了自適應(yīng)最優(yōu)控制器。在求解最優(yōu)控制問(wèn)題時(shí),改進(jìn)了IRL算法,省去了執(zhí)行網(wǎng)絡(luò),并將其迭代計(jì)算過(guò)程用解析式代替,使算法結(jié)構(gòu)更加簡(jiǎn)潔,計(jì)算效率更高。在性能分析中通過(guò)李雅普諾夫穩(wěn)定性理論證明了SNIRL算法的收斂性及閉環(huán)系統(tǒng)的穩(wěn)定性。仿真結(jié)果表明, SNIRL算法相比IRL算法節(jié)省了近一半的計(jì)算量和存儲(chǔ)量,且收斂速度更快;所得到的自適應(yīng)最優(yōu)控制器具有良好的性能。

      猜你喜歡
      姿態(tài)控制最優(yōu)控制飛行器
      高超聲速飛行器
      條件平均場(chǎng)隨機(jī)微分方程的最優(yōu)控制問(wèn)題
      風(fēng)擾動(dòng)下空投型AUV的飛行姿態(tài)控制研究
      帶跳躍平均場(chǎng)倒向隨機(jī)微分方程的線性二次最優(yōu)控制
      Timoshenko梁的邊界最優(yōu)控制
      復(fù)雜飛行器的容錯(cuò)控制
      電子制作(2018年2期)2018-04-18 07:13:25
      多星發(fā)射上面級(jí)主動(dòng)抗擾姿態(tài)控制技術(shù)研究
      基于UC/OS-II四旋翼姿態(tài)控制系統(tǒng)設(shè)計(jì)
      采用最優(yōu)控制無(wú)功STATCOM 功率流的解決方案
      神秘的飛行器
      和龙市| 晋城| 高安市| 南漳县| 万山特区| 康平县| 桃园县| 克东县| 宝兴县| 静乐县| 会理县| 双桥区| 青河县| 五原县| 翁源县| 洪洞县| 盐城市| 嘉祥县| 锡林郭勒盟| 周至县| 横峰县| 安平县| 永州市| 阿拉尔市| 福海县| 扎囊县| 边坝县| 溧水县| 曲阳县| 盐亭县| 贵德县| 东丽区| 朝阳县| 华宁县| 齐齐哈尔市| 万盛区| 桑日县| 通化县| 定日县| 迁安市| 红河县|