• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種非仿射高超聲速飛行器的智能控制方法*

      2021-11-24 02:15:18馬長波茹海忠馬廣程夏紅偉
      飛控與探測 2021年4期
      關(guān)鍵詞:副翼控制參數(shù)攻角

      王 冠,馬長波,茹海忠,馬廣程,夏紅偉

      (1.哈爾濱工業(yè)大學(xué) 航天學(xué)院·哈爾濱·150001;2.上海衛(wèi)星工程研究所·上?!?01109)

      0 引 言

      高超聲速飛行器(Hypersonic Flight Vehicle, HFV)是一類速度不低于馬赫數(shù)5的臨近空間飛行器。與傳統(tǒng)飛行器相比,HFV在速度、飛行包線和突防能力等方面具備明顯的優(yōu)勢。控制系統(tǒng)作為HFV的重要子系統(tǒng),是使其完成既定任務(wù)和安全飛行的重要保障。然而,HFV在飛行過程中具有快時變、強非線性、強耦合性等特點,這使其控制系統(tǒng)的設(shè)計成為HFV在實現(xiàn)工程應(yīng)用時所面臨的具有巨大挑戰(zhàn)性的核心問題之一。

      近年來,許多先進(jìn)的控制技術(shù)已被應(yīng)用于HFV控制,如自適應(yīng)控制[1]、滑??刂芠2]、魯棒控制[3]、容錯控制[4]、模糊控制[5]、神經(jīng)網(wǎng)絡(luò)控制[6]等,并取得了較好的效果。上述控制研究大都基于仿射模型而設(shè)計控制器,模型中的氣動系數(shù)根據(jù)已知曲線擬合模型進(jìn)行近似。然而,HFV實際受到的氣動力與攻角、控制舵偏角等因素呈非仿射關(guān)系,將其描述為仿射模型,會造成一定程度的控制精度損失。損失嚴(yán)重時,在某些情況下,將不能正確描述飛行器的氣動特性。因此,目前針對HFV非仿射模型的研究受到了越來越多的關(guān)注。BU[7]利用神經(jīng)網(wǎng)絡(luò)估計了未知的非仿射動態(tài),設(shè)計了基于反步法的控制器。WANG等[8]建立了縱向通道的半分解半仿射模型形式,在考慮了執(zhí)行機構(gòu)死區(qū)的前提下設(shè)計了預(yù)設(shè)性能控制器。HU等[9]通過反饋線性化方法設(shè)計了魯棒自適應(yīng)模糊控制器,利用中值定理處理了氣動阻力表達(dá)式中的非仿射形式項,進(jìn)而得到了仿射模型。SHEN等[10]針對非仿射縱向短周期姿態(tài)模型,設(shè)計了自適應(yīng)滑模模糊控制器,并取得了較好的控制效果。

      隨著未來HFV任務(wù)需求的發(fā)展和控制復(fù)雜度的增大,上述以經(jīng)典控制理論為基礎(chǔ)發(fā)展起來的控制方法面臨一定的技術(shù)瓶頸[11]。近年來,深度學(xué)習(xí)、強化學(xué)習(xí)等機器學(xué)習(xí)手段逐漸地受到控制科學(xué)領(lǐng)域研究學(xué)者的關(guān)注,人工智能技術(shù)的飛速發(fā)展為飛行器自主智能飛行的實現(xiàn)提供了新的可能。早在20世紀(jì)末期,華裔科學(xué)家吳恩達(dá)[12]利用強化學(xué)習(xí)中智能體不斷與環(huán)境進(jìn)行交互的特點,對智能直升機進(jìn)行了相關(guān)應(yīng)用的研究,利用策略梯度算法對無人直升機懸停進(jìn)行了控制。近幾年興起的深度確定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)[13]則是深度強化學(xué)習(xí)中具有代表性的算法之一。KOCH等[14]利用強化學(xué)習(xí)訓(xùn)練了四旋翼角速率內(nèi)環(huán)控制器,并獲得了部分性能優(yōu)于PID控制器的效果。本文針對HFV的非仿射模型,進(jìn)行了基于DDPG算法的飛行控制研究。不同于無人直升機和四旋翼,本文的研究對象HFV是一種非傳統(tǒng)的飛行器,其具有面臨的飛行環(huán)境復(fù)雜、模型非線性程度高、強耦合以及參數(shù)不確定等特點,上述特點增加了將機器學(xué)習(xí)方法直接應(yīng)用于HFV控制中的難度。此外,從目前的技術(shù)途徑來看,無論是傳統(tǒng)的最優(yōu)控制,還是深度強化學(xué)習(xí),在飛行器實時自主控制方面均存在不足。傳統(tǒng)控制方法與新興人工智能的關(guān)系不是替代關(guān)系,而是應(yīng)該相輔相成。以反步控制為例,其具有算法簡單易實現(xiàn)、穩(wěn)定可靠的優(yōu)勢,這都是當(dāng)前智能控制技術(shù)所欠缺的特點。因此,本文研究了基于反步控制框架的智能控制器,將傳統(tǒng)飛行控制與人工智能技術(shù)進(jìn)行了創(chuàng)新結(jié)合,這是實現(xiàn)智能控制發(fā)展的一個重要方向,也是解決HFV智能飛行控制的一種可靠思路。

      基于以上分析,本文針對HFV非仿射模型研究了基于強化學(xué)習(xí)的反步控制方法。在本文其余部分,首先給出了HFV的數(shù)學(xué)模型,然后利用反步法的思想,依次設(shè)計了俯仰角速度虛擬控制指令和升降襟副翼控制律,并借助Lyapunov方法分析了閉環(huán)系統(tǒng)的穩(wěn)定性。在此基礎(chǔ)上,利用DDPG算法,設(shè)計了針對反步控制的智能參數(shù)整定和控制律補償方案。最后,通過仿真實驗對其控制效果進(jìn)行了驗證。

      1 數(shù)學(xué)模型和問題描述

      1.1 HFV縱向通道非線性模型

      本文以文獻(xiàn)[15]給出的一類HFV為研究對象,研究了其縱向非線性模型的控制問題。其模型可描述為

      (1)

      式中,攻角α、俯仰角速率Q和航跡傾角γ是HFV短周期運動的三個狀態(tài)變量;Iyy是俯仰通道轉(zhuǎn)動慣量;MA和MT分別是由氣動力和推力產(chǎn)生的俯仰力矩;Δ是由環(huán)境干擾、模型不確定性等因素造成的額外擾動。MA和MT可表示為

      (2)

      1.2 問題描述

      本文的研究目標(biāo)為:設(shè)計升降襟副翼控制律δa和δe,使得攻角α能夠跟蹤給定的參考指令αd。為實現(xiàn)此目標(biāo),本文以反步法為基礎(chǔ),在考慮外部擾動的情況下,以俯仰角速度作為虛擬控制量,設(shè)計了虛擬控制律,進(jìn)而完成了升降襟副翼控制律的設(shè)計。由于反步法對參數(shù)比較敏感,對其的調(diào)整在很大程度上依賴于控制人員的經(jīng)驗,通常需要經(jīng)過反復(fù)的試驗,才能達(dá)到較好的控制效果。此外,對于處于復(fù)雜飛行環(huán)境和執(zhí)行復(fù)雜飛行任務(wù)的HFV而言,較多的控制量將導(dǎo)致其參數(shù)整定工作耗時且繁瑣,往往會給控制器的設(shè)計帶來諸多不便。在反步控制的基礎(chǔ)上,利用強化學(xué)習(xí)進(jìn)行智能參數(shù)整定和控制律補償,將使俯仰角速度能夠較好地跟蹤俯仰角速度虛擬控制指令,進(jìn)而實現(xiàn)HFV的飛行控制。

      2 控制器設(shè)計

      本節(jié)主要介紹控制器設(shè)計的具體方案。首先,利用反步法分別設(shè)計了俯仰角速度虛擬控制律和升降襟副翼控制律;然后,給出了所采用的DDPG算法的原理;最后,將其與反步控制結(jié)合,提出了本文所研究的智能控制器。

      2.1 俯仰角速度虛擬控制律設(shè)計

      首先,定義x1=α-αd。根據(jù)式(1)可得

      (3)

      (4)

      式中,H和V為HFV的高度和速度,可由相應(yīng)的傳感器測量得到。

      對于式(3),設(shè)計虛擬控制律Qd

      (5)

      式中,k1為控制增益。定義誤差變量x2=Q-Qd。結(jié)合式(5),可將式(3)寫為

      (6)

      (7)

      2.2 升降襟副翼控制律設(shè)計

      對于誤差變量x2的動態(tài),文獻(xiàn)[11]給出的CD的表達(dá)式包含控制量u的二次項。根據(jù)文獻(xiàn)[11]和式(2),這些分量會對攻角和俯仰角速度動態(tài)產(chǎn)生一定的影響,其影響隨馬赫數(shù)增加而愈發(fā)明顯,對其進(jìn)行簡單忽略并不合理?;诖?,x2的動態(tài)可描述為

      (8)

      式中,未知函數(shù)f(·)是連續(xù)可導(dǎo)的非仿射控制函數(shù),為由氣動系數(shù)不準(zhǔn)確和外部干擾所導(dǎo)致的擾動項。同時,選定u0(x)作為控制輸入的理想值

      (9)

      式中,k2>0為控制增益。

      假設(shè)|u-f(x1,x2,u,Δ)|

      (10)

      (11)

      式中,σ>0為收斂系數(shù)。

      (12)

      對于W=W1+W2的導(dǎo)數(shù)而言

      ≤0

      (13)

      因此,在假設(shè)未知函數(shù)有界時,可以通過以上控制設(shè)計進(jìn)行實現(xiàn)。需要指出的是,在上述反步控制器中,控制參數(shù)的值將直接影響控制輸入的大小,進(jìn)而影響到控制的效果。

      2.3 基于深度強化學(xué)習(xí)的HFV控制策略

      (14)

      DDPG算法借鑒了深度Q網(wǎng)絡(luò)算法的優(yōu)秀經(jīng)驗,將記憶回放單元以(si,ai,ri+1,si+1)的形式存儲為樣本,而后模擬人類大腦的回憶過程進(jìn)行了采樣學(xué)習(xí)。對于動作價值網(wǎng)絡(luò)的訓(xùn)練,是要最小化損失函數(shù)

      (15)

      其中,yi=ri+γfQ(si+1,μ(si+1)|θQ),N為樣本總數(shù)。不同于深度Q網(wǎng)絡(luò)算法直接將策略網(wǎng)絡(luò)的參數(shù)賦值給目標(biāo)網(wǎng)絡(luò),DDPG算法采用的是更加平滑的、類似慣性更新的思想,以進(jìn)行目標(biāo)網(wǎng)絡(luò)的參數(shù)更新。τ為慣性更新率

      (16)

      以上介紹了DDPG算法的基本原理。下面利用控制器補償?shù)乃枷?,結(jié)合強化學(xué)習(xí),設(shè)計了如下控制器

      u=u0+uL

      (17)

      其中,uL為補償指令。所設(shè)計的智能控制器的結(jié)構(gòu)如圖1所示。

      圖1 控制器結(jié)構(gòu)Fig.1 The structure of the controller

      至此,本小節(jié)基于反步法的控制律設(shè)計并結(jié)合DDPG算法原理提出了一種HFV智能控制器。其主要思想為:一方面,利用參數(shù)整定機制取代耗時的試錯方法,可以根據(jù)當(dāng)前的飛行條件決定關(guān)鍵的控制參數(shù);另一方面,通過生成合理的補償指令,可實現(xiàn)對HFV的安全高效控制。

      3 仿真試驗及結(jié)果分析

      3.1 訓(xùn)練流程

      為驗證上述方法的有效性,首先需要采用DDPG算法進(jìn)行訓(xùn)練。在本文中,狀態(tài)集選為st=(α,Q,V,H),動作集選為αt=(k1,k2,uL)。此外,獎勵函數(shù)可設(shè)為如下形式

      (18)

      其中,kα和kδ是獎勵函數(shù)中兩個目標(biāo)的權(quán)重;αmax和δmax是攻角和舵偏角的上界值,其目的是將不同量級上的狀態(tài)進(jìn)行歸一化處理。

      本文所考慮的訓(xùn)練場景基于表1中HFV的狀態(tài)約束。在每輪訓(xùn)練開始時,智能體根據(jù)系統(tǒng)隨機產(chǎn)生的初始狀態(tài),不斷地對外部環(huán)境進(jìn)行試探,并進(jìn)行對整個狀態(tài)空間的探索,以找到行動值更高的行動。

      表1 HFV的狀態(tài)約束

      Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)均采用了全連接結(jié)構(gòu)。其中,Actor網(wǎng)絡(luò)使用了三層神經(jīng)網(wǎng)絡(luò),其輸入為系統(tǒng)的狀態(tài)集st,輸出k1、k2為反步法的控制參數(shù),uL為控制器的補償指令;Critic網(wǎng)絡(luò)使用了兩層神經(jīng)網(wǎng)絡(luò),其輸入為系統(tǒng)的狀態(tài)和動作集,輸出為擬合行動值Q(s,a)。tanh函數(shù)g1(z)的輸出位于(-1,1)之間,這樣可保證控制輸入約束在一定范圍。因此,本文中Actor網(wǎng)絡(luò)的輸出層采用了tanh函數(shù)。除此之外,其余網(wǎng)絡(luò)均采用了可為神經(jīng)網(wǎng)絡(luò)提供更快處理速度的Relu函數(shù)g2(z)。在所選用的DDPG中,訓(xùn)練的相關(guān)參數(shù)設(shè)置如表2所示。

      表2 訓(xùn)練參數(shù)設(shè)置

      (19)

      在本文中,kα=0.8,kδ=0.2。設(shè)計算法的仿真時長為T=100s,步長dt=0.2s。因此,在一個回合訓(xùn)練中有500個數(shù)據(jù)。通過訓(xùn)練得到的獎勵如圖2所示。由圖2可以看出,累積獎勵在300回合左右基本收斂,展現(xiàn)了快速學(xué)習(xí)的過程。DDPG是采用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行函數(shù)擬合的一類新興的強化學(xué)習(xí)算法,適合解決復(fù)雜大維度應(yīng)用場景問題,并已在圍棋AlphaZero算法中得到了技術(shù)驗證[16]。需要指出的是,智能控制的實際應(yīng)用可能存在的缺點包括了由隨機動作探索引發(fā)的學(xué)習(xí)效率低下以及訓(xùn)練樣本的海量需求。本文關(guān)于HFV智能控制的探索工作主要針對縱向通道的控制問題,這極大地簡化了訓(xùn)練的復(fù)雜程度。

      圖2 總回報獎勵曲線Fig.2 Total reward curve

      3.2 仿真結(jié)果

      針對式(1)中的HFV動力學(xué)模型進(jìn)行了仿真實驗。其中,式(2)所采用的氣動參數(shù)可參考文獻(xiàn)[16]。所選取的飛行任務(wù)是HFV在巡航狀態(tài)下,飛行速度設(shè)置為V=3060m/s,飛行高度設(shè)置為h=20000 m,飛行狀態(tài)初始條件為α(0)=2.66°,q(0)=0[(°)·s-1],跟蹤指定的攻角參考軌跡αd(t)=5+2e-0.3t-2.5e-0.05t(°)。

      首先,將訓(xùn)練出的神經(jīng)網(wǎng)絡(luò)移植到所提出的控制器中,在當(dāng)前任務(wù)中所產(chǎn)生的控制參數(shù)和補償指令如圖3所示。

      (a)控制參數(shù)

      (b)控制指令補償圖3 控制參數(shù)和補償指令Fig.3 Control parameters and compensation commands

      接下來,將式(10)對應(yīng)的控制方法(記為對比方法1)和文獻(xiàn)[7]對應(yīng)的控制方法(記為對比方法2)作為對照,進(jìn)行仿真實驗。圖4分別給出了其攻角、俯仰角速度、升降襟副翼偏轉(zhuǎn)角的狀態(tài)曲線。由仿真結(jié)果可以看出,上述三種方法均可取得較好的攻角跟蹤控制效果。其中,對比方法2和本文方法的控制效果要優(yōu)于對比方法1。對比方法2在控制初始階段會產(chǎn)生較為明顯的抖振,并且兩種對比方法的控制效果均依賴于參數(shù)調(diào)整。本文方法能夠在較短的時間內(nèi)實現(xiàn)攻角跟蹤,這是由于相比于對比方法,本文方法經(jīng)強化學(xué)習(xí)而得到的控制參數(shù)是隨系統(tǒng)狀態(tài)可調(diào)整的,且對控制器具備較好的補償作用。

      (a)攻角

      (b)俯仰角速度

      (c)升降襟副翼偏轉(zhuǎn)角圖4 對比實驗Fig.4 Comparative simulations

      最后,為了驗證對參數(shù)不確定性的適應(yīng)能力,考慮氣動參數(shù)在標(biāo)稱值±20%內(nèi)變化,對該任務(wù)執(zhí)行了600次的蒙特卡洛仿真實驗,實驗結(jié)果如圖5所示。由圖5可以看出,本文方法具有較好的魯棒性。

      (a)攻角

      (b)俯仰角速度

      (c)升降襟副翼偏轉(zhuǎn)角圖5 蒙特卡洛仿真Fig.5 Monte-Carlo simulations

      4 結(jié) 論

      本文提出了一種非仿射HFV的智能控制律,HFV智能控制律具有結(jié)構(gòu)簡單、魯棒性強的特點。在反步法控制器的基礎(chǔ)上,借助DDPG方法,對控制器進(jìn)行了參數(shù)在線調(diào)整和控制指令補償。該控制器能夠在額外擾動和未建模動態(tài)的情況下,保證攻角穩(wěn)健地跟蹤期望目標(biāo)。最后,數(shù)值例子驗證了所提出方法的有效性。本文主要進(jìn)行了對HFV智能控制方法的研究探索工作,所提出的方法具有一定的學(xué)術(shù)研究價值和工程參考價值。

      猜你喜歡
      副翼控制參數(shù)攻角
      高超聲速飛行器滑模控制參數(shù)整定方法設(shè)計*
      飛控與探測(2022年6期)2022-03-20 02:16:14
      某型號民用飛機副翼及其操縱系統(tǒng)建模與仿真研究
      智能制造(2021年4期)2021-11-04 08:54:42
      Birkhoff系統(tǒng)穩(wěn)定性的動力學(xué)控制1)
      基于MBSE的副翼及其操縱系統(tǒng)研發(fā)技術(shù)及應(yīng)用
      風(fēng)標(biāo)式攻角傳感器在超聲速飛行運載火箭中的應(yīng)用研究
      大攻角狀態(tài)壓氣機分離流及葉片動力響應(yīng)特性
      跨聲速副翼效率高精度靜彈分析及試飛驗證
      基于PI與準(zhǔn)PR調(diào)節(jié)的并網(wǎng)逆變器控制參數(shù)設(shè)計
      黑龍江電力(2017年1期)2017-05-17 04:25:08
      副翼偏轉(zhuǎn)對副翼受載的影響
      附加攻角效應(yīng)對顫振穩(wěn)定性能影響
      振動與沖擊(2015年2期)2015-05-16 05:37:34
      平阴县| 宜黄县| 甘洛县| 奉贤区| 禄丰县| 虞城县| 衡阳市| 青阳县| 城市| 礼泉县| 青浦区| 许昌市| 祥云县| 邯郸市| 昭苏县| 浮梁县| 定结县| 平定县| 祥云县| 天门市| 关岭| 温州市| 炎陵县| 黑龙江省| 托克托县| 伊宁市| 平潭县| 攀枝花市| 资源县| 石阡县| 郎溪县| 大安市| 开封市| 隆安县| 张家界市| 成都市| 蓝山县| 咸宁市| 吉安县| 宜城市| 平阴县|