尹超
摘要:隨著商業(yè)航天在我國(guó)的快速發(fā)展,星鏈計(jì)劃體現(xiàn)的經(jīng)濟(jì)和國(guó)防作用越來越明顯,可重復(fù)使用火箭垂直降落方式是商業(yè)航天中決定商業(yè)成功的關(guān)鍵因素之一??紤]到商業(yè)火箭在重復(fù)使用過程中具備抗干擾和低成本的特點(diǎn),文章提出了采用純視覺與強(qiáng)化學(xué)習(xí)融合的方法。文章通過多角度視覺傳感融合實(shí)現(xiàn)火箭定位并強(qiáng)化學(xué)習(xí)所規(guī)劃的航路,確?;鸺诳煽仫w行能力范圍以內(nèi)精準(zhǔn)垂直降落在指定著陸區(qū)域。針對(duì)火箭垂直降落路徑規(guī)劃與控制精度的難點(diǎn),文章提出了基于火箭動(dòng)力學(xué)特性和飛行數(shù)據(jù)的動(dòng)力學(xué)參數(shù)辨識(shí)方法,為提高火箭垂直降落運(yùn)動(dòng)軌跡預(yù)估精度提供有效手段。
關(guān)鍵詞:視覺導(dǎo)航;強(qiáng)化學(xué)習(xí);系統(tǒng)辨識(shí);控制策略
中圖分類號(hào):TP273文獻(xiàn)標(biāo)志碼:A0引言商業(yè)航天的星鏈所產(chǎn)生的經(jīng)濟(jì)性和國(guó)防價(jià)值越來越受到世界各國(guó)的重視。美國(guó)太空探索公司(SpaceX)的星鏈在當(dāng)前俄烏戰(zhàn)爭(zhēng)中所產(chǎn)生的效果得到了驗(yàn)證。SpaceX公司的垂直起飛垂直降落技術(shù)是低成本、快速、可重復(fù)使用火箭的重要技術(shù)之一,在獵鷹系列火箭中成功應(yīng)用。2016年4月8日,SpaceX公司獵鷹9號(hào)火箭第一級(jí)降落在無人船上;2017年6月25日,按預(yù)設(shè)航路降落在太平洋某處的浮動(dòng)平臺(tái)上。2021年3月11日,SpaceX公司將五手助推器降落在無人船上。上述事例表明,可重復(fù)使用、低成本和高精度是垂直起飛垂直降落技術(shù)的重要特征。
對(duì)標(biāo)垂直起飛垂直降落技術(shù)的低成本和高精度的技術(shù)要求,本文提出采用純視覺導(dǎo)航定位的方法,通過在火箭周向合理布置多顆攝像頭,確?;鸺诮咏憛^(qū)域時(shí)在各種姿態(tài)下都有至少3顆攝像頭同時(shí)觀察到著陸區(qū)域的標(biāo)志,以實(shí)現(xiàn)純視覺導(dǎo)航定位。同時(shí),本文提出通過強(qiáng)化學(xué)習(xí)的方法規(guī)劃出更加符合火箭飛行性并在飛行范圍內(nèi)的著陸航路,以提高火箭垂直著陸的成功率[1]。
1數(shù)學(xué)建?;鸺艿街亓?、氣動(dòng)力和氣動(dòng)力距的共同作用。同時(shí),火箭受到外界環(huán)境變化,例如風(fēng)干擾等,產(chǎn)生各種不確定性。本文以設(shè)定的火箭著陸點(diǎn)為地理坐標(biāo)系的原點(diǎn),以“東北天”方向定義地理坐標(biāo)系的X,Y,Z軸。
M×dv/dt=F=P+R+mg (1)
其中,m為火箭重量,單位kg;v為火箭速度矢量,單位m/s;F為火箭所受到的合力,包括火箭發(fā)動(dòng)機(jī)推力、火箭收到的氣動(dòng)力、重力等,單位為N。
dH/dt=M=Mp+Mr (2)
其中,H為動(dòng)量距;M為火箭受到的合力距,包括推力產(chǎn)生的力矩、氣動(dòng)力產(chǎn)生的力矩,單位為N·m。
2視覺導(dǎo)航為了實(shí)現(xiàn)垂直降落,火箭在下滑過程中逐漸由俯沖調(diào)整姿態(tài)到平飛并具有一定正向攻角,以降低下降速率。當(dāng)進(jìn)入著陸區(qū)域附近時(shí),火箭需進(jìn)一步調(diào)整姿態(tài),使得火箭逐步調(diào)整為箭頭朝上的降落姿態(tài),以利于垂直降落。因此,為了覆蓋上述運(yùn)動(dòng)過程,攝像頭的垂向視場(chǎng)設(shè)定為廣角100度,同時(shí)周向間隔40度布置1顆攝像頭,共計(jì)9顆,每顆周向視場(chǎng)設(shè)定為廣角80度。由此,在火箭降落全過程中至少3顆攝像頭可觀測(cè)到著陸區(qū)域視場(chǎng)[2]。由此,通過圖像拼接可構(gòu)建火箭以第一俯視視角的360度環(huán)視對(duì)地全景視場(chǎng),可確保在垂直降落過程中的任何時(shí)刻均可觀察到著陸區(qū)域內(nèi)至少3個(gè)標(biāo)志,以構(gòu)建PnP視覺導(dǎo)航定位算法。PnP視覺導(dǎo)航定位求解屬于給定點(diǎn)的位姿估計(jì)。利用著陸區(qū)域內(nèi)的n個(gè)空間相對(duì)位置已知的點(diǎn)作為控制點(diǎn),由構(gòu)建的全景觀察視場(chǎng)實(shí)時(shí)采集圖像,并根據(jù)攝像頭的內(nèi)外參數(shù)求解。攝像頭內(nèi)參數(shù)采用四參數(shù)模型,根據(jù)三角幾何原理得到攝像頭在世界坐標(biāo)系中的位姿以及空間點(diǎn)在參考坐標(biāo)系的位置。
3強(qiáng)化學(xué)習(xí)航路規(guī)控火箭垂直降落至指定區(qū)域的航路規(guī)劃與控制的目的在于:根據(jù)火箭當(dāng)前位置、姿態(tài)等實(shí)時(shí)狀態(tài),合理規(guī)劃出一條能夠滿足火箭當(dāng)前所具備飛行能力的垂直著陸航路。所規(guī)劃的航路包含垂直著陸軌跡(速度方向)和姿態(tài)跟隨變化過程[3]。
航路規(guī)劃的控制點(diǎn)選擇為位置、速度和加速度相匹配的方法。航路規(guī)劃的控制點(diǎn)位置采取火箭當(dāng)前位置分別與火箭對(duì)著陸區(qū)域特征點(diǎn)燈光的視覺定位的連線,按照與火箭當(dāng)前位置由近及遠(yuǎn)、從高到低均勻排列設(shè)置控制點(diǎn)位置??刂泣c(diǎn)的終點(diǎn)位于預(yù)設(shè)著陸點(diǎn)的正上方,高度在20 m左右??刂泣c(diǎn)的速度方向在連線方向的基礎(chǔ)上朝著著陸點(diǎn)方向調(diào)整,同時(shí)控制點(diǎn)的加速度方向朝著垂直方向調(diào)整,當(dāng)控制點(diǎn)位于著陸點(diǎn)上方時(shí),加速度方向垂直向下且加速度逐漸調(diào)整為0。在控制點(diǎn)初步確定后,采取B樣條曲線擬合的方式,實(shí)現(xiàn)航路規(guī)劃,即規(guī)劃的航路由B樣條基函數(shù)的組合獲得。由此獲得了一條根據(jù)火箭當(dāng)前位置、姿態(tài)、速度等飛行狀態(tài)以及著陸區(qū)域等信息的規(guī)劃標(biāo)稱航路。
強(qiáng)化學(xué)習(xí)的航路規(guī)劃框架包括火箭的動(dòng)力學(xué)和運(yùn)動(dòng)學(xué)模型、火箭的發(fā)動(dòng)機(jī)推力模型、火箭的導(dǎo)航模型、火箭的飛行控制規(guī)律模型,作為強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)的航路規(guī)劃的優(yōu)化規(guī)則,作為強(qiáng)化學(xué)習(xí)策略網(wǎng)絡(luò)的航路規(guī)劃策略以及強(qiáng)化學(xué)習(xí)航路規(guī)劃的樣本數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。通過強(qiáng)化學(xué)習(xí)后的航路規(guī)劃策略,將被加載至火箭機(jī)載系統(tǒng),作為火箭自主垂直著陸的實(shí)時(shí)航路規(guī)劃策略[4]。
本文采用低成本和無源的視覺導(dǎo)航定位方法。火箭的導(dǎo)航模型輸出火箭當(dāng)前的相對(duì)于火箭著陸區(qū)域的位置、姿態(tài)等信息。火箭的飛行控制規(guī)律模型是根據(jù)火箭當(dāng)前的飛行狀態(tài)和規(guī)劃的航路點(diǎn),計(jì)算出火箭姿態(tài)控制發(fā)動(dòng)機(jī)所需偏轉(zhuǎn)的角度。
作為強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)的航路規(guī)劃的優(yōu)化規(guī)則是由能量、著陸精度、著陸姿態(tài)、著陸速度和加速度共同組成的最優(yōu)化準(zhǔn)則。能量最優(yōu)化選擇為在火箭當(dāng)前所具有的動(dòng)能和勢(shì)能總和的前提下著陸控制所需能量做到最小化。著陸精度最優(yōu)化原則為火箭著陸位置在預(yù)定的著陸區(qū)域以內(nèi),距離著陸中心點(diǎn)位置越近越好,同時(shí)著陸的軌跡盡可能不超過火箭當(dāng)前所處的象限區(qū)域。著陸姿態(tài)的最優(yōu)化原則為火箭著陸過程中的姿態(tài)一直處于可控范圍,著陸末段姿態(tài)盡可能保持垂直姿態(tài)。著陸速度和加速度的最優(yōu)化原則為著陸過程中火箭的速度和加速度逐漸減小且處于可控范圍,同時(shí)在著陸末段逐漸減小為0,確保正常著陸。因此,強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)函數(shù)輸入為火箭的飛行狀態(tài),包括位置、姿態(tài)、速度、加速度;輸出為航路規(guī)劃的獎(jiǎng)勵(lì)數(shù)值,獎(jiǎng)勵(lì)數(shù)值越大,表明航路規(guī)劃越有效[5]。
作為強(qiáng)化學(xué)習(xí)策略網(wǎng)絡(luò)的航路規(guī)劃策略是根據(jù)輸入的火箭當(dāng)前狀態(tài)(位置、姿態(tài)、速度和加速度等)和著陸區(qū)域位置信息,在標(biāo)稱控制點(diǎn)基礎(chǔ)上,通過深度網(wǎng)絡(luò)計(jì)算控制點(diǎn)序列及其火箭姿控發(fā)動(dòng)機(jī)偏轉(zhuǎn)控制角度序列。強(qiáng)化學(xué)習(xí)航路規(guī)劃的樣本集是通過火箭飛行的實(shí)測(cè)數(shù)據(jù)和飛行模擬仿真的數(shù)據(jù)相結(jié)合的數(shù)據(jù)集[6]。
4基于火箭飛行動(dòng)力學(xué)特性的系統(tǒng)參數(shù)辨識(shí)基于火箭飛行動(dòng)力學(xué)特性的系統(tǒng)參數(shù)辨識(shí)方法如下所示。(1)建立火箭飛行動(dòng)力學(xué)和運(yùn)動(dòng)學(xué)的狀態(tài)方程。系統(tǒng)辨識(shí)的狀態(tài)量選擇為火箭飛行的位移、速度、加速度、姿態(tài)角、姿態(tài)角速度、姿態(tài)角加速度以及火箭飛行所受合力與合力矩。(2)建立系統(tǒng)辨識(shí)的觀測(cè)方程。系統(tǒng)辨識(shí)的觀測(cè)量選擇火箭飛行的位移、速度、加速度、姿態(tài)角、姿態(tài)角速度、姿態(tài)角加速度。(3)確定系統(tǒng)辨識(shí)的待估參數(shù)。系統(tǒng)辨識(shí)的待估參數(shù)為火箭飛行動(dòng)力學(xué)參數(shù)。(4)構(gòu)建系統(tǒng)辨識(shí)的靈敏度方程。將火箭飛行動(dòng)力學(xué)和運(yùn)動(dòng)學(xué)的狀態(tài)方程和觀測(cè)方程分別對(duì)待估參數(shù)求導(dǎo)數(shù),得到系統(tǒng)辨識(shí)的靈敏度方程。(5)采用牛頓拉夫遜迭代算法,迭代計(jì)算出待估計(jì)參數(shù)的數(shù)值。
5研究驗(yàn)證控制策略樣機(jī)通過使用某型可重復(fù)使用火箭的性能數(shù)據(jù),得到火箭的數(shù)學(xué)模型??刂撇呗詷訖C(jī)通過飛行仿真構(gòu)建樣本集進(jìn)行強(qiáng)化學(xué)習(xí)??刂撇呗詷訖C(jī)經(jīng)過強(qiáng)化學(xué)習(xí)的控制策略網(wǎng)絡(luò)可在各種飛行狀態(tài)下輸出航路規(guī)劃的控制點(diǎn)序列和姿態(tài)發(fā)動(dòng)機(jī)偏轉(zhuǎn)控制角度序列??刂撇呗詷訖C(jī)通過飛行模擬火箭的最后垂直著陸階段,使用經(jīng)過強(qiáng)化學(xué)習(xí)后的航路規(guī)劃和控制策略。通過規(guī)劃航路的性能分析,經(jīng)強(qiáng)化學(xué)習(xí)的規(guī)劃航路可有效提升著陸精度和使得火箭垂直著陸的速度、加速度更接近于0,達(dá)到更好的效果。
6結(jié)語(yǔ)針對(duì)可重復(fù)使用火箭的垂直降落控制策略問題,本文首先采用了視覺導(dǎo)航定位的方法為火箭垂直著陸提供低成本且可靠的無源定位方法;再通過強(qiáng)化學(xué)習(xí)的方式提升了垂直著陸精度和有效提高抗干擾能力,具有一定的工程應(yīng)用前景。
參考文獻(xiàn)
[1]LUIGI B,CLAUDIO M.自動(dòng)化設(shè)備和機(jī)器人的軌跡規(guī)劃[M].段晉軍,梁兆東,趙鑫,等,譯.北京:電子工業(yè)出版社,2016.
[2]徐德,譚民,李原.機(jī)器人視覺測(cè)量與控制[M].北京:國(guó)防工業(yè)出版社,2011.
[3]何林坤,張冉,龔慶海.基于強(qiáng)化學(xué)習(xí)的可回收運(yùn)載火箭著陸制導(dǎo)[J].空天防御,2021(4):21-26.
[4]DONALD E S,ARTHUR F B,EDWARD M G,et al.Automatic Ground Collision Avoidance System Design,Integration, & Flight Test[J].IEEE A&E System Magazine,2011(12):87-91.
[5]EDWARD M G,RUSSELL M T,SHAWN C W,et al.Automatic Ground Collision Avoidance System Design for Pre-Block 40 F-16 Configurations. Asia-Pacific International Symposium on Aerospace Technology[J].2012(9):32-36.
[6]VAN H H,GUEZ A,SILVER D.Deep Reinforcement Learning with Double Q-learning[J].Computer Science,2015(6):16-20.
(編輯 王永超)
Research on vertical landing control strategy of reusable rocket based on visual
navigation and reinforcement learningYin? Chao
(Shanghai Aviation Electric Co., Ltd., Shanghai 200030, China)Abstract:? With the rapid development of commercial aerospace in China, the economic and national defense role of the Star Chain program is becoming increasingly evident. The vertical landing method of reusable rockets is one of the key factors determining commercial success in commercial aerospace. Considering that commercial rockets have the characteristics of anti-interference and low cost in the process of repeated use, this paper proposes a fusion method of pure vision and reinforcement learning. Rocket positioning is achieved through multi-angle visual sensor fusion, and learning the planned route is enhanced to ensure that the rocket accurately and vertically lands in the designated landing area within the controllable flight capability range. Aiming at the difficulties in the planning and control accuracy of rocket vertical landing path, a dynamic parameter identification method based on rocket dynamic characteristics and flight data is proposed, which provides an effective means to improve the prediction accuracy of rocket vertical landing trajectory.
Key words: visual navigation; intensive learning; system identification; control strategy