劉宇航,楊洪偉,李 爽
(南京航空航天大學(xué)航天學(xué)院,南京 211106)
電推進(jìn)因其高比沖的特點(diǎn)可以大幅降低燃料消耗,在深空探測(cè)任務(wù)中具有重要的作用。電推進(jìn)發(fā)動(dòng)機(jī)推力小,持續(xù)開(kāi)機(jī)時(shí)間長(zhǎng),相應(yīng)的小推力軌跡優(yōu)化問(wèn)題具有強(qiáng)非線性。間接法是求解小推力軌跡優(yōu)化問(wèn)題的主要方法之一。在間接法中,因引入的協(xié)態(tài)變量沒(méi)有實(shí)際物理含義,且取值范圍不定,所以協(xié)態(tài)變量初值猜測(cè)問(wèn)題是間接法主要困難之一。對(duì)于燃料最優(yōu)問(wèn)題而言,最優(yōu)控制律為bang-bang控制,這種控制律的不連續(xù)性則進(jìn)一步加劇了協(xié)態(tài)變量猜測(cè)的敏感性,提升了間接法打靶求解時(shí)的收斂困難。針對(duì)協(xié)態(tài)變量初值猜測(cè)困難問(wèn)題,Bertrand等提出了平滑技術(shù),即構(gòu)造優(yōu)化指標(biāo)同倫函數(shù),先求解較易的能量最優(yōu)問(wèn)題,然后通過(guò)同倫參數(shù)的改變,逐步同倫到較難求解的燃料最優(yōu)問(wèn)題。Jiang等進(jìn)一步提出了協(xié)態(tài)變量歸一化技術(shù)和開(kāi)關(guān)函數(shù)檢測(cè)技術(shù),發(fā)展了求解高效的小推力軌跡優(yōu)化同倫法。潘迅等以及沈紅新等利用同倫法分別解決了由中途飛越約束和多圈轉(zhuǎn)移引起的小推力軌跡優(yōu)化困難,豐富了同倫法的使用場(chǎng)景。為了避免協(xié)態(tài)初值猜測(cè), Wu等、Yang及其團(tuán)隊(duì)分別基于線性化、引力場(chǎng)同倫、推力同倫等方法推導(dǎo)了協(xié)態(tài)變量初值的近似解析解。此外,也有李鑒等利用無(wú)損卡爾曼濾波(UKF)將問(wèn)題轉(zhuǎn)化,避免了初值猜測(cè)的困難。但上述文獻(xiàn)研究的小推力軌跡優(yōu)化方法針對(duì)的是定比沖情形。
對(duì)于深空探測(cè)任務(wù)而言,由于電推進(jìn)發(fā)動(dòng)機(jī)功率會(huì)隨著航天器相對(duì)太陽(yáng)的距離增大而降低,調(diào)節(jié)比沖可以提供所需的小推力幅值,因此變比沖電推進(jìn)更具有工程實(shí)用性。但是使用變比沖模型會(huì)使變量增加,使得軌跡優(yōu)化產(chǎn)生了新的困難。Taheri則將含雙曲正切函數(shù)的復(fù)合平滑控制方法應(yīng)用于變比沖發(fā)動(dòng)機(jī)模型中。Chi等提出了新的同倫指標(biāo)函數(shù),解決了傳統(tǒng)同倫法求解時(shí)存在的控制量耦合困難。Li等進(jìn)一步研究了雙同倫方法。雖然同倫法求解變比沖小推力軌跡優(yōu)化問(wèn)題效率很高,但仍需協(xié)態(tài)變量初值猜測(cè),并且需要同倫迭代,無(wú)法直接求解燃料最優(yōu)問(wèn)題,不適用于在線軌跡優(yōu)化。對(duì)于深空探測(cè)小推力轉(zhuǎn)移過(guò)程而言,由于存在各種擾動(dòng),探測(cè)器會(huì)偏離標(biāo)稱(chēng)軌跡,存在軌跡在線重規(guī)劃的需求。本文將針對(duì)燃料最優(yōu)變比沖小推力軌跡優(yōu)化問(wèn)題,研究無(wú)需猜測(cè)的協(xié)態(tài)變量初值快速確定技術(shù),發(fā)展具備在線軌跡規(guī)劃能力的軌跡優(yōu)化方法。
近年來(lái),人工智能在航天領(lǐng)域的應(yīng)用備受關(guān)注,為解決航天工程問(wèn)題提供了新思路,在航天動(dòng)力學(xué)與控制領(lǐng)域也已取得了較為豐碩成果。在深空探測(cè)軌跡優(yōu)化與設(shè)計(jì)方面,基于機(jī)器學(xué)習(xí)的方法可以用于估計(jì)轉(zhuǎn)移可達(dá)性快速評(píng)估、小推力轉(zhuǎn)移剩余質(zhì)量快速預(yù)測(cè)、最優(yōu)軌跡快速規(guī)劃等。針對(duì)深空探測(cè)任務(wù)中航天器自主性的需求迫切,基于人工智能技術(shù)的小推力最優(yōu)實(shí)時(shí)制導(dǎo)與控制方法也逐漸被提出。結(jié)合間接法理論和人工智能技術(shù),發(fā)展小推力軌跡快速優(yōu)化或者實(shí)時(shí)制導(dǎo)方法是當(dāng)前研究的一個(gè)主要技術(shù)途徑。本文研究小推力軌跡快速優(yōu)化也將以間接法為基礎(chǔ),圍繞協(xié)態(tài)變量初值敏感性這一制約軌跡優(yōu)化效率的因素,采用機(jī)器學(xué)習(xí)方法建立協(xié)態(tài)變量與狀態(tài)量的映射關(guān)系,實(shí)現(xiàn)協(xié)態(tài)變量初值的高精度高效估計(jì)。
基于機(jī)器學(xué)習(xí)估計(jì)協(xié)態(tài)變量初值時(shí),首先需要生成大量最優(yōu)軌跡,建立數(shù)據(jù)集。Yin等提出通過(guò)擾動(dòng)標(biāo)稱(chēng)最優(yōu)軌跡參數(shù)產(chǎn)生數(shù)據(jù)集的方法。該方法將標(biāo)稱(chēng)軌跡的協(xié)態(tài)變量初值代入擾動(dòng)后的燃料最優(yōu)控制問(wèn)題求解,因考慮的狀態(tài)量擾動(dòng)小,故易收斂。但是,當(dāng)擾動(dòng)量增大時(shí),標(biāo)稱(chēng)軌跡與受擾軌跡的協(xié)態(tài)變量初值偏差將增大,導(dǎo)致求解難以收斂。本文研究擬基于最優(yōu)軌跡延拓,發(fā)展適用于大擾動(dòng)情形的數(shù)據(jù)集高效生成方法。同時(shí),也將分析軌跡延拓策略與擾動(dòng)上限和數(shù)據(jù)集生成效率的關(guān)系。其次,基于機(jī)器學(xué)習(xí)的方法需要設(shè)計(jì)合理的人工神經(jīng)網(wǎng)絡(luò)映射關(guān)系?,F(xiàn)有的研究中映射輸入量往往僅考慮位置速度或者軌道根數(shù)的一到兩種狀態(tài)量形式,應(yīng)用于小推力軌跡優(yōu)化時(shí)收斂率還存在一定的不足。本文將研究多形式狀態(tài)量組合輸入的方法,進(jìn)一步提升收斂率。此外,本文也將分析人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)求解效率的影響并對(duì)其進(jìn)行優(yōu)化設(shè)計(jì)。
本文假設(shè)航天器采用離子電推進(jìn)發(fā)動(dòng)機(jī),其能量全部來(lái)源于太陽(yáng)能。在太陽(yáng)引力的作用下,航天器的動(dòng)力學(xué)模型為:
(1)
≤≤
(2)
推力幅值由下式計(jì)算得到:
(3)
式中:為發(fā)動(dòng)機(jī)輸入功率利用效率;為最大輸入功率。
在實(shí)際航天器工作中,為保證系統(tǒng)功能正常運(yùn)行,所以由太陽(yáng)能電池板產(chǎn)生的電能首先供給除發(fā)動(dòng)機(jī)外的設(shè)備,其次再供給發(fā)動(dòng)機(jī)產(chǎn)生推力。而太陽(yáng)能電池板的輸出功率受航天器與太陽(yáng)距離的影響,具體關(guān)系如下:
(4)
式中:為太陽(yáng)能電池板的輸出功率;為1個(gè)AU距離下太陽(yáng)能電池板輸出功率;括號(hào)中的部分代表太陽(yáng)能板效率隨航天器相對(duì)太陽(yáng)的距離改變的經(jīng)驗(yàn)值。進(jìn)一步,可以列出發(fā)動(dòng)機(jī)的輸入功率:
(5)
式中:為發(fā)動(dòng)機(jī)輸入功率;為發(fā)動(dòng)機(jī)功率處理器最大輸入功率;為占空比,代表發(fā)動(dòng)機(jī)功率處理器真實(shí)工作時(shí)間與總開(kāi)機(jī)時(shí)間的比值;為除發(fā)動(dòng)機(jī)系統(tǒng)外其它系統(tǒng)所需總功率。
首先建立燃料最優(yōu)控制問(wèn)題性能指標(biāo):
(6)
在求解燃料最優(yōu)控制問(wèn)題中,由于最后推導(dǎo)出的最優(yōu)控制律為bang-bang控制(只取0或1),所以采用式(6)的性能指標(biāo)在開(kāi)關(guān)切換點(diǎn)處對(duì)狀態(tài)和協(xié)態(tài)微分方程積分時(shí)不連續(xù),且增加了對(duì)于協(xié)態(tài)變量初值猜測(cè)的難度。于是在構(gòu)造性能指標(biāo)時(shí)采用同倫方法,引入同倫參數(shù),由1逐漸變?yōu)?,=0時(shí)為燃料最優(yōu)控制問(wèn)題。
由于協(xié)態(tài)變量沒(méi)有具體的物理含義,在選取協(xié)態(tài)變量初值時(shí)沒(méi)有明確的猜測(cè)范圍,極大地影響了求解效率,本文采用文獻(xiàn)[5]中提出協(xié)態(tài)變量歸一化的方法,引入歸一化協(xié)態(tài)變量,將包括在內(nèi)的8個(gè)協(xié)態(tài)變量初值限制到一個(gè)8維的單位球面,可極大地提高猜測(cè)效率。
由此燃料最優(yōu)控制問(wèn)題性能指標(biāo)改寫(xiě)為:
(7)
進(jìn)一步,哈密頓函數(shù)為:
(8)
式中:,和分別表示位置、速度和質(zhì)量的協(xié)態(tài)變量。
根據(jù)龐德里亞金極小值原理,若使哈密頓函數(shù)取極小值,則·取極小值,此時(shí)與方向相反,最優(yōu)推力方向:
(9)
推導(dǎo)出歐拉-拉格朗日方程為:
(10)
(11)
(12)
由于比沖在區(qū)間主動(dòng)變化,則最優(yōu)比沖大小計(jì)算方法為:
(13)
式中:如下:
(14)
對(duì)于采用改進(jìn)對(duì)數(shù)同倫函數(shù)的式(7),最優(yōu)發(fā)動(dòng)機(jī)節(jié)流度寫(xiě)為:
(15)
開(kāi)關(guān)函數(shù):
(16)
考慮航天器在任務(wù)中始末位置速度固定,任務(wù)時(shí)間固定。末態(tài)質(zhì)量自由,則對(duì)應(yīng)的末態(tài)質(zhì)量的協(xié)態(tài)變量()=0。打靶方程為:
(17)
式中:?[,,,]。
至此,將燃料最優(yōu)控制問(wèn)題轉(zhuǎn)化為兩點(diǎn)邊值問(wèn)題,滿(mǎn)足打靶方程的情況下,將狀態(tài)初值和協(xié)態(tài)變量初值代入運(yùn)動(dòng)微分方程(式(1))、協(xié)態(tài)微分方程(式(10)~(12))中即可得到燃料最優(yōu)控制問(wèn)題的最優(yōu)解。所以,協(xié)態(tài)變量初值的猜測(cè)對(duì)于問(wèn)題求解十分重要,本文介紹一種基于機(jī)器學(xué)習(xí)進(jìn)行協(xié)態(tài)變量初值估計(jì)的方法。
本文采用間接法解決小推力軌跡優(yōu)化問(wèn)題。間接法是將小推力問(wèn)題作為最優(yōu)控制問(wèn)題,首先給定一個(gè)性能指標(biāo),引入?yún)f(xié)態(tài)變量,構(gòu)造哈密頓函數(shù),根據(jù)最優(yōu)性的一階必要條件推導(dǎo)出狀態(tài)變量和協(xié)態(tài)變量的微分方程和最優(yōu)控制律。此時(shí)將最優(yōu)控制問(wèn)題轉(zhuǎn)換為兩點(diǎn)邊值問(wèn)題,通過(guò)打靶的形式在滿(mǎn)足邊界條件下對(duì)狀態(tài)和協(xié)態(tài)微分方程進(jìn)行積分,得出小推力控制問(wèn)題的最優(yōu)解。
在使用機(jī)器學(xué)習(xí)方法前,需生成大量燃料最優(yōu)軌跡的數(shù)據(jù)集,而大量求解燃料最優(yōu)控制問(wèn)題會(huì)花費(fèi)大量時(shí)間成本。文獻(xiàn)[21]中提出了一種最優(yōu)軌跡快速生成的方法,其原理是給標(biāo)稱(chēng)軌跡末端狀態(tài)一個(gè)很小的擾動(dòng)值,將標(biāo)稱(chēng)軌跡的協(xié)態(tài)變量初值當(dāng)作猜測(cè)值代入擾動(dòng)后的燃料最優(yōu)控制問(wèn)題中,因擾動(dòng)量很小,所以標(biāo)稱(chēng)軌跡的協(xié)態(tài)變量值接近真實(shí)值,猜測(cè)很容易收斂。
本文中提出了一種基于最優(yōu)軌跡延拓的數(shù)據(jù)集高效生成方法,相比文獻(xiàn)[21]的優(yōu)勢(shì)在于:擾動(dòng)量大的情形下也可高效地生成數(shù)據(jù),有利于生成空間范圍更大的數(shù)據(jù)集。
以軌道根數(shù)作為狀態(tài)量的軌跡生成為例,基于最優(yōu)軌跡延拓生成數(shù)據(jù)集的步驟是:
1)確定新軌跡與標(biāo)稱(chēng)最優(yōu)軌跡不同的狀態(tài)量,可以是末狀態(tài)不同,也可以是初狀態(tài)不同。以初狀態(tài)不同為例,新軌跡的初始狀態(tài)記為(+Δ,+Δ,+Δ,,,),其中(Δ,Δ,Δ)為擾動(dòng)量。
2)設(shè)定擾動(dòng)上限(Δ,Δ,Δ),使擾動(dòng)量(Δ,Δ,Δ)在不超過(guò)擾動(dòng)上限的范圍內(nèi)隨機(jī)選取。
3)將擾動(dòng)量劃分為次達(dá)到,相鄰兩次擾動(dòng)量之差為(Δ,Δ,Δ)。每一次增大擾動(dòng)量時(shí),都計(jì)算當(dāng)前擾動(dòng)量下的最優(yōu)軌跡,逐漸增加擾動(dòng)量,直至達(dá)到設(shè)定的擾動(dòng)量(Δ,Δ,Δ)。此時(shí),計(jì)算了條不同軌跡,且他們初始狀態(tài)之間的差值都是線性關(guān)系。
值得注意的是,在每一次迭代中協(xié)態(tài)變量的猜測(cè)值都采用上一次得到的協(xié)態(tài)變量初值,當(dāng)上一次迭代中沒(méi)有收斂,則使用上一次的猜測(cè)值。雖然總擾動(dòng)量(Δ,Δ,Δ)很大,但是每?jī)纱g的擾動(dòng)量(Δ,Δ,Δ)較小,所以猜測(cè)很容易收斂?;谧顑?yōu)軌跡延拓?cái)?shù)據(jù)集生成方法的算法邏輯如圖1。產(chǎn)生數(shù)據(jù)集的效率及數(shù)據(jù)集的空間范圍受到總擾動(dòng)量(Δ,Δ,Δ)和延拓次數(shù)的影響,需要選擇合適值。
人工神經(jīng)網(wǎng)絡(luò)(ANN)由輸入層、隱含層和輸出層構(gòu)成,其原理是通過(guò)許多人工神經(jīng)元組合構(gòu)造出輸入和輸出的映射關(guān)系,人工神經(jīng)網(wǎng)絡(luò)可以用于具有非線性的問(wèn)題中,原理上來(lái)說(shuō)可以構(gòu)造任意輸入輸出的映射關(guān)系。人工神經(jīng)元機(jī)理類(lèi)似于生物神經(jīng)元,是將輸入加以權(quán)重和偏置,通過(guò)激活函數(shù)將此加入權(quán)重和偏置的輸入值映射為輸出值。訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)的過(guò)程就是不斷迭代優(yōu)化人工神經(jīng)元中權(quán)重和偏置的值,使得指標(biāo)函數(shù)最小,如均方差(MSE)函數(shù)。本文中神經(jīng)網(wǎng)絡(luò)的訓(xùn)練采用反向傳播算法(BP算法)。
圖1 基于最優(yōu)軌跡延拓?cái)?shù)據(jù)生成算法Fig.1 Data generation algorithm based on optimal trajectory continuation
超參數(shù)的選擇會(huì)直接影響訓(xùn)練效果,選擇合適的超參數(shù)是必要的。主要確定的超參數(shù)有:激活函數(shù)、神經(jīng)元數(shù)量、隱含層層數(shù)、學(xué)習(xí)率等。在本文中,激活函數(shù)使用雙曲正切S型函數(shù),學(xué)習(xí)率設(shè)置為0.001,神經(jīng)元數(shù)量、隱含層層數(shù)的選取將在4.3節(jié)中給出。
使用Fortran語(yǔ)言編寫(xiě)最優(yōu)軌跡生成程序并通過(guò)MATLAB神經(jīng)網(wǎng)絡(luò)工具箱進(jìn)行訓(xùn)練,硬件使用Intel i7-8700K的CPU,主頻3.70 GHz。
本文以結(jié)束任務(wù)前500天的時(shí)刻進(jìn)行重優(yōu)化為例,校驗(yàn)最優(yōu)軌跡延拓?cái)?shù)據(jù)生成法以及人工神經(jīng)網(wǎng)絡(luò)在估計(jì)協(xié)態(tài)變量初值的效果。
在本文中擾動(dòng)軌道根數(shù)以產(chǎn)生數(shù)據(jù)集,動(dòng)力學(xué)方程仍在笛卡爾坐標(biāo)系下建立。標(biāo)稱(chēng)軌跡的初末狀態(tài)及協(xié)態(tài)變量初值見(jiàn)表1~2。
表1 初末狀態(tài)Table 1 Initial and final state values
表2 協(xié)態(tài)變量初值Table 2 Initial values of co-state variables
本文中擾動(dòng)后的軌跡將以與標(biāo)稱(chēng)軌跡不同的初始狀態(tài)到達(dá)與標(biāo)稱(chēng)軌跡相同的結(jié)束狀態(tài)。以計(jì)算10000次為例,比較延拓次數(shù)為1、10和100時(shí)所需時(shí)間和成功率,=1時(shí)對(duì)應(yīng)為直接擾動(dòng)方法,即文獻(xiàn)[21]中所述方法。在表3中,擾動(dòng)編號(hào)從A到F擾動(dòng)上限依次增大,具體擾動(dòng)大小從0至擾動(dòng)上限值中隨機(jī)選取。
由圖2可以看出,隨著擾動(dòng)上限的增大,三種方法生成最優(yōu)解的個(gè)數(shù)都會(huì)降低。在擾動(dòng)上限大小相
表3 擾動(dòng)上限設(shè)定Table 3 Set of different upper limits of the perturbation
圖2 生成軌跡個(gè)數(shù)隨擾動(dòng)上限變化曲線Fig.2 The number of generated trajectories with respect to the upper limit of the perturbation
圖3 計(jì)算時(shí)間隨擾動(dòng)上限變化曲線Fig.3 Calculation time varies with the upper limit of the perturbation
同的情況下,生成最優(yōu)解個(gè)數(shù)由高到低依次為:延拓100次、延拓10次、直接擾動(dòng)。由圖3可以看出,延拓100次的方法比直接擾動(dòng)方法計(jì)算10000次所需時(shí)間更短。當(dāng)擾動(dòng)上限為F時(shí),直接擾動(dòng)用時(shí)大量減少,其原因是成功生成解的個(gè)數(shù)特別少,所以少了很多積分求解軌跡的時(shí)間,總時(shí)間相較E時(shí)下降較多。
綜上,可以看出基于最優(yōu)軌跡延拓相比于直接擾動(dòng)成功率更高,計(jì)算速度更快,尤其是在擾動(dòng)量較大時(shí)更為明顯。而且,延拓次數(shù)的增大會(huì)提高生成最優(yōu)軌跡的效率。經(jīng)計(jì)算,在擾動(dòng)編號(hào)D條件下,延拓100次比直接擾動(dòng)成功生成最優(yōu)解速度快4.9倍;在擾動(dòng)編號(hào)E條件下,快7.7倍;在擾動(dòng)編號(hào)F條件下,快15.8倍。
本文使用50萬(wàn)的數(shù)據(jù)集進(jìn)行訓(xùn)練,另取2萬(wàn)組數(shù)據(jù)作為樣本用于誤差分析??紤]到設(shè)定的擾動(dòng)上限盡可能與實(shí)際可達(dá)到擾動(dòng)上限接近,并盡量使擾動(dòng)上限取較大值。最終,數(shù)據(jù)集生成時(shí)設(shè)定擾動(dòng)上限為擾動(dòng)編號(hào)E對(duì)應(yīng)的值,并使用延拓次數(shù)為100次的基于最優(yōu)軌跡延拓方法生成數(shù)據(jù)集。最后求得50萬(wàn)組數(shù)據(jù)的實(shí)際擾動(dòng)上限見(jiàn)表4。
表4 實(shí)際擾動(dòng)上限Table 4 Actual upper limit of perturbation
為對(duì)比不同輸入對(duì)于協(xié)態(tài)變量初值猜測(cè)效果的影響,本文分別將速度位置、軌道根數(shù)、改進(jìn)春分點(diǎn)軌道根數(shù)作為ANN的輸入;將位置協(xié)態(tài)初值、速度協(xié)態(tài)初值、質(zhì)量協(xié)態(tài)初值、歸一化協(xié)態(tài)初值作為ANN的輸出,共8維輸出。三種ANN不同輸入的方法中,只將由半長(zhǎng)軸、偏心率和軌道傾角引起改變的量作為ANN的輸入。在進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練前,對(duì)所有的輸入量進(jìn)行歸一化處理。
1)方法一:速度位置作輸入
采用速度位置作為輸入時(shí),速度和位置各有三個(gè)維度,共有六個(gè)量作為ANN的輸入。
2)方法二:軌道根數(shù)作輸入
采用軌道根數(shù)作為ANN的輸入時(shí),輸入為半長(zhǎng)軸、偏心率、軌道傾角三個(gè)量。
3)方法三:改進(jìn)春分點(diǎn)軌道根數(shù)作輸入
采用春分點(diǎn)軌道根數(shù)作為ANN的輸入時(shí),輸入為除外的其余五個(gè)改進(jìn)春分點(diǎn)軌道根數(shù)元素。其中,=++,,和分別表示航天器的真近點(diǎn)角、近地點(diǎn)幅角和升交點(diǎn)赤經(jīng)。
式(18)和式(19)分別為平均相對(duì)誤差和標(biāo)準(zhǔn)偏差的計(jì)算公式。表5~10中給出了三種輸入下不同神經(jīng)元數(shù)量和隱含層層數(shù)不同時(shí)平均相對(duì)誤差(%)和標(biāo)準(zhǔn)偏差(×10)大小。
(18)
(19)
表5 平均相對(duì)誤差(方法一)Table 5 Average relative error (Method 1)
表6 標(biāo)準(zhǔn)偏差(方法一)Table 6 Standard deviation (Method 1)
表7 平均相對(duì)誤差(方法二)Table 7 Average relative error (Method 2)
表8 標(biāo)準(zhǔn)偏差(方法二)Table 8 Standard deviation (Method 2)
表9 平均相對(duì)誤差(方法三)Table 9 Average relative error (Method 3)
表10 標(biāo)準(zhǔn)偏差(方法三)Table 10 Standard deviation (Method 3)
式中:為樣本數(shù);為神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的協(xié)態(tài)變量初值;為真實(shí)的協(xié)態(tài)變量初值。
在列舉的五種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中選取平均相對(duì)誤差和標(biāo)準(zhǔn)偏差總體較小的網(wǎng)絡(luò)結(jié)構(gòu)。最終確定:當(dāng)輸入為位置速度時(shí),采用4層隱含層,每層15個(gè)神經(jīng)元的結(jié)構(gòu);當(dāng)輸入為軌道根數(shù)和改進(jìn)春分點(diǎn)軌道根數(shù)時(shí),采用3層隱含層,每層30個(gè)神經(jīng)元的結(jié)構(gòu)。
在50萬(wàn)的訓(xùn)練數(shù)據(jù)外選取2萬(wàn)數(shù)據(jù),用于測(cè)試人工神經(jīng)網(wǎng)絡(luò)初值估計(jì)的效果。
表11中給出了三種不同輸入形式訓(xùn)練的ANN用于初值估計(jì)時(shí)最優(yōu)控制問(wèn)題的求解收斂率。神經(jīng)網(wǎng)絡(luò)輸入為改進(jìn)春分點(diǎn)軌道根數(shù)時(shí)收斂率最高,但是三種ANN模型求解收斂率相差不大,均在95.00%左右。經(jīng)計(jì)算,同倫法隨機(jī)猜測(cè)一次的計(jì)算收斂率為70.00%,遠(yuǎn)低于本文中方法。為了進(jìn)一步提高收斂率,將三種不同輸入形式的ANN結(jié)合,選定其中一個(gè)神經(jīng)網(wǎng)絡(luò)作為主輸出,當(dāng)此神經(jīng)網(wǎng)絡(luò)所估計(jì)值求解不收斂時(shí),使用其他兩種輸入的ANN重新估計(jì),這樣可以將求解收斂率提高到99.78%,算法流程見(jiàn)圖4。圖5為對(duì)于2萬(wàn)測(cè)試數(shù)據(jù),三種不同輸入形式的ANN結(jié)合所成功求解出的軌跡。
對(duì)2萬(wàn)個(gè)樣本中成功收斂部分的計(jì)算時(shí)間進(jìn)行統(tǒng)計(jì)。采用ANN估計(jì)的協(xié)態(tài)初值進(jìn)行軌跡優(yōu)化的時(shí)間消耗分為兩部分:神經(jīng)網(wǎng)絡(luò)協(xié)態(tài)估計(jì)用時(shí)和軌跡優(yōu)化用時(shí)。經(jīng)計(jì)算,采用方法一至方法三的平均時(shí)間分別為0.02794 s、0.02722 s和0.02678 s;使用傳統(tǒng)同倫方法的求解平均用時(shí)約為0.38770 s,本文方法比傳統(tǒng)同倫方法約快13.88倍。
表11 ANN協(xié)態(tài)初值估計(jì)求解的收斂率Table 11 The convergence rate of estimating the initial values of co-state variables using ANN
圖4 基于組合輸入的ANN求解最優(yōu)軌跡算法Fig.4 ANN algorithm for solving the optimal trajectory based on the combined inputs
圖5 求解成功軌跡圖Fig.5 Successfully solved trajectories
本文針對(duì)變比沖小推力軌跡間接優(yōu)化中協(xié)態(tài)變量初值猜測(cè)困難的問(wèn)題,提出一種基于機(jī)器學(xué)習(xí)進(jìn)行協(xié)態(tài)初值高效高精度估計(jì)的方法。在最優(yōu)軌跡生成中,隨著擾動(dòng)上限增大,求解效率會(huì)明顯下降。為了提高求解效率,提出了基于最優(yōu)軌跡延拓的數(shù)據(jù)集生成方法。本文提出的數(shù)據(jù)集生成方法在高擾動(dòng)上限情況下可以將數(shù)據(jù)集生成速度提升幾倍甚至十幾倍。并構(gòu)建了基于位置速度、軌道根數(shù)和改進(jìn)春分點(diǎn)軌道根數(shù)多形式狀態(tài)量組合輸入的人工神經(jīng)網(wǎng)絡(luò)。多形式狀態(tài)量組合輸入可以將求解收斂率提高到99.78%。此外,軌跡求解的平均總用時(shí)僅為0.02700 s左右。仿真結(jié)果表明,采用本文方法可以高精度、高效地估計(jì)協(xié)態(tài)變量初值,本文方法可用于燃料最優(yōu)變比沖小推力在線軌跡優(yōu)化設(shè)計(jì)。