穆朝絮,張 勇,余 瑤,孫長(zhǎng)銀
近年來(lái),航空航天飛行器由于其重要的戰(zhàn)略意義與經(jīng)濟(jì)價(jià)值,逐漸受到社會(huì)各界的廣泛關(guān)注. 隨著材料科學(xué)、控制理論、特種發(fā)動(dòng)機(jī)技術(shù)、通訊傳感等技術(shù)的提高,航空航天飛行器的相關(guān)研究也逐步從理論探索向?qū)嶋H應(yīng)用邁步. 各種航空飛行器,如大型的氣球、飛艇、飛機(jī)、巡航導(dǎo)彈,小型的旋翼飛行器、撲翼飛行器,以及航天飛行器中的高超聲速飛行器、彈道導(dǎo)彈、衛(wèi)星、航天飛船、火箭等. 它們依靠空氣浮力或空氣相對(duì)運(yùn)動(dòng)產(chǎn)生動(dòng)力實(shí)現(xiàn)升空飛行. 隨著航空航天技術(shù)的飛速發(fā)展,航空航天飛行器在偵查敵情、遠(yuǎn)程打擊、情報(bào)收集、抗險(xiǎn)救災(zāi)等方面都擁有其獨(dú)特的優(yōu)勢(shì),在民用、軍事、科學(xué)研究等方面擁有廣闊的應(yīng)用發(fā)展前景.
航空飛行器工作環(huán)境分布于大氣層的各個(gè)分層中,小型旋翼飛行器工作環(huán)境一般位于對(duì)流層,民用或軍用飛機(jī)一般位于平流層. 對(duì)于近空間高超聲速飛行器則主要飛行于平流層、中間層與部分電離層[1]. 當(dāng)飛行器的飛行高度超出大氣層后,可將其列為航天飛行器行列,因此,也可將高超聲速飛行器稱(chēng)作空天飛行器. 航空航天飛行器飛行環(huán)境的不同導(dǎo)致了它們面臨不同的環(huán)境干擾,位于較低層的飛行器往往受風(fēng)速、溫度、濕度、氣壓等天氣因素影響較多. 而對(duì)于飛行環(huán)境跨度較大的近空間飛行器如高超聲速巡航導(dǎo)彈和高超聲速飛機(jī),則主要受其高動(dòng)態(tài)、強(qiáng)耦合、快時(shí)變、模型不確定等問(wèn)題影響而難于控制,且由于近空間環(huán)境中大氣密度較小,環(huán)境溫度變化復(fù)雜,導(dǎo)致傳統(tǒng)的航空航天飛行器控制技術(shù)不能有效適用,需要在特定空域下進(jìn)行飛行器技術(shù)的研究和探索[2-4].
航空航天飛行器系統(tǒng)往往具有動(dòng)力學(xué)特性復(fù)雜,飛行環(huán)境多不確定性,控制精度要求較高的特點(diǎn). 在保證航空航天飛行器控制系統(tǒng)具有較強(qiáng)的魯棒性能的同時(shí),又對(duì)靈活性和自適應(yīng)性有較高的需求,于是,傳統(tǒng)控制方法已經(jīng)難以滿(mǎn)足諸多復(fù)雜的控制要求,迫切需要研究先進(jìn)的魯棒控制方法以解決當(dāng)前問(wèn)題.近年來(lái),隨著智能控制與現(xiàn)代控制理論的飛速發(fā)展,滑模變結(jié)構(gòu)控制、自適應(yīng)控制、魯棒控制、最優(yōu)控制等控制方法開(kāi)始用于航空航天飛行器控制系統(tǒng)設(shè)計(jì)[5-7]. 近年來(lái),大數(shù)據(jù)、機(jī)器學(xué)習(xí)等技術(shù)的興起也掀起了一股人工智能的浪潮. 強(qiáng)化學(xué)習(xí)作為一種新興的基于數(shù)據(jù)學(xué)習(xí)的人工智能算法,逐漸受到了科研人員的重視.
強(qiáng)化學(xué)習(xí)思想最初是為了求解動(dòng)態(tài)規(guī)劃(dynamic programming, DP)問(wèn)題[8-9],其基本原理是通過(guò)設(shè)計(jì)增強(qiáng)學(xué)習(xí)機(jī)制,不斷獎(jiǎng)勵(lì)并強(qiáng)化符合設(shè)定指標(biāo)的策略行為,從而獲得近似最優(yōu)的性能指標(biāo)和控制策略[10-13].對(duì)于線(xiàn)性系統(tǒng),動(dòng)態(tài)規(guī)劃方法可以通過(guò)求解代數(shù)黎卡提方程得到最優(yōu)控制問(wèn)題的狀態(tài)反饋控制器. 如果是非線(xiàn)性系統(tǒng)或代價(jià)/目標(biāo)函數(shù)為非標(biāo)準(zhǔn)的狀態(tài)和控制變量組成的二次型形式,則需要求解非線(xiàn)性偏微分哈密爾頓-雅克比-貝爾曼(Hamilton-Jacobi-Bellman,HJB)方程得到最優(yōu)控制策略,然而這往往難以直接實(shí)現(xiàn). 隨著系統(tǒng)維數(shù)增大,動(dòng)態(tài)規(guī)劃方法可能面臨“維數(shù)災(zāi)難”的問(wèn)題而無(wú)法應(yīng)用于實(shí)際.在此背景下,自適應(yīng)動(dòng)態(tài)規(guī)劃 (Adaptive Dynamic Programming, ADP)應(yīng)運(yùn)而生[14-16].
在強(qiáng)化學(xué)習(xí)中,普遍采用神經(jīng)網(wǎng)絡(luò)近似性能指標(biāo)函數(shù)及策略,呈現(xiàn)出多個(gè)神經(jīng)網(wǎng)絡(luò)有機(jī)融合的結(jié)構(gòu),表現(xiàn)出強(qiáng)大的學(xué)習(xí)能力,因而得到了迅速發(fā)展和推廣,衍生出一系列實(shí)現(xiàn)結(jié)構(gòu),如近似動(dòng)態(tài)規(guī)劃(Approximate Dynamic Programming),自適應(yīng)評(píng)價(jià)設(shè)計(jì)(Adaptive Critic Design)或神經(jīng)動(dòng)態(tài)規(guī)劃(Neuro-Dynamic Programming)等,引起了學(xué)術(shù)界的廣泛關(guān)注[17-26]. ADP是一種基于強(qiáng)化學(xué)習(xí)理論的先進(jìn)智能控制方法,基于神經(jīng)網(wǎng)絡(luò)的函數(shù)泛化能力,通過(guò)近似求解非線(xiàn)性HJB方程,避免了維數(shù)災(zāi)難問(wèn)題. ADP方法擁有應(yīng)用范圍廣,自適應(yīng)性自調(diào)節(jié)能力強(qiáng),魯棒性能優(yōu)秀等特點(diǎn). 由于A(yíng)DP具有的自適應(yīng)能力,一些基于A(yíng)DP方法的魯棒控制策略也被先后提出,并用于非線(xiàn)性系統(tǒng)魯棒控制問(wèn)題研究[27-35]. ADP方法從初始階段的基本結(jié)構(gòu)和算法設(shè)計(jì),到中期的方法擴(kuò)展和理論完善,目前已經(jīng)發(fā)展到相關(guān)成果在非線(xiàn)性動(dòng)態(tài)不確定系統(tǒng)中的擴(kuò)展應(yīng)用階段. 當(dāng)涉及具體應(yīng)用場(chǎng)景時(shí),則需要解決現(xiàn)實(shí)系統(tǒng)中的動(dòng)態(tài)不確定問(wèn)題,即魯棒控制問(wèn)題.其中,航空航天飛行器系統(tǒng)作為典型的高維非線(xiàn)性系統(tǒng),面臨的復(fù)雜擾動(dòng)與不確定問(wèn)題也成為了該領(lǐng)域研究中的難點(diǎn)和熱點(diǎn). 對(duì)于航空航天飛行系統(tǒng)中存在的不確定性、擾動(dòng)的問(wèn)題:一些研究在設(shè)計(jì)性能指標(biāo)函數(shù)時(shí)會(huì)將不確定擾動(dòng)對(duì)系統(tǒng)動(dòng)態(tài)響應(yīng)的影響考慮其中,進(jìn)而通過(guò)穩(wěn)定性分析保證控制策略對(duì)于閉環(huán)不確定系統(tǒng)的魯棒穩(wěn)定性.對(duì)于模型部分或完全未知的場(chǎng)景:基于數(shù)據(jù)學(xué)習(xí)的思想為模型不確定問(wèn)題提供了一條新的求解思路. 可以通過(guò)引入神經(jīng)網(wǎng)絡(luò)、蒙特卡洛抽樣等技術(shù)來(lái)近似系統(tǒng)動(dòng)態(tài)響應(yīng),實(shí)現(xiàn)對(duì)于控制、狀態(tài)等信息流的映射與學(xué)習(xí),進(jìn)而放松對(duì)于精確系統(tǒng)模型的要求,而神經(jīng)網(wǎng)絡(luò)在其間往往被應(yīng)用于海量系統(tǒng)數(shù)據(jù)的處理. 相比其他傳統(tǒng)魯棒控制方法,ADP方法在保留了動(dòng)態(tài)規(guī)劃方法最優(yōu)屬性的同時(shí),通過(guò)結(jié)合強(qiáng)化學(xué)習(xí)理論以及數(shù)據(jù)驅(qū)動(dòng)思想,實(shí)現(xiàn)了對(duì)于動(dòng)態(tài)不確定、模型未知等問(wèn)題的處理.
ADP方法通過(guò)動(dòng)態(tài)調(diào)整控制器參數(shù)以適應(yīng)被控對(duì)象的動(dòng)態(tài)特性的變化及所在環(huán)境的不確定性.從該角度出發(fā),ADP控制與魯棒控制具有相似的被控對(duì)象.不同的是,魯棒控制設(shè)計(jì)過(guò)程中,往往需要通過(guò)穩(wěn)定性分析,進(jìn)一步考慮在某些特定界限下達(dá)到控制目標(biāo)所留有的自由度,即滿(mǎn)足一定的魯棒性能指標(biāo).可以說(shuō),ADP方法在魯棒控制問(wèn)題中的應(yīng)用,是ADP方法對(duì)于實(shí)際系統(tǒng)動(dòng)態(tài)不確定與擾動(dòng)問(wèn)題的進(jìn)一步考慮,即加深了ADP方法的理論研究深度,為ADP理論成果可以有效應(yīng)用于現(xiàn)實(shí)不確定系統(tǒng)奠定了基礎(chǔ),又豐富了魯棒控制理論研究成果,為魯棒控制問(wèn)題的求解的擴(kuò)寬了解決思路.本文將以此為前提,針對(duì)基于自適應(yīng)動(dòng)態(tài)規(guī)劃的航空航天飛行器魯棒控制問(wèn)題研究與未來(lái)發(fā)展前景進(jìn)行介紹與分析.
ADP方法利用強(qiáng)化學(xué)習(xí)機(jī)制獲得近似最優(yōu)的代價(jià)函數(shù)和控制策略,實(shí)現(xiàn)最優(yōu)控制問(wèn)題的前向求解. ADP方法通過(guò)函數(shù)近似結(jié)構(gòu)來(lái)估計(jì)動(dòng)態(tài)規(guī)劃中的代價(jià)函數(shù)和控制策略,主要包括三個(gè)核心框架部分:動(dòng)態(tài)系統(tǒng)、行為網(wǎng)絡(luò)和評(píng)價(jià)網(wǎng)絡(luò). 動(dòng)態(tài)系統(tǒng)即被控系統(tǒng),包含系統(tǒng)運(yùn)行的動(dòng)態(tài)特征;評(píng)價(jià)網(wǎng)絡(luò)近似最優(yōu)代價(jià)函數(shù),行為網(wǎng)絡(luò)近似最優(yōu)控制策略.除此之外,一些典型結(jié)構(gòu)中也包含模型網(wǎng)絡(luò),用于應(yīng)對(duì)動(dòng)態(tài)系統(tǒng)未知或部分未知時(shí)估計(jì)系統(tǒng)狀態(tài)輸出信號(hào). 評(píng)價(jià)網(wǎng)絡(luò)和行為網(wǎng)絡(luò)的相互作用相當(dāng)于一個(gè)智能體在外界獎(jiǎng)勵(lì)/懲罰作用下的強(qiáng)化學(xué)習(xí)過(guò)程. 動(dòng)態(tài)系統(tǒng)收到當(dāng)前控制信號(hào)后,通過(guò)自身對(duì)控制信號(hào)的響應(yīng)產(chǎn)生獎(jiǎng)勵(lì)/懲罰信號(hào),來(lái)影響代價(jià)函數(shù)輸出,最終影響行為網(wǎng)絡(luò)控制策略的產(chǎn)生.
WERBOS等[36]基于強(qiáng)化學(xué)習(xí)框架,給出了自適應(yīng)動(dòng)態(tài)規(guī)劃方法的幾種典型結(jié)構(gòu). WERBOS在文獻(xiàn)中給出了啟發(fā)式動(dòng)態(tài)規(guī)劃(heuristic dynamic programming,HDP)和二次啟發(fā)式動(dòng)態(tài)規(guī)劃(dual heuristic dynamic programming,DHP)的基本結(jié)構(gòu)框架用以實(shí)現(xiàn)ADP控制思想. HDP結(jié)構(gòu)應(yīng)用較為廣泛,典型結(jié)構(gòu)中包括行為網(wǎng)絡(luò)、評(píng)價(jià)網(wǎng)絡(luò)以及模型網(wǎng)絡(luò). 行為網(wǎng)絡(luò)基于系統(tǒng)動(dòng)態(tài)和代價(jià)函數(shù)來(lái)輸出控制策略,評(píng)價(jià)網(wǎng)絡(luò)用于估計(jì)代價(jià)函數(shù),模型網(wǎng)絡(luò)則用于系統(tǒng)動(dòng)態(tài)估計(jì). 不同于HDP,DHP中評(píng)價(jià)網(wǎng)絡(luò)用于估計(jì)代價(jià)函數(shù)的梯度,而不再是估計(jì)代價(jià)函數(shù). 文獻(xiàn)[37]中,基于HDP和DHP結(jié)構(gòu),兩種改進(jìn)結(jié)構(gòu)控制依賴(lài)啟發(fā)式動(dòng)態(tài)規(guī)劃(action dependent HDP,ADHDP)和控制依賴(lài)二次啟發(fā)式規(guī)劃(action dependent DHP,ADDHP)相繼被提出. 在原有結(jié)構(gòu)基礎(chǔ)上,這兩種控制依賴(lài)型框架中評(píng)價(jià)網(wǎng)絡(luò)的輸入包含系統(tǒng)動(dòng)態(tài)以及系統(tǒng)的控制輸入信息. Prokhorov等提出全局二次啟發(fā)式規(guī)劃(globalized DHP,GDHP)和控制依賴(lài)全局二次啟發(fā)式規(guī)劃(action dependent globalized DHP,ADGDHP)結(jié)構(gòu)[38-39]. GDHP中評(píng)價(jià)網(wǎng)絡(luò)用于估計(jì)系統(tǒng)的代價(jià)函數(shù)及其梯度. ADGDHP則在GDHP的基礎(chǔ)上,使評(píng)價(jià)網(wǎng)絡(luò)的輸入包含系統(tǒng)動(dòng)態(tài)和系統(tǒng)控制輸入信息. 在上述結(jié)構(gòu)基礎(chǔ)上,HE[25]等考慮了獎(jiǎng)勵(lì)/懲罰信號(hào)的自適應(yīng)調(diào)節(jié),提出了目標(biāo)導(dǎo)向型自適應(yīng)動(dòng)態(tài)規(guī)劃 (goal representation adaptive dynamic programming,GrADP)實(shí)現(xiàn)結(jié)構(gòu).
綜合以上ADP結(jié)構(gòu)的擴(kuò)展方式和設(shè)計(jì)思路,其主要體現(xiàn)于:1) 評(píng)價(jià)網(wǎng)絡(luò)的輸入信息;2) 評(píng)價(jià)網(wǎng)絡(luò)的輸出信息;3) 評(píng)價(jià)、行為、模型等網(wǎng)絡(luò)結(jié)構(gòu)的應(yīng)用數(shù)量以及網(wǎng)絡(luò)拓?fù)浞植?
評(píng)價(jià)網(wǎng)絡(luò)輸入、輸出信息的豐富程度體現(xiàn)了對(duì)于系統(tǒng)動(dòng)態(tài)信息的獲取需求,為評(píng)價(jià)網(wǎng)絡(luò)近似系統(tǒng)代價(jià)函數(shù)提供了數(shù)據(jù)支持. 但是,過(guò)大的信息流也會(huì)導(dǎo)致計(jì)算效率的降低以及計(jì)算資源的浪費(fèi). 同時(shí),一些無(wú)效數(shù)據(jù)的輸入也會(huì)阻礙評(píng)價(jià)網(wǎng)絡(luò)學(xué)習(xí)過(guò)程的推進(jìn). 因此,合理設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),也是ADP算法有效實(shí)現(xiàn)的保證. 行為網(wǎng)絡(luò)輸入信息一般包括系統(tǒng)動(dòng)態(tài)信息,通過(guò)系統(tǒng)動(dòng)態(tài)信息的提取以及評(píng)價(jià)網(wǎng)絡(luò)的調(diào)節(jié),最終為被控系統(tǒng)提供近似最優(yōu)控制策略. 因此,如何處理并提取有效輸入狀態(tài)信息是設(shè)計(jì)中的一個(gè)關(guān)鍵. 具體到算法實(shí)現(xiàn),神經(jīng)網(wǎng)絡(luò)的權(quán)值更新規(guī)則一定程度上決定了算法的收斂性能. 如何在保證提出方法穩(wěn)定性的基礎(chǔ)上,提升算法收斂的快速性、準(zhǔn)確性以及訓(xùn)練結(jié)果的最優(yōu)性,是ADP方法設(shè)計(jì)過(guò)程中的重點(diǎn)和難點(diǎn). 除以上關(guān)鍵問(wèn)題外,評(píng)價(jià)、行為、模型網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)復(fù)雜程度,神經(jīng)網(wǎng)絡(luò)的深度、寬度,各網(wǎng)絡(luò)的應(yīng)用數(shù)量等問(wèn)題,均會(huì)影響ADP方法實(shí)現(xiàn)上的難易程度以及實(shí)際應(yīng)用的控制效果.
此外,魯棒控制問(wèn)題中代價(jià)函數(shù)的設(shè)計(jì)也是一個(gè)重要環(huán)節(jié),如何充分考慮不確定系統(tǒng)中的各種干擾和不確定性并合理設(shè)計(jì)系統(tǒng)代價(jià)函數(shù)是ADP方法取得較好控制效果的基礎(chǔ),這有益于提高ADP方法的魯棒控制精度、計(jì)算效率以及穩(wěn)定性. 不同的ADP結(jié)構(gòu)均有各自的特點(diǎn),他們?cè)谟?jì)算速度和計(jì)算精度上有所不同,用以應(yīng)對(duì)不同響應(yīng)特性的系統(tǒng)以及不同的控制需求. 近年來(lái),隨著ADP方法的逐漸成熟,基于以上各種框架的研究也被不斷擴(kuò)展.
ADP方法在實(shí)現(xiàn)過(guò)程中一般應(yīng)用函數(shù)近似技術(shù),通過(guò)神經(jīng)網(wǎng)絡(luò)來(lái)近似代價(jià)函數(shù)、最優(yōu)控制策略、系統(tǒng)動(dòng)態(tài)響應(yīng)等,從而近似求解系統(tǒng)最優(yōu)控制問(wèn)題. 通過(guò)神經(jīng)網(wǎng)絡(luò)(評(píng)價(jià)網(wǎng)絡(luò))近似估計(jì)代價(jià)函數(shù)或代價(jià)函數(shù)梯度,避免了直接求解非線(xiàn)性偏微分HJB方程來(lái)得到系統(tǒng)代價(jià)函數(shù). 進(jìn)而最優(yōu)控制策略也可以基于神經(jīng)網(wǎng)絡(luò)(行為網(wǎng)絡(luò))近似得到. 特別的,針對(duì)動(dòng)態(tài)模型信息已知的系統(tǒng),可以應(yīng)用單網(wǎng)絡(luò)自適應(yīng)評(píng)價(jià)方法[40],模型網(wǎng)絡(luò)與行為網(wǎng)絡(luò)進(jìn)行刪減,結(jié)合最優(yōu)控制策略的具體解析表達(dá)與評(píng)價(jià)網(wǎng)絡(luò)輸出,得到近似最優(yōu)控制策略.
ADP算法實(shí)現(xiàn)主要是通過(guò)設(shè)計(jì)迭代算法來(lái)實(shí)現(xiàn). 從目前ADP的發(fā)展來(lái)看,迭代ADP算法主要分為策略迭代算法與值迭代算法[7,16]. 策略迭代與值迭代都屬于“強(qiáng)化學(xué)習(xí)”里策略求解中的動(dòng)態(tài)規(guī)劃方法,兩者最明顯的區(qū)別體現(xiàn)在算法迭代的起始條件以及迭代循環(huán)條件.
策略迭代主要包括策略評(píng)估(Policy evaluation)與策略提高(Policy improvement)兩個(gè)過(guò)程[11]. 強(qiáng)化學(xué)習(xí)策略迭代算法從一個(gè)初始化控制策略集開(kāi)始,基于值函數(shù)對(duì)當(dāng)前控制動(dòng)作進(jìn)行評(píng)估,從中選取值函數(shù)收斂且滿(mǎn)足值函數(shù)差分最大/最小的策略,并進(jìn)入下一階段,利用值函數(shù)信息實(shí)現(xiàn)策略提高. 計(jì)算采取下一動(dòng)作后,得到下一狀態(tài)的值函數(shù)為最大/最小,則選取該策略并返回“策略評(píng)估”過(guò)程,直到得到最優(yōu)值函數(shù)與最優(yōu)控制動(dòng)作. 具體的,迭代ADP算法中,往往對(duì)應(yīng)一個(gè)具體被控對(duì)象,因此,往往需要一個(gè)“初始穩(wěn)定的控制策略”保證算法的順利進(jìn)行. 在策略提高過(guò)程中,迭代ADP算法往往設(shè)計(jì)具體權(quán)值更新規(guī)則完成神經(jīng)網(wǎng)絡(luò)更新,即對(duì)應(yīng)策略提高過(guò)程.
值迭代算法中,通過(guò)計(jì)算不同控制動(dòng)作下的期望值函數(shù),根據(jù)需求,選取最大/最小的期望值函數(shù)作為當(dāng)前值函數(shù),并用于更新控制策略. 通過(guò)循環(huán)此步驟直到值函數(shù)收斂到最優(yōu)值,進(jìn)而得到最優(yōu)控制動(dòng)作[11]. 在迭代ADP算法中,兩種迭代算法除了初始穩(wěn)定控制策略要求的不同,策略迭代是計(jì)算確定策略下的值函數(shù),據(jù)此修改控制策略,在迭代過(guò)程中不斷優(yōu)化. 值迭代算法則是根據(jù)期望值函數(shù)來(lái)更新迭代,且最后輸出確定的最優(yōu)控制策略,保證了最優(yōu)性. 同時(shí),兩種算法也各有其不足,策略迭代每次循環(huán)迭代次數(shù)更少,但收斂速度較慢,整體需要迭代的次數(shù)較多,使得計(jì)算量較大. 值迭代由于其遍歷特性,當(dāng)系統(tǒng)狀態(tài)空間較大時(shí),有限步驟內(nèi)往往不能得到滿(mǎn)意的值函數(shù)和控制策略[41].
ADP算法從應(yīng)用方式上主要分為離線(xiàn)算法與在線(xiàn)算法. 相比于在線(xiàn)迭代算法,離線(xiàn)迭代算法更為保守,當(dāng)系統(tǒng)模型動(dòng)態(tài)發(fā)生變化或參數(shù)不確定性影響較大時(shí),可能導(dǎo)致原離線(xiàn)近似最優(yōu)策略控制效果降低,需要對(duì)ADP控制器重新進(jìn)行離線(xiàn)訓(xùn)練,增加了系統(tǒng)運(yùn)行維護(hù)成本. 在線(xiàn)迭代算法可以解決模型不確定這一問(wèn)題,通過(guò)在線(xiàn)訓(xùn)練神經(jīng)網(wǎng)絡(luò),可以使控制策略自適應(yīng)調(diào)節(jié),適應(yīng)系統(tǒng)模型變化帶來(lái)的影響. 但是,在線(xiàn)算法往往需要占用更多系統(tǒng)資源,并且在算法學(xué)習(xí)之初可能導(dǎo)致系統(tǒng)出現(xiàn)較大振蕩. 同時(shí),當(dāng)系統(tǒng)存在較多干擾時(shí),可能導(dǎo)致網(wǎng)絡(luò)權(quán)值不斷調(diào)整,無(wú)效信息的引入也將影響算法收斂結(jié)果的最優(yōu)性,而離線(xiàn)算法中則不存在這樣的問(wèn)題. 不可否認(rèn)的是,在線(xiàn)ADP算法擁有廣闊的發(fā)展前景. 從科學(xué)研究到現(xiàn)代工業(yè)生產(chǎn),各種微米級(jí)、納米級(jí)技術(shù)的發(fā)展需求也越來(lái)越高,人們不斷追求精度更高魯棒性更強(qiáng)的控制策略. 因此,設(shè)計(jì)一種即擁有在線(xiàn)算法的自適應(yīng)性,也保持離線(xiàn)算法的抗干擾能力的ADP算法具有非常重要的理論與現(xiàn)實(shí)意義.
航空航天飛行器往往工作于復(fù)雜多變的飛行環(huán)境,這為系統(tǒng)穩(wěn)定控制帶來(lái)了一定的不確定性.同時(shí),復(fù)雜的系統(tǒng)動(dòng)力學(xué)特性,如非線(xiàn)性、強(qiáng)耦合、撓性不確定等問(wèn)題對(duì)控制策略的設(shè)計(jì)提出了更高的要求. 結(jié)合神經(jīng)網(wǎng)絡(luò)強(qiáng)大的泛化能力與強(qiáng)化學(xué)習(xí)的自學(xué)習(xí)能力,近年來(lái)出現(xiàn)了一批基于A(yíng)DP方法的航空航天飛行器魯棒控制問(wèn)題的研究. 值得注意的是,不同種類(lèi)航空航天飛行器除了系統(tǒng)模型動(dòng)態(tài)特性存在巨大差異外,所處的飛行環(huán)境與控制問(wèn)題側(cè)重點(diǎn)也各不相同. 因此,考慮三種典型場(chǎng)景,對(duì)ADP方法在高超聲速飛行器系統(tǒng),導(dǎo)航制導(dǎo)系統(tǒng)以及無(wú)人機(jī)系統(tǒng)的魯棒控制問(wèn)題分別展開(kāi)分析與討論.
“近空間”是指距離地面20千米至100千米的空域,該空域處于飛機(jī)等航空器的最高飛行高度和衛(wèi)星飛船等航天器的最低軌道高度之間,也稱(chēng)為亞軌道或空天過(guò)渡區(qū). 高超聲速飛行器正是飛行在近空間飛行速度不小于5馬赫(Mach)的一種飛行器[2,42]. 高超聲速飛行器控制發(fā)展過(guò)程中,一些基于傳統(tǒng)非線(xiàn)性控制方法的研究不斷被提出[42-45]. 然而,高超聲速飛行器具有的強(qiáng)非線(xiàn)性、強(qiáng)耦合、模型不確定性和干擾、姿態(tài)約束、參數(shù)時(shí)變和撓性特性等特點(diǎn)為控制策略的選取帶來(lái)了極大的挑戰(zhàn).
目前,ADP方法在高超聲速飛行器等空天飛行器的應(yīng)用大多是針對(duì)環(huán)境擾動(dòng)和參數(shù)不確定問(wèn)題進(jìn)行深入討論研究.文獻(xiàn)[46]中重點(diǎn)考慮了高超聲速飛行器環(huán)境干擾和參數(shù)不確定問(wèn)題,設(shè)計(jì)滑模控制器來(lái)保證系統(tǒng)整體穩(wěn)定性,同時(shí)提出一種基于數(shù)據(jù)的ADHDP輔助控制器,用于在線(xiàn)自適應(yīng)補(bǔ)償干擾和不確定引起的系統(tǒng)振蕩.文獻(xiàn)[47]提出一種直接啟發(fā)式動(dòng)態(tài)規(guī)劃策略,嵌入模糊神經(jīng)網(wǎng)絡(luò)以提高算法自學(xué)習(xí)能力和魯棒性能,用于處理高超聲速飛行器姿態(tài)角度跟蹤過(guò)程中存在的有界參數(shù)不確定問(wèn)題. 文獻(xiàn)[48]針對(duì)推進(jìn)系統(tǒng)和機(jī)身模型間的耦合問(wèn)題,提出一種基于在線(xiàn)同步策略迭代算法的H∞魯棒控制策略.文獻(xiàn)[49]考慮變結(jié)構(gòu)近空間飛行器系統(tǒng)的參數(shù)不確定性和外界擾動(dòng)問(wèn)題,提出一種基于降階觀(guān)測(cè)器技術(shù)與自適應(yīng)動(dòng)態(tài)規(guī)劃方法的開(kāi)關(guān)自適應(yīng)主動(dòng)抗干擾控制技術(shù). 文獻(xiàn)[50]提出一種基于徑向基神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的自適應(yīng)動(dòng)態(tài)神經(jīng)模糊控制方法,仿真表明提出策略對(duì)于模型參數(shù)變化有較強(qiáng)的容錯(cuò)性能. 此外,一些基于神經(jīng)網(wǎng)絡(luò)觀(guān)測(cè)器/神經(jīng)網(wǎng)絡(luò)近似技術(shù)補(bǔ)償高超聲速飛行器不確定動(dòng)態(tài),進(jìn)而設(shè)計(jì)自適應(yīng)魯棒控制器的研究,也表現(xiàn)出了不錯(cuò)的控制效果[51-52].
一般來(lái)說(shuō),導(dǎo)航制導(dǎo)系統(tǒng)的控制問(wèn)題更多指向?qū)椷@種特殊飛行器. 導(dǎo)彈因?yàn)槠渚_打擊能力與超強(qiáng)的破壞力成為很多軍事大國(guó)在武器裝備戰(zhàn)略轉(zhuǎn)型上的優(yōu)選目標(biāo)[7]. 基于A(yíng)DP框架下的導(dǎo)航制導(dǎo)控制策略能夠根據(jù)導(dǎo)彈跟蹤目標(biāo)的動(dòng)態(tài)變化,針對(duì)不同突發(fā)狀況,自適應(yīng)的進(jìn)行在線(xiàn)調(diào)整并更新末端制導(dǎo)率,從而實(shí)現(xiàn)智能追蹤、精確打擊的目的. 結(jié)合強(qiáng)化學(xué)習(xí)與非線(xiàn)性動(dòng)態(tài)規(guī)劃理論,ADP框架下導(dǎo)航制導(dǎo)系統(tǒng)的相關(guān)研究為未來(lái)智能導(dǎo)航系統(tǒng)的發(fā)展奠定了理論基礎(chǔ).
相比于其他應(yīng)用場(chǎng)景,ADP方法在導(dǎo)航制導(dǎo)領(lǐng)域的研究剛剛起步,主要用于最優(yōu)制導(dǎo)律的設(shè)計(jì)問(wèn)題,以下主要對(duì)現(xiàn)有的一些研究成果進(jìn)行分析. 文獻(xiàn)[53]針對(duì)多變量擾動(dòng)下的飛行器垂直起降系統(tǒng)制導(dǎo)控制問(wèn)題,基于稀疏核理論,設(shè)計(jì)一種基于核的在線(xiàn)DHP魯棒控制策略設(shè)計(jì). 文獻(xiàn)[54]中主要針對(duì)行星著陸任務(wù)中制導(dǎo)算法進(jìn)行研究,設(shè)計(jì)了一種終端多面滑模制導(dǎo)律,并基于強(qiáng)化學(xué)習(xí)原理,對(duì)制導(dǎo)律增益進(jìn)行在線(xiàn)自適應(yīng)調(diào)整,取得了不錯(cuò)的仿真效果.文獻(xiàn)[55]基于自適應(yīng)動(dòng)態(tài)規(guī)劃框架,自適應(yīng)調(diào)節(jié)關(guān)聯(lián)搜索單元參數(shù)、自適應(yīng)評(píng)價(jià)單元參數(shù)以及模糊規(guī)則函數(shù)的中心參數(shù)和寬度參數(shù),提出一種基于自適應(yīng)評(píng)價(jià)方法的自動(dòng)駕駛儀用于導(dǎo)彈傾斜轉(zhuǎn)彎控制問(wèn)題. 文獻(xiàn)[56]基于自適應(yīng)評(píng)價(jià)結(jié)構(gòu),提出一種最優(yōu)制導(dǎo)律設(shè)計(jì)方法. 文獻(xiàn)[57]與[58]分別考慮導(dǎo)彈制導(dǎo)中狀態(tài)約束和輸入約束問(wèn)題,設(shè)計(jì)了基于自適應(yīng)評(píng)價(jià)網(wǎng)絡(luò)的制導(dǎo)律,實(shí)現(xiàn)了最小時(shí)間內(nèi)從初始飛行馬赫數(shù)到目標(biāo)馬赫數(shù)的控制. 針對(duì)空間目標(biāo)精確打擊的研究,一些基于強(qiáng)化學(xué)習(xí)理論的方法被提出,實(shí)現(xiàn)了導(dǎo)彈追擊、空間對(duì)戰(zhàn)等問(wèn)題的躲避控制[59-60].
隨著電子、通信技術(shù)的逐漸成熟,出現(xiàn)了各種民用與軍用無(wú)人機(jī),具體科學(xué)研究也取得了不錯(cuò)的進(jìn)展,其中,尤以微小型無(wú)人機(jī)的研究成果最為豐富[61-63]. 目前為止,對(duì)于微小型無(wú)人機(jī),國(guó)際上較為認(rèn)可的一種說(shuō)法是將其分為旋翼式、固定翼和撲翼式無(wú)人機(jī). 對(duì)于前兩種無(wú)人機(jī)的研究成果較多,擁有更多的實(shí)際應(yīng)用場(chǎng)景,并且這兩種無(wú)人機(jī)的表現(xiàn)也較為符合人們的期望.
微型撲翼式無(wú)人機(jī)主要結(jié)合空氣動(dòng)力學(xué)和仿生學(xué)理論來(lái)進(jìn)行結(jié)構(gòu)設(shè)計(jì),其體積相較于旋翼式更小,在軍事偵察中擁有其重要的戰(zhàn)略地位,但目前關(guān)于撲翼式無(wú)人機(jī)的研究還處于理論與試驗(yàn)階段,與ADP方法結(jié)合的研究較少[64-67]. 文獻(xiàn)[65]針對(duì)蜂鳥(niǎo)撲翼微型無(wú)人機(jī)設(shè)計(jì)了一種基于擾動(dòng)觀(guān)測(cè)器的神經(jīng)網(wǎng)絡(luò)輸出反饋和狀態(tài)反饋控制器,通過(guò)穩(wěn)定性和仿真分析,表明在合適的控制參數(shù)下,系統(tǒng)狀態(tài)可以收斂到穩(wěn)定點(diǎn)附近鄰域內(nèi). 文獻(xiàn)[66]針對(duì)撲翼微型無(wú)人機(jī)準(zhǔn)穩(wěn)態(tài)模型設(shè)計(jì)了基于強(qiáng)化學(xué)習(xí)的控制算法,并進(jìn)行了仿真驗(yàn)證,進(jìn)一步,文獻(xiàn)[67]基于該算法應(yīng)用果蠅動(dòng)態(tài)模型在真實(shí)環(huán)境下進(jìn)行了實(shí)驗(yàn)驗(yàn)證.
固定翼、旋翼無(wú)人機(jī)系統(tǒng)往往是耦合非線(xiàn)性系統(tǒng),并且由于飛行速度較慢,容易受到外界環(huán)境因素影響. 對(duì)此,ADP等基于強(qiáng)化學(xué)習(xí)的控制框架憑借其自適應(yīng)性能得到了廣泛關(guān)注[68-73]. 文獻(xiàn)[69]考慮風(fēng)力擾動(dòng)與空氣阻尼參數(shù)不確定下四旋翼無(wú)人機(jī)魯棒控制問(wèn)題,通過(guò)模型等價(jià)變換定義系統(tǒng)耦合不確定性,以單網(wǎng)絡(luò)自適應(yīng)評(píng)價(jià)結(jié)構(gòu)為基礎(chǔ),設(shè)計(jì)了一種基于學(xué)習(xí)的自適應(yīng)魯棒控制策略,并通過(guò)對(duì)比實(shí)驗(yàn)驗(yàn)證了方法的有效性. 針對(duì)兩自由度旋翼無(wú)人機(jī)模型不確定性問(wèn)題,文獻(xiàn)[70]提出了一種基于數(shù)據(jù)采樣ADP方法的輸出反饋控制器,并通過(guò)仿真實(shí)驗(yàn)驗(yàn)證其可行性. 文獻(xiàn)[71]針對(duì)四旋翼無(wú)人機(jī)中模型不確定與干擾問(wèn)題提出一種改進(jìn)的在線(xiàn)自適應(yīng)評(píng)價(jià)結(jié)構(gòu),分別對(duì)各子系統(tǒng)進(jìn)行控制器設(shè)計(jì),實(shí)現(xiàn)了較好的控制效果. 文獻(xiàn)[72]研究小型固定翼無(wú)人機(jī)在隨機(jī)環(huán)境干擾下集群控制問(wèn)題,設(shè)計(jì)基于Q學(xué)習(xí)的集群控制策略并與Quintero動(dòng)態(tài)規(guī)劃方法進(jìn)行對(duì)比,結(jié)果表明提出的方法對(duì)于環(huán)境擾動(dòng)有更好的適應(yīng)性. 文獻(xiàn)[73]設(shè)計(jì)一種基于多步策略評(píng)估的Q學(xué)習(xí)方法用于兩自由度直升機(jī)模型控制問(wèn)題,該策略是基于數(shù)據(jù)實(shí)現(xiàn)并且無(wú)需精確系統(tǒng)模型. 文獻(xiàn)[74]以強(qiáng)化學(xué)習(xí)理論為基礎(chǔ),設(shè)計(jì)自適應(yīng)評(píng)價(jià)增補(bǔ)控制器用于四旋翼無(wú)人機(jī)控制問(wèn)題,并基于Q學(xué)習(xí)、時(shí)序差分以及經(jīng)驗(yàn)回歸技術(shù)提高訓(xùn)練速度與穩(wěn)定性.
以上為ADP方法及相關(guān)強(qiáng)化學(xué)習(xí)技術(shù)在航空航天飛行器魯棒控制問(wèn)題的應(yīng)用介紹. 目前,相關(guān)研究已經(jīng)逐漸步入正軌并且得到了科研、技術(shù)人員的重點(diǎn)關(guān)注.由于A(yíng)DP等方法在該領(lǐng)域研究普遍尚未成熟與完善,目前仍然是研究中的熱點(diǎn)與難點(diǎn),具有廣闊的發(fā)展前景空間.
當(dāng)前ADP方法理論研究成果已經(jīng)比較豐富,具體涉及了ADP結(jié)構(gòu)改進(jìn)與算法擴(kuò)展研究,算法結(jié)構(gòu)、更新迭代方式、計(jì)算效率等研究,對(duì)于系統(tǒng)約束、不確定性等問(wèn)題的研究,針對(duì)復(fù)雜系統(tǒng)的應(yīng)用等等.但ADP方法在航空航天飛行器應(yīng)用的相關(guān)理論研究仍然有待深入完善,以下給出幾種未來(lái)可能的發(fā)展方向:
1)考慮航空航天飛行器狀態(tài)、控制約束問(wèn)題. 目前,即使在A(yíng)DP方法理論研究方面,關(guān)于狀態(tài)、控制約束問(wèn)題的研究仍不完善,在航空航天領(lǐng)域中的研究成果也是更為少見(jiàn),有待深入研究.
2)考慮系統(tǒng)模型撓性特性問(wèn)題. 對(duì)于高超聲速飛行器、導(dǎo)彈等速度較高的飛行器系統(tǒng),撓性非線(xiàn)性特性對(duì)系統(tǒng)動(dòng)態(tài)響應(yīng)的影響往往不容忽視,但是專(zhuān)門(mén)針對(duì)該問(wèn)題的研究仍然較少.
3)效率提高. 考慮航空航天飛行器高動(dòng)態(tài)特性,往往需要控制器對(duì)系統(tǒng)狀態(tài)的快速響應(yīng). 然而,設(shè)計(jì)基于強(qiáng)化學(xué)習(xí)的方法往往需要較長(zhǎng)的訓(xùn)練時(shí)間來(lái)優(yōu)化輸出,這就體現(xiàn)了提高算法迭代效率的重要性.
4)提高算法魯棒性能. 當(dāng)前航空航天飛行器往往是維數(shù)高,耦合性強(qiáng)的非線(xiàn)性系統(tǒng),受飛行環(huán)境的影響,模型本身也會(huì)存在不確定. 當(dāng)出現(xiàn)較大擾動(dòng)或不確定問(wèn)題時(shí),單純的ADP控制效果仍不理想,這一問(wèn)題仍然有待解決.
5)考慮系統(tǒng)時(shí)滯問(wèn)題. 受制于通信、傳感等技術(shù),系統(tǒng)時(shí)滯問(wèn)題也逐漸受到研究人員的關(guān)注,尤其對(duì)于航空航天飛行器這類(lèi)復(fù)雜系統(tǒng),時(shí)滯特性對(duì)于系統(tǒng)穩(wěn)定性、算法有效性等方面的研究仍然較少.
各種航空航天飛行器系統(tǒng)是當(dāng)前非線(xiàn)性控制領(lǐng)域研究的一個(gè)熱點(diǎn). 航空航天飛行器系統(tǒng)往往具有復(fù)雜的系統(tǒng)特性與多變的飛行環(huán)境,這也為其魯棒控制問(wèn)題的解決帶來(lái)極大的挑戰(zhàn).而ADP方法結(jié)合了強(qiáng)化學(xué)習(xí)的自學(xué)習(xí)特性與動(dòng)態(tài)規(guī)劃的最優(yōu)特性,憑借其優(yōu)秀的自適應(yīng)自調(diào)節(jié)性能,可應(yīng)用于非線(xiàn)性系統(tǒng)魯棒控制問(wèn)題. 本文首先針對(duì)ADP方法的基本框架與算法實(shí)現(xiàn)方面進(jìn)行了結(jié)構(gòu)介紹與機(jī)理分析. 進(jìn)一步,對(duì)ADP方法在高超聲速飛行器系統(tǒng),導(dǎo)航制導(dǎo)系統(tǒng)以及無(wú)人機(jī)系統(tǒng)的魯棒控制問(wèn)題研究展開(kāi)綜述,同時(shí)包含一些強(qiáng)化學(xué)習(xí)技術(shù),如Q學(xué)習(xí)方法在該領(lǐng)域的應(yīng)用研究等.
ADP方法在航空航天飛行器魯棒控制問(wèn)題的研究仍有待深入,具體算法、技術(shù)細(xì)節(jié)仍需改進(jìn),迫切需要相關(guān)科研、技術(shù)人員積極參與到具體研究中,促進(jìn)我國(guó)航空航天事業(yè)的發(fā)展.