郭可建,林曉波,郝程鵬,侯朝煥
(1.中國科學(xué)院大學(xué) 集成電路學(xué)院,北京,100049;2.中國科學(xué)院 聲學(xué)研究所,北京,100190)
基于神經(jīng)網(wǎng)絡(luò)狀態(tài)估計器的高速AUV強(qiáng)化學(xué)習(xí)控制
郭可建1,2,林曉波2,郝程鵬2,侯朝煥2
(1.中國科學(xué)院大學(xué) 集成電路學(xué)院,北京,100049;2.中國科學(xué)院 聲學(xué)研究所,北京,100190)
隨著海洋研究與開發(fā)的日益擴(kuò)大,高速自主水下航行器(AUV)作為重要的無人水下工作平臺受到廣泛關(guān)注。然而由于其模型具有多輸入多輸出、強(qiáng)耦合欠驅(qū)動以及強(qiáng)非線性特性,因此依賴精確模型的傳統(tǒng)控制方法在實(shí)際應(yīng)用中常受到限制。針對此問題,文中提出一種不依賴精確模型的強(qiáng)化學(xué)習(xí)位姿控制器,該控制器通過姿態(tài)環(huán)和位置環(huán)的配合不僅可以實(shí)現(xiàn)高速AUV的快速姿態(tài)穩(wěn)定,還可以更快地完成下潛到指定深度的動作;同時,為了降低獲取用于訓(xùn)練強(qiáng)化學(xué)習(xí)控制器數(shù)據(jù)的成本,結(jié)合神經(jīng)網(wǎng)絡(luò)技術(shù)提出了一種改進(jìn)的高速AUV狀態(tài)估計器,該估計器可以在已知當(dāng)前時刻AUV的狀態(tài)以及所受控制量的情況下估計出下一時刻的狀態(tài),從而為強(qiáng)化學(xué)習(xí)控制方法提供大量的訓(xùn)練數(shù)據(jù)。仿真實(shí)驗(yàn)結(jié)果表明,估計器達(dá)到了較高的估計精度,基于神經(jīng)網(wǎng)絡(luò)狀態(tài)估計器訓(xùn)練得到的強(qiáng)化學(xué)習(xí)控制器可以完成原AUV的平穩(wěn)快速控制,從而驗(yàn)證了所提方法的可行性及有效性。
自主水下航行器;強(qiáng)化學(xué)習(xí);神經(jīng)網(wǎng)絡(luò);狀態(tài)估計
近年來,隨著海洋開發(fā)活動的日益頻繁,自主水下航行器(autonomous undersea vehicle,AUV)以其功能豐富、性價比高和便捷性等優(yōu)點(diǎn)成為重要的水下工作平臺,并在水下搜索、海洋搜救、海洋環(huán)境數(shù)據(jù)搜集以及海洋資源開發(fā)等領(lǐng)域發(fā)揮著越來越重要的作用[1-2]。
由于應(yīng)用場景的不斷擴(kuò)展以及任務(wù)對性能要求的提高,AUV的運(yùn)行速度不斷提升,這給AUV的控制以及狀態(tài)的估計帶來一定困難。典型AUV是一個多輸入多輸出、欠驅(qū)動強(qiáng)耦合的不確定非線性系統(tǒng),因而如何對其進(jìn)行高機(jī)動控制一直是研究的難點(diǎn)。傳統(tǒng)AUV一般根據(jù)機(jī)理模型設(shè)計控制器,如反步(back-stepping)控制方法[3-4]、比例-積分-微分(proportion itegral differential,PID)控制方法[5-6]、線性二次型調(diào)節(jié)器(linear quadratic regulator,LQR)控制方法[7-8]等;同時根據(jù)系統(tǒng)的擾動、不確定特性設(shè)計相應(yīng)的補(bǔ)償策略,如魯棒控制方法[9]、自適應(yīng)控制方法[10-11]等。上述方法在系統(tǒng)的機(jī)理模型較為精確時可取得高精度的控制性能,然而AUV是一個強(qiáng)耦合的非線性系統(tǒng),對其進(jìn)行精確建模十分困難。相比于典型的低速AUV,高速AUV具有機(jī)動性強(qiáng)(高水流航速帶來更強(qiáng)的舵效)的顯著優(yōu)點(diǎn),但也存在控制方面的困難:首先,建模和參數(shù)辨識更困難(高速的水動力環(huán)境模擬較為困難),需要不依賴精確模型的控制算法;其次,高速AUV一般不安裝多普勒測速儀(Doppler velocity log,DVL)等測量水流速度的傳感器(外置突出的傳感器會影響機(jī)體的光滑表面),因此一般需要高性能的狀態(tài)估計器來估計當(dāng)前的航速;最后,高速AUV需要經(jīng)常工作在陌生的海域,對其外部干擾進(jìn)行提前建模也是不現(xiàn)實(shí)的。考慮到上述問題,需要研究不依賴精確模型的控制方法,并通過實(shí)時經(jīng)驗(yàn)數(shù)據(jù)抵抗未建模的干擾。
在不依賴精確模型的控制方法中,強(qiáng)化學(xué)習(xí)控制方法是一個很好的選擇。首先,強(qiáng)化學(xué)習(xí)方法可以在不建立模型的情況下獲得性能最優(yōu)的控制器。強(qiáng)化學(xué)習(xí)控制器是通過AUV與海洋環(huán)境的交互進(jìn)行學(xué)習(xí)獲得的,具體言之,即通過AUV控制器的控制輸出以及AUV的運(yùn)動狀態(tài)數(shù)據(jù)進(jìn)行自主學(xué)習(xí),從而在不需要模型的情況下,按照預(yù)定要求自主獲得最優(yōu)的控制性能。同時,強(qiáng)化學(xué)習(xí)的控制相較于傳統(tǒng)的反饋控制更加迅捷,由于強(qiáng)化學(xué)習(xí)的控制是通過訓(xùn)練得到的控制策略來實(shí)現(xiàn)的,因此其控制器在面對某一狀態(tài)時,會直接按照既有的控制策略生成相應(yīng)的符合預(yù)定要求的控制量,因此其控制不是一個嘗試性的慢調(diào)節(jié)過程。此外,強(qiáng)化學(xué)習(xí)追求的是最優(yōu)的綜合性能。在實(shí)際情況下,除了追求任意環(huán)境下良好的自主控制性能,還可能會對AUV的續(xù)航力、容錯控制等綜合性能提出要求,強(qiáng)化學(xué)習(xí)可以通過對獎勵函數(shù)的合理設(shè)置,自主學(xué)習(xí)到最優(yōu)的控制策略,以實(shí)現(xiàn)對控制效果、續(xù)航力、容錯等性能的最優(yōu)兼顧,從而獲得最優(yōu)的綜合性能。目前已經(jīng)提出的眾多強(qiáng)化學(xué)習(xí)算法主要分為值迭代(value iteration,VI)[12],策略迭代(policy iteration,PI)[13-14]及動作器-評價器(actor-critic,AC)[15-18]3種類型。文獻(xiàn)[19]提出一種改進(jìn)的VI類算法——Q-learning算法,該算法可以同時進(jìn)行單障礙物和多障礙物下的避障控制;文獻(xiàn)[20]通過將容錯控制轉(zhuǎn)化成最優(yōu)控制器求解問題,利用PI求解HJB(Hamilton-Jacobi-Bellman)方程,進(jìn)行AUV推進(jìn)器故障以及海流擾動下的容錯跟蹤控制,仿真實(shí)驗(yàn)證明了提出方法的有效性;文獻(xiàn)[21]結(jié)合滑??刂?sliding-mode control,SMC)和深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法(AC類),提出了SMC-DDPG算法,用以進(jìn)行不同速度的AUV控制,仿真結(jié)果表明,該算法可以實(shí)現(xiàn)穩(wěn)定、高精度的控制,且可以快速收斂。
強(qiáng)化學(xué)習(xí)控制方法雖然可以解決AUV的未建模干擾和非線性控制問題,但需要大量的經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行訓(xùn)練,而AUV實(shí)時運(yùn)行采集的經(jīng)驗(yàn)數(shù)據(jù)十分有限,這限制了強(qiáng)化學(xué)習(xí)在AUV上的應(yīng)用。為解決這一問題,必須研究AUV的狀態(tài)估計技術(shù)。AUV的狀態(tài)估計是指根據(jù)AUV當(dāng)前時刻的狀態(tài)和當(dāng)前時刻的控制輸入預(yù)測下個時刻的狀態(tài)。AUV的狀態(tài)估計器通過仿真運(yùn)行給強(qiáng)化學(xué)習(xí)控制算法提供充足的訓(xùn)練數(shù)據(jù)。
傳統(tǒng)的狀態(tài)預(yù)測方法通?;贏UV的動態(tài)模型,因此,部分研究致力于通過建立更精確的AUV動態(tài)模型來提升狀態(tài)估計精度[22-23]。文獻(xiàn)[24]提出了一種基于線性離散時間觀測卡爾曼濾波器的識別方法來進(jìn)行AUV的狀態(tài)估計。然而,由于AUV的運(yùn)動模型是非線性的,因此線性的估計方法通常只能工作在很小的范圍內(nèi),為解決這一問題,研究人員提出了一系列非線性的狀態(tài)估計方法,包括采用基于動態(tài)模型的狀態(tài)估計器以提升估計性能,通過流體動力學(xué)計算獲取更為精確的流體動力學(xué)因數(shù)從而構(gòu)建性能更優(yōu)的狀態(tài)估計器等方法[25-26]。然而,以上非線性的估計方法仍依賴精確的AUV動態(tài)模型,大大限制了其在實(shí)際情況下的應(yīng)用。
隨著機(jī)器學(xué)習(xí)技術(shù)的快速發(fā)展,無模型的狀態(tài)估計方法得以實(shí)現(xiàn)。文獻(xiàn)[27]提出了一種線性回歸方法用以估計AUV的速度、角速度以及運(yùn)動半徑,并在實(shí)際估計預(yù)測實(shí)驗(yàn)中取得了良好的效果。但是線性回歸方法很難學(xué)習(xí)更為復(fù)雜的AUV運(yùn)動學(xué)特性,因此,基于神經(jīng)網(wǎng)絡(luò)的非線性方法在實(shí)際情況下得到了更為廣泛的應(yīng)用。文獻(xiàn)[28]提出了一種單層神經(jīng)網(wǎng)絡(luò)的控制器,該控制器通過預(yù)測AUV所受的力及力矩進(jìn)行控制,并取得了優(yōu)于傳統(tǒng)控制器的控制性能。文獻(xiàn)[29]提出了一種多層的神經(jīng)網(wǎng)絡(luò)控制器,能夠?qū)UV動態(tài)特性以及所受干擾進(jìn)行估計,通過跟蹤性能實(shí)驗(yàn)證明,跟蹤誤差得到了有效抑制。
目前針對高速AUV的狀態(tài)估計方法較少,由于運(yùn)動學(xué)特性上的差異,直接將普通的狀態(tài)估計器應(yīng)用在高速AUV上會造成實(shí)際應(yīng)用中的性能損失。為了解決這一問題,文中提出一種基于神經(jīng)網(wǎng)絡(luò)的狀態(tài)估計器和與之適配的強(qiáng)化學(xué)習(xí)控制方法。構(gòu)建和訓(xùn)練神經(jīng)網(wǎng)絡(luò)狀態(tài)估計器的方法包括:1)間接估計;2)控制量的非線性變換;3)訓(xùn)練數(shù)據(jù)的歸一化;4)雙網(wǎng)絡(luò)結(jié)構(gòu)。同時,為了評估狀態(tài)估計器的估計精度,文中提出2種指標(biāo):1)統(tǒng)計性能指標(biāo)(statistics performance index,SPI),用以表征估計器輸出的狀態(tài)估計值與真實(shí)值之間的誤差情況;2)趨勢性能指標(biāo)(tendency performance index,TPI)用以表征估計器對AUV運(yùn)動學(xué)特性的學(xué)習(xí)情況。在以上估計器構(gòu)建完成后,在AC結(jié)構(gòu)之下,結(jié)合文獻(xiàn)[30]以及DDPG算法提出一種改進(jìn)的雙環(huán)補(bǔ)償控制器。該控制器包括姿態(tài)環(huán)和位置環(huán)2個強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò),姿態(tài)環(huán)負(fù)責(zé)輸出控制量進(jìn)行AUV姿態(tài)角度的快速調(diào)整和跟蹤,位置環(huán)主要根據(jù)目標(biāo)位置給出最優(yōu)的參考姿態(tài)角度,雙環(huán)合作進(jìn)行高速AUV的控制。仿真實(shí)驗(yàn)驗(yàn)證了所構(gòu)建的訓(xùn)練神經(jīng)網(wǎng)絡(luò)狀態(tài)估計器和基于強(qiáng)化學(xué)習(xí)的雙環(huán)補(bǔ)償控制方法的可行性及有效性。
高速AUV通常是指運(yùn)行速度超過30kn的長條形AUV[31],由于水下環(huán)境惡劣加之AUV的高速運(yùn)動,使得AUV模型變得更為復(fù)雜。為了描述AUV的運(yùn)動,分別引入了大地坐標(biāo)系和體坐標(biāo)系,如圖1所示。
圖1 AUV運(yùn)動坐標(biāo)系Fig.1 Motion coordinate system of the AUV
其中,大地坐標(biāo)系固結(jié)于大地某處,體坐標(biāo)系通常固結(jié)于AUV的浮心Ob,其坐標(biāo)[x0,y0,z0]代表AUV的浮心Ob相對于大地坐標(biāo)系的位置,而其姿態(tài)角,即橫滾角φ、俯仰角θ以及偏航角ψ是通過兩坐標(biāo)系之間的轉(zhuǎn)動角度來表征的?;谝陨献鴺?biāo)系建立的AUV的運(yùn)動模型如式(1)~(10)所示[32-33]。
式中:v=[vx,vy,vz]和ω=[ωx,ωy,ωz]分別為AUV的速度和角速度在體坐標(biāo)系的分量;為無量綱的角速度;xc,yc,zc分別為AUV的質(zhì)心在體坐標(biāo)系上的分量;α和β分別為攻角和側(cè)滑角;δe,δr,δd分別為水平舵角、垂直舵角和差分舵角;T為AUV所受的額定推力;m和G分別為質(zhì)量和重力;?G為負(fù)浮力;ρ為水的密度;S和L分別為AUV最大橫截面積和長度;Jxx,Jyy,Jzz分別為AUV在體坐標(biāo)系3個軸向所受的轉(zhuǎn)動慣量;?Mxp為失衡力矩。此外,,CxS以及λ11,λ22,λ33,λ44,λ55,λ66,λ26,λ35為與流體動力相關(guān)的參數(shù);和為與流體動力矩相關(guān)的參數(shù)。
由以上運(yùn)動方程可見,AUV的運(yùn)動模型中存在著大量的流體動力參數(shù),這造成了對AUV進(jìn)行精確建模時大量的資源消耗。文中擬在不基于機(jī)理進(jìn)行建模的情況下,建立一個“黑盒”模型的方程,即
該方程可以在輸入某一時刻的狀態(tài)s(t)和控制量a(t)時,估計出下一時刻的狀態(tài)s(t+1),文中稱其為狀態(tài)估計器。其中,AUV的狀態(tài)如下:所受控制量主要指a(t)=[δe(t),δr(t),δd(t),T]。
為了評價狀態(tài)估計器的估計精度,提出SPI和TPI兩種指標(biāo)。
1)SPI
SPI指標(biāo)是根據(jù)各個被估計狀態(tài)項(xiàng)的估計值與標(biāo)簽值之間的相對誤差得到的統(tǒng)計結(jié)果提出的。統(tǒng)計對象是與標(biāo)簽值的相對誤差大于所設(shè)門限的估計器的輸出值,該輸出值被稱為離群值。SPI的計算如式(12)所示,當(dāng)只針對某狀態(tài)進(jìn)行統(tǒng)計時即為該狀態(tài)的單項(xiàng)SPI,當(dāng)對所有被估計狀態(tài)進(jìn)行統(tǒng)計時即為總體SPI。二者對比可以反映估計精度的均衡性。
式中:M為狀態(tài)項(xiàng)數(shù)(當(dāng)只針對某一狀態(tài)計算時,M=1);N為從測試集中抽取的用于測試的數(shù)據(jù)量;siE為估計方程輸出的對下一時刻狀態(tài)的估計值;siL為對應(yīng)被估計狀態(tài)項(xiàng)的標(biāo)簽值;th為相對誤差門限。
根據(jù)SPI可以得出目前估計方程輸出的估計值與真值之間的誤差情況。
2)TPI
為了反映狀態(tài)估計器對原AUV運(yùn)動模型運(yùn)動學(xué)特性的學(xué)習(xí)情況,分別讓狀態(tài)估計器和原模型在同一初始狀態(tài)下對AUV進(jìn)行控制,并計算其在一定時間內(nèi)各個狀態(tài)控制曲線的時間平均誤差,進(jìn)而得出
式中:T為控制時間;M為狀態(tài)項(xiàng)數(shù);sEi基于狀態(tài)估計方程的控制曲線;sMi為基于模型的控制曲線,同時為了避免各個狀態(tài)之間數(shù)量級之差的影響,對各狀態(tài)的控制誤差進(jìn)行了相應(yīng)的歸一化處理。
最后,該估計器訓(xùn)練完成后可以產(chǎn)生數(shù)據(jù)供給強(qiáng)化學(xué)習(xí)控制器進(jìn)行訓(xùn)練。由于AUV控制中位置和姿態(tài)的響應(yīng)時間差距較大,因此可將位置和姿態(tài)分成2個部分構(gòu)造雙環(huán)補(bǔ)償控制器。該控制器具有位置環(huán)和姿態(tài)環(huán)2個強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò),其中,位置環(huán)主要結(jié)合位置信息輸出參考姿態(tài)αref(t),姿態(tài)環(huán)主要負(fù)責(zé)輸出控制量u(t)追蹤參考姿態(tài),雙環(huán)合作進(jìn)行高速AUV的控制。訓(xùn)練最優(yōu)強(qiáng)化學(xué)習(xí)控制器的過程即為最優(yōu)化性能指標(biāo)的過程。該基于強(qiáng)化學(xué)習(xí)的雙環(huán)補(bǔ)償控制網(wǎng)絡(luò)的性能指標(biāo)為
式中:V代表的價值函數(shù)即為該強(qiáng)化學(xué)習(xí)控制器的長期性能指標(biāo);ra和rp分別為姿態(tài)環(huán)和位置環(huán)的獎勵函數(shù)。當(dāng)?shù)玫阶顑?yōu)價值函數(shù)V?時,即為獲得最高的姿態(tài)環(huán)獎勵和位置環(huán)獎勵,此時該強(qiáng)化學(xué)習(xí)控制器的2個網(wǎng)絡(luò)分別輸出最優(yōu)的控制量u?和最優(yōu)的參考姿態(tài)。
由于AUV運(yùn)動模型本身的復(fù)雜性,在建立高精度的狀態(tài)估計器時,傳統(tǒng)方法往往難以勝任,而機(jī)器學(xué)習(xí)(machine learning,ML)技術(shù)的發(fā)展為解決這一問題提供了新的方案。由于AUV模型的強(qiáng)耦合以及非線性特性,擬采用具有無限逼近能力的神經(jīng)網(wǎng)絡(luò)進(jìn)行這一狀態(tài)估計器的回歸訓(xùn)練。為了在盡量少的數(shù)據(jù)需求下訓(xùn)練得到高精度的神經(jīng)網(wǎng)絡(luò)狀態(tài)估計器,提出以下改進(jìn)方案。
1)通過?s(t)間接估計s(t+1)
直接估計是指輸入某一時刻的狀態(tài)s(t)和控制量a(t),由神經(jīng)網(wǎng)絡(luò)輸出下一時刻的狀態(tài)s(t+1),然而這種估計方法存在搜索空間過大的不足,即在2個不同狀態(tài)之下輸入同一控制量a(t),在運(yùn)動特性上是相似的,但是其各自的輸出卻可能存在較大的差距,這在一定程度上增大了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的負(fù)擔(dān),因而文中采用間接估計的方法,即神經(jīng)網(wǎng)絡(luò)的估計結(jié)果是狀態(tài)的增量?s(t),此時,對下一時刻的狀態(tài)估計可以表示為s(t+1)=s(t)+?s(t)。仿真實(shí)驗(yàn)證明,這一改進(jìn)降低了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的負(fù)擔(dān),顯著提升了估計精度。
2)控制量的非線性變換
高速AUV在運(yùn)行中,機(jī)體所受的流體動力和流體動力矩與速度矢量的模的二次方v2呈線性關(guān)系。此外,由第1章中AUV的運(yùn)動模型可知,參數(shù)v2作為控制量的非線性變換因子對AUV狀態(tài)的變化會產(chǎn)生較大的影響。因此,為了提升神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效率,對輸入特征中的控制量進(jìn)行類似的非線性變換,即,其中。仿真實(shí)驗(yàn)表明,該非線性變換在一定程度上提升了神經(jīng)網(wǎng)絡(luò)估計器的估計精度。
3)訓(xùn)練數(shù)據(jù)的歸一化
由于用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)估計器的數(shù)據(jù)在數(shù)量級上有著較大的差距,如AUV的位置和速度在數(shù)量級上遠(yuǎn)大于其他狀態(tài)(如姿態(tài)角和角速度),因此,若不對數(shù)據(jù)進(jìn)行歸一化處理則可能造成訓(xùn)練過程中數(shù)量級較小的狀態(tài)被忽略,進(jìn)而影響估計器的估計精度。為了提高訓(xùn)練的效率,對神經(jīng)網(wǎng)絡(luò)的輸入和輸出數(shù)據(jù)同時進(jìn)行了歸一化。
4)雙網(wǎng)絡(luò)結(jié)構(gòu)
為了能在使用簡單的全連接網(wǎng)絡(luò)的同時高效率地訓(xùn)練神經(jīng)網(wǎng)絡(luò)狀態(tài)估計器,提出雙網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)建估計器,即以姿態(tài)網(wǎng)絡(luò)對AUV的深度y0,姿態(tài)角,以及角速度ωx,ωy,ωz進(jìn)行回歸訓(xùn)練,如圖2所示;以速度網(wǎng)絡(luò)對速度vx,vy,vz進(jìn)行回歸訓(xùn)練,如圖3所示。
圖2 估計器姿態(tài)網(wǎng)絡(luò)Fig.2 The attitude network of estimator
圖3 估計器速度網(wǎng)絡(luò)Fig.3 The velocity network of estimator
由于2個網(wǎng)絡(luò)在結(jié)構(gòu)和所使用的激活函數(shù)上基本相同,因此訓(xùn)練的復(fù)雜度并未明顯增加,其計算公式如式(15)所示,對于姿態(tài)網(wǎng)絡(luò),其輸出,而對于速度網(wǎng)絡(luò),其輸出。
同時,其梯度的反向傳播公式
式中:zL為標(biāo)簽值,?z=z?zL;J為損失函數(shù);⊙為哈達(dá)瑪積。
在完成基于神經(jīng)網(wǎng)絡(luò)的AUV狀態(tài)估計器后,設(shè)計了基于上述估計器的強(qiáng)化學(xué)習(xí)控制器。
在AUV的控制過程中,由于位置環(huán)和姿態(tài)環(huán)的控制響應(yīng)時間明顯不同,因此針對位置和姿態(tài)分別設(shè)計了一個強(qiáng)化學(xué)習(xí)控制器,采用了強(qiáng)化學(xué)習(xí)中經(jīng)典的DDPG,如圖4所示結(jié)構(gòu)。
當(dāng)賦予AUV的狀態(tài)初值s(k+1)之后,右側(cè)的位置環(huán)結(jié)合當(dāng)前時刻AUV的位置(包括在s(k)中)以及預(yù)定到達(dá)的位置輸出參考姿態(tài)ref(k)(即后文的αd),左側(cè)的姿態(tài)環(huán)結(jié)合AUV當(dāng)前的姿態(tài)(包括在s(k)中),學(xué)習(xí)控制舵角,輸出控制量a(k)=[δe(k),δr(k),δd(k),T(k)],將當(dāng)前時刻的狀態(tài)s(k)以及控制量a(k)輸入狀態(tài)估計器(即圖中的AUV,它在實(shí)際訓(xùn)練中可被狀態(tài)估計器代替),可得下一時刻的狀態(tài)s(k+1),如此循環(huán)將相應(yīng)的狀態(tài)項(xiàng)以及獲得的獎勵值保存進(jìn)姿態(tài)經(jīng)驗(yàn)池和位置經(jīng)驗(yàn)池,即可進(jìn)行強(qiáng)化學(xué)習(xí)控制器的訓(xùn)練,最終,右側(cè)的位置環(huán)經(jīng)過學(xué)習(xí)能夠輸出最優(yōu)的參考姿態(tài),左側(cè)的姿態(tài)環(huán)能夠快速穩(wěn)定地對參考狀態(tài)進(jìn)行跟蹤,雙環(huán)合作即可實(shí)現(xiàn)對AUV的快速控制。
由于二者學(xué)習(xí)目標(biāo)不同,因此分別對位置環(huán)和姿態(tài)環(huán)進(jìn)行獎勵函數(shù)的設(shè)計。由于AUV既需要快速的姿態(tài)調(diào)整,又需要保持平穩(wěn),因此姿態(tài)環(huán)的獎勵函數(shù)同時對姿態(tài)角、角速度以及控制量進(jìn)行了約束,其獎勵函數(shù)
式中:α=[φ,θ,ψ]T為AUV當(dāng)前時刻的姿態(tài)角;為參考姿態(tài)角;為AUV的角速度;為AUV所受控制量;分別為對各個狀態(tài)以及控制量的權(quán)值;ca為常數(shù)。
對于位置網(wǎng)絡(luò),其獎勵函數(shù)
圖4 雙環(huán)強(qiáng)化學(xué)習(xí)控制器結(jié)構(gòu)圖Fig.4 Structure of the double-loop controller with reinforcement learning
為了驗(yàn)證提出的基于神經(jīng)網(wǎng)絡(luò)的AUV狀態(tài)估計器和配套的強(qiáng)化學(xué)習(xí)控制器的有效性,進(jìn)行了一系列仿真實(shí)驗(yàn)。首先,對基于前文提出的方法訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)狀態(tài)估計器的性能進(jìn)行評估;然后,基于該狀態(tài)估計器產(chǎn)生的數(shù)據(jù),對提出的強(qiáng)化學(xué)習(xí)雙環(huán)補(bǔ)償控制器進(jìn)行訓(xùn)練,并對其控制性能進(jìn)行測試。
由于暫時無法獲取真實(shí)的AUV航行數(shù)據(jù),結(jié)合某533mm口徑高速AUV的相關(guān)參數(shù)建立參考模型,用以驗(yàn)證提出的構(gòu)建和訓(xùn)練神經(jīng)網(wǎng)絡(luò)狀態(tài)估計器方法的可行性并分析其性能表現(xiàn)。參考模型的相關(guān)參數(shù)如表1所示。
表1 高速AUV參考模型參數(shù)Table 1 Parameters of the reference model of the high speed AUV
基于以上參數(shù)所建立模型產(chǎn)生的數(shù)據(jù)可以被看作AUV航行時傳感器記錄的數(shù)據(jù),此后的神經(jīng)網(wǎng)絡(luò)狀態(tài)估計器的訓(xùn)練以及性能評價工作都建立在數(shù)據(jù)集[s(t),a(t),s(t+1)]的基礎(chǔ)之上。該數(shù)據(jù)集是在隨機(jī)初始化的狀態(tài)下,由參考模型運(yùn)行產(chǎn)生的。
為了盡量保持網(wǎng)絡(luò)結(jié)構(gòu)簡單且易于實(shí)現(xiàn)和訓(xùn)練,雙網(wǎng)絡(luò)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)狀態(tài)估計器采用全連接網(wǎng)絡(luò),且隱藏層都為4層,隱藏層中的神經(jīng)元數(shù)為256個,采用Relu作為激活函數(shù),輸入層和輸出層的激活函數(shù)為tanh函數(shù),訓(xùn)練過程中采用Adam優(yōu)化器,學(xué)習(xí)率lr設(shè)置在[10?7,10?5],隨訓(xùn)練代數(shù)逐漸降低以提升訓(xùn)練的穩(wěn)定性,神經(jīng)網(wǎng)絡(luò)的搭建以及訓(xùn)練均基于Tensorflow平臺。
通過前文所述方法及參數(shù)訓(xùn)練得到神經(jīng)網(wǎng)絡(luò)狀態(tài)估計器后,從測試集中隨機(jī)抽取1 000組數(shù)據(jù)進(jìn)行估計器的估計精度測試,并計算各個狀態(tài)的SPI以及總體的SPI,相對誤差門限th設(shè)置為0.1。最終統(tǒng)計結(jié)果表明,估計器除了對速度vx進(jìn)行估計時SPI高于0.1,其余各個狀態(tài)項(xiàng)的SPI幾乎都在0.05左右,同時總體SPI也在0.05以下,說明估計器總體的估計性能較均衡,且間接說明了估計值與真實(shí)值之間的相對誤差低于0.1,實(shí)現(xiàn)了較高的估計精度。
為了評估神經(jīng)網(wǎng)絡(luò)狀態(tài)估計器對參考模型的運(yùn)動學(xué)特性的學(xué)習(xí)情況,在同一初始狀態(tài)下,分別基于狀態(tài)估計器和參考模型進(jìn)行AUV的控制,得到各個狀態(tài)的控制曲線如圖5~圖7所示。
圖5 基于原模型和估計器的姿態(tài)控制曲線Fig.5 The attitude control curves of the original model and the estimator
由以上結(jié)果對比可見,神經(jīng)網(wǎng)絡(luò)估計器基本可以實(shí)現(xiàn)與參考模型同等水平的控制,從TPI上看,圖5所示情況下的TPI為0.11,而與參考模型控制曲線相對誤差為5%時計算得到的TPI為0.14,因此,當(dāng)總體上估計器輸出的估計值與實(shí)際值的相對誤差低于0.1時,估計器與參考模型控制的相對誤差將低于5%,可以認(rèn)為估計器基本學(xué)習(xí)到了參考模型的運(yùn)動學(xué)特性。具體的基于SPI以及TPI的性能分析及結(jié)論參考文獻(xiàn)[34]。
圖6 基于原模型和估計器的角速度控制曲線Fig.6 The angular speed control curves of the original model and the estimator
圖7 基于原模型和估計器的速度控制曲線Fig.7 The velocity control curves of the original model and the estimator
文中結(jié)合估計器以及基于強(qiáng)化學(xué)習(xí)的雙環(huán)補(bǔ)償控制器進(jìn)行了高速AUV的姿態(tài)和深度的控制測試。控制的目標(biāo)是以隨機(jī)姿態(tài)入水后迅速下潛到水下30m并保持姿態(tài)平穩(wěn),經(jīng)過仿真測試,將姿態(tài)環(huán)的獎勵函數(shù)參數(shù)設(shè)置為ca=1,wα=[12,1,30]T,wω=[0.02,0.001,0.001]T,wδ=[0,0,0.001,0]T,將位置環(huán)的獎勵函數(shù)參數(shù)設(shè)置為cp=1,wp=[0,1,0]T。
將估計器作為參考模型,進(jìn)行姿態(tài)環(huán)以及位置環(huán)的訓(xùn)練。訓(xùn)練400輪后得到獎勵值曲線如圖8所示,通過獎勵值曲線可以發(fā)現(xiàn),姿態(tài)環(huán)和位置環(huán)的訓(xùn)練過程收斂迅速,均可在100輪左右達(dá)到穩(wěn)定。
圖8 控制器在訓(xùn)練過程中所獲獎勵值Fig.8 The reward values during the training process of the controller
此后用訓(xùn)練好的補(bǔ)償控制器進(jìn)行運(yùn)動控制,得到運(yùn)動過程中的速度曲線和姿態(tài)曲線如圖9和圖10所示。由圖9結(jié)果可見,AUV的運(yùn)行速度最終達(dá)到了26m/s(約52kn),這已屬于高速AUV的范疇。由圖10可見,在強(qiáng)化學(xué)習(xí)控制器的控制之下,AUV的橫滾角和偏航角可在2s內(nèi)恢復(fù)至0°,機(jī)身快速穩(wěn)定,俯仰角也可在2.5s內(nèi)實(shí)現(xiàn)對參考俯仰角的跟蹤。因此,此時的雙環(huán)補(bǔ)償控制器已達(dá)到了較好的姿態(tài)控制效果。此外,由圖11可見,基于補(bǔ)償控制器進(jìn)行的深度控制可以在10s左右到達(dá)目標(biāo)深度,而基于PID進(jìn)行深度控制時,需要近17s才能到達(dá)目標(biāo)深度,說明位置環(huán)為姿態(tài)環(huán)提供了更優(yōu)的參考姿態(tài),使得AUV在雙環(huán)補(bǔ)償控制器下快速達(dá)到目標(biāo)深度。這進(jìn)一步證明了文中使用的強(qiáng)化學(xué)習(xí)雙環(huán)補(bǔ)償控制器的優(yōu)越性。
圖9 AUV運(yùn)行速度曲線Fig.9 The velocity curves during the AUV running
圖10 雙環(huán)補(bǔ)償控制器下的AUV姿態(tài)控制曲線Fig.10 The attitude curves of the AUV controlled by the double-loop complementary controller
圖11 基于雙環(huán)補(bǔ)償控制器與PID控制器的AUV深度控制曲線Fig.11 The depth curves of the AUV controlled by the double-loop complementary controller and the PID controller
文中針對高速AUV的控制問題,提出了一種基于強(qiáng)化學(xué)習(xí)的雙環(huán)補(bǔ)償控制器,并構(gòu)造基于神經(jīng)網(wǎng)絡(luò)的高速AUV狀態(tài)估計器為其提供訓(xùn)練數(shù)據(jù)。其中,針對神經(jīng)網(wǎng)絡(luò)狀態(tài)估計器的構(gòu)建以及訓(xùn)練方法提出的改進(jìn)技術(shù)包括:1)通過?s(t)間接估計s(t+1);2)控制量的非線性變換;3)訓(xùn)練數(shù)據(jù)的歸一化;4)雙網(wǎng)絡(luò)結(jié)構(gòu)。同時,基于強(qiáng)化學(xué)習(xí)的雙環(huán)補(bǔ)償控制器,通過姿態(tài)環(huán)和位置環(huán)的協(xié)作,可以在保證姿態(tài)平穩(wěn)控制的基礎(chǔ)上實(shí)現(xiàn)AUV的快速下潛。隨后設(shè)計仿真實(shí)驗(yàn),通過估計器運(yùn)行產(chǎn)生的數(shù)據(jù)訓(xùn)練得到的強(qiáng)化學(xué)習(xí)控制器進(jìn)行高速AUV的姿態(tài)及深度控制。仿真結(jié)果表明,基于估計器數(shù)據(jù)訓(xùn)練得到的控制器不僅使得以隨機(jī)姿態(tài)入水的AUV能夠迅速調(diào)整姿態(tài)達(dá)到平穩(wěn),并且能夠快速下潛至預(yù)定深度。這驗(yàn)證了采用狀態(tài)估計器配合文中的強(qiáng)化學(xué)習(xí)控制器進(jìn)行訓(xùn)練具有可行性及有效性。文中尚未針對強(qiáng)化學(xué)習(xí)控制器的魯棒性進(jìn)行進(jìn)一步的改進(jìn)與探究,這將留待后續(xù)進(jìn)一步完善。
[1]杜度.基于RBF神經(jīng)網(wǎng)絡(luò)參數(shù)自整定的AUV深度控制[J].水下無人系統(tǒng)學(xué)報,2019,27(3):284-289.
Du Du.Parameters Self-Tuning for Depth Control of AUV Based on RBF Neural Network[J].Journal of Unmanned Undersea System,2019,27(3):284-289.
[2]李鑫,黃茹楠,丁寧.輸入受限的自主水下航行器自適應(yīng)反演控制[J].水下無人系統(tǒng)學(xué)報,2019,27(6):624-628.
Li Xin,Huang Ru-nan,Ding Ning.Adaptive Backstepping Control of Autonomous Undersea Vehicle with Input Limitation[J].Journal of Unmanned Undersea System,2019,27(6):624-628.
[3]Chen W,Wei Y,Zeng J.Back-stepping Control of Underactuated AUV’s Depth based on Nonlinear Disturbance Observer[C]//2015 34th Chinese Control Conference(CCC).Hangzhou,China:IEEE,2015:6061-6065.
[4]Wang H J,Chen Z Y,Jia H M,et al.NN-Backstepping for Diving Control of an Underactuated AUV[C]//2011 Oceans’11 MTS/IEEE KONA.Waikoloa,HI,USA:IEEE,2011:1-6.
[5]Hu B,Tian H,Qian J,et al.A Fuzzy-PID Method to Improve the Depth Control of AUV[C]//2013 IEEE International Conference on Mechatronics and Automation.Takamatsu,Japan:IEEE,2013:1528-1533.
[6]Liu W,Ding X,Wan J,et al.An Effective Motion Control Based on 2-DOF PID and ELM for AUV[C]//2018 OCEANS 2018 MTS/IEEE Charleston.Charleston,SC,USA:IEEE,2018:1-4.
[7]呂建國,王育才,崔昊.基于LQR方法的水下航行器熱動力推進(jìn)系統(tǒng)控制研究[J].彈箭與制導(dǎo)學(xué)報,2007,27(1):174-176.
Lü Jian-guo,Wang Yu-cai,Cui Hao.Research of Control for Propulsion System of Thermal Power Underwater Vehicle Based on LQR[J].Journal of Projectiles,Rockets,Missiles,and Guidance,2007,27(1):174-176.
[8]Lakhwani D A,Adhyaru D M.Performance Comparison of PD,PI and LQR controller of Autonomous under water vehicle[C]//2013 Nirma University International Conference on Engineering(NUiCONE).Ahmedabad,India:IEEE,2013:1-6.
[9]趙旭,龔時華,楊進(jìn).基于LMI的無人水下航行器干擾補(bǔ)償控制[J].水下無人系統(tǒng)學(xué)報,2020,28(3):271-277.
Zhao Xu,Gong Shi-hua,Yang Jin.Disturbance Compensation Control for Unmanned Undersea Vehicle Based on LMI[J].Journal of Unmanned Undersea System,2020,28(3):271-277.
[10]Makavita C D,Nguyen H D,Jayasinghe S G,et al.Predictor-Based Model Reference Adaptive Control of an Unmanned Underwater Vehicle[C]//2016 14th International Conference on Control,Automation,Robotics and Vision.Phuket,Thailand:IEEE,2016:1-7.
[11]Nayak N,Das P,Das S R.Heading Plane Control of an Autonomous Underwater Vehicle:A Novel Fuzzy and Model Reference Adaptive Control Approach[C]//2020 Third International Conference on Advances in Electronics,Computers and Communications(ICAECC).Bengaluru,India:IEEE,2020:1-5.
[12]Riedmiller M.Neural Fitted Q Iteration-First Experiences with a Data Efficient Neural Reinforcement Learning method[C]//2005 Machine Learning:ECML 2005.Oporto,Portugal:ECML,2005:317-328.
[13]Parr R,Russell S.Reinforcement Learning with Hierarchies of Machines[C]//1997 11th Annual Conference on Neural Information Processing Systems(NIPS).Denver,CO:Massachusetts Institute of Technology Press,1998:1043-1049.
[14]Xu X,Hu D,Lu X.Kernel-based Least Squares Policy Iteration for Reinforcement Learning[J].IEEE Transactions on Neural Networks,2007,18(4):973-992.
[15]Barto A G,Sutton R S,Anderson C W.Neuronlike Adaptive Elements That Can Solve Difficult Learning Control-Problems[J].IEEE Transactions on Systems Man and Cybernetics,1983,13(5):834-846.
[16]Konda V R,Tsitsiklis J N.Actor-Critic Algorithms[C]//Advances in Neural Information Processing Systems 12.Cambridge:Mit Press,2000:1008-1014.
[17]Peters J,Vijayakumar S,Schaal S.Natural Actor-Critic[J].Neurocomputing 2008,71(7-9):1180-1190.
[18]Vamvoudakis K G,Lewis F L.Online Actor Critic Algorithm to Solve the Continuous-Time Infinite Horizon Optimal Control Problem[C]//2009 International Joint Conference on Neural Networks.New York:IEEE,2009:58-65.
[19]Bhopale P,Kazif,Singh N.Reinforcement Learning Based Obstacle Avoidance for Autonomous Underwater Vehicle[J].Journal of Marine Science and Application,2019,18(2):228-238.
[20]Che G F,Yu Z.Neural-Network Estimators Based Fault-Tolerant Tracking Control for AUV via ADP with Rudders Faults and Ocean Current Disturbance[J].Neurocomputing,2020,411:442-454.
[21]Wang D,Shen Y,Sha W,et al.Adaptive DDPG Design-Based Sliding-Mode Control for Autonomous Underwater Vehicles at Different Speeds[C]//2019 IEEE Underwater Technology(UT).Kaohsiung,Taiwan:IEEE,2019:1-5.
[22]Wang S,Su Y M,Wang Z L,et al.Numerical and Experimental Analysis of Transverse Static Stability Loss of Planning Craft Sailing at High Forward Speed[J].Engineering Applications of Computational Fluid Mechanics,2014,8(1):44-54.
[23]Wang S X,Sun X J,Wang Y H,et al.Dynamic Modeling and Motion Simulation for a Winged Hybrid-Driven Underwater Glider[J].China Ocean Engineering,2011,25(1):97-112.
[24]Tiano A,Sutton R,Lozowicki A,et al.Observer Kalman Filter Identification of An Autonomous Underwater Vehicle[J].Control Engineering Practice,2007,15(6):727-739.
[25]Dantas J L D,Barros E D A.Numerical Analysis of Control Surface Effects on AUV Manoeuvrability[J].Applied Ocean Research,2013,42:168-181.
[26]Martin S C,Whitcomb L L.Preliminary Experiments in Comparative Experimental Identification of Six Degree-Of-Freedom Coupled Dynamic Plant Models for Underwater Robot Vehicles[C]//2013 IEEE International Conference on Robotics and Automation.Karlsruhe,Germany:IEEE,2013:2962-2969.
[27]Zheng X W,Wang W,Xiong M L,et al.Online State Estimation of a Fin-Actuated Underwater Robot Using Artificial Lateral Line System[J].IEEE Transactions on Robotics,2020,36(2):472-487.
[28]Jagannathan S,Galan G.One-Layer Neural-Network Controller with Preprocessed Inputs for Autonomous Underwater Vehicles[J].IEEE Transactions on Vehicular Technology,2003,52(5):1342-1355.
[29]Duan K R,Fong S,Chen C L P.Multilayer Neural Networks-Based Control of Underwater Vehicles with Uncertain Dynamics And Disturbances[J].Nonlinear Dynamics,2020,100(4):3555-3573.
[30]Lin X B,Yu Y,Sun C Y.Supplementary Reinforcement Learning Controller Designed for Quadrotor UAVs[J].IEEE Access,2019,7:26422-26431.
[31]王超,胡志強(qiáng),衣瑞文,等.高速水下機(jī)器人通氣空化減阻技術(shù)的水洞實(shí)驗(yàn)研究[J].機(jī)器人,2018,40(6):779-785.
Wang Chao,Hu Zhi-qiang,Yi Rui-wen,et al.Water Tunnel Experiment Research of Ventilated Cavitation Drag Reduction Technology for a High Speed AUV[J].Robot,2018,40(6):779-785.
[32]嚴(yán)衛(wèi)生,徐德民,李俊,等.遠(yuǎn)程自主水下航行器建模研究[J].西北工業(yè)大學(xué)學(xué)報,2004,22(4):500-504.
Yan Wei-sheng,Xu De-min,Li Jun,et al.A New Method for Modeling Long Distance Autonomous Underwater Vehicle(AUV)[J].Journal of Northwestern Polytechnical University,2004,22(4):500-504.
[33]Willy C J.Attitude Control of An Underwater Vehicle Subjected to Waves[D].Massachusetts Ave,Cambridge:Massachusetts Institute of Technology,1994.
[34]Guo K J,Lin X B,Hao C P,et al.An Improved State Estimator for High-Speed AUV with NN[C]//2021 40th Chinese Control Conference.Shanghai,China:IEEE,2021.
Reinforcement-Learning Control for the High-Speed AUV Based on the Neural-Network State Estimator
GUO Ke-jian1,2,LIN Xiao-bo2,HAO Cheng-peng2,HOU Chao-huan2
(1.School of Integrated Circuits,University of Chinese Academy of Sciences,Beijing 100049,China;2.China Institute of Acoustics,Chinese Academy of Sciences,Beijing 100190,China)
With the development of ocean research and exploitation,high-speed autonomous undersea vehicle(AUV)has attracted increasing attention as important unmanned underwater platforms.However,the high-speed AUV model is multiinput-multi-output(MIMO),strong-coupling,underactuated,and strongly nonlinear;therefore,the traditional control method that relies on the exact model is often limited in practical applications.To address these problems,a position-attitude controller based on reinforcement learning(RL)that does not rely on an exact model is proposed.The RL controller can not only regulate the attitude of the AUV but also the driver,as it reaches the target depth faster with the aid of the attitude and position loops.An improved state estimator of a high-speed AUV is designed based on a neural network(NN)to decrease the cost of collecting data,which is employed to train the RL controller.The improved state estimator can estimate the state at the next time instant according to the current state of the high-speed AUV and the control input.The simulation results demonstrate that the NN-state-estimator can estimate the state of a high-speed AUV with high precision,and the RL controller trained by the estimator achieves fast and steady performance,which verifies the feasibility and effectiveness of the proposed method..
autonomous undersea vehicle;reinforcement learning;neural network;state estimation
U674.941;U661
A
2096-3920(2022)02-0147-10
10.11993/j.issn.2096-3920.2022.02.002
郭可建,林曉波,郝程鵬,等.基于神經(jīng)網(wǎng)絡(luò)狀態(tài)估計器的高速AUV強(qiáng)化學(xué)習(xí)控制[J].水下無人系統(tǒng)學(xué)報,2022,30(2):147-156.
2021-06-22;
修回日期:2021-08-03.
國家自然科學(xué)基金項(xiàng)目資助(61971412).
郭可建(1997-),男,碩士,主要研究方向?yàn)楦咚偎潞叫衅骺刂?
(責(zé)任編輯:楊力軍)