楊啟明, 徐建城, 田海寶, 吳勇
(1.西北工業(yè)大學(xué) 電子信息學(xué)院, 陜西 西安 710072;2.空軍駐江西地區(qū)軍事代表室, 江西 南昌 330024)
無人機(UAV)在戰(zhàn)爭中的應(yīng)用和出色表現(xiàn)已經(jīng)使其作為一種新型作戰(zhàn)力量受到越來越多的關(guān)注,與有人駕駛飛機相比,無人機具有隱蔽性好、不懼傷亡、可進行大過載機動等諸多優(yōu)勢。無人機智能化執(zhí)行任務(wù)可以讓人員的精力從繁重的具體操控上解脫出來,轉(zhuǎn)而進行態(tài)勢判斷和推理等高級思考,這樣能真正發(fā)揮人和機各自的優(yōu)勢,提升綜合作戰(zhàn)效率,因此無人機的智能化是其未來的發(fā)展方向[1-3]。無論軍用還是民用領(lǐng)域,對運動目標實施跟蹤是無人機的一個主要用途,實現(xiàn)跟蹤自主化,能夠在大幅降低操作強度的同時提高對目標信息探測的穩(wěn)定性。本文試圖對無人機跟蹤目標的任務(wù)進行自主化設(shè)計,無人機周期地計算出行動策略,進而對飛行路徑進行動態(tài)調(diào)整和規(guī)劃以實現(xiàn)對目標的跟蹤。
在狀態(tài)存在隨機性的規(guī)劃問題中,多使用部分可觀測的馬爾科夫決策過程(POMDP)為建模方法。在基于POMDP的無人機路徑規(guī)劃應(yīng)用方面有學(xué)者已經(jīng)做了一些研究,例如文獻[4]基于POMDP對無人機在線性觀測方程下的路徑規(guī)劃進行了建模;文獻[5]基于POMDP進行無人機對目標探測識別的建模;文獻[6]基于POMDP對兩棲車輛的運動路線進行了規(guī)劃設(shè)計。上述文獻均使用POMDP框架對路徑規(guī)劃問題進行了表述和求解,并取得了較為滿意的結(jié)果,但是這些文獻中均對目標的狀態(tài)轉(zhuǎn)移規(guī)律使用單一的運動模型(例如,勻速直線運動)來進行描述,這樣與真實情況下的目標運動不相符合。本文以POMDP理論為基礎(chǔ),提出在POMDP模型中使用交互多模型(IMM)方法描述目標狀態(tài)轉(zhuǎn)移規(guī)律,用IMM方法實現(xiàn)模型的切換[7-8],旨在構(gòu)建適合于目標的機動變化下無人機跟蹤路徑的在線規(guī)劃算法。
POMDP模型對問題有很強的表現(xiàn)力,但是對其精確求解十分困難[9]。累加代價的計算量會隨著問題規(guī)模呈指數(shù)增長,此外觀測的不完整性使得所獲得狀態(tài)信息具有隨機性,因此對狀態(tài)和觀測信息均需用概率分布來描述,對遠期代價和高維概率分布的精確計算需要較大的計算資源和時間開銷。因此在無人機行動決策這樣對實時性要求較高的在線規(guī)劃場景,主要采用近似解法對模型進行求解,在有限時間內(nèi)實時求出符合使用要求的次優(yōu)解。在進行近似求解時,本文通過限定預(yù)測時限來降低遠期代價的計算量,使用名義信念狀態(tài)優(yōu)化(NBO)算法[10]求解POMDP的行動序列,在滿足跟蹤性能的同時極大的降低了計算量。
無人機跟蹤目標的路徑規(guī)劃的背景想定如下,無人機對地面一個移動目標進行觀測并自動跟蹤飛行。無人機使用傳感器獲得目標的距離和方位值,并以此為觀測量自動調(diào)整無人機的飛行軌跡對目標保持跟蹤,提供準確穩(wěn)定的視頻圖像等目標信息。為了有效說明算法,本文假設(shè)無人機在固定高度飛行,簡化無人機和目標的運動為二維平面內(nèi)的運動。
路徑規(guī)劃問題的POMDP模型可由6個要素的六元組〈S,A,T,O,C,B〉來表示,其中,S表示狀態(tài)空間,A為行動空間,T為狀態(tài)轉(zhuǎn)移規(guī)律,O為觀測和觀測率,C表示代價函數(shù),B為信念空間。下面對本文中各個要素代表的意義進行說明。
1.2.1 狀態(tài)空間
1.2.2 行動空間
在跟蹤目標的無人機路徑規(guī)劃問題中,每個決策點所采取的行動應(yīng)能改變無人機的飛行狀態(tài),進而實時調(diào)整飛行路徑。因此,本文采取加速度值ak和傾斜角φk作為行動值。在本時刻采取1組行動值,在下一時刻就可以改變無人機的狀態(tài)。行動空間Ak=(ak,φk)。
1.2.3 觀測和觀測率
無人機獲得的觀測值由于設(shè)備誤差和環(huán)境干擾通常是包含噪聲的。因此,觀測方程可以定義為狀態(tài)Sk和觀測噪聲ηk的函數(shù),如(1)式所示
zk=h(Sk)+ηk
(1)
傳感器所獲得的觀測量是目標相對于無人機的距離和方位角信息[11-12]。因此,將h(Sk)定義為:
(1)式中,ηk為傳感器的觀測噪聲序列,探測目標信息的過程中,ηk的分布與無人機和目標的位置相關(guān),當(dāng)無人機和目標距離較近時,觀測噪聲小,觀測精度高,當(dāng)距離較遠時,空間內(nèi)各種噪聲較大,觀測的誤差較大。ηk的協(xié)方差可以表示為
Rk=R(xk,ξk)
(3)
0
式中,Mk=cos(φk)-sin(φk)
sin(φk)cos(φk)。
1.2.4 狀態(tài)轉(zhuǎn)移規(guī)律
狀態(tài)轉(zhuǎn)移規(guī)律是指在當(dāng)前時刻下的狀態(tài)在采取行動后到下一時刻的變化規(guī)律。對于定義的3個子系統(tǒng),分別對其狀態(tài)轉(zhuǎn)移規(guī)律進行定義。
1) 無人機的狀態(tài)轉(zhuǎn)移規(guī)律定義為:
xk+1=Ψ(xk,Ak)
(5)
對函數(shù)Ψ定義的過程,就是設(shè)計行動值對無人機狀態(tài)進行控制的方法的過程,即無人機在k時刻基于狀態(tài)xk采取行動值A(chǔ)k=(ak,φk),在k+1時刻到達狀態(tài)xk+1的控制邏輯,本文采取的映射關(guān)系如下:
θk
(6)
(7)
θk+1=θk+(gTtanφk)vk
(8)
vk+1=vk+akT
(9)
vk+1=max{vmin,min{vmax,vk+1}}
(10)
(6)~(10)式分別求解出下一時刻無人機的位置和速度,式中g(shù)為重力加速度值,T為2個時刻之間的采樣周期。在實際情況中無人機的速度存在上下限,采用(10)式對無人機速度的大小值進行了限制。
2) 目標的狀態(tài)轉(zhuǎn)移規(guī)律定義為:
ζk+1=f(ζk)+wk
(11)
式中,wk表示獨立同分布的噪聲序列,在本文中設(shè)定為零均值的高斯噪聲,f表示目標的運動模型。
在已有的基于POMDP的無人機路徑規(guī)劃問題中,多將目標的運動模型假設(shè)為單一的運動模型,這對于研究POMDP的求解算法大有助益。但是在實際情況下地面目標不可能保持單一的運動形式,運動過程中受到地形和態(tài)勢影響必然會存在各種機動,運動目標的動態(tài)模型比較復(fù)雜,傳統(tǒng)的單一模型的定位跟蹤算法不能實現(xiàn)良好的定位跟蹤。采用交互式多模型算法(interacting multiple model,IMM)可以較好地解決這個問題[13-14]。
IMM的原理是將系統(tǒng)的運動模式映射為模型集,基于每個運動模型構(gòu)建一個濾波器,所有模型的濾波器并行工作,利用每個濾波器輸出的殘差信息以及各模型的先驗信息,依據(jù)假設(shè)檢驗規(guī)則,得出每個濾波器所對應(yīng)的模型為當(dāng)前時刻系統(tǒng)匹配模型的概率(稱為模型概率),系統(tǒng)的狀態(tài)估計是各模型濾波器估計的概率加權(quán)融合。
依據(jù)IMM,狀態(tài)方程(11)式和量測方程(1)可以改寫為(12)式。
ζk+1=f(ζk,mk)+w(k,mk)
zk=h(Sk,mk)+η(k,mk)
(12)
式中,mk是采樣時刻k的有效模式,設(shè)系統(tǒng)模型集M={m1,m2,…,mr},模型的轉(zhuǎn)換過程符合馬爾可夫過程。
濾波狀態(tài)(ξk,Pk)的轉(zhuǎn)移規(guī)律按所采取的濾波算法確定。由于系統(tǒng)方程和觀測方程為非線性方程,本文使用無跡卡爾曼濾波(UKF)算法,具體IMM-UKF濾波算法在1.2.6節(jié)介紹信念狀態(tài)時一并介紹。
1.2.5 代價函數(shù)
代價函數(shù)表示在某個狀態(tài)下采取某一行動所付出的代價值。本文采用無人機在當(dāng)前狀態(tài)下采取行動后,目標狀態(tài)和濾波狀態(tài)之間的均方誤差值作為代價函數(shù),代價函數(shù)可以表述為:
C(ζk,Ak)=Eηk+1,wk[‖ζk+1-ξk+1‖2|ζk,Ak]
(13)
1.2.6 信念狀態(tài)和IMM-UKF算法
UKF和標準卡爾曼濾波都屬于線性最小方差估計,算法都基于模型。標準卡爾曼濾波確定最佳增益陣時,使用了觀測量的先驗信息和一步預(yù)測均方誤差陣,并基于系統(tǒng)和觀測均為線性的假設(shè)。UKF根據(jù)估計量和觀測量的協(xié)方差陣來確定最佳增益陣,協(xié)方差陣根據(jù)復(fù)現(xiàn)的一倍σ樣本點計算,所以UKF在計算最佳增益陣的過程中未對系統(tǒng)方程和觀測方程提出任何附加條件,算法既適用于線性對象,也適用于非線性對象。
1) 模型交互
∑ri=1
(14)
2) 模型條件濾波
UKF的算法步驟如下:
①計算k-1時刻的2n+1個σ樣本點,n為ζ的維數(shù),本文中n=4。
k-1
(15)
②確定權(quán)值
λn+λ
(16)
上式中,γ=n+λ,λ=α2(n+κ)-n,其中α是很小的正數(shù),可以取10-4≤α≤1,本文中取1;κ=3-n;β取值與ζ的分布形式有關(guān),對于本文中的采用的正態(tài)分布,β=2為最優(yōu)值。(15)式中(Pk-1)(i)表示矩陣Pk-1的下三角分解平方根的第i列。
③計算k時刻的一步預(yù)測模型值
(17)
(19)
(19)式中Qk為(12)式中wk的方差陣。
④計算k時刻的一步預(yù)測樣本點
i=n+1,n+2,…,2n
(20)
⑤更新量測
(21)
(23)
(24)
⑥濾波更新
增益矩陣為:
濾波值為:
k=k/k-1+Kk[zk-k/k-1]
(26)
3) 模型概率更新
(28)
對于各個模型j=1,2,…r,計算模型概率
4) 估計融合
計算k時刻的總體估計和誤差協(xié)方差矩陣,分別為:
k=∑ri=1
POMDP模型的濾波狀態(tài)根據(jù)融合的估計值得以更新,即ξk=k。繼而,信念狀態(tài)得到更新ζ)=Ν(ζ-ξk,Pk)。
在無人機跟蹤目標的路徑規(guī)劃POMDP模型中,目的是求解出一系列的最優(yōu)行動值,讓未來行動代價的累加值能夠最小。由于無人機飛行的環(huán)境變化很快,對于較長時間后未來狀態(tài)的預(yù)測無實際意義,因此只考慮未來H時限內(nèi)的狀態(tài)預(yù)測和行動策略求解,按照代價函數(shù)的定義,H時限內(nèi)的行動代價的累加值可以表述為:
JH=E∑H-1k=0C(ζk,Ak)
(31)
由于狀態(tài)ζk不完全可觀測,只能求解得到信念狀態(tài)分布,所以(31)式可以改寫為:
JH=E∑H-1k=0C(bk,Ak)
(32)
式中
(33)
根據(jù)貝爾曼公式,在當(dāng)前信念狀態(tài)b0下,最優(yōu)目標函數(shù)可以寫為
(34)
(35)
根據(jù)貝爾曼公式,在k=0時刻的最優(yōu)行動策略可以表述為
,A)
(36)
(37)
基于上述假設(shè),NBO方法的核心可以被概括為如下公式:
J*(b)≈min∑kC(k,Ak)
(38)
①設(shè)系統(tǒng)噪聲和觀測噪聲的均值均為0,則(1)式和(11)式可以寫為
ζk+1=f(ζk)+wk,wk~Ν(0,Qk),
zk=h(Sk)+ηk,ηk~N(0,Rk)
(39)
bk+1=Φ(bk,Ak,ηk+1,wk)?k+1=Φ(k,Ak,0,0),
(40)
③用名義信念狀態(tài)序列來代替信念狀態(tài)的期望值,即
JH(b0)=Eb1,…,bH∑Hk=1C(bk,Ak)?
JH(b0)≈∑Hk=1C(k,Ak)
(41)
④根據(jù)(41)式求最優(yōu)行動序列(A0,…,AH-1)。以min∑Hk=1C(k,Ak)為目標函數(shù),以Ak的取值范圍為約束條件,求解過程可以轉(zhuǎn)化為一個標準的最優(yōu)化問題,這里采用matlab中的fmincon函數(shù)來實現(xiàn)。
基于上述通用步驟,結(jié)合無人機目標跟蹤路徑規(guī)劃的特點,設(shè)計基于IMM-UKF的無人機行動序列NBO求解算法如下。
ζ)=N(ζ-k,k)
(42)
由于預(yù)測時限H不長,所以認為在預(yù)測時限內(nèi)目標均按照當(dāng)前的匹配模型Fk運動,因此基于匹配模型Fk和k,通過(44)式可以遞推出預(yù)測時限內(nèi)各個時刻的。
k+1=Fkk
(44)
在預(yù)測過程中,沒有量測信息輸入,因此協(xié)方差矩陣的名義信念狀態(tài)k可以通過克拉美羅下界來進行估計。
k+1=[(Fk
(45)
式中,Hk是量測函數(shù)h(Sk)對Sk求導(dǎo)得到的雅各比矩陣。
最后,根據(jù)代價函數(shù)的近似計算公式(37),將預(yù)測時限內(nèi)遞推得到的名義信念狀態(tài)序列k帶入(41)式,獲得預(yù)測時限內(nèi)的行動代價累加值,并以此為目標函數(shù)通過fmincon函數(shù)求得最優(yōu)行動序列(A0,…,AH-1),取A0為當(dāng)前時刻的行動策略并執(zhí)行,則無人機狀態(tài)改變,根據(jù)下一時刻的狀態(tài)再執(zhí)行IMM-UKF濾波,并重復(fù)上述步驟進行策略求解,不斷往復(fù),利用各個時刻求取的行動策略調(diào)整無人機狀態(tài),完成跟蹤目標的路徑規(guī)劃。
本文在MTALAB環(huán)境下編寫仿真程序,以無人機對單目標跟蹤為背景進行仿真,基于跟蹤的位置誤差均值和無人機飛行軌跡對算法進行分析。目標的運動模型集合包括勻速直線運動,勻速左轉(zhuǎn)彎運動和勻速右轉(zhuǎn)彎3種運動。
單次仿真時間300 s,目標從(0,0)點開始沿水平軸方向勻速運動60 s,之后進行勻速左轉(zhuǎn)彎運動60 s,再勻速直線運動60 s,之后再完成勻速右轉(zhuǎn)彎運動60 s,最后再完成勻速直線運動60 s。
圖1 目標狀態(tài)估計和無人機路徑規(guī)劃
圖2 基于IMM的位置誤差均值
對基于IMM方法所建立的POMDP模型,分別在預(yù)測時限H=3和H=4的情況下各仿真30次,仿真結(jié)果如圖1、圖2和圖3所示,從圖1中可以看出無論是預(yù)測時限H=3和H=4,無人機在整個仿真過程中均能夠跟蹤目標,并圍繞目標飛行。對比圖1a)和圖1b)可以發(fā)現(xiàn),較之于H=3,在H=4時,行動策略所產(chǎn)生的無人機飛行軌跡更加平穩(wěn),圍繞目標飛行的波動較小,這充分體現(xiàn)出了POMDP的遠期代價計算特點,在當(dāng)前狀態(tài)下對目標未來狀態(tài)進行預(yù)測能夠讓無人機對目標的行為有了預(yù)判,進而再計算出的行動策略能根據(jù)預(yù)測結(jié)果得到最優(yōu)值,預(yù)測時限越長,策略越好。
圖2a)反映了各次仿真中每一仿真時刻的位置誤差平均值,從圖中可以看出,不論H=3或H=4,整個仿真過程中濾波結(jié)果和目標真實位置之間的位置誤差波動不是很大,在60 s、120 s、180 s、240 s等目標運動規(guī)律發(fā)生變化的時刻,位置誤差均值并沒有顯著增加,說明采用IMM方法,無人機能夠判斷出目標的運動模型切變,在POMDP框架下對目標未來的遠期狀態(tài)進行預(yù)判,利用NBO方法求解的行動策略能夠讓無人機識別目標的運動規(guī)律而保持對目標的近距離跟蹤。圖3為各個時刻交互多模型集中各個模型的概率值,其中,P-CV代表勻速直線運動的概率值,P-CTL代表勻速左轉(zhuǎn)彎運動的概率值,P-CTR代表勻速右轉(zhuǎn)彎運動的概率值。圖2b)反映了各次仿真整個過程的位置誤差平均值,從整體上可以看出可H=4時的位置誤差均值略小于H=3時的值,表1中的確切數(shù)據(jù)也反映了這一現(xiàn)象。H=4時位置誤差均值為2.228 9,僅略小于H=3時的2.282 2,這在說明了POMDP模型決策遠期性的同時也要求在設(shè)計預(yù)測時限時需要綜合考慮計算開銷和獲得效果之間的平衡點。
表1 位置誤差均值
圖3 IMM中各個模型的概率值
圖4 基于CV模型的飛行軌跡和位置誤差均值
為了對比IMM方法,在同樣條件下進行了僅采用勻速直線運動的一種運動模型的仿真30次。圖4顯示的是基于勻速直線運動(CV)模型的飛行軌跡和位置誤差均值。UKF濾波和NBO算法預(yù)測中對目標的狀態(tài)估計僅使用勻速直線運動這一種模型。從圖4a)中可看出,在目標進行從直行進入轉(zhuǎn)彎運動的過程中,無人機的飛行明顯偏離了目標的運動軌跡,同時在圖4b)中可以看出在目標進行左轉(zhuǎn)彎運動和右轉(zhuǎn)彎運動時,位置誤差明顯增大。從表1中也可以看出在整個仿真過程中僅采用CV模型的位置誤差均值3.423 7遠大于采用IMM算法的結(jié)果。在真實情況中,如果位置誤差超過無人機傳感器的有效探測距離,很有可能導(dǎo)致跟蹤失敗,為了驗證,在相同情況下,將(3)式中的傳感器測距不確定性m增大2%再進行仿真,結(jié)果如圖5所示。
圖5 CV模型下增大量測誤差后仿真結(jié)果
在目標進行右轉(zhuǎn)彎機動時,無人機丟失目標,跟蹤失敗。
對比圖2a)和圖4b),說明基于IMM的無人機路徑規(guī)劃POMDP模型能夠有效提高跟蹤精度,使得規(guī)劃的無人機路徑更加貼合目標的運動,避免出現(xiàn)丟失目標的情況。
綜上所述,在POMDP模型的狀態(tài)轉(zhuǎn)移規(guī)律中使用交互多模型機制能夠比單一模型有效提高跟蹤精度,能夠保證無人機對機動目標跟蹤的路徑規(guī)劃求解。
本文從無人機跟蹤地面機動目標需求出發(fā),針對無人機跟蹤目標任務(wù)中的路徑規(guī)劃問題,引入POMDP理論,構(gòu)建了基于POMDP的無人機在線路徑規(guī)劃決策模型。根據(jù)目標運動規(guī)律的多樣性,使用了交互多模型(IMM)的方法描述狀態(tài)轉(zhuǎn)移規(guī)律并基于IMM-UKF算法來更新信念空間。為實現(xiàn)模型在線求解,引入了NBO算法,求解的行動策略能夠?qū)崟r完成無人機的運動調(diào)整和路徑規(guī)劃。仿真結(jié)果驗證了本文所建立的無人機路徑規(guī)劃模型的有效性。
參考文獻:
[1] Wang Z, Zheng M, Guo J, et al. Uncertain UAV ISR Mission Planning Problem with Multiple Correlated Objectives[J]. Journal of Intelligent & Fuzzy Systems, 2017, 32(1): 321-335
[2] 陳宗基,張汝麟,張平,等. 飛行器控制面臨的機遇與挑戰(zhàn)[J]. 自動化學(xué)報,2013,39(6):703-710
Chen Zongji, Zhang Rulin, Zhang Ping, et al. Flight Control: Challenges and Opportunities[J]. Acta Automatica Sinica, 2013,39(6):703-710 (in Chinese)
[3] 張耀中,張建東,史國慶. 無人機警戒雷達仿真系統(tǒng)的建模與仿真[J]. 火力與指揮控制,2016,41(2):93-96
Zhang Yaozhong, Zhang Jiandong, Shi Guoqing. Research on Modeling and Simulation of UAV Warning Radar[J]. Fire Control & Command Control, 2016,41(2): 93-96 (in Chinese)
[4] Ragi Shankarachary, Chong Edwin K P. UAV Path Planning in a Dynamic Environment via Partially Observable Markov Decision Process [J]. IEEE Trans on Aerospace And Electronic Systems, 2013,49(4):2397-2412
[5] Ponzoni Carvalho Chanel, Caroline, Teichteil K?nigsbuch. POMDP-Based Online Target Detection and Recognition for Autonomous UAVs[C]∥The 20th European Conference on Artificial Intelligence (ECAI), 2012
[6] Ragi Shankarachary, Chong Edwin K P. Decentralized Control of Unmanned Aerial Vehicles for Multitarget Tracking[C]∥2013 International Conference on Unmanned Aircraft Systems, 2013: 260-268
[7] Cork L, Walker R. Sensor Fault Detection for UAVs Using a Nonlinear Dynamic Model and the IMM-UKF Algorithm[C]∥Information, Decision and Control, 2007: 230-235
[8] 藏榮春,崔平遠,崔祜濤,等. 基于IMM-UKF的組合導(dǎo)航算法[J]. 控制理論與應(yīng)用,2007,24(4):634-638
Zang Rongcui, Cui Pingyuan, Cui Hutao, et al. Integrated Navigation Algorithm Based on IMM-UKF[J]. Control Theory & Applications, 2007, 24(4): 634-638 (in Chinese)
[9] 萬開方,高曉光,李波,等. 基于部分可觀察馬爾可夫決策過程的多被動傳感器組網(wǎng)協(xié)同反隱身探測任務(wù)規(guī)劃[J]. 兵工學(xué)報,2015,36(4):731-743
Wan Kaifang, Gao Xiaoguang, Li Bo, et al. Mission Planning of Passive Networked Sensors for Cooperative Anti-stealth Detection Based on POMDP[J]. Acta Armamentarii, 2015,36(4): 731-743 (in Chinese)
[10] Miller Scott A, Harris Zachary A, Chong Edwin K P. A POMDP Framework for Coordinated Guidance of Autonomous UAVs for Multitarget Tracking [J]. EURASIP Journal on Advances in Signal Processing, 2009, 2009(1): 1-17
[11] Gong S L, Wang B F, Honglan W U, et al. Tracking of Moving Targets on Airport Surface Based on IMM Algorithm[J]. Systems Engineering & Electronics, 2011, 33(10):2322-2326
[12] Wang D, Lv H, Wu J. In-Flight Initial Alignment for Small UAV MEMS-Based Navigation via Adaptive Unscented Kalman Filtering Approach[J]. Aerospace Science & Technology, 2017, 61:73-84
[13] Cui N, Hong L, Layne J R. A Comparison of Nonlinear Filtering Approaches with an Application to Ground Target Tracking[J]. Signal Processing, 2005, 85(8):1469-1492
[14] Ragi Shankarachary, Chong Edwin K P. Decentralized Guidance Control of UAVs with Explicit Optimization of Communication[J]. Journal of Intelligent & Robotic Systems, 2014,73(1):811-822