夏琪琪,楊惠珍*,王 越
(1.西北工業(yè)大學(xué)航海學(xué)院,西安 710072;2.水下信息與控制重點(diǎn)實(shí)驗(yàn)室,西安 710072)
多智能體系統(tǒng)協(xié)同觀測(cè)是指多智能體對(duì)一個(gè)移動(dòng)目標(biāo)進(jìn)行跟蹤,每個(gè)智能體利用搭載的傳感器探測(cè)目標(biāo),得到目標(biāo)觀測(cè)信息,通過(guò)融合多個(gè)智能體的目標(biāo)觀測(cè)值,從而得到更準(zhǔn)確的目標(biāo)狀態(tài)估值。對(duì)于自主水下航行器等類型的智能體來(lái)說(shuō),傳感器固裝在智能體上,隨著智能體的移動(dòng)而移動(dòng),進(jìn)而改變智能體對(duì)目標(biāo)的探測(cè),因此,探測(cè)與智能體的航跡變化是耦合的。
基于探測(cè)與航跡耦合的現(xiàn)象,協(xié)調(diào)設(shè)計(jì)目標(biāo)跟蹤濾波器和航跡控制器是一種解決手段。文獻(xiàn)[3]以Fisher 信息矩陣(fisher information matrix,F(xiàn)IM)行列式為目標(biāo)函數(shù),優(yōu)化平臺(tái)運(yùn)動(dòng)方向,從而獲得目標(biāo)狀態(tài)估計(jì)的最小不確定性。文獻(xiàn)[4]提出類似的信息論方法,以互信息為目標(biāo)函數(shù),將最優(yōu)觀測(cè)運(yùn)動(dòng)問(wèn)題建模成部分可觀馬爾科夫過(guò)程,并給出基于最優(yōu)剪枝的求解方法。文獻(xiàn)[5]在研究協(xié)同搜索問(wèn)題時(shí),以最大化平臺(tái)信息收益為目的,采用分布式求解框架優(yōu)化無(wú)人機(jī)(unmanned aerial vehicle,UAV)運(yùn)動(dòng)行為。文獻(xiàn)[6]針對(duì)移動(dòng)目標(biāo)估計(jì)問(wèn)題,為了最大化互信息,提高估計(jì)精度,設(shè)計(jì)了僅有方位角測(cè)量的多機(jī)器人協(xié)同導(dǎo)引方法。文獻(xiàn)[7]以目標(biāo)位置協(xié)方差矩陣行列式為目標(biāo)函數(shù),采用梯度下降法對(duì)基于測(cè)向測(cè)距組合傳感器的多平臺(tái)觀測(cè)軌跡進(jìn)行設(shè)計(jì)。文獻(xiàn)[8]在文獻(xiàn)[7]的基礎(chǔ)上,考慮了多平臺(tái)之間對(duì)目標(biāo)狀態(tài)估計(jì)的一致性問(wèn)題,引入一致性估計(jì)方法對(duì)目標(biāo)狀態(tài)進(jìn)行分布式估計(jì),在此基礎(chǔ)上,再采用梯度下降法對(duì)UAV 運(yùn)動(dòng)軌跡進(jìn)行優(yōu)化。但由于沒(méi)有考慮平臺(tái)的運(yùn)動(dòng)學(xué)約束問(wèn)題,所采用的梯度下降法易陷入局部最小點(diǎn)。文獻(xiàn)[9]設(shè)計(jì)了一種基于預(yù)測(cè)信息的在線航跡規(guī)劃,將滾動(dòng)時(shí)域與遺傳算法結(jié)合起來(lái)優(yōu)化航行器軌跡。文獻(xiàn)[10]引入條件熵,設(shè)計(jì)了一種基于傳感器和運(yùn)動(dòng)概率模型的滾動(dòng)時(shí)域最優(yōu)控制,通過(guò)分析效用函數(shù)的結(jié)構(gòu)來(lái)減少計(jì)算量,但未考慮對(duì)狀態(tài)估計(jì)的性能評(píng)價(jià)。文獻(xiàn)[11]研究了基于信息熵的多UAV 目標(biāo)跟蹤控制方法,采用滾動(dòng)時(shí)域優(yōu)化(receding horizon optimal,RHO)的方法求解最優(yōu)控制量。本課題組將編隊(duì)運(yùn)動(dòng)和隊(duì)形設(shè)計(jì)分開(kāi)考慮,以FIM 矩陣行列式為目標(biāo)函數(shù)優(yōu)化多智能體的編隊(duì)隊(duì)形,并設(shè)計(jì)控制器控制智能體按照最優(yōu)隊(duì)形運(yùn)動(dòng),從而獲得最優(yōu)的目標(biāo)狀態(tài)估計(jì)。
本文針對(duì)此問(wèn)題,研究了一種基于信息熵的軌跡優(yōu)化算法,通過(guò)優(yōu)化信息熵來(lái)求解每個(gè)智能體的最優(yōu)角速率控制量,使得多智能體在跟蹤移動(dòng)目標(biāo)過(guò)程中沿著優(yōu)化的航跡運(yùn)動(dòng),從而獲得最優(yōu)的目標(biāo)狀態(tài)估計(jì)。
假設(shè)有N 個(gè)移動(dòng)智能體,每個(gè)智能體裝載被動(dòng)式傳感器,僅能探測(cè)到移動(dòng)目標(biāo)的方位信息,智能體間共享目標(biāo)信息進(jìn)行協(xié)同探測(cè)。如圖1 所示,智能體用三角形表示,目標(biāo)T 用圓形表示。其中,p表示智能體j 在二維平面的位置,φ為第j 個(gè)智能體的速度方向,θ代表智能體j 的傳感器探測(cè)目標(biāo)得到的方位信息。期望對(duì)多個(gè)智能體的軌跡進(jìn)行優(yōu)化,從而獲得最優(yōu)的目標(biāo)狀態(tài)估計(jì)。下面分別對(duì)多智能體和目標(biāo)組成的系統(tǒng)進(jìn)行分析并建立相應(yīng)的數(shù)學(xué)模型。
圖1 基于純方位信息的多智能體目標(biāo)跟蹤示意圖
常見(jiàn)的目標(biāo)運(yùn)動(dòng)模型主要有勻速運(yùn)動(dòng)和角速度恒定的常速轉(zhuǎn)彎運(yùn)動(dòng)。利用這些模型獲得的信息作為系統(tǒng)所能得到的關(guān)于目標(biāo)運(yùn)動(dòng)的先驗(yàn)信息,在此基礎(chǔ)上結(jié)合智能體所攜帶的傳感器對(duì)目標(biāo)進(jìn)行定位,將獲得相對(duì)方位角信息作為后驗(yàn)信息,從而獲得目標(biāo)的運(yùn)動(dòng)狀態(tài)信息。
目標(biāo)運(yùn)動(dòng)的數(shù)學(xué)模型為:
假設(shè)在k 時(shí)刻,第j 個(gè)智能體的傳感器可以獲得對(duì)目標(biāo)方位角的測(cè)量值為:
無(wú)色信息濾波算法(unscented information filter,UIF)通過(guò)在EIF(擴(kuò)展卡爾曼信息濾波)結(jié)構(gòu)中嵌入一種無(wú)色變換方法實(shí)現(xiàn),該方法源于sigma 點(diǎn)濾波器,其中包括無(wú)跡卡爾曼濾波(UKF)算法。UIF 的濾波步驟可以參照文獻(xiàn)[13],此處僅列出相關(guān)信息計(jì)算的步驟。第j 個(gè)傳感器對(duì)目標(biāo)信息狀態(tài)向量和信息矩陣的預(yù)測(cè)方程為:
圖2 集中式融合示意圖
由以上公式可知,條件熵的含義為在隨機(jī)變量已知的條件下,隨機(jī)變量G 的不確定性;而互信息是隨機(jī)變量G 包含隨機(jī)變量F 信息量的度量,也是在給定隨機(jī)變量F 知識(shí)的條件下,原隨機(jī)變量G 不確定度的縮減量。在濾波跟蹤領(lǐng)域,互信息主要用來(lái)描述取得觀測(cè)值后,目標(biāo)狀態(tài)估計(jì)值不確定性的減小量。因此,在本文中,為了更好地對(duì)目標(biāo)狀態(tài)進(jìn)行估計(jì),選取互信息作為優(yōu)化評(píng)價(jià)指標(biāo)。
由式(22)可以看出,最大化互信息等同于最大化Fisher 信息矩陣的行列式。隨著估計(jì)誤差的收斂,導(dǎo)致陣的行列式數(shù)量級(jí)很大,不利于比較。由于信息在數(shù)據(jù)融合過(guò)程中會(huì)丟失部分內(nèi)容,而互信息可以為融合濾波的評(píng)估過(guò)程和貢獻(xiàn)提供評(píng)價(jià)標(biāo)準(zhǔn),因此,本文基于互信息來(lái)確立優(yōu)化指標(biāo),由于C 為常數(shù),故定義目標(biāo)跟蹤系統(tǒng)的優(yōu)化指標(biāo)函數(shù)為:
滾動(dòng)時(shí)域優(yōu)化(RHO)方法是一種在滾動(dòng)時(shí)域內(nèi)實(shí)時(shí)計(jì)算最優(yōu)控制的預(yù)測(cè)控制方法,由于對(duì)模型精度要求不高和具有強(qiáng)魯棒性等特點(diǎn),被廣泛地應(yīng)用于各種領(lǐng)域。RHO 方法通過(guò)設(shè)計(jì)代價(jià)函數(shù),將狀態(tài)估計(jì)問(wèn)題轉(zhuǎn)換為帶約束的有限時(shí)域優(yōu)化問(wèn)題,利用有限時(shí)域內(nèi)采集的信息估計(jì)目標(biāo)狀態(tài),能夠有效地解決實(shí)時(shí)決策問(wèn)題,減輕預(yù)測(cè)誤差的負(fù)面影響。
多智能體協(xié)同觀測(cè)軌跡優(yōu)化問(wèn)題可以描述為:
即,求解J當(dāng)最大時(shí),滿足速度和轉(zhuǎn)向角速度約束的最優(yōu)控制輸入u。具體算法步驟如下:
1)已知k 時(shí)刻目標(biāo)的運(yùn)動(dòng)狀態(tài)為x,預(yù)測(cè)目標(biāo)在[k+1,k+T]時(shí)間段內(nèi)的運(yùn)動(dòng)狀態(tài)為:
2)根據(jù)智能體的狀態(tài)x(k)預(yù)測(cè)其在[k+1,k+T]時(shí)間段內(nèi)T 步控制序列為:
3)采用基于無(wú)色信息濾波(UIF)的的集中式融合估計(jì)算法(見(jiàn)表1)優(yōu)化控制序列,得到智能體的最優(yōu)控制角度變化率序列:
表1 基于UIF 的集中式融合估計(jì)算法
4)截取控制角變化率序列的前σ(1≤σ≤T)段,在時(shí)長(zhǎng)為σ 的時(shí)間里,用u[k+1,k+σ]來(lái)控制智能體的運(yùn)動(dòng)角度。
5)在k+σ 時(shí)刻,重復(fù)進(jìn)行步驟1)和步驟2)。
實(shí)驗(yàn)中使用2 個(gè)移動(dòng)智能體跟蹤目標(biāo),其角度變化率范圍為[-0.1 rad/s,0.1 rad/s];目標(biāo)的運(yùn)動(dòng)模型有勻速直線運(yùn)動(dòng)和勻速率轉(zhuǎn)彎運(yùn)動(dòng),多智能體協(xié)同跟蹤目標(biāo)采用表1 的UIF 算法,設(shè)定RHO 算法中的=20,σ=1。進(jìn)行下面兩個(gè)仿真。
仿真實(shí)驗(yàn)1:目標(biāo)做勻速直線運(yùn)動(dòng)
在實(shí)驗(yàn)中,兩個(gè)移動(dòng)智能體的初始位置為(x,y)=(-10,0),(x,y)=(5,-10)。兩個(gè)智能體的速度為2 m/s,初始運(yùn)動(dòng)控制角度皆為π/4。
由圖3(a)可知,當(dāng)目標(biāo)做勻速直線運(yùn)動(dòng)時(shí),智能體1 和智能體2 都能持續(xù)地跟蹤目標(biāo);由圖3(b)可知,在跟蹤過(guò)程中用于優(yōu)化的目標(biāo)函數(shù)J的值隨時(shí)間不斷增大到最大值后保持穩(wěn)定,表明在已知觀測(cè)值Z的條件下,對(duì)目標(biāo)狀態(tài)估計(jì)x的確定性越來(lái)越大;由圖3(c)可知,在初始狀態(tài)時(shí)濾波軌跡與真實(shí)軌跡有一定偏差,隨著算法的迭代,濾波軌跡與目標(biāo)的真實(shí)軌跡幾乎重合;由圖3(d)可以看出,系統(tǒng)誤差隨時(shí)間變化呈振蕩減小的趨勢(shì),并保持在很小的范圍。
圖3 目標(biāo)做勻速直線運(yùn)動(dòng)
仿真實(shí)驗(yàn)2:目標(biāo)做勻速率轉(zhuǎn)彎運(yùn)動(dòng)
由圖4(a)可知,當(dāng)目標(biāo)做勻速率轉(zhuǎn)彎運(yùn)動(dòng)時(shí),智能體1 和智能體2 能持續(xù)地跟蹤目標(biāo);由圖4(b)可知,優(yōu)化目標(biāo)函數(shù)J的值隨時(shí)間不斷增大,表明系統(tǒng)對(duì)目標(biāo)狀態(tài)估計(jì)x的確定性越來(lái)越大;由圖4(c)可知,濾波軌跡與目標(biāo)的真實(shí)軌跡有較小偏差,隨著算法的迭代,濾波軌跡與目標(biāo)的真實(shí)軌跡幾乎重合;由圖4(d)可以看出,系統(tǒng)誤差隨時(shí)間變化持續(xù)減小,誤差降低到1 m 以內(nèi)。
圖4 目標(biāo)做勻速率轉(zhuǎn)彎運(yùn)動(dòng)
由上面兩組仿真的結(jié)果可知,不論目標(biāo)做勻速直線運(yùn)動(dòng)還是勻速率轉(zhuǎn)彎運(yùn)動(dòng),多智能體系統(tǒng)都能持續(xù)跟蹤目標(biāo),且目標(biāo)函數(shù)值持續(xù)增長(zhǎng)最后保持穩(wěn)定,這表明系統(tǒng)能夠保持優(yōu)化的協(xié)同觀測(cè)軌跡。在仿真當(dāng)中可以看到,該系統(tǒng)目標(biāo)跟蹤誤差值隨著算法的迭代持續(xù)下降,這說(shuō)明基于信息熵的多智能體協(xié)同觀測(cè)軌跡優(yōu)化設(shè)計(jì)能夠減少估計(jì)誤差,維持對(duì)目標(biāo)的觀測(cè)。
本文針對(duì)多個(gè)移動(dòng)傳感智能體協(xié)同跟蹤單目標(biāo)的問(wèn)題,研究了一種基于信息熵的協(xié)同目標(biāo)跟蹤軌跡優(yōu)化方法,改進(jìn)的思路在基本RHO 算法的基礎(chǔ)上,引入互信息作為目標(biāo)狀態(tài)融合估計(jì)的性能評(píng)價(jià)指標(biāo)。仿真結(jié)果表明多個(gè)智能體能夠持續(xù)跟蹤目標(biāo)獲取其狀態(tài)估計(jì),跟蹤誤差隨算法的迭代運(yùn)行持續(xù)減小,證實(shí)了算法的有效性。文中面向最優(yōu)目標(biāo)狀態(tài)的軌跡優(yōu)化方法建立在集中式多平臺(tái)傳感器信息處理的基礎(chǔ)上,后續(xù)將深入研究在分布式多Agent 協(xié)同觀測(cè)系統(tǒng)中目標(biāo)函數(shù)的選取問(wèn)題。