張昀普,單甘霖
陸軍工程大學(xué)石家莊校區(qū) 電子與光學(xué)工程系,石家莊 050003
隨著科學(xué)技術(shù)的發(fā)展,現(xiàn)代戰(zhàn)爭(zhēng)的主流已演變成以“網(wǎng)絡(luò)中心戰(zhàn)”為核心的信息戰(zhàn)爭(zhēng),這也為傳感器系統(tǒng)的有效使用提出了更高的要求[1]。由于信息戰(zhàn)爭(zhēng)中作戰(zhàn)節(jié)點(diǎn)錯(cuò)綜復(fù)雜,信息量巨大且形式多樣,傳感器系統(tǒng)往往在操作、部署位置和算法邏輯等多方面存在約束,致使系統(tǒng)處理信息的難度大大增加,因此,需要對(duì)傳感器系統(tǒng)進(jìn)行有效的管理,以使作戰(zhàn)收益最大化。隨著傳感器管理理論研究不斷深入,人們開(kāi)始將研究重點(diǎn)放在貝葉斯意義上的最優(yōu)管理方法上[2],截止目前,共發(fā)展為3類基于貝葉斯理論的傳感器管理方法,即基于任務(wù)的管理方法[3-4]、基于信息論的管理方法[5-6]和基于風(fēng)險(xiǎn)的管理方法[7]。
這3類方法均設(shè)定一個(gè)與作戰(zhàn)密切相關(guān)的目標(biāo)函數(shù)以使所需求的收益達(dá)到最大。前兩種方法更多關(guān)注的是通過(guò)傳感器管理使一項(xiàng)或多項(xiàng)戰(zhàn)術(shù)指標(biāo)達(dá)到最優(yōu),如目標(biāo)跟蹤精度[8]、后驗(yàn)克拉美羅下界[9]、Rényi信息增量等[10-11]。但在有些情況下,寧可不追求這些戰(zhàn)術(shù)指標(biāo)的最優(yōu)值,也要使作戰(zhàn)風(fēng)險(xiǎn)達(dá)到最小。例如,文獻(xiàn)[12]指出,當(dāng)對(duì)目標(biāo)進(jìn)行跟蹤時(shí),利用前兩種管理方法可以得到極佳的目標(biāo)跟蹤精度,但是如果不需要打擊目標(biāo),僅使傳感器不丟失目標(biāo)即可,而不是一味地追求高的跟蹤精度,此時(shí)需通過(guò)傳感器管理使目標(biāo)的丟失風(fēng)險(xiǎn)達(dá)到最小。因此,基于風(fēng)險(xiǎn)的管理方法將關(guān)注重點(diǎn)放在了控制作戰(zhàn)風(fēng)險(xiǎn)上,通常認(rèn)為風(fēng)險(xiǎn)是由作戰(zhàn)決策所造成的潛在損失及其發(fā)生的概率所決定的,執(zhí)行傳感器管理的目的是降低作戰(zhàn)風(fēng)險(xiǎn)以使損失達(dá)到最小,該類方法具有良好的實(shí)際應(yīng)用價(jià)值,已成為傳感器管理領(lǐng)域內(nèi)的研究熱點(diǎn)。文獻(xiàn)[13]建立了面向目標(biāo)檢測(cè)的風(fēng)險(xiǎn)模型,認(rèn)為由于傳感器漏警概率的存在,在檢測(cè)時(shí)會(huì)產(chǎn)生相應(yīng)的漏警風(fēng)險(xiǎn),并提出一種基于最小貝葉斯風(fēng)險(xiǎn)的傳感器管理方法使漏警所造成的損失達(dá)到最低。文獻(xiàn)[14]研究了目標(biāo)識(shí)別背景下的傳感器管理問(wèn)題,認(rèn)為識(shí)別結(jié)果的不準(zhǔn)確性會(huì)導(dǎo)致指揮員做出錯(cuò)誤的決策,從而產(chǎn)生相應(yīng)的風(fēng)險(xiǎn),并建立了基于觀測(cè)值校正的風(fēng)險(xiǎn)函數(shù)模型,提出了相應(yīng)的傳感器管理方法。文獻(xiàn)[15]認(rèn)為在對(duì)目標(biāo)進(jìn)行威脅評(píng)估時(shí),目標(biāo)的威脅度是一個(gè)與目標(biāo)狀態(tài)相關(guān)的函數(shù),并以威脅度分布的方差量化威脅評(píng)估風(fēng)險(xiǎn)。
但文獻(xiàn)[15]中僅以威脅度分布的方差量化威脅評(píng)估風(fēng)險(xiǎn)是不夠準(zhǔn)確的,在實(shí)際中,對(duì)于目標(biāo)威脅度不同程度的誤判所造成的損失應(yīng)是不同的,例如在我方防御資源充足的情況下,當(dāng)把高威脅的目標(biāo)錯(cuò)判為低威脅時(shí),我方會(huì)對(duì)其分配較少的防御資源,從而可能使我方受到致命的火力打擊,但把低威脅的目標(biāo)錯(cuò)判為高威脅時(shí),可能僅會(huì)造成一些防御資源的浪費(fèi),比上一種情況的損失要小得多。因此,在建立威脅度模型時(shí),需將威脅度不確定性與誤判損失相結(jié)合,使模型更具有實(shí)際價(jià)值。
同時(shí),以有源雷達(dá)為代表的主動(dòng)傳感器作為獲取戰(zhàn)場(chǎng)信息的重要工具,其探測(cè)距離遠(yuǎn)且具有較高的距離分辨力,可實(shí)現(xiàn)對(duì)目標(biāo)的高精度量測(cè),但在工作時(shí)會(huì)輻射電磁波,容易暴露位置,因此需要在執(zhí)行任務(wù)時(shí)對(duì)主動(dòng)傳感器的輻射風(fēng)險(xiǎn)進(jìn)行控制,以提高其戰(zhàn)場(chǎng)生存能力。合理量化傳感器的輻射狀態(tài)是控制輻射風(fēng)險(xiǎn)的前提,文獻(xiàn)[16-17]利用傳感器發(fā)射功率、目標(biāo)回波功率和接收機(jī)接收靈敏度等參數(shù)計(jì)算出傳感器輻射被截獲的概率,并以此表示傳感器在每一時(shí)刻的輻射狀態(tài)。但在實(shí)際中目標(biāo)參數(shù)很難獲取,故該方法的實(shí)用性較差。文獻(xiàn)[18-19]采用輻射度影響(Emission Level Impact,ELI)替代了截獲概率,其表示傳感器被敵方接收機(jī)累積接收的輻射量,在使用時(shí)不需要獲取目標(biāo)相關(guān)參數(shù),具有較好的實(shí)際應(yīng)用價(jià)值。
針對(duì)上述問(wèn)題,本文面向空中目標(biāo)威脅評(píng)估任務(wù),以多主動(dòng)傳感器系統(tǒng)為研究對(duì)象,在不改變傳感器結(jié)構(gòu)和空間位置的條件下,提出一種基于風(fēng)險(xiǎn)的多傳感器管理方法,旨在最小化由威脅評(píng)估結(jié)果的不準(zhǔn)確性和傳感器輻射所帶來(lái)的潛在損失。首先建立了基于部分可觀馬爾可夫決策過(guò)程(Partially Observable Markov Decision Process,POMDP)的傳感器管理模型;然后提出了基于信息狀態(tài)的威脅評(píng)估風(fēng)險(xiǎn)和輻射風(fēng)險(xiǎn)的預(yù)測(cè)方法;并以二者加權(quán)和最小為優(yōu)化目標(biāo)建立了長(zhǎng)期目標(biāo)函數(shù),最后設(shè)計(jì)了一種基于分支定界的決策樹(shù)搜索算法以求解該問(wèn)題。仿真結(jié)果證明了所提搜索算法和管理方法的有效性和合理性。
本文任務(wù)場(chǎng)景描述如圖1所示。假設(shè)我方共部署M個(gè)傳感器對(duì)N個(gè)空中目標(biāo)進(jìn)行威脅評(píng)估,并將獲取的量測(cè)信息發(fā)送給控制中心,我方控制中心制定相應(yīng)的傳感器管理方案,并向整個(gè)傳感器系統(tǒng)發(fā)布命令以控制各傳感器工作。
由于在整個(gè)過(guò)程中傳感器的量測(cè)不確定性和目標(biāo)運(yùn)動(dòng)狀態(tài)的隨機(jī)性,所以本文研究的傳感器管理問(wèn)題是一個(gè)不確定信息下的決策問(wèn)題,而POMDP是一種研究隨機(jī)環(huán)境下多階段決策的理論方法[20],故可以基于該理論對(duì)該問(wèn)題進(jìn)行建模,其基本組成要素分為系統(tǒng)動(dòng)作、系統(tǒng)狀態(tài)、狀態(tài)轉(zhuǎn)移函數(shù)、系統(tǒng)觀測(cè)、觀測(cè)函數(shù)和收益函數(shù)。
考慮到傳感器在時(shí)間和空間上配準(zhǔn)較為困難,為簡(jiǎn)便計(jì)算,本文設(shè)定在同一時(shí)刻一部傳感器只能量測(cè)一個(gè)目標(biāo),且一個(gè)目標(biāo)只能被一部傳感器所量測(cè),則系統(tǒng)動(dòng)作的約束可描述為
(1)
定義k時(shí)刻系統(tǒng)狀態(tài)Sk=[Xk,Ek],由目標(biāo)的運(yùn)動(dòng)狀態(tài)和傳感器的輻射狀態(tài)組成。
(2)
Tn,k=[p(En,k=j|En,k-1=i)]i,j∈{0,1,…,Emax}
(3)
(4)
若該傳感器不工作,Tn,k為單位陣。
定義k時(shí)刻系統(tǒng)的觀測(cè)集合Zk=[ZXk,ZEk],由目標(biāo)信息和傳感器瞬時(shí)輻射量的觀測(cè)值組成。
(5)
W(Zn,Ek=c)=[p(Zn,Ek=c|En,k=j,
En,k-1=i)]i,j∈{0,1,…,Emax}c∈{0,1,…,Cmax}
(6)
若該傳感器不工作,其觀測(cè)矩陣為單位陣。
傳感器管理的核心在于對(duì)未來(lái)時(shí)刻內(nèi)的收益進(jìn)行預(yù)測(cè),并以收益達(dá)到最佳為目標(biāo)制定相應(yīng)的管理方案。結(jié)合目標(biāo)威脅評(píng)估任務(wù),同時(shí)考慮威脅評(píng)估風(fēng)險(xiǎn)和傳感器的輻射風(fēng)險(xiǎn),可得一步收益函數(shù)為
R(Ak)=ωU(Ak)+(1-ω)Y(Ak)
(7)
式中:R(Ak)、U(Ak)和Y(Ak)分別為在執(zhí)行分配方案Ak后,在k+1時(shí)刻的總風(fēng)險(xiǎn)、威脅評(píng)估風(fēng)險(xiǎn)和輻射風(fēng)險(xiǎn);ω為平衡系數(shù),用來(lái)權(quán)衡兩種風(fēng)險(xiǎn)。
進(jìn)一步,多步收益函數(shù)的表達(dá)式為
(8)
式中:H為決策步長(zhǎng)。
通過(guò)1.4節(jié)可知,對(duì)威脅評(píng)估風(fēng)險(xiǎn)和輻射風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)是制定傳感器管理方案的核心,因此,需要對(duì)兩種風(fēng)險(xiǎn)進(jìn)行合理量化和準(zhǔn)確預(yù)測(cè)。
目標(biāo)的威脅度是一個(gè)隨著目標(biāo)狀態(tài)變化的隨機(jī)變量,在威脅評(píng)估的過(guò)程中,會(huì)將目標(biāo)狀態(tài)的不確定性傳遞到威脅度上來(lái),使威脅等級(jí)評(píng)估的結(jié)果難以精確,從而產(chǎn)生相應(yīng)的評(píng)估風(fēng)險(xiǎn)。
2.1.1 威脅評(píng)估方法
(9)
式中:xp、yp和zp為防御陣地中心的三坐標(biāo)。
構(gòu)建各影響因素對(duì)應(yīng)的子威脅度函數(shù),從而將目標(biāo)狀態(tài)的估計(jì)映射到威脅上來(lái)。
1) 目標(biāo)距離
(10)
式中:d0為子威脅度極值點(diǎn)對(duì)應(yīng)的距離;fd為距離系數(shù),用來(lái)調(diào)節(jié)子威脅度函數(shù)值與距離的變化倍率。
2) 目標(biāo)速度
(11)
式中:v0為子威脅度極值點(diǎn)對(duì)應(yīng)的速度;fv為速度系數(shù)。
3) 航向角
(12)
式中:fα為角度系數(shù)。
在得到各因素對(duì)應(yīng)的子威脅度后,通過(guò)加權(quán)的方式計(jì)算目標(biāo)m的威脅度
(13)
式中:ωd、ωv和ωα分別為距離、速度和航向角的權(quán)重。
在實(shí)際戰(zhàn)場(chǎng)上,需要根據(jù)威脅度得到目標(biāo)的威脅等級(jí),以使指揮員更直觀的了解目標(biāo)的威脅性。本文設(shè)置3類威脅等級(jí),記為1(低等級(jí))、2(中等級(jí))和3(高等級(jí))3類,其對(duì)應(yīng)規(guī)則為
(14)
式中:θ2和θ3分別為威脅等級(jí)分界點(diǎn)所對(duì)應(yīng)的威脅度。
2.1.2 基于信息狀態(tài)的威脅風(fēng)險(xiǎn)預(yù)測(cè)方法
(15)
由于信息狀態(tài)為高斯分布,在非線性變換后難以獲得其分布律的解析解,故本文在計(jì)算威脅度時(shí)先使用蒙特卡羅方法依照信息狀態(tài)分布獲取一定數(shù)量的目標(biāo)狀態(tài)樣本點(diǎn),再通過(guò)計(jì)算各樣本點(diǎn)對(duì)應(yīng)的威脅度得到相應(yīng)的威脅度概率分布,從而近似估計(jì)目標(biāo)的威脅等級(jí)和威脅評(píng)估風(fēng)險(xiǎn)。其過(guò)程如下:
步驟2采樣。依據(jù)目標(biāo)m在k+1時(shí)刻的信息狀態(tài)分布獲取L個(gè)樣本點(diǎn)(L為任意值,其值越大,威脅度評(píng)估的結(jié)果就越準(zhǔn)確,但會(huì)影響計(jì)算速度)。
步驟5預(yù)測(cè)一步威脅評(píng)估風(fēng)險(xiǎn)。結(jié)合傳感器的分配方案Ak,可得一步威脅評(píng)估風(fēng)險(xiǎn)的預(yù)測(cè)值為
(16)
步驟6預(yù)測(cè)多步威脅評(píng)估風(fēng)險(xiǎn)。令k=k+1,轉(zhuǎn)到步驟1,進(jìn)行H-1次循環(huán)后(H為決策步長(zhǎng)),計(jì)算結(jié)束,得到多步威脅評(píng)估風(fēng)險(xiǎn)的預(yù)測(cè)值為
(17)
和目標(biāo)運(yùn)動(dòng)狀態(tài)相同,傳感器的ELI狀態(tài)無(wú)法完全預(yù)知,因此引入ELI信息狀態(tài)bEk=[b1,Ek,b2,Ek,…,bN,Ek]T。對(duì)于任意的傳感器n,其在k時(shí)刻的信息狀態(tài)為
(18)
假設(shè)在k+1時(shí)刻傳感器n處于工作狀態(tài),且已知相應(yīng)的瞬時(shí)觀測(cè)輻射等級(jí)Zn,Ek+1的具體值,則可利用隱馬爾可夫模型濾波器更新其ELI信息狀態(tài)[18]:
(19)
式中:⊙為Hadamard積;1為Emax維單位向量。
若該傳感器不工作時(shí),其ELI信息狀態(tài)不發(fā)生轉(zhuǎn)移。
然而在實(shí)際中,在k時(shí)刻無(wú)法預(yù)測(cè)k+1時(shí)刻Zn,Ek+1的具體值,但是可以根據(jù)信息狀態(tài)得到其概率分布:
p(Zn,Ek+1|bn,Ek)=
p(En,k+1|En,k)bn,Ek=
(20)
根據(jù)式(19)和式(20),可求出傳感器n在k+1 時(shí)刻的預(yù)測(cè)信息狀態(tài):
p(Zn,Ek+1|bn,Ek)=
(Tn,k+1)Tbn,Ek
(21)
根據(jù)ELI值與被截獲概率的關(guān)系,得到該傳感器在k+1時(shí)刻的被截獲概率:
(22)
當(dāng)我方傳感器被敵方截獲時(shí),將有可能遭受火力打擊,從而產(chǎn)生傳感器資源損失。因此,本文定義在k+1時(shí)刻傳感器n的輻射風(fēng)險(xiǎn)預(yù)測(cè)值為
(23)
式中:on∈O=[o1,o2,…,oN],代表傳感器的戰(zhàn)術(shù)價(jià)值,屬于先驗(yàn)信息。
結(jié)合我方傳感器的分配方案,可得一步輻射風(fēng)險(xiǎn)預(yù)測(cè)值為
(24)
根據(jù)式(21),可求出傳感器n的多步預(yù)測(cè)信息狀態(tài)為
(25)
進(jìn)一步,可得多步輻射風(fēng)險(xiǎn)預(yù)測(cè)值為
(26)
傳感器管理在決策周期上可分為短期和長(zhǎng)期兩種管理方法,短期方法以未來(lái)一步的收益函數(shù)為決策依據(jù),盡管實(shí)現(xiàn)簡(jiǎn)單,但忽視了系統(tǒng)動(dòng)作對(duì)未來(lái)系統(tǒng)狀態(tài)的影響,管理效果欠佳。而長(zhǎng)期方法以多步收益函數(shù)為決策依據(jù),其管理效果要優(yōu)于短期管理[8]。為追求更高的作戰(zhàn)收益,本文采用長(zhǎng)期管理方法,以H為決策步長(zhǎng),建立相應(yīng)的目標(biāo)函數(shù)為
(27)
該目標(biāo)函數(shù)的最優(yōu)解為[Ak,Ak+1,…,Ak+H-1]opt,代表時(shí)域[k+1,k+H]上的最優(yōu)管理方案。
由于該問(wèn)題是一個(gè)多決策步長(zhǎng)、系統(tǒng)動(dòng)作連續(xù)的POMDP問(wèn)題,在求解時(shí)計(jì)算復(fù)雜度過(guò)大。為了滿足實(shí)際戰(zhàn)場(chǎng)上對(duì)于決策的實(shí)時(shí)性要求,本文將傳感器管理問(wèn)題轉(zhuǎn)化為決策樹(shù),提出一種基于分支定界的UCS(Uniform Cost Search)算法以快速獲得最優(yōu)解。
圖2 決策樹(shù)示意圖Fig.2 Decision tree diagram
(28)
由于在單一運(yùn)動(dòng)模型下傳感器性能的穩(wěn)定性和目標(biāo)跟蹤的持續(xù)性,目標(biāo)狀態(tài)的最優(yōu)估計(jì)誤差通常不會(huì)較前一時(shí)刻有太大變化[24]。由于威脅評(píng)估風(fēng)險(xiǎn)僅與目標(biāo)狀態(tài)有關(guān),因此其在大多時(shí)候也不會(huì)發(fā)生突變,通過(guò)大量仿真發(fā)現(xiàn),下一時(shí)刻的威脅評(píng)估風(fēng)險(xiǎn)通常是上一時(shí)刻的0.8~1.2倍,因此,可得
(29)
(30)
因此,可得
(31)
根據(jù)式(28)、式(29)和式(31),得該節(jié)點(diǎn)的下界值為
(32)
得到節(jié)點(diǎn)的下界值后,即可以在UCS的過(guò)程中通過(guò)分支定界方法及時(shí)刪除多余的節(jié)點(diǎn),加快搜索速度。基于分支定界的UCS搜索算法流程如下所示:
步驟2
1) 若列表不為空
打開(kāi)列表中第一個(gè)節(jié)點(diǎn)并將其刪除。
① 若此時(shí)未到達(dá)最底層H
② 若此時(shí)已到達(dá)最底層H
2) 若列表為空
轉(zhuǎn)到步驟3
表1 傳感器參數(shù)Table 1 Parameters of sensors
將傳感器的ELI狀態(tài)量化為{0,1,2,3,4},0為無(wú)輻射,對(duì)應(yīng)被截獲概率為0%,1為低輻射等級(jí),對(duì)應(yīng)被截獲概率為0%~25%,2為中輻射等級(jí),對(duì)應(yīng)被截獲概率為25%~50%,3為高輻射等級(jí),對(duì)應(yīng)嗎 被截獲概率為50%~75%,4為極高輻射等級(jí),對(duì)應(yīng)被截獲概率為75%~100%。設(shè)定每個(gè)傳感器有3個(gè)ELI狀態(tài)轉(zhuǎn)移矩陣,為了不失一般性,設(shè)定在相同的目標(biāo)距離范圍內(nèi)量測(cè)精度高的傳感器更容易處于高ELI等級(jí),各傳感器的ELI狀態(tài)轉(zhuǎn)移矩陣為
傳感器與目標(biāo)距離小于5 km時(shí):
傳感器與目標(biāo)距離位于5~15 km時(shí):
傳感器與目標(biāo)距離大于15 km時(shí):
平衡系數(shù)w的作用在于權(quán)衡威脅評(píng)估風(fēng)險(xiǎn)和輻射風(fēng)險(xiǎn)對(duì)于總風(fēng)險(xiǎn)的影響。本文在H=1下研究了不同平衡系數(shù)對(duì)兩種風(fēng)險(xiǎn)的影響,并以此為依據(jù)確定w。圖3給出了不同平衡系數(shù)下的傳感器對(duì)目標(biāo)1的分配方案,圖4描述了平衡系數(shù)的變化對(duì)歸一化威脅評(píng)估風(fēng)險(xiǎn)和輻射風(fēng)險(xiǎn)的影響。從圖3可以看出,平衡系數(shù)的改變會(huì)使管理方案發(fā)生相應(yīng)的變化,從而影響的風(fēng)險(xiǎn)控制效果。結(jié)合圖4可知,隨著平衡系數(shù)的增大,威脅評(píng)估風(fēng)險(xiǎn)越來(lái)越小,輻射風(fēng)險(xiǎn)越來(lái)越大,說(shuō)明所制定的管理方案越來(lái)越注重控制威脅評(píng)估風(fēng)險(xiǎn),而漸漸忽視輻射風(fēng)險(xiǎn)。當(dāng)w<0.45時(shí),輻射風(fēng)險(xiǎn)遠(yuǎn)小于威脅評(píng)估風(fēng)險(xiǎn),當(dāng)w>0.45時(shí),威脅評(píng)估風(fēng)險(xiǎn)遠(yuǎn)小于輻射風(fēng)險(xiǎn),這兩種情況均會(huì)造成兩種風(fēng)險(xiǎn)的失衡,無(wú)法兼顧評(píng)估結(jié)果的準(zhǔn)確性和傳感器的生存。當(dāng)w=0.45時(shí),二者十分接近,說(shuō)明此時(shí)所制定的管理方案兼顧了兩種風(fēng)險(xiǎn)的影響,使二者可以達(dá)到相對(duì)平衡,因此在接下來(lái)的仿真中選取w=0.45。
圖3 不同平衡系數(shù)下傳感器對(duì)目標(biāo)1的分配方案Fig.3 Assignment scheme of sensors to target 1 under different equilibrium coefficients
圖4 不同平衡系數(shù)下的歸一化風(fēng)險(xiǎn)值Fig.4 Normalized risk under different equilibrium coefficients
圖5為當(dāng)w=0.45時(shí),不同決策步長(zhǎng)下累積總風(fēng)險(xiǎn)值的對(duì)比圖??梢钥闯觯贖=2到H=6時(shí),隨著H的增加,累積總風(fēng)險(xiǎn)值越來(lái)越小,說(shuō)明系統(tǒng)能夠獲得更優(yōu)的管理方案。但當(dāng)H=7時(shí),累積風(fēng)險(xiǎn)值相較于H=6時(shí)不降反增,這是因?yàn)殡S著決策步長(zhǎng)的增加,對(duì)于系統(tǒng)狀態(tài)的預(yù)測(cè)變得越來(lái)越不準(zhǔn)確,計(jì)算的誤差就會(huì)越來(lái)越大,從而使總風(fēng)險(xiǎn)有所增加,因此,一味增大決策步長(zhǎng)是沒(méi)有意義的。同時(shí),雖然在H=6時(shí)的累積風(fēng)險(xiǎn)值最小,但其與H=4時(shí)的風(fēng)險(xiǎn)值相差不多,且由于步長(zhǎng)的增加會(huì)導(dǎo)致計(jì)算復(fù)雜度的大幅增長(zhǎng),為了兼顧風(fēng)險(xiǎn)控制效果和計(jì)算量,本文在接下來(lái)的仿真中選取決策步長(zhǎng)H=4。
圖5 不同決策步長(zhǎng)下的累積總風(fēng)險(xiǎn)Fig.5 Cumulative total risk value under different decision time steps
為了驗(yàn)證本文提出的基于分支定界的UCS算法(BB-UCS)的優(yōu)勢(shì),采用窮舉搜索(Enumerative Search, ES)和UCS算法進(jìn)行對(duì)比。表2為不同算法的性能指標(biāo)對(duì)比,其中,打開(kāi)節(jié)點(diǎn)百分比數(shù)和最大存儲(chǔ)節(jié)點(diǎn)數(shù)越小,代表算法的搜索時(shí)間和內(nèi)存消耗越少[25],總風(fēng)險(xiǎn)值越小,代表算法的求解質(zhì)量越高,圖6為UCS和本文算法的節(jié)點(diǎn)打開(kāi)百分比的對(duì)比圖。
表2 不同算法搜索性能對(duì)比Table 2 Comparison of search performance under different algorithms
圖6 不同算法下節(jié)點(diǎn)打開(kāi)百分比Fig.6 Percentage of nodes opened under different algorithms
結(jié)合表2和圖6可知,ES和UCS下的節(jié)點(diǎn)打開(kāi)百分比和最大存儲(chǔ)節(jié)點(diǎn)數(shù)較大,說(shuō)明這兩種算法在尋優(yōu)時(shí)需要大量的時(shí)間和存儲(chǔ)空間,實(shí)時(shí)性較差。相比之下,BB-UCS顯著降低了節(jié)點(diǎn)打開(kāi)百分比和最大存儲(chǔ)節(jié)點(diǎn),在搜索時(shí)間和內(nèi)存消耗上優(yōu)勢(shì)明顯,極大地提高了搜索效率。同時(shí),雖然BB-UCS下的累積風(fēng)險(xiǎn)值較大,但與能獲得最優(yōu)解的ES和UCS的差距很小,故說(shuō)明BB-UCS雖然僅能獲得次優(yōu)解,但依舊能夠有效控制總風(fēng)險(xiǎn)以確保獲得較高的作戰(zhàn)收益。
圖7為總風(fēng)險(xiǎn)值隨時(shí)間變化的曲線,圖中,風(fēng)險(xiǎn)預(yù)測(cè)值為通過(guò)信息狀態(tài)預(yù)測(cè)的未來(lái)時(shí)刻內(nèi)的風(fēng)險(xiǎn)值,風(fēng)險(xiǎn)實(shí)際值為在執(zhí)行分配方案后通過(guò)實(shí)際量測(cè)所計(jì)算出的風(fēng)險(xiǎn)值??梢钥闯鲈谡麄€(gè)時(shí)間范圍內(nèi),預(yù)測(cè)值與估計(jì)值大致相等,驗(yàn)證了本文在系統(tǒng)狀態(tài)不可觀測(cè)時(shí)利用信息狀態(tài)預(yù)測(cè)未來(lái)時(shí)間內(nèi)目標(biāo)的運(yùn)動(dòng)狀態(tài)和傳感器的ELI狀態(tài)是有效的,同時(shí)說(shuō)明了以風(fēng)險(xiǎn)預(yù)測(cè)值為依據(jù)制定傳感器管理方案是合理的。
圖7 總風(fēng)險(xiǎn)曲線Fig.7 Curves of total risk
圖8給出了目標(biāo)軌跡在x-y平面的投影和傳感器的分配方案,圖中目標(biāo)航跡上的傳感器序列代表著通過(guò)本文方法所得出的傳感器最佳分配方案。圖9給出了兩個(gè)目標(biāo)的威脅等級(jí)采樣示意圖。可以看出在威脅評(píng)估的過(guò)程中,目標(biāo)狀態(tài)的不確定性會(huì)傳遞到威脅度模型當(dāng)中,從而在威脅等級(jí)評(píng)估時(shí)產(chǎn)生相應(yīng)的風(fēng)險(xiǎn)。結(jié)合圖7~圖9可以看出,在20~30 s內(nèi),目標(biāo)1和目標(biāo)2的威脅度采樣點(diǎn)在高和中兩個(gè)威脅等級(jí)內(nèi)均有大量分布,此時(shí)的威脅評(píng)估風(fēng)險(xiǎn)也最大,因此,圖7中總風(fēng)險(xiǎn)曲線也在該時(shí)間段內(nèi)逐漸上升到最大值。而在30 s后,隨著目標(biāo)1逐漸靠近防御中心(目標(biāo)2逐漸遠(yuǎn)離防御中心),采樣點(diǎn)的分布逐漸向高(中)威脅等級(jí)的范圍內(nèi)集中,落在不同區(qū)間內(nèi)的采樣點(diǎn)數(shù)量也越來(lái)越少,目標(biāo)威脅評(píng)估的不確定性也隨之越來(lái)越小,威脅評(píng)估風(fēng)險(xiǎn)也就越來(lái)越小,故圖7中的總風(fēng)險(xiǎn)曲線也逐漸下降。在仿真時(shí)間的末段,兩個(gè)目標(biāo)的威脅度采樣點(diǎn)幾乎在一個(gè)威脅度區(qū)間內(nèi),此時(shí)的威脅評(píng)估風(fēng)險(xiǎn)已經(jīng)非常小,影響系統(tǒng)決策的主要是傳感器的輻射風(fēng)險(xiǎn)。當(dāng)所有采樣點(diǎn)均落在一個(gè)等級(jí)范圍內(nèi)時(shí),目標(biāo)威脅等級(jí)為該等級(jí)的概率為1,根據(jù)本文所提威脅評(píng)估風(fēng)險(xiǎn)計(jì)算方法可知,威脅評(píng)估風(fēng)險(xiǎn)此時(shí)為0,系統(tǒng)將僅需控制傳感器的輻射風(fēng)險(xiǎn)。
圖8 目標(biāo)航跡及傳感器分配方案Fig.8 Target trajectory and sensor assignment scheme
圖9 威脅等級(jí)不確定性采樣Fig.9 Sampling of target threat level uncertainty
為了充分說(shuō)明本文所提出的管理方法(Proposed Management Approach,PMA)能夠有效控制總風(fēng)險(xiǎn),采用3種常用方法進(jìn)行對(duì)比:
1) 短期管理方法(Myopic Management Approach,MMA),以一步風(fēng)險(xiǎn)預(yù)測(cè)值為依據(jù)執(zhí)行傳感器管理。
2) 隨機(jī)管理方法(Random Management Approach,RMA)[8],每一時(shí)刻隨機(jī)分配傳感器評(píng)估目標(biāo)的威脅等級(jí),主要用于作戰(zhàn)態(tài)勢(shì)緊急,來(lái)不及解算目標(biāo)函數(shù)的情況。
3) 最近鄰管理方法(Closest Management Approach,CMA)[17],每一時(shí)刻選擇與目標(biāo)最近的傳感器評(píng)估目標(biāo),此方法在理論上能獲得較優(yōu)的目標(biāo)狀態(tài)估計(jì)誤差。
圖10為不同方法下各時(shí)刻的總風(fēng)險(xiǎn)曲線對(duì)比圖,圖11為整個(gè)仿真時(shí)間內(nèi)的累積總風(fēng)險(xiǎn)、威脅評(píng)估風(fēng)險(xiǎn)和輻射風(fēng)險(xiǎn)的對(duì)比圖。可以看出,RMA不進(jìn)行風(fēng)險(xiǎn)的預(yù)測(cè),風(fēng)險(xiǎn)控制效果很差,故其3種風(fēng)險(xiǎn)均為最高;CMA在一定程度上可以保證對(duì)目標(biāo)有較好的量測(cè)性能,故其威脅評(píng)估風(fēng)險(xiǎn)較低,但其實(shí)質(zhì)上也不進(jìn)行風(fēng)險(xiǎn)的預(yù)測(cè),無(wú)法根據(jù)目標(biāo)和傳感器的實(shí)際情況制定管理方案,所以其總風(fēng)險(xiǎn)值和輻射風(fēng)險(xiǎn)較高,進(jìn)一步說(shuō)明了以風(fēng)險(xiǎn)預(yù)測(cè)值為決策依據(jù)的重要性。MMA通過(guò)預(yù)測(cè)未來(lái)一步內(nèi)的風(fēng)險(xiǎn)值,相比于RMA和MMA,能夠較大程度上改善風(fēng)險(xiǎn)控制效果,但相比于本文所提出的長(zhǎng)期管理方法來(lái)說(shuō)可視為一種貪婪搜索,無(wú)法得到最好的風(fēng)險(xiǎn)控制效果。而PMA通過(guò)對(duì)一定時(shí)域內(nèi)的長(zhǎng)期風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè),使3類風(fēng)險(xiǎn)在整個(gè)仿真時(shí)間內(nèi)的累積值均為所有方法中的最低,且在各個(gè)時(shí)刻也均能得到最低的總風(fēng)險(xiǎn),說(shuō)明本文方法能較好地權(quán)衡并降低威脅評(píng)估風(fēng)險(xiǎn)和輻射風(fēng)險(xiǎn),從而控制總風(fēng)險(xiǎn),既提高了威脅評(píng)估的準(zhǔn)確性,又保障了傳感器系統(tǒng)的生存性能。
圖10 不同方法下各時(shí)刻的總風(fēng)險(xiǎn)對(duì)比Fig.10 Comparison of total risk at each time under different methods
本文面向空中目標(biāo)威脅評(píng)估任務(wù),對(duì)多傳感器管理方法進(jìn)行了研究,提出了一種基于風(fēng)險(xiǎn)的傳感器管理方法,主要結(jié)論如下:
1)相比于傳統(tǒng)算法,本文所提出的基于分支定界的UCS算法能夠快速搜索出質(zhì)量高的解,且大大減低了搜索時(shí)間和內(nèi)存消耗,保證了傳感器管理的實(shí)時(shí)性要求。
2)通過(guò)與實(shí)際風(fēng)險(xiǎn)值的比較,驗(yàn)證了本文所提出的基于信息狀態(tài)的風(fēng)險(xiǎn)預(yù)測(cè)方法能夠準(zhǔn)確預(yù)測(cè)風(fēng)險(xiǎn)值,也說(shuō)明了本文以風(fēng)險(xiǎn)預(yù)測(cè)值為決策依據(jù)的思想是合理的。
3)與常用傳感器管理方法相比,本文方法能有效權(quán)衡并降低威脅評(píng)估風(fēng)險(xiǎn)和輻射風(fēng)險(xiǎn),從而提升威脅評(píng)估結(jié)果的準(zhǔn)確性和傳感器系統(tǒng)的戰(zhàn)場(chǎng)生存能力。