• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于多臂賭博機(jī)的頻率捷變雷達(dá)在線決策方法

      2024-01-02 12:19:26朱鴻宇何麗麗
      雷達(dá)學(xué)報(bào) 2023年6期
      關(guān)鍵詞:干擾機(jī)雷達(dá)頻率

      朱鴻宇 何麗麗 劉 崢* 謝 榮* 冉 磊

      ①(西安電子科技大學(xué)雷達(dá)信號(hào)處理全國(guó)重點(diǎn)實(shí)驗(yàn)室 西安 710071)

      ②(江南機(jī)電設(shè)計(jì)研究所 貴陽 550009)

      1 引言

      隨著電子攻防對(duì)抗技術(shù)的迅速發(fā)展,雷達(dá)面臨著日益復(fù)雜的電磁干擾環(huán)境。噪聲壓制式干擾是最常用的有源電子干擾類型之一,對(duì)雷達(dá)目標(biāo)探測(cè)造成了極大的威脅[1]。頻率捷變技術(shù)發(fā)揮了雷達(dá)在電子對(duì)抗中波形主動(dòng)對(duì)抗優(yōu)勢(shì),具有優(yōu)異的電子反對(duì)抗(Electronic Counter-Counter Measures,ECCM)性能[2],是對(duì)抗噪聲壓制式干擾的有效手段。然而,傳統(tǒng)的頻率捷變雷達(dá)多采用固定或隨機(jī)的載頻跳變序列[3],不能根據(jù)目標(biāo)與電磁環(huán)境對(duì)載頻序列進(jìn)行優(yōu)化,從而限制了頻率捷變雷達(dá)在噪聲壓制干擾環(huán)境下的抗干擾能力[4]。

      為了應(yīng)對(duì)不同的干擾策略,如何設(shè)計(jì)智能的頻率捷變策略以提高雷達(dá)的檢測(cè)和抗干擾性能已經(jīng)成為國(guó)內(nèi)外學(xué)者越來越關(guān)注的問題[5]。傳統(tǒng)的雷達(dá)頻率捷變?cè)O(shè)計(jì)問題被描述為一個(gè)確定性的優(yōu)化問題[6],該類方法需要估計(jì)干擾和目標(biāo)特性,以確定雷達(dá)的最優(yōu)發(fā)射參數(shù)[7,8]。然而,在電子戰(zhàn)場(chǎng)景下的噪聲干擾通常是動(dòng)態(tài)變化的,實(shí)時(shí)估計(jì)電磁環(huán)境參數(shù)對(duì)于資源有限的雷達(dá)通常是不切實(shí)際的。為了提高雷達(dá)對(duì)環(huán)境的適應(yīng)能力,強(qiáng)化學(xué)習(xí)[9]被引入雷達(dá)抗干擾技術(shù)中。Selvi等人[10]將認(rèn)知雷達(dá)與通信共存問題建模為一個(gè)馬爾可夫決策問題,并采用策略迭代法[11]解決該優(yōu)化問題。Thornton等人[12]將深度強(qiáng)化學(xué)習(xí)引入雷達(dá)抗干擾中,實(shí)驗(yàn)結(jié)果表明,在雷達(dá)與通信共存場(chǎng)景中,DQN (Deep Q-Network)算法[13]表現(xiàn)出更好的抗干擾性能。Ailiya等人[14]提出了一種基于強(qiáng)化學(xué)習(xí)的載頻和脈寬選取方案,以增強(qiáng)抗干擾性能。Li等人[15]設(shè)計(jì)了一種基于近端策略優(yōu)化(Proximal Policy Optimization,PPO)算法[16]的子脈沖捷變方法,該方法通過發(fā)射誘導(dǎo)子脈沖欺騙干擾機(jī)并保護(hù)真實(shí)的探測(cè)信號(hào),從而提高雷達(dá)抗干擾性能。盡管基于強(qiáng)化學(xué)習(xí)的頻率捷變方法獲得了較好的抗干擾性能,但仍存在以下缺點(diǎn):(1)基于強(qiáng)化學(xué)習(xí)的頻率捷變方法需要進(jìn)行離線訓(xùn)練。強(qiáng)化學(xué)習(xí)的樣本效率是低下的[17],需要經(jīng)過大量交互樣本才能學(xué)習(xí)到較好的抗干擾策略,因此,將強(qiáng)化學(xué)習(xí)應(yīng)用于雷達(dá)抗干擾中通常需要大量的離線探索來學(xué)習(xí)有效的頻率捷變策略,而這在雷達(dá)抗干擾場(chǎng)景往往是不切實(shí)際的。(2)基于強(qiáng)化學(xué)習(xí)的頻率捷變方法缺乏理論保證?;趶?qiáng)化學(xué)習(xí)的頻率捷變方法將雷達(dá)與干擾環(huán)境的交互過程建模為馬爾可夫決策過程,但干擾環(huán)境通常是一個(gè)時(shí)變的隨機(jī)過程,其馬爾可夫性質(zhì)無法保證保持不變。此外,馬爾可夫決策過程隱含著決策者的行為會(huì)影響環(huán)境的未來狀態(tài)[18]。然而,在一些隨機(jī)干擾場(chǎng)景中,干擾環(huán)境的狀態(tài)可能與雷達(dá)的發(fā)射頻率獨(dú)立,此時(shí),馬爾可夫決策過程的假設(shè)將不再成立。

      為避免強(qiáng)化學(xué)習(xí)在雷達(dá)抗干擾決策應(yīng)用中出現(xiàn)的問題,多臂賭博機(jī)[19](Multi-Armed Bandit,MAB)決策模型被引入雷達(dá)系統(tǒng)中。MAB算法是在線學(xué)習(xí)算法的一個(gè)重要分支[20],由于其簡(jiǎn)單性和理論上的性能保證,已經(jīng)在無線信道選擇[21,22]、動(dòng)態(tài)頻譜接入[23,24]等領(lǐng)域展現(xiàn)出巨大的應(yīng)用前景。目前,MAB在雷達(dá)中的應(yīng)用還處于起步階段,文獻(xiàn)[25]基于組合式MAB算法設(shè)計(jì)了信道信噪比未知的MIMO雷達(dá)收發(fā)單元子集選擇問題,該方法可以有效地用于求解MIMO雷達(dá)收發(fā)單元子集選擇問題。文獻(xiàn)[26]基于置信區(qū)間上界(Upper Confidence Bound,UCB)[27]算法設(shè)計(jì)了一種相控陣?yán)走_(dá)目標(biāo)搜索策略,該方法可以提高發(fā)現(xiàn)目標(biāo)的概率。文獻(xiàn)[28]基于湯普森采樣(Thompson Sampling,TS)[29]和EXP3 (Exponential weights for Exploration and Exploitation)[30]算法設(shè)計(jì)了雷達(dá)波形選擇方法,有效提升了雷達(dá)的檢測(cè)和跟蹤性能。文獻(xiàn)[31]基于折扣湯普森采樣算法設(shè)計(jì)了一種非平穩(wěn)環(huán)境下頻率捷變雷達(dá)發(fā)射策略,提高了雷達(dá)在非平穩(wěn)環(huán)境中的檢測(cè)性能。上述研究表明了MAB算法在雷達(dá)在線決策問題上具有巨大的潛力。

      然而,現(xiàn)有的MAB算法存在一定的局限性:一方面,TS類和UCB類算法對(duì)干擾策略極為敏感,在面對(duì)動(dòng)態(tài)干擾場(chǎng)景時(shí),學(xué)習(xí)性能不理想;另一方面,EXP3類算法在面對(duì)靜態(tài)干擾場(chǎng)景時(shí),由于收斂速度較慢,而選擇大量的次優(yōu)頻率通道,導(dǎo)致學(xué)習(xí)性能降低。在實(shí)際應(yīng)用中,由于無法提前獲取敵方的干擾策略,此時(shí)使用其中一類算法可能會(huì)造成較大的性能損失。

      因此,如何在沒有干擾環(huán)境先驗(yàn)信息的條件下,設(shè)計(jì)一種適用于任意干擾策略的頻率捷變雷達(dá)在線決策方法是一個(gè)重要且具有挑戰(zhàn)性的問題。為了解決這個(gè)問題,本文根據(jù)干擾策略的特征,將雷達(dá)所面臨的干擾場(chǎng)景分為3類,針對(duì)3類干擾場(chǎng)景下的干擾策略特征,提出一種基于MAB的頻率捷變雷達(dá)在線決策方法。該方法在沒有探測(cè)環(huán)境先驗(yàn)知識(shí)和離線訓(xùn)練的情況下仍能實(shí)現(xiàn)優(yōu)異的學(xué)習(xí)性能,且在3類干擾場(chǎng)景中均具有理論上的遺憾性能保證,在提升頻率捷變雷達(dá)探測(cè)和抗干擾性能方面具有重要的應(yīng)用前景。

      2 問題描述

      2.1 雷達(dá)檢測(cè)模型

      在噪聲壓制式干擾存在的情況下,雷達(dá)接收到的信號(hào)由目標(biāo)信號(hào)、壓制式干擾信號(hào)和噪聲信號(hào)3部分構(gòu)成[32]。根據(jù)雷達(dá)方程[33],對(duì)于一個(gè)點(diǎn)目標(biāo)回波信號(hào)的功率ys為

      其中,Pt為雷達(dá)發(fā)射功率,G為發(fā)射天線增益,λ為雷達(dá)發(fā)射信號(hào)波長(zhǎng),σ為目標(biāo)的散射截面積(Radar Cross Section,RCS),Ls為雷達(dá)系統(tǒng)損耗,R為雷達(dá)與目標(biāo)之間的距離。

      雷達(dá)的接收機(jī)內(nèi)部噪聲yn為

      其中,k=1.38×10-23J/K為玻爾茲曼常數(shù),T0為標(biāo)準(zhǔn)室溫,一般取290 K,Bn為接收機(jī)帶寬,F(xiàn)n為接收機(jī)的噪聲系數(shù)。

      根據(jù)干擾方程[34],雷達(dá)接收到來自干擾機(jī)發(fā)射的干擾信號(hào)功率yJ為

      其中,PJ為干擾機(jī)的發(fā)射功率,λj為干擾信號(hào)波長(zhǎng),G(θ)為雷達(dá)在干擾機(jī)主瓣方向上的天線增益,GJ為干擾機(jī)天線增益,γJ為極化失配損失,LJ為干擾系統(tǒng)損耗,Rj為雷達(dá)與干擾機(jī)之間的距離,表示干擾機(jī)的發(fā)射帶寬,表示雷達(dá)接收機(jī)接收到的干擾信號(hào)帶寬。

      此時(shí),雷達(dá)對(duì)目標(biāo)的檢測(cè)概率Pd可近似為[33]

      2.2 頻率捷變雷達(dá)MAB問題描述

      將頻率捷變雷達(dá)的跳頻帶寬分為互不重疊的N個(gè)頻率通道。令F={f1,f2,...,fN}表示雷達(dá)可用載頻集,其中,fi=f0+(i-1)·B,i ∈{1,2,...,N},f0為雷達(dá)初始載頻,B為雷達(dá)發(fā)射信號(hào)帶寬,頻率捷變雷達(dá)在每個(gè)脈沖重復(fù)周期內(nèi)可從N個(gè)可用載頻內(nèi)中任選一個(gè)作為雷達(dá)的發(fā)射載頻。假設(shè)雷達(dá)的發(fā)射功率不變,則在第t個(gè)脈沖重復(fù)周期內(nèi),雷達(dá)的發(fā)射參數(shù)可用向量A(t)=[a1(t)a2(t) ...aN(t)]表示,其中,ai(t)∈{0,1}為二元變量,用于表示雷達(dá)是否選擇第i個(gè)頻率通道用于探測(cè)。圖1為雷達(dá)發(fā)射頻率通道選擇示意圖,其中N=10,A=[0 1 0 0 0 0 0 0 0 0],代表雷達(dá)選擇第2個(gè)頻率通道來發(fā)射。

      研究頻率捷變雷達(dá)在線決策的目標(biāo)是最大化雷達(dá)的探測(cè)性能,本文將檢測(cè)概率作為頻率捷變雷達(dá)MAB問題的獎(jiǎng)勵(lì)值。在其他參數(shù)一定時(shí),每個(gè)頻率通道的檢測(cè)概率由該頻率通道的目標(biāo)的RCS值和干擾能量共同決定,考慮到頻率捷變雷達(dá)通常不具有對(duì)整個(gè)跳頻帶寬信號(hào)頻譜的同時(shí)感知能力,且在對(duì)抗中雷達(dá)難以提前獲取目標(biāo)的RCS值,在每次探測(cè)中,獎(jiǎng)勵(lì)值應(yīng)只對(duì)發(fā)射頻率通道的檢測(cè)概率進(jìn)行計(jì)算,不應(yīng)對(duì)整個(gè)跳頻帶寬進(jìn)行頻譜感知。另一方面,在壓制式干擾存在的情況下,目標(biāo)信號(hào)可能被壓制干擾淹沒,導(dǎo)致雷達(dá)無法檢測(cè)到目標(biāo),從而無法利用式(4)計(jì)算檢測(cè)概率。因此本文設(shè)計(jì)了如下的獎(jiǎng)勵(lì)函數(shù):

      其中,gt(fi)代表第t個(gè)脈沖重復(fù)周期雷達(dá)選擇第i個(gè)頻率通道獲得的收益值;ct ∈{0,1}為二元變量,用于表示第t個(gè)脈沖重復(fù)周期的回波信號(hào)中是否檢測(cè)出目標(biāo)信號(hào);SINRt(fi)表示第t個(gè)脈沖重復(fù)周期雷達(dá)接收到回波信號(hào)的信干噪比。

      頻率捷變雷達(dá)MAB問題可描述如下:在第t個(gè)脈沖重復(fù)周期,雷達(dá)根據(jù)跳頻策略πt從可用載頻集F中選擇一個(gè)載頻fi作為雷達(dá)的發(fā)射載頻,接收回波信號(hào)并計(jì)算當(dāng)前頻率通道的收益值gt(fi),根據(jù)收益值選擇下一脈沖重復(fù)周期雷達(dá)的跳頻策略πt+1。頻率捷變雷達(dá)MAB問題一個(gè)基本挑戰(zhàn)是解決探索與開發(fā)之間的權(quán)衡[35],即在利用過去獲得最高收益的動(dòng)作與探索未來可能獲得更高收益的新動(dòng)作之間取得平衡。MAB算法的性能用遺憾值R(t)衡量[19],遺憾值R(t)定義為在t個(gè)脈沖重復(fù)周期內(nèi),MAB算法計(jì)算出的跳頻策略與使用最優(yōu)固定頻率通道之間的累計(jì)增益差值:

      其中,gs(fi)表示第i個(gè)頻率通道在第s個(gè)脈沖重復(fù)周期的收益值,gs(πs) 表示雷達(dá)在應(yīng)用策略πs時(shí)在第s個(gè)脈沖重復(fù)周期的收益值。由于收益值gt和策略πt通常是隨機(jī)的,遺憾值R(t)是一個(gè)隨機(jī)變量,本文采用期望遺憾值衡量本文的算法性能:

      由式(5)可知,收益值gt ∈[0,1]為有界函數(shù),令損失值lt=1-gt,可以將收益值gt轉(zhuǎn)換為損失值lt,期望遺憾值Rˉ(t)也可以寫為損失值的形式:

      2.3 噪聲壓制式干擾場(chǎng)景分類

      與頻率捷變雷達(dá)發(fā)射模型相似,干擾機(jī)的發(fā)射通道選擇可用向量J(t)=[j1(t)j2(t) ...jN(t)]表示,其中,ji(t)∈{0,1},i=1,2,...,N為二元變量,用于表示干擾機(jī)是否選擇干擾第i個(gè)頻率通道。同時(shí),假設(shè)干擾機(jī)在每個(gè)頻率通道內(nèi)的干擾功率用向量Pj(t)=[pj,1(t)pj,2(t) ...pj,N(t)]表 示,其中,pj,i(t)∈為干擾機(jī)最大發(fā)射功率。則在第t個(gè)脈沖重復(fù)周期內(nèi),干擾機(jī)的發(fā)射策略可表示為

      其中,?表示Hadamard積。

      一般而言,壓制式干擾通常根據(jù)干擾帶寬和干擾信號(hào)的中心頻率分為瞄準(zhǔn)式、阻塞式和掃頻式3種干擾策略。然而,一方面,該分類方法僅關(guān)注干擾機(jī)的干擾通道選擇策略J(t),未考慮干擾功率變化對(duì)雷達(dá)跳頻策略造成的影響;另一方面,該分類方法不能全面地描述干擾機(jī)的干擾策略,實(shí)際干擾機(jī)可以根據(jù)雷達(dá)的發(fā)射策略,對(duì)上述的基本形式進(jìn)行組合,如多點(diǎn)頻瞄準(zhǔn)式干擾、分段阻塞式干擾等。

      因此,本文從干擾策略的角度出發(fā),根據(jù)干擾機(jī)的發(fā)射策略I(t)是否隨時(shí)間改變以及干擾機(jī)是否根據(jù)雷達(dá)的發(fā)射策略實(shí)施針對(duì)性的干擾,對(duì)干擾場(chǎng)景進(jìn)行分類。

      本文將雷達(dá)所面臨的噪聲壓制式干擾場(chǎng)景分為以下3類:

      (1) 靜態(tài)干擾場(chǎng)景

      在靜態(tài)干擾場(chǎng)景中,干擾機(jī)的干擾策略I(t)不隨時(shí)間改變。由于干擾機(jī)在每個(gè)頻率通道內(nèi)的干擾功率不隨時(shí)間改變,因此,每個(gè)通道的損失值lt(fi)僅由干擾功率和目標(biāo)RCS決定且不隨時(shí)間改變,即lt(fi) 服從一個(gè)只依賴于通道fi,而不依賴于時(shí)間t的獨(dú)立隨機(jī)分布。此時(shí),干擾環(huán)境滿足隨機(jī)性MAB問題的假設(shè),常用的求解算法為UCB算法和TS算法,在隨機(jī)性MAB問題中具有 ln(t)階的遺憾值上界。

      在該類干擾場(chǎng)景下,使用μ(fi)=E[lt(fi)]表示第i個(gè)頻率通道的期望損失,若頻率通道f*滿足

      令Nt(fi)表示前t輪交互中,第i個(gè)頻率通道被雷達(dá)選擇的次數(shù),則靜態(tài)干擾場(chǎng)景下的期望遺憾值也可寫為

      值得注意的是,無干擾的探測(cè)環(huán)境也可視為靜態(tài)干擾場(chǎng)景的一種特例,此時(shí),各頻率通道內(nèi)的期望損失值僅受目標(biāo)RCS影響。

      (2) 非自適應(yīng)干擾場(chǎng)景

      與靜態(tài)干擾場(chǎng)景不同,在非自適應(yīng)干擾場(chǎng)景下,干擾機(jī)的干擾策略I(t)隨時(shí)間變化,即被干擾頻率通道以及干擾功率都可能隨著時(shí)間變化。在非自適應(yīng)干擾場(chǎng)景下,可假設(shè)干擾機(jī)是一個(gè)非自適應(yīng)的干擾機(jī),即干擾機(jī)的干擾策略不會(huì)對(duì)雷達(dá)發(fā)射策略做出反應(yīng),是一種簡(jiǎn)單的攻擊模型。

      由于每個(gè)頻率通道的損失值lt(fi)受干擾機(jī)的干擾策略影響,每個(gè)通道的損失值lt(fi)不只依賴于通道fi,還與時(shí)間t有關(guān)。此時(shí),干擾環(huán)境滿足對(duì)抗性MAB問題的假設(shè),常用的求解算法為EXP3算法,在對(duì)抗性MAB問題中具有階的遺憾值上界。

      (3) 自適應(yīng)干擾場(chǎng)景

      與非自適應(yīng)干擾場(chǎng)景不同的是,我們假設(shè)干擾機(jī)是一個(gè)自適應(yīng)干擾機(jī),即干擾機(jī)可以觀測(cè)到雷達(dá)的發(fā)射策略,并針對(duì)性地設(shè)計(jì)干擾策略,此時(shí),每個(gè)通道的損失值lt(fi) 與雷達(dá)的前t-1個(gè)發(fā)射頻率通道選擇有關(guān)。與非自適應(yīng)干擾場(chǎng)景相比,自適應(yīng)干擾場(chǎng)景對(duì)頻率捷變雷達(dá)具有更大的威脅。

      文獻(xiàn)[36]表明,對(duì)于具有無限記憶內(nèi)存的自適應(yīng)干擾機(jī),它可以模仿并執(zhí)行與雷達(dá)相同的學(xué)習(xí)算法,并設(shè)置與雷達(dá)頻率通道選擇概率相同的策略對(duì)雷達(dá)進(jìn)行干擾,這將導(dǎo)致遺憾值隨時(shí)間t線性增長(zhǎng)。因此,本文考慮一個(gè)介于非自適應(yīng)干擾機(jī)和無限記憶內(nèi)存的自適應(yīng)干擾機(jī)之間干擾模型:m-內(nèi)存的自適應(yīng)干擾機(jī)模型[36],該模型下干擾機(jī)僅會(huì)記錄m個(gè)雷達(dá)最新的發(fā)射頻點(diǎn),并依賴于這些觀測(cè)值對(duì)雷達(dá)進(jìn)行干擾。

      圖2給出了噪聲壓制干擾場(chǎng)景的示意圖,其中,紅色為雷達(dá)的發(fā)射頻率通道,藍(lán)色為干擾機(jī)的干擾頻率通道,紫色代表雷達(dá)發(fā)射頻率通道與干擾機(jī)干擾通道重合。其中,無干擾環(huán)境可以看作靜態(tài)干擾場(chǎng)景的一種特例。

      3 基于MAB的頻率捷變雷達(dá)在線決策算法

      3.1 算法描述

      如2.3節(jié)所述,根據(jù)干擾策略的特征,雷達(dá)所面臨的噪聲壓制式干擾場(chǎng)景可分為3類。在靜態(tài)干擾場(chǎng)景中每個(gè)頻率通道的損失值服從一個(gè)不隨時(shí)間改變的隨機(jī)過程,這滿足隨機(jī)性MAB問題的假設(shè);而在非自適應(yīng)干擾場(chǎng)景和自適應(yīng)干擾場(chǎng)景中,由于干擾策略不斷變化,每個(gè)頻率通道狀態(tài)被敵方干擾機(jī)任意控制,這滿足對(duì)抗性MAB問題的假設(shè)。隨機(jī)性MAB問題和對(duì)抗性MAB問題是MAB問題的兩種主要形式[37],由于兩種問題的損失值確定形式不同,因此分析方法和性能結(jié)果存在明顯差異。經(jīng)典的EXP3算法、UCB算法和TS算法均只能在其中一種MAB問題上保證最優(yōu)的遺憾性能。而在實(shí)際場(chǎng)景中,無法提前判斷雷達(dá)所面臨的干擾環(huán)境屬于哪一種干擾場(chǎng)景,此時(shí)采用其中一種問題假設(shè)可能導(dǎo)致學(xué)習(xí)性能不佳。

      本節(jié)中,我們將基于EXP3++算法[38],設(shè)計(jì)一種頻率捷變雷達(dá)在線決策方法,該方法引入?yún)?shù)εt對(duì)每個(gè)頻率通道的選擇概率進(jìn)行單獨(dú)的調(diào)整,提高了靜態(tài)干擾場(chǎng)景下選擇最優(yōu)頻率通道的概率;同時(shí),該方法的頻率通道選擇策略為指數(shù)分布和參數(shù)εt組合構(gòu)成的分布,使得具有在非自適應(yīng)干擾場(chǎng)景和自適應(yīng)干擾場(chǎng)景下均具有良好的學(xué)習(xí)性能。本文將該算法命名為RAFA-EXP3++(Radar Adaptive Frequency Agility based on EXP3++)算法,具體的流程如算法1所示。

      3.2 遺憾性能分析

      在本節(jié),將分析該算法在上述3類干擾場(chǎng)景中的遺憾性能。

      (1) 靜態(tài)干擾場(chǎng)景下遺憾性能分析

      算法1 RAFA-EXP3++算法Alg.1 RAFA-EXP3++algorithm

      由于本文所提方法中ηt=2βt,因此,在靜態(tài)干擾場(chǎng)景中,本文所提方法的遺憾值滿足式(15),為 (lnt)3階的遺憾值上界。

      值得注意的是,當(dāng)Δ(fj)較小時(shí),會(huì)導(dǎo)致次優(yōu)頻率通道的選擇次數(shù)增加,由式(10)可知,在靜態(tài)干擾場(chǎng)景下會(huì)造成較大的遺憾值。

      (2) 非自適應(yīng)干擾場(chǎng)景下遺憾性能分析

      在非自適應(yīng)干擾場(chǎng)景中,由于干擾機(jī)的干擾策略隨時(shí)間改變,每個(gè)通道的損失值受干擾機(jī)的干擾策略影響,滿足對(duì)抗MAB問題的假設(shè)。參考文獻(xiàn)[38]中定理1的證明過程,可以獲得如下的遺憾值上界:

      由式(18)可以看出,在非自適應(yīng)干擾場(chǎng)景下,本文所提方法具有階的遺憾值上界,與EXP3算法相同,因此,本文所提方法在非自適應(yīng)干擾場(chǎng)景下可獲得與EXP3算法相近的學(xué)習(xí)性能。

      (3) 自適應(yīng)干擾場(chǎng)景下遺憾性能分析

      如前文所述,對(duì)于一個(gè)無限內(nèi)存的自適應(yīng)干擾機(jī),任何MAB算法都無法令遺憾值隨時(shí)間t次線性增長(zhǎng)。在自適應(yīng)干擾場(chǎng)景中,考慮一個(gè)m-內(nèi)存的自適應(yīng)干擾機(jī),根據(jù)文獻(xiàn)[36]中的定理2可知,通過將整個(gè)時(shí)間t分為大小為τ的連續(xù)且不相交的批次進(jìn)行處理,并利用該小批次受到的平均損失來反饋給RAFA-EXP3++,則當(dāng)時(shí),本文所提方法的遺憾值上界為

      對(duì)比式(19)和式(18)可以看出,自適應(yīng)干擾場(chǎng)景的算法遺憾值更高,說明自適應(yīng)干擾場(chǎng)景將對(duì)雷達(dá)造成更大的威脅。

      4 仿真結(jié)果及分析

      4.1 參數(shù)設(shè)置

      在本節(jié)將利用仿真實(shí)驗(yàn)驗(yàn)證2.3節(jié)的3類壓制干擾場(chǎng)景下所提頻率捷變雷達(dá)在線決策方法的性能。所有實(shí)驗(yàn)均重復(fù)進(jìn)行10次,每次仿真的脈沖數(shù)為105個(gè)。所有實(shí)驗(yàn)結(jié)果均與隨機(jī)捷變策略(Random)、ε-Greedy算法[9]、UCB1算法[27],EXP3算法[30]以及文獻(xiàn)[31]中的CDTS算法進(jìn)行比較。其中,隨機(jī)捷變策略指雷達(dá)均勻隨機(jī)地選擇發(fā)射頻率通道,該策略是頻率捷變雷達(dá)的常用策略。ε-Greedy算法中探索率設(shè)置為0.1。UCB1算法是隨機(jī)性MAB問題中的常用算法,仿真實(shí)驗(yàn)的雷達(dá)參數(shù)見表1。

      表1 仿真實(shí)驗(yàn)雷達(dá)參數(shù)Tab.1 Radar parameters of simulation experiment

      目標(biāo)的RCS對(duì)電磁波頻率的變化極為敏感。不失一般性,假設(shè)目標(biāo)的RCS是起伏的,起伏模型為Swerling II型,在各頻率通道內(nèi)的RCS均值如表2所示。其中,U(a,b)表示服從在a到b之間均勻分布。

      表2 仿真實(shí)驗(yàn)中目標(biāo)RCS均值(m2)Tab.2 The mean RCS of target in the simulation experiment (m2)

      表3給出干擾機(jī)的部分仿真參數(shù),其他參數(shù)在仿真實(shí)驗(yàn)部分給出。

      表3 仿真實(shí)驗(yàn)干擾機(jī)部分參數(shù)Tab.3 Jammer parameters of simulation experiment

      4.2 靜態(tài)干擾場(chǎng)景仿真結(jié)果及分析

      為了驗(yàn)證本文提出的算法在靜態(tài)干擾場(chǎng)景下的性能,在本節(jié)設(shè)計(jì)了無干擾以及固定干擾策略兩種干擾場(chǎng)景。

      首先驗(yàn)證無干擾場(chǎng)景下本文所提方法的性能。從圖3可以看出約有95%的發(fā)射信號(hào)選擇了SNR最高的頻率通道,有效避免了由于選擇次優(yōu)頻率通道而降低雷達(dá)探測(cè)性能的問題。圖4為各算法的性能對(duì)比圖,其中,實(shí)線代表10次重復(fù)實(shí)驗(yàn)的平均值,陰影部分為平均值±標(biāo)準(zhǔn)差后的邊界范圍。從圖中可以看出,隨機(jī)捷變策略的性能最差,這是由于隨機(jī)策略為均勻隨機(jī)選擇各頻率通道,而不是選擇收益最大的頻率通道,因此在無干擾場(chǎng)景中檢測(cè)性能較差。本文所提方法在無干擾場(chǎng)景下具有較低的遺憾值,與UCB1算法和CDTS算法的性能相近,與EXP3算法相比遺憾值降低90%。可以看出,在無干擾場(chǎng)景下本文所提方法優(yōu)于EXP3算法和隨機(jī)捷變策略。

      圖3 無干擾環(huán)境下頻率通道選擇次數(shù)與SNRFig.3 Frequency channel selection times and SNR in the no jamming environment

      圖4 無干擾環(huán)境下所提算法的性能對(duì)比圖Fig.4 Comparison plots of the performance of the proposed algorithm in no jamming environment

      下面驗(yàn)證固定干擾策略的干擾場(chǎng)景下本文所提方法的性能。假設(shè)干擾機(jī)的干擾策略為干擾SNR最高的5個(gè)頻率通道,且不隨時(shí)間改變。從圖5可以看出,約有15%的發(fā)射信號(hào)選擇了SINR最高的頻率通道4,同時(shí),由于頻率通道4與頻率通道15的SINR相近,因此約13%的發(fā)射信號(hào)選擇了頻率通道1。對(duì)于受到干擾的頻率通道,選擇概率均在0.1%以下,可以有效避開干擾。從圖6可以看出,本文所提方法在固定干擾策略的干擾場(chǎng)景下仍具有較低的遺憾值,與UCB1算法和CDTS算法性能相近,與EXP3算法相比遺憾值降低約50%??梢钥闯?,在無干擾場(chǎng)景下本文所提方法優(yōu)于EXP3算法和隨機(jī)捷變策略。

      圖5 固定干擾策略環(huán)境下頻率通道選擇次數(shù)與SINRFig.5 Frequency channel selection times and SINR in the fixed jamming strategy environment

      圖6 固定干擾策略場(chǎng)景下所提算法的性能對(duì)比圖Fig.6 Comparison plots of the performance of the proposed algorithm in fixed jamming strategy environment

      從本節(jié)仿真實(shí)驗(yàn)結(jié)果可以看出,本文所提方法與隨機(jī)性MAB問題中常用的UCB1算法性能相近,優(yōu)于隨機(jī)捷變策略以及EXP3算法,與理論分析相同。我們注意到,與無干擾環(huán)境相比,固定干擾策略環(huán)境下本算法的累計(jì)遺憾值有所提高,這是因?yàn)楫?dāng)頻率通道損失期望差Δ變小時(shí),選擇次優(yōu)頻率通道的次數(shù)會(huì)增加,導(dǎo)致遺憾值變大,與理論分析相符合。由于最優(yōu)頻率通道與次優(yōu)頻率通道的期望獎(jiǎng)勵(lì)值相近,因此,增加選擇次優(yōu)頻率通道的次數(shù)不會(huì)大幅降低雷達(dá)的探測(cè)性能。

      4.3 非自適應(yīng)干擾場(chǎng)景仿真結(jié)果及分析

      在本節(jié)將驗(yàn)證本文所提方法在非自適應(yīng)干擾場(chǎng)景中的性能,干擾場(chǎng)景設(shè)置如下。假設(shè)非自適應(yīng)干擾場(chǎng)景中存在一掃頻式干擾機(jī)和阻塞式干擾機(jī)。當(dāng)雷達(dá)探測(cè)過程開始時(shí),阻塞式干擾機(jī)開始對(duì)雷達(dá)工作全頻段進(jìn)行阻塞式干擾,此時(shí)干擾環(huán)境的SINR如圖7所示。0.1 s之后掃頻式干擾機(jī)開啟,并以固定的干擾功率掃描雷達(dá)的工作頻段,掃頻式干擾機(jī)的干擾策略參數(shù)如表4所示,其他參數(shù)見表3??梢钥闯觯瑹o論掃頻式干擾機(jī)還是阻塞式干擾機(jī),其干擾策略都與雷達(dá)的頻率通道選擇策略無關(guān)。

      表4 掃頻式干擾參數(shù)設(shè)置Tab.4 Parameter setting of sweeping frequency jamming

      圖7 阻塞式壓制干擾下的SINRFig.7 SINR under blocking suppression jamming

      表5統(tǒng)計(jì)了在該場(chǎng)景下的雷達(dá)檢測(cè)到目標(biāo)的次數(shù)。圖8展示了非自適應(yīng)干擾場(chǎng)景下所提算法的性能對(duì)比,可以看出,UCB1算法和CDTS算法僅與隨機(jī)捷變策略的性能相當(dāng),這說明了隨機(jī)性MAB問題假設(shè)下提出的算法并不能很好地應(yīng)用于對(duì)抗性MAB問題中。同時(shí),我們注意到UCB1算法和CDTS算法的方差較大,在非自適應(yīng)干擾場(chǎng)景中存在著不穩(wěn)定的缺點(diǎn)。而本文所提方法具有與EXP3算法相近的遺憾和收益性能,且算法的方差較小。如表5所示,本文方法與EXP3算法檢測(cè)到目標(biāo)的概率達(dá)到73%,ε-Greedy算法達(dá)到67%,而CDTS算法和UCB1算法僅與隨機(jī)捷變策略的性能相當(dāng),僅在55%左右??梢钥闯觯疚姆椒梢栽诜亲赃m應(yīng)干擾場(chǎng)景中有效提升雷達(dá)的探測(cè)性能。

      表5 非自適應(yīng)干擾場(chǎng)景中檢測(cè)到目標(biāo)的次數(shù)Tab.5 The number of detected targets in non-adaptive jamming scene

      圖8 非自適應(yīng)干擾場(chǎng)景中所提算法的性能對(duì)比圖Fig.8 Comparison plots of the performance of the proposed algorithm in non-adaptive jamming scene

      4.4 自適應(yīng)干擾場(chǎng)景仿真結(jié)果及分析

      本節(jié)將驗(yàn)證本文所提方法在自適應(yīng)干擾場(chǎng)景中的性能,干擾場(chǎng)景設(shè)置如下。假設(shè)初始時(shí)自適應(yīng)干擾場(chǎng)景中存在一自適應(yīng)干擾機(jī)和阻塞式干擾機(jī)。其中,阻塞式干擾機(jī)的參數(shù)與4.3節(jié)相同,0.1 s后自適應(yīng)干擾機(jī)開啟工作。如前文所述,本文考慮以1-記憶的自適應(yīng)干擾機(jī),即干擾信號(hào)的中心頻率為雷達(dá)的前一個(gè)發(fā)射頻率,假設(shè)干擾機(jī)的干擾帶寬為200 MHz,其他參數(shù)見表3,可以看出,干擾機(jī)的干擾策略與雷達(dá)的發(fā)射策略有關(guān)。

      如圖9所示,本文所提方法仍可以獲得與EXP3算法相近的遺憾和收益性能,優(yōu)于UCB1算法和CDTS算法。對(duì)比圖8(a)與圖9(a)可以看出,UCB1算法的收益性能下降最大,這是因?yàn)橛蒛CB1算法計(jì)算出的發(fā)射策略為確定性策略,即在每次頻率通道選擇時(shí),UCB1算法會(huì)計(jì)算出唯一的發(fā)射頻率通道。而CDTS算法、EXP3算法以及本文所提方法計(jì)算出的發(fā)射策略為隨機(jī)策略,在每次頻率通道選擇時(shí),算法并不會(huì)指定唯一的頻率通道,而是給出每個(gè)頻率通道的選擇概率,然后依概率選擇當(dāng)前的發(fā)射頻率通道,這樣可以提高自適應(yīng)干擾機(jī)對(duì)雷達(dá)發(fā)射頻率通道的預(yù)測(cè)難度,從而提高雷達(dá)對(duì)抗性能。我們注意到,相較于非自適應(yīng)干擾場(chǎng)景,雖然干擾機(jī)的干擾功率和干擾帶寬都相同,但由于干擾機(jī)的干擾策略與雷達(dá)發(fā)射策略相關(guān),算法的性能會(huì)大幅下降,這與理論分析一致。

      圖9 自適應(yīng)干擾場(chǎng)景下所提算法的性能對(duì)比圖Fig.9 Comparison plots of the performance of the proposed algorithm in adaptive jamming scene

      表6統(tǒng)計(jì)了在該場(chǎng)景下的雷達(dá)探測(cè)到目標(biāo)的次數(shù),本文所提方法和EXP3算法檢測(cè)到目標(biāo)的概率約為55%,隨機(jī)捷變策略約為54%,CDTS算法約為33%,UCB1算法和ε-Greedy算法均在30%以下。由式(11)可知,本文所提方法中各頻率通道的選擇概率與該頻率通道的權(quán)重值呈正相關(guān),由式(13)可知各頻率通道的權(quán)重值為各頻率通道累計(jì)損失估計(jì)值的負(fù)指數(shù),對(duì)于累計(jì)損失值越小的頻率通道,權(quán)重值越高,具有更大的被選擇概率。因此,雖然本文所提方法與隨機(jī)捷變策略所檢測(cè)到目標(biāo)的次數(shù)相近,但本文所提方法會(huì)以更大概率選擇到高SINR的頻率通道,可以提升雷達(dá)目標(biāo)識(shí)別、跟蹤等功能的性能,故本文所提方法可以提升雷達(dá)在自適應(yīng)干擾場(chǎng)景下的性能。

      表6 自適應(yīng)干擾場(chǎng)景下檢測(cè)到目標(biāo)的次數(shù)Tab.6 The number of detected targets in adaptive jamming scene

      5 結(jié)語

      針對(duì)噪聲壓制干擾背景下的頻率捷變雷達(dá)探測(cè)問題,本文提出一種基于多臂賭博機(jī)的頻率捷變雷達(dá)在線決策方法。本文根據(jù)干擾機(jī)的策略特征,將壓制干擾場(chǎng)景分為靜態(tài)干擾場(chǎng)景、非自適應(yīng)干擾場(chǎng)景以及自適應(yīng)干擾場(chǎng)景,以雷達(dá)檢測(cè)概率為獎(jiǎng)勵(lì)函數(shù),設(shè)計(jì)了RAFA-EXP3++算法。理論分析和仿真結(jié)果表明,與隨機(jī)捷變策略和經(jīng)典方法相比,本文所提的方法具有更強(qiáng)的靈活性,可適應(yīng)全部3類干擾場(chǎng)景;且在靜態(tài)干擾場(chǎng)景中,本文所提方法可以獲得與UCB1相近的性能,在非自適應(yīng)干擾場(chǎng)景和自適應(yīng)干擾場(chǎng)景中,可以獲得與EXP3算法相近的性能。綜上,本文所提方法無需干擾環(huán)境的先驗(yàn)信息和離線訓(xùn)練過程,可以滿足雷達(dá)在噪聲壓制式干擾場(chǎng)景下的在線頻率捷變需求,在多種干擾場(chǎng)景下均能夠有效提升頻率捷變雷達(dá)的抗干擾和目標(biāo)檢測(cè)性能。

      利益沖突所有作者均聲明不存在利益沖突

      Conflict of Interests The authors declare that there is no conflict of interests

      猜你喜歡
      干擾機(jī)雷達(dá)頻率
      有雷達(dá)
      大自然探索(2023年7期)2023-08-15 00:48:21
      振動(dòng)與頻率
      雷聲公司交付首套中頻段下一代干擾機(jī)
      雷達(dá)
      基于壓縮感知的單脈沖雷達(dá)欺騙干擾機(jī)研究
      極限頻率
      空襲遠(yuǎn)距離支援干擾機(jī)陣位選擇及航線規(guī)劃
      美國(guó)海軍將研制新一代干擾機(jī)
      基于空時(shí)二維隨機(jī)輻射場(chǎng)的彈載雷達(dá)前視成像
      現(xiàn)代“千里眼”——雷達(dá)
      新巴尔虎左旗| 仙游县| 肇庆市| 施秉县| 玛多县| 同仁县| 龙州县| 广州市| 张家界市| 潮州市| 中山市| 蚌埠市| 台前县| 汾阳市| 南开区| 丹凤县| 湘潭县| 米易县| 朝阳县| 巴青县| 赤峰市| 天水市| 水富县| 谷城县| 宁都县| 桂林市| 务川| 沙湾县| 朔州市| 麻江县| 延长县| 抚松县| 越西县| 西和县| 黎川县| 汤阴县| 珲春市| 封丘县| 习水县| 商城县| 河津市|