趙 桐, 陸滿君, 張文旭,4, 曲海山, 張 濤
(1.哈爾濱工程大學信息與通信工程學院,黑龍江 哈爾濱 150001;2.哈爾濱工程大學工業(yè)和信息化部先進船舶通信與信息技術(shù)重點實驗室,黑龍江 哈爾濱 150001;3.上海無線電設(shè)備研究所,上海 201109;4.南京航空航天大學電磁頻譜空間認知動態(tài)系統(tǒng)工信部重點實驗室,江蘇 南京 211106)
捷變頻雷達(frequency agile radar,FAR)是一種相鄰脈沖的載頻在一定頻帶內(nèi)快速改變的脈沖雷達,具有探測距離大、測角精度高、抗窄帶瞄準式有源干擾能力強等優(yōu)點[1]。目前在軍事領(lǐng)域中,大多采用該體制雷達進行電子戰(zhàn)對抗,并逐漸向民用船載雷達領(lǐng)域發(fā)展。在干擾對抗過程中,如果干擾方不能有效跟蹤捷變頻雷達的頻點,則瞄準式窄帶干擾幾乎失去作用,而掃頻和寬帶阻塞干擾將功率浪費在較大帶寬上,導(dǎo)致干擾效果也大為降低,同時欺騙干擾因不能有效跟蹤也難以起效[2]。因此對捷變頻雷達頻點的自適應(yīng)跟蹤與決策成為亟待解決的問題。
跟蹤捷變頻雷達頻率跳變過程本質(zhì)上是一個序列決策問題,而強化學習為解決序列決策問題提供了一種強有力的工具。近年來,強化學習研究取得了長足的進步。2018年程引[3]針對具有各種性質(zhì)差異的時間序列決策任務(wù),研究了多種具有代表性的決策設(shè)計方法,并以具體應(yīng)用案例為背景,驗證了在決策對象不同的情況下,所提方法依然適用于獎勵獲取方式相近的場景,具有通用性。2019年楊鴻杰[4]針對通信系統(tǒng)參數(shù)不變、敵方會根據(jù)受干擾情況切換信道以及改變通信參數(shù)等三種應(yīng)用場景,提出了合適的智能干擾決策算法。劉凌云[5]隨后結(jié)合強化學習與增量學習的思想,提出了基于Q學習算法的增量分類模型,并驗證了該模型具有分類精度高、實時性強等特點?;趶娀瘜W習的干擾策略研究至此進入了百家爭鳴的階段。強化學習是通過智能體與所在環(huán)境不斷地進行動態(tài)交互,類似于生物感知環(huán)境,在一遍遍試錯中獲得更多的感知信息,自主學習到最優(yōu)干擾策略的過程?;诖?本文采用一種基于強化學習的經(jīng)典算法——Q學習算法,實現(xiàn)對捷變頻雷達頻點的自適應(yīng)跟蹤與決策。
捷變頻雷達的特點是發(fā)射脈沖的載頻在一個很大的范圍內(nèi)以很高的速率隨機跳變。相參體制的捷變頻雷達大都采用電調(diào)諧方法實現(xiàn)跳頻,跳頻規(guī)律可以做到偽隨機[6],發(fā)射頻率的概率分布在捷變頻帶寬內(nèi)是均勻的。非相參體制的捷變頻雷達多采用旋轉(zhuǎn)調(diào)諧磁控管振蕩器,以正弦規(guī)律進行旋轉(zhuǎn)調(diào)諧,實現(xiàn)頻率捷變。本文所提的頻點跟蹤與決策算法主要針對相參體制的捷變頻雷達。
捷變頻雷達為躲避干擾信道不斷改變工作頻率,而干擾方就需要不斷偵察頻率信息,進行頻率跟蹤。捷變頻雷達頻率跳變的過程如圖1所示。跳頻序列為(f3,f1,f4,f2,f6),信號頻率隨時間在不同的信道間跳變,跳變規(guī)律由偽碼序列決定[7]。
圖1 捷變頻雷達頻率跳變示意圖
強化學習是根據(jù)自然界中動物學習的理論演變而來的。它的基本思想可以理解為:將一個“思想”空白的智能體放入它未知的環(huán)境中,根據(jù)當前所處的狀態(tài)(state)自主選擇動作(action),在動作結(jié)束后會獲得獎賞(reward),從而引導(dǎo)智能體學會適應(yīng)它所處的未知環(huán)境[8]。強化學習系統(tǒng)原理如圖2所示。
圖2 強化學習系統(tǒng)原理圖
圖2中,狀態(tài)st表示t時刻智能體的狀態(tài),st∈S,S為狀態(tài)集,相應(yīng)的,st+1表示下一時刻智能體的狀態(tài);動作at表示t時刻智能體選擇的動作,at∈A(st),其中A(st)表示在狀態(tài)st下可選擇的動作集。當智能體所處環(huán)境狀態(tài)為st時,根據(jù)反饋獎賞rt∈R,其中R表示獎賞值集,選擇動作at并執(zhí)行此動作,此時就會得到環(huán)境反饋給它的獎賞rt+1∈R,該獎賞用以引導(dǎo)下一動作的選擇,同時轉(zhuǎn)移到新的狀態(tài)st+1中。
具體的交互過程可以表述為:a)智能體感知周圍環(huán)境獲得當前環(huán)境狀態(tài)st;b)智能體根據(jù)環(huán)境狀態(tài)st及環(huán)境反饋的獎賞rt選擇下一步執(zhí)行的動作at;c)動作at對環(huán)境產(chǎn)生影響,更新環(huán)境,并使環(huán)境狀態(tài)變化為st+1;d)得到下一步動作時獲得的獎賞rt+1;e)智能體根據(jù)反饋得到的獎賞值,計算回報值,并將回報值作為內(nèi)部更新策略的依據(jù)。
當強化學習的系統(tǒng)模型已知時,即馬爾可夫決策過程(Markov decision process,MDP)中的狀態(tài)集S、動作集A、轉(zhuǎn)移概率集P以及獎賞值集R等四個參量均已知,那么選擇任意狀態(tài)st與st+1,并執(zhí)行動作at時,由當前的狀態(tài)st通過執(zhí)行動作at轉(zhuǎn)移到下一個狀態(tài)st+1的概率Patst→st+1是已知的,在轉(zhuǎn)移中獲得的獎賞Ratst→st+1也是已知的,則表示此時的智能體已對當前環(huán)境進行了建模??梢岳么四P蛯ψ顑?yōu)策略進行求解,求解過程中只考慮相鄰兩個時刻的狀態(tài)。為便于公式的表達,在后續(xù)內(nèi)容中將t時刻的參量st,at表示為s,a,將t+1時刻的參量st+1,at+1簡化為s′,a′。
狀態(tài)值函數(shù)Vπ(s)表示從狀態(tài)s出發(fā),使用策略π帶來的累積獎賞;狀態(tài)-動作值函數(shù)Qπ(s,a)表示從狀態(tài)s出發(fā),執(zhí)行動作a后再使用策略π帶來的累積獎賞。根據(jù)以上定義,采用策略迭代算法,可以得到T步累積獎賞狀態(tài)值函數(shù)VπT(s)和γ折扣累積獎賞的狀態(tài)值函數(shù)Vπγ(s)的計算公式為
式中:Eπ(·)為策略π下的數(shù)學期望函數(shù);T為累積獎賞步數(shù);s0表示初始狀態(tài);γ為累積獎賞折扣率。
T步累積獎賞的狀態(tài)-動作值函數(shù)和γ折扣累積獎賞的狀態(tài)-動作值函數(shù)的計算公式為
式中:a0表示初始執(zhí)行動作。
由于MDP具有馬爾科夫性質(zhì),即系統(tǒng)下一時刻的狀態(tài)僅由當前時刻的狀態(tài)決定,不依賴于以往任何狀態(tài),因此狀態(tài)值函數(shù)可以以遞歸形式表示。則T步累積獎賞狀態(tài)值函數(shù)的遞歸公式為
式中:π(s,a)表示在狀態(tài)s下執(zhí)行動作a的概率,即由狀態(tài)s執(zhí)行第一步所選擇的動作是a的概率;為從狀態(tài)s′出發(fā)使用策略π執(zhí)行剩下的T-1步后得到的T-1步累計獎賞。
狀態(tài)-動作值函數(shù)的遞歸形式為
可以看出狀態(tài)值函數(shù)Vπ(s)和狀態(tài)-動作值函數(shù)Qπ(s,a)的關(guān)系可以表示為
根據(jù)上述遞歸公式,可以利用動態(tài)規(guī)劃的方法通過迭代來求得Vπ(s)和Qπ(s,a)的值。
對于有效的強化學習任務(wù),環(huán)境中存在的狀態(tài)是不確定的,其狀態(tài)的轉(zhuǎn)移概率以及獎賞回報函數(shù)也是不確定的,此時學習算法不依賴環(huán)境建模,為無模型學習。無模型學習是在選取動作并執(zhí)行后,通過動作影響環(huán)境來觀察狀態(tài)的轉(zhuǎn)移與得到的獎賞,逐步獲得學習信息的。在模型未知的情況下,策略迭代算法需要對每個狀態(tài)進行估計,因此不再適用,只能通過自主探索不斷發(fā)現(xiàn)各個狀態(tài)并對各狀態(tài)-動作對的值函數(shù)進行估計。通過某種選定的策略進行采樣,執(zhí)行該策略T步獲得軌跡序列,記錄執(zhí)行每一步后序列中出現(xiàn)的每一對狀態(tài)-動作的獎賞之和,即為該狀態(tài)-動作對的一次累積獎賞采樣值。在經(jīng)過多次采樣得到多條軌跡序列后,將每個狀態(tài)-動作對的累積獎賞采樣值進行平均,即得到狀態(tài)-動作值函數(shù)的估計。
Q學習算法是一種無模型的離線強化學習算法,由 WATKINS在1989年提出[9]。它的行為決策和值函數(shù)的迭代是相互獨立的,采用值函數(shù)最大值進行迭代,r的更新依賴于各種假設(shè)決策。
Q學習的基本形式可表示為
式中:Q(s,a)表示智能體在狀態(tài)s下,采用動作a所獲得的最優(yōu)獎賞折扣和;α∈(0,1)為學習率;r′為rt+1的簡化表達;max(·)為取最大值函數(shù)。
將Q學習算法映射到捷變頻雷達對抗過程中,Q學習系統(tǒng)狀態(tài)s映射為干擾系統(tǒng)檢測到的敵方當前信道Sch;動作a映射為干擾系統(tǒng)當前信道Aj;從環(huán)境中得到的獎賞r映射為干擾方與雷達方所用信道匹配獲得的獎賞值Rma;函數(shù)Q(Sch,Aj)表示t時刻偵察到的敵方信道Sch以及干擾機選擇干擾信道為Aj之后所得到回報的折扣總和。為簡化表達,相應(yīng)的t+1時刻參量分別表示為因此,式(7)可改寫為
基于Q學習算法的跳頻系統(tǒng)跟蹤流程如圖3所示。干擾系統(tǒng)的搜索策略實施包括探索(exploration)和利用(exploitation)兩個階段。處于探索階段時,干擾系統(tǒng)任意選擇要實行干擾的信道;處于利用階段時,干擾系統(tǒng)根據(jù)最新更新的Q表選擇當前狀態(tài)下Q值最大的信道實施干擾。探索過程可為系統(tǒng)提供新的學習內(nèi)容,防止系統(tǒng)陷入局部最優(yōu)解,避免因陷入以前經(jīng)驗的循環(huán)而無法感知外界環(huán)境的變化。利用過程則可保證在每次動作過程中借鑒以往的經(jīng)驗知識,模擬人類學習的記憶過程。本文采用ε-貪婪策略對探索階段和利用階段進行平衡,ε稱為探索因子。系統(tǒng)以1-ε的概率進行利用,以ε的概率進行探索[10],并通過設(shè)置ε的值調(diào)整對探索與利用的傾向。
圖3 Q學習映射到跳頻系統(tǒng)示意圖
定義每步獎賞值,當干擾機干擾頻點與敵方當前所處信道頻率一致時,即表示干擾成功,此時獎賞值設(shè)置為1;否則表示沒有正確干擾到敵方信道,獎賞值設(shè)置為-1。因此獎賞值可表示為
對基于Q學習算法的干擾信道選擇進行仿真。在仿真實驗中假設(shè)雷達方可以在f0~f9這10個頻點中任意選擇一個,而干擾方也可以在這10個頻點中任意選擇一個進行干擾。為便于仿真實驗方法的描述,將本文所設(shè)計的基于Q學習的頻點跟蹤與決策方法簡稱為智能頻點選擇算法。
假設(shè)雷達方在受到干擾后會以(f3,f5,f1,f8,f7,f2,f9,f4,f6,f0)的順序來選擇下一時刻的信道。采用ε-貪婪策略,將探索因子ε設(shè)置為0,即雷達方頻點跳變序列為有限值,算法對偵察到的頻點規(guī)律進行完全利用。將獎賞值按式(9)設(shè)置,學習率α設(shè)為0.1,折扣率γ設(shè)為0.5。確定頻點跳變策略下,干擾方干擾的命中效果如圖4所示。其中,橫軸為干擾執(zhí)行的總步數(shù),用以表示干擾過程進行的時間;縱軸表示干擾決策命中的準確度,為了精確表示干擾穩(wěn)定狀態(tài)到達的時間,選取25步作為命中次數(shù)的統(tǒng)計間隔。為了進一步直觀地觀察命中率的變化趨勢,從而更加方便地得到學習效果,采用插值函數(shù)進行曲線擬合。
圖4 確定頻點跳變策略下干擾命中效果
從圖4可以看出,隨著學習時間的增加,智能頻點選擇算法的有效干擾次數(shù)快速增多,并且可以很快達到100%的命中率。這說明智能頻點選擇算法能夠有效跟蹤頻點信息,快速給出頻點干擾決策。
對仿真過程中每回合執(zhí)行的步數(shù)進行統(tǒng)計,結(jié)果如圖5所示。圖中,橫軸為回合次數(shù),表示按照雷達方頻點跳變策略的偽隨機碼周期完整地進行一遍的次數(shù);縱軸表示干擾方完成一次跳變策略所花費的步數(shù)。從圖中可以看到,在前幾個回合中因為處于學習階段,出現(xiàn)了執(zhí)行39步、18步的現(xiàn)象,但是隨著學習回合數(shù)的增多,執(zhí)行步數(shù)快速收斂至10步以內(nèi)。該結(jié)果表示模擬的智能體已學會頻點跳變的規(guī)律,智能頻點選擇算法能夠有效跟蹤頻點信息,快速給出頻點干擾決策。
假設(shè)雷達方受到干擾后,有30%的概率選擇以(f2,f9,f4,f6,f0,f3,f5,f1,f8,f7)策略更換信道,還有70%的概率以(f6,f0,f4,f8,f2,f1,f5,f9,f3,f7)策略更換信道。
改變信道變換策略后,對每回合執(zhí)行的步數(shù)進行統(tǒng)計,其余各參數(shù)設(shè)置不變,可以得到概率變換頻點跳變策略下每回合步數(shù)分布,如圖6所示。很明顯,由于信道切換的策略不斷變換,每回合步數(shù)不會確切收斂于具體數(shù)值。
圖6 概率變換頻點跳變策略下每回合步數(shù)分布
依然對每25步干擾命中次數(shù)進行統(tǒng)計,概率變換頻點跳變策略下干擾命中效果如圖7所示??梢钥吹?對于有限頻點個數(shù)的跳變策略,雖然跳變中存在概率變換信道的切換策略,但是經(jīng)過學習后,智能信道選擇算法的準確率未受到概率的影響,其干擾命中率依然快速提高,并且在探索因子ε為0的條件下依然能達到100%的命中率。這是因為該智能信道選擇方法一旦學習到未知規(guī)律后,在不出現(xiàn)新的狀態(tài)的前提下,即可依據(jù)已學到的經(jīng)驗知識,對現(xiàn)有的狀態(tài)進行100%命中率的實時決策。
圖7 概率變換頻點跳變策略下干擾命中效果
為了防止系統(tǒng)陷入局部最優(yōu)解,將探索因子ε分別設(shè)置為0.3,0.5,0.8,其余仿真參數(shù)與3.1節(jié)一致,進一步模擬雷達方頻率跳變的過程,對干擾命中效果進行驗證。為了便于比較命中率,對每100步命中次數(shù)進行一次統(tǒng)計。ε=0.3時,干擾命中效果及每回合步數(shù)分布的仿真結(jié)果如圖8所示。ε=0.3表示有30%的概率用于探索,70%的概率進行利用。
圖8 ε=0.3時的干擾命中效果及每回合步數(shù)分布
可以看出,智能信道選擇算法的有效干擾次數(shù)依然會快速增多,命中率基本穩(wěn)定在70%左右。當系統(tǒng)的頻點個數(shù)無限時,采用該策略進行跟蹤決策,可以及時發(fā)現(xiàn)新的跳變頻點,有效完成干擾策略。
當探索因子ε分別為0.5和0.8時,干擾命中效果仿真結(jié)果如圖9所示??梢钥吹诫S著ε的增大,對頻點選擇的探索概率增大,對學習到的經(jīng)驗知識的利用概率減小,因此在有限頻點個數(shù)的策略變換中,干擾命中率降低。
圖9 ε=0.5,0.8時的干擾命中效果
在對抗捷變頻雷達的過程中,由于雷達信號載頻不斷變化,對頻點的跟蹤與決策方法的研究至關(guān)重要。本文提出了一種基于Q學習算法的捷變頻雷達干擾頻點跟蹤與決策方法,并進行了仿真實驗。實驗結(jié)果表明:該方法不依賴具體的雷達信號特征參數(shù)數(shù)據(jù),可以自適應(yīng)學習頻點的跳變規(guī)律,實時給出頻點干擾決策。但該方法也具有一定的局限性,例如本文主要針對有限的且重復(fù)的頻點序列,當序列中的頻點數(shù)量多且有未知頻點出現(xiàn)時,系統(tǒng)性能會下降,此時應(yīng)適當調(diào)整參數(shù)值且使參數(shù)值可依據(jù)環(huán)境變化進行自適應(yīng)改變,這也是接下來研究的主要方向。