尚 熙,楊革文,戴少懷,蔣伊琳
(1.哈爾濱工程大學(xué)信息與通信工程學(xué)院,黑龍江哈爾濱 150001;2.上海機電工程研究所,上海 201109)
目前,自適應(yīng)雷達(dá)對抗技術(shù)已經(jīng)成為現(xiàn)代電子對抗研究的重點問題。在飛機進行突防的過程中,所面對的“地/海面雷達(dá)信號環(huán)境”大多是復(fù)雜、多變的;并且,隨著多功能雷達(dá)的發(fā)展,當(dāng)前雷達(dá)的工作模式可以發(fā)生較大的變化,單一干擾策略的壓制效果并不理想。當(dāng)干擾方對雷達(dá)方進行干擾時,通常是處于信息非對稱的情形,這樣,就需要干擾方的干擾設(shè)備具有一對多的干擾能力?,F(xiàn)有的能夠動態(tài)分配干擾資源策略且與環(huán)境進行互動變化的算法主要是強化學(xué)習(xí),如:黃星源等對信息對稱情況下的多對多干擾資源分配問題進行了研究,但未涉及一對多干擾資源分配問題;周彬等使用Q-learning 算法對無人機路徑規(guī)劃問題進行了研究,但不適用于多狀態(tài)及動作場景;劉松濤等在對自適應(yīng)干擾機的研究中,沒有引入干擾輻射能量低、突防距離遠(yuǎn)的干擾資源分配理念;現(xiàn)有的DQN(deep Q network)算法可應(yīng)用于多狀態(tài)及動作場景,已經(jīng)被用于解決路徑規(guī)劃問題,但是對于雷達(dá)干擾資源的分配問題研究較少。
本文主要以突防距離比和干擾輻射能量比作為整個干擾對抗過程的評價標(biāo)準(zhǔn),以要求突防距離最大和使用干擾輻射能量最少之間的反比關(guān)系互相牽制,采用引入動態(tài)調(diào)整獎勵值的DQN 和Dueling-DQN 算法,分別記作DQN(R)和Dueling-DQN(R),利用其合理地分配自適應(yīng)干擾機的干擾資源,使得實施一對多干擾時的整體效益最大化,即:在研究復(fù)雜電磁環(huán)境下實施一對多干擾的壓制效果基礎(chǔ)上,對能量損耗和突防距離的最大化效益進行研究,并比較兩種強化學(xué)習(xí)算法的優(yōu)劣。
與傳統(tǒng)干擾機相比,自適應(yīng)干擾機能夠隨著所接收到的參數(shù)信息實時地更改自身的干擾策略,合理、高效地對雷達(dá)實現(xiàn)壓制干擾,根據(jù)干擾方的需求,可以滿足干擾輻射總能量小、突防距離大的要求。傳統(tǒng)干擾機往往采用單一的干擾樣式和功率對雷達(dá)進行壓制,只考慮壓制成功與否,這種固定的、單一的策略很容易因多功能雷達(dá)工作參數(shù)的改變而達(dá)不到理想的壓制效果,因此,自適應(yīng)干擾機更加符合當(dāng)前對抗技術(shù)的需求。自適應(yīng)干擾機可以被理解為一個智能體,其接收的數(shù)據(jù)和采用的策略則可以被認(rèn)為是與環(huán)境的交互,通過模擬人類大腦學(xué)習(xí)過程,對不同的事物做出不同的策略和自己的評價,最終使智能體可以面對任何環(huán)境做出合理的動作和評價。自適應(yīng)干擾機的結(jié)構(gòu)框圖如圖1 所示,本文中干擾策略庫主要的干擾樣式有噪聲調(diào)幅、噪聲調(diào)頻、靈巧噪聲和密集假目標(biāo)壓制。
圖1 自適應(yīng)干擾機的結(jié)構(gòu)框圖Fig.1 Block diagram of the adaptive jammer
建立一對多的復(fù)雜電子對抗環(huán)境時,本文中進行對抗的雷達(dá)模型有搜索、跟蹤、制導(dǎo)3 種工作狀態(tài)(具體狀態(tài)轉(zhuǎn)換關(guān)系見2.1 節(jié)),飛機突防開始狀態(tài)默認(rèn)雷達(dá)處于搜索狀態(tài),飛機突防失敗狀態(tài)默認(rèn)雷達(dá)進入制導(dǎo)狀態(tài)。因海雜波對雷達(dá)的探測性能影響較大,在整個突防的過程中引入海雜波的影響,可參考文獻(xiàn)[11]和文獻(xiàn)[12]??紤]到隨著自適應(yīng)干擾機離雷達(dá)越來越近,需要考慮干擾信號從旁瓣進入的影響,可參考文獻(xiàn)[13]。
雷達(dá)在雜波與干擾環(huán)境下的最大探測距離,如式(1)所示。
式中:為玻爾茲曼常數(shù);為標(biāo)準(zhǔn)室溫,通常取290K;為接收機內(nèi)部噪聲帶寬;為噪聲系數(shù);為接收到的海雜波功率;()為接收機輸出端測量的信噪比,即個脈沖信噪比;為干擾機天線增益;()為在偏離雷達(dá)角度時的接收增益;為干擾機到雷達(dá)的徑向距離;為極化因子;為發(fā)射信號波長;為目標(biāo)散射截面積;為脈沖壓縮比;為雷達(dá)接收機損耗;為干擾功率;為雷達(dá)發(fā)射功率;為雷達(dá)天線增益;為雷達(dá)接收天線增益。此處認(rèn)為雷達(dá)接收信號方向為雷達(dá)天線的主瓣方向,故而有==。
建立如圖2 所示的一對多情形下的電子對抗場景,其中,兩雷達(dá)之間相距為,3部雷達(dá)都建立在高為的小島頂部。飛機攜帶一部自適應(yīng)干擾機從遠(yuǎn)方突防而來,自適應(yīng)干擾機攜帶的干擾樣式有噪聲調(diào)幅干擾、噪聲調(diào)頻干擾、靈巧噪聲干擾及密集假目標(biāo)干擾。突防開始時,飛機與雷達(dá)2 相距為,飛機飛行速度為,飛行高度為,飛行航跡指向雷達(dá)2。以上述建立的電子對抗環(huán)境為背景,研究一部自適應(yīng)干擾機在一對多情況下的干擾資源分配策略。
圖2 整體電子對抗場景示意圖Fig.2 Schematic diagram of the overall electronic countermeasure scenario
對于飛機攜帶自適應(yīng)干擾機對雷達(dá)進行突防的過程,需要考慮的是利用現(xiàn)有資源使干擾輻射能量最小、突防距離最大,合理、動態(tài)完成干擾資源的分配。若整個需要突防的距離為,飛機速度為,則可以將整個過程分為=/步,每次重新分配干擾資源的時間步長為1 s,在該時間步長內(nèi)采用相同的干擾樣式進行多次干擾。記~分別為整個過程中各種壓制的干擾輻射總能量,如表1 所示。其中,約束條件有:=+++,~分別為每種干擾樣式各自干擾的總時長;~分別為某一干擾樣式且不同功率下的干擾時長;~分別為不同時刻采取不同干擾樣式時選擇的干擾功率大小。
表1 整個過程中各種壓制的干擾輻射能量計算方法Tab.1 The calculation method of various suppressed interference radiation energy in the whole process
基于此,提出整體干擾輻射能量占比=/,其中:=+++,稱為實際干擾總能量,即突防過程中,干擾機總共輻射的干擾能量大??;=max()·(/),稱為整體干擾總能量,即突防過程中總是施放干擾功率最大的干擾樣式產(chǎn)生的總干擾輻射能量大小。根據(jù)定義,0 <<1,越大表明整個過程中干擾需要的總能量就越大,反之,需要的干擾總能量就越小。作為一對多干擾策略的目標(biāo)值,越小越好。
不能只從一個方面對整個雷達(dá)的壓制干擾效果進行評價,因此,引入最大突防距離比=/,其中:表示戰(zhàn)斗機攜帶干擾吊艙突防的最大距離;表示整個突防的距離。作為干擾效果的目標(biāo)值,越大越好,與對的要求相反。可以利用指標(biāo)和對干擾資源分配的結(jié)果進行整體評價。
在對雷達(dá)陣地的突防過程中,多功能雷達(dá)有多種工作模式。對于干擾方來說,多功能雷達(dá)主要有搜索模式、跟蹤模式和制導(dǎo)模式。搜索模式是初始狀態(tài),制導(dǎo)模式是終止?fàn)顟B(tài),進入制導(dǎo)模式后結(jié)束本次迭代。多功能雷達(dá)的工作狀態(tài)變化可以用圖3 描述,記S(為雷達(dá)編號)為雷達(dá)狀態(tài)值,用來描述雷達(dá)所處工作模式,搜索、跟蹤、制導(dǎo)模式的S值分別取0、1、2。本文假設(shè)3部雷達(dá)不進行組網(wǎng),各自對目標(biāo)進行獨立探測。對于每部雷達(dá),狀態(tài)轉(zhuǎn)換依據(jù)為:
圖3 雷達(dá)的工作模式轉(zhuǎn)換及相應(yīng)Sri值變化示意圖Fig.3 Schematic diagram of radar working mode conversion and corresponding Sri changes
1)搜索狀態(tài)下,如果4次探測中雷達(dá)有3次探測到目標(biāo),雷達(dá)狀態(tài)進入跟蹤狀態(tài),否則,保持搜索狀態(tài)。
2)跟蹤狀態(tài)下,如果3 次探測中雷達(dá)有2 次探測到目標(biāo),雷達(dá)狀態(tài)從跟蹤狀態(tài)進入制導(dǎo)狀態(tài);若3次探測均未探測到目標(biāo),雷達(dá)狀態(tài)返回搜索狀態(tài);否則,保持在跟蹤狀態(tài)。
根據(jù)馬爾可夫模型建立狀態(tài)函數(shù)S
式中:表示飛機離雷達(dá)2 的徑向距離;=[,,]為1×3 的矩陣,包含3 部雷達(dá)當(dāng)前時刻各自的工作模式S,S對應(yīng)的值越大,則代表威脅等級越高,反之,則越小;CON(·)為連接函數(shù)。
干擾動作主要從功率和干擾樣式進行劃分,自適應(yīng)干擾機能夠有效干擾的功率范圍為~,若把有效干擾功率合理地劃分成個,那么,對于4 種壓制干擾樣式,自適應(yīng)干擾機可以采取的干擾動作就有4種,每一種干擾動作對應(yīng)不同功率下的某一種壓制干擾方式。根據(jù)馬爾可夫模型建立動作函數(shù),可表達(dá)為
式中:表示對第部雷達(dá)進行干擾,本文的取值為1到3;a表示該時刻采取4中動作的一種。因此,A表示對第部雷達(dá)所采取4中某一種干擾動作,為1×2的矩陣。
當(dāng)獎勵設(shè)置不合理時,會使得干擾策略分配難以快速收斂,導(dǎo)致智能體學(xué)習(xí)的速度大大降低,而合理的獎勵值設(shè)置會使智能體可以快速地在與環(huán)境的交互中學(xué)習(xí)和收斂。因此,本文從3個方面設(shè)置獎勵:每步干擾成功獎勵、干擾功率獎勵、干擾樣式能量最小化獎勵。
每步干擾成功獎勵設(shè)置為
干擾功率獎勵設(shè)置為
式中:~取值范圍為[-0.5,+0.5],~為正值,分別為-0.5、-0.4、-0.3、-0.2、-0.1,~為負(fù)值,分別為0.1、0.2、0.3、0.4、0.5。
干擾樣式能量最小化獎勵設(shè)置為
式中:=(-)/,表示飛機飛行到步;~表示各個干擾樣式最大功率下對雷達(dá)旁瓣干擾時雷達(dá)最大探測距離(當(dāng)虛警概率為10、發(fā)現(xiàn)概率為0.5 時)。參考第三章仿真參數(shù),帶入公式(1)可求得各種干擾下的雷達(dá)最大探測距離~,~分別為321 km、139 km、77 km、16 km。
綜上,我們可得每步的總獎勵值為=++。
DQN 算法是Q-Learning 算法的改進,摒棄了QLearning 算法中的Q 表,利用深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)代替了Q 表,可以適用于多狀態(tài)-多動作的強化學(xué)習(xí)模型。DQN 網(wǎng)絡(luò)主要由當(dāng)前網(wǎng)絡(luò)、目標(biāo)網(wǎng)絡(luò)、環(huán)境、經(jīng)驗回放池、DQN誤差函數(shù)構(gòu)成,如圖4所示。
圖4 本模型中DQN網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.4 DQN network structure diagram in this model
如圖4所示,其中、、、分別代表狀態(tài)、動作、獎勵及網(wǎng)絡(luò)參數(shù),采用隨機梯度下降法(stochastic gradient descent,SGD)更新網(wǎng)絡(luò)參數(shù)。DQN 內(nèi)部包含兩個網(wǎng)絡(luò),分別是當(dāng)前網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò),這兩個網(wǎng)絡(luò)的結(jié)構(gòu)一模一樣,均為DNN 網(wǎng)絡(luò),把上文的狀態(tài)S和動作A作為DNN 網(wǎng)絡(luò)的輸入得到該狀態(tài)和該動作下的值函數(shù)。控制目標(biāo)網(wǎng)絡(luò)的參數(shù)在一定的步數(shù)間隔內(nèi)保持不變,把當(dāng)前網(wǎng)絡(luò)的參數(shù)直接復(fù)制給目標(biāo)網(wǎng)絡(luò),而不是每幀都更新,目的是去除目標(biāo)值和當(dāng)前值的相關(guān)性,解決訓(xùn)練不穩(wěn)定的問題,提高收斂成功率。其網(wǎng)絡(luò)中的相關(guān)參數(shù)有:(經(jīng)驗回放集合尺寸)、(獎勵折扣因子)、(學(xué)習(xí)率)、(-貪婪因子,以的概率選擇最優(yōu)動作,(1-)的概率選擇隨機動作)、(重置網(wǎng)絡(luò)權(quán)重步數(shù))、(每次訓(xùn)練批量)。
結(jié)合建立模型的DQN 算法的具體實施步驟如圖5 所示,主要流程為:先對網(wǎng)絡(luò)進行初始化;然后偵查獲得雷達(dá)當(dāng)前時刻狀態(tài),使用貪婪策略以的概率選擇最優(yōu)動作,以(1-)的概率選擇隨機動作,與設(shè)定對抗環(huán)境進行交互獲得下一時刻狀態(tài),并對該動作進行打分操作,將上文中的狀態(tài)和動作作為DNN 網(wǎng)絡(luò)的輸入,進行值函數(shù)的計算,將當(dāng)前狀態(tài)下采取動作的優(yōu)劣度以值函數(shù)的方式進行表述;當(dāng)達(dá)到訓(xùn)練總步數(shù)后,將狀態(tài)和動作信息存儲下來,用于自適應(yīng)干擾機的在線干擾資源學(xué)習(xí)和分配。
圖5 結(jié)合建立模型的DQN算法流程圖Fig.5 DQN algorithm flow chart combined with the establishment of the model
Dueling-DQN 算法與DQN 算法的不同點在于:DQN 神經(jīng)網(wǎng)絡(luò)輸出的是每種動作的值,而Dueling-DQN每個動作的值是由式(12)確定的,其余部分兩者完全相同。
式中:V(;)表示這個狀態(tài)下的值;(,;)表示每個動作在這個狀態(tài)上的優(yōu)勢。因為有時在某種狀態(tài)下,無論做什么動作,對下一個狀態(tài)的影響均很小。通過這種方法就能大幅提升學(xué)習(xí)效果,加速收斂。
Dueling-DQN(R)算法與DQN(R)算法分別是在Dueling-DQN 算法與DQN 算法的基礎(chǔ)上,將動態(tài)調(diào)整的獎勵值引入其中。
雷達(dá)陣地與干擾機位置關(guān)系設(shè)置如圖6 所示,飛機攜帶自適應(yīng)干擾吊艙對準(zhǔn)雷達(dá)2 進行飛行,速度為300 m/s,3 部雷達(dá)分別位于高度為1 000 m 的小島上,雷達(dá)陣地間隔為5 000 m,目標(biāo)散射截面積為6 m,雷達(dá)平均功率為77 kW,雷達(dá)天線增益為42 dB,脈沖寬度為6.4 us,接收機帶寬為40 MHz,載頻為8 GHz,雷達(dá)接收機損耗為6 dB,脈沖重復(fù)頻率為5 000 Hz;干擾機有效功率100~1 000 W,干擾機天線增益為15 dB,干擾機帶寬為400 MHz,為0.5 dB。海雜波環(huán)境中當(dāng)海面風(fēng)速為10~20 Kt(Kt 用來描述海況信息的風(fēng)速單位),即風(fēng)速為19~38 km/h,X 波段不同來源的海雜波σ的數(shù)據(jù)合成為-36 dB。3 部雷達(dá)為同一體制雷達(dá),工作參數(shù)相近,均有3種工作模式。
圖6 雷達(dá)陣地與干擾機位置關(guān)系Fig.6 The relationship between the radar position and the jammer
經(jīng)驗回放池大小為2 000,獎勵折扣因子為0.9,學(xué)習(xí)率為0.001,-greedy 為0.9,重置網(wǎng)絡(luò)權(quán)重步數(shù)為1 200,每批次訓(xùn)練量為320。
DQN(R)算法和Dueling-DQN(R)算法訓(xùn)練結(jié)果對比如圖7~8所示。
由圖7可知:大約680次訓(xùn)練后Dueling-DQN(R)算法分配下的最大突防距離已經(jīng)基本穩(wěn)定,而DQN(R)算法則要經(jīng)過約1 000次訓(xùn)練才能達(dá)到Dueling-DQN(R)算法的效果。由圖8可知:引入干擾功率獎勵值和干擾樣式能量最小化獎勵值后,1 200次的訓(xùn)練后,每次突防的整體輻射能量占比在20%~50%之間,且Dueling-DQN(R)算法下的整體輻射能量占比基本上比DQN(R)算法的整體輻射能量小,即:就干擾輻射能量的損耗情況而言,Dueling-DQN(R)算法分配的干擾策略要優(yōu)于DQN(R)算法分配的干擾策略。
圖7 兩種算法下最大突防距離Fig.7 Maximum penetration distance of the two algorithms
圖8 兩種算法輻射能量占比Fig.8 The proportion of radiated energy of the two algorithms
DQN(R)算法與Dueling-DQN(R)算法訓(xùn)練至1 200次時干擾動作分配如圖9~10所示。
圖9 DQN(R)算法訓(xùn)練1 200次時的動作分配Fig.9 Action distribution when DQN(R)algorithm training reaches 1200 times
圖10 Dueling-DQN(R)算法訓(xùn)練1 200次時的動作分配Fig.10 Action distribution when Dueling-DQN(R)algorithm training reaches 1200 times
由圖9~10 中可以看出,Dueling-DQN(R)算法的干擾動作分配比較穩(wěn)定,而DQN(R)算法的分配結(jié)果較為多變,結(jié)合兩種算法的原理可知,這是因為Dueling-DQN(R)算法去掉某一狀態(tài)下的不敏感動作,使得其收斂能力較DQN(R)有明顯提升。并且,圖9~10 中,動作數(shù)值越大表示其干擾功率越高,大部分動作的選取所需的干擾功率未達(dá)到峰值,而較為獨立的峰值大都為雷達(dá)狀態(tài)改變的結(jié)果。
圖11 為3 種算法的損失函數(shù)對比,Dueling-DQN(R)算法大致在1 800 次網(wǎng)絡(luò)迭代后收斂,DQN(R)算法大致在4 000 次網(wǎng)絡(luò)迭代后收斂,而尋常DQN 算法大致在9 000 次網(wǎng)絡(luò)迭代后收斂。從其變化規(guī)律來看,3 種算法的收斂速度和穩(wěn)定性從優(yōu)到劣為:Dueling-DQN(R)算法、DQN(R)算法、DQN 算法,這是因為引入了隨環(huán)境動態(tài)調(diào)整的獎勵值的結(jié)果,提升了前兩種算法收斂的速度和穩(wěn)定性。而Dueling-DQN(R)算法、DQN(R)算法的收斂速度也從一定程度上佐證了圖7中曲線變化梯度。
圖11 3種算法的收斂曲線Fig.11 Convergence curves of the three algorithms
圖12是網(wǎng)絡(luò)迭代14 000次中Dueling-DQN(R)算法下不同時刻自適應(yīng)干擾機所選擇干擾的目標(biāo)雷達(dá),可見在整個突防的過程,Dueling-DQN(R)算法實現(xiàn)了隨突防距離變化更改其一對多干擾策略的能力。
圖12 自適應(yīng)干擾機選擇干擾的雷達(dá)Fig.12 The adaptive jammer selects the radar to jam
為了研究一對多情形下的干擾資源的分配方法,本文提出了一種獎勵值隨突防距離動態(tài)調(diào)整的DQN干擾資源分配方法,以干擾、雜波下的雷達(dá)最大探測距離作為獎勵值的調(diào)整標(biāo)準(zhǔn),可以加快DQN算法和Dueling-DQN算法的收斂速度和穩(wěn)定性,使得干擾資源的分配更快地收斂。本文算法較為理想地完成了對不組網(wǎng)雷達(dá)陣地的一對多的干擾資源分配,對干擾輻射總能量小、突防距離大的認(rèn)知電子對抗以及非對稱下多機協(xié)同干擾的干擾資源分配具有一定的參考價值。