• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于強化學習的自適應干擾波形設計

      2021-06-24 02:19:30黃湘松
      空天防御 2021年2期
      關鍵詞:干擾信號間歇幅度

      陳 濤,張 穎,黃湘松

      (1.哈爾濱工程大學信息與通信工程學院,黑龍江哈爾濱 150001;2.黑龍江省多學科協(xié)同認知人工智能技術與應用重點實驗室,黑龍江哈爾濱 150001)

      0 引言

      隨著信息技術的飛速發(fā)展,在現(xiàn)代戰(zhàn)場中,電磁環(huán)境越來越復雜,作戰(zhàn)環(huán)境瞬息萬變,充分學習和利用各種環(huán)境信息、自適應調(diào)整系統(tǒng)狀態(tài)已成為未來電子裝備發(fā)展的主要方向之一[1]。傳統(tǒng)干擾機往往發(fā)射一種或幾種固定的波形[2],其干擾波形庫簡單,因此極大地降低了電子干擾的作戰(zhàn)效果。與此同時,認知雷達的發(fā)展也使得電子對抗向智能方向發(fā)展[3-5]。

      目前國內(nèi)外關于自適應干擾波形設計的文獻較少[6]。文獻[7]將改進遺傳算法應用到干擾樣式自適應選擇中。文獻[8-9]研究了基于低截獲概率(low probability of intercept,LPI)的與任務相關的自適應雷達干擾波形設計,首先推導出目標檢測和參數(shù)估計的信干噪比(signal-to-jamming-plus-noise ratio,SJNR)準則和互信息(mutual information,MI)準則,針對戰(zhàn)場電磁環(huán)境的復雜性和不確定性,采用梯形模糊數(shù)來描述系統(tǒng)整體性能的閾值,然后將模糊機會約束規(guī)劃模型轉(zhuǎn)化為清晰的等價形式,使干擾總功率達到最小。文獻[10]研究了單元平均恒虛警概率(CACFAR)的抗干擾機制,根據(jù)信號與干擾和參考距離的關系,將干擾波形的幅值設計為服從瑞利分布和有限區(qū)間隨機。近年來,強化學習作為一種智能算法在干擾波形設計中也得到廣泛應用[11],文獻[12]研究了認知干擾波形設計,將強化學習算法運用到干擾波形設計中。

      以上文獻主要研究已知長度雷達信號的干擾波形。隨著戰(zhàn)場環(huán)境日益復雜化,未知長度的雷達信號更為普遍。為了進一步提高對未知信號的適應能力并實現(xiàn)本脈沖內(nèi)干擾,本文研究了針對未知長度雷達信號的干擾波形。在干擾樣式選擇中,間歇采樣轉(zhuǎn)發(fā)干擾[13]得到廣泛應用。因此,本文在此基礎上充分分析間歇采樣信號的干擾特性,并將強化學習算法與“切割”假設法結合來設計針對變化雷達信號的自適應干擾波形,最后將恒虛警概率作為交互函數(shù)來評估干擾效果。

      1 間歇采樣信號參數(shù)對線性調(diào)頻信號脈壓處理的影響

      己方干擾的工作過程可以描述為:當檢測到對方的雷達信號s(t)后,對其進行間歇采樣轉(zhuǎn)發(fā)干擾得到干擾信號j(t),對方收到干擾信號后進行脈壓處理,得到最終的干擾信號y(t),具體的工作過程如圖1所示。圖中,p(t)為間歇采樣信號。

      圖1 干擾過程示意圖Fig.1 Schematic diagram of interference process

      為提高雷達的作用距離和距離分辨率,現(xiàn)代雷達普遍采用脈沖壓縮雷達,其中線性調(diào)頻信號(linear frequency modulation,LFM)是脈沖壓縮雷達最常用的調(diào)制信號,因此雷達信號s(t)的表達式為

      信號s(t)匹配濾波器的系統(tǒng)函數(shù)為h(t)=其中:符號“-”代表取共軛;t0是使其為因果可實現(xiàn)系統(tǒng)的常數(shù),可令t0=0。故h(t)的表達式為

      線性調(diào)頻信號經(jīng)過匹配濾波器的輸出為

      式中:?代表卷積;τ為采樣時間。

      由式(3)可知,線性調(diào)頻信號經(jīng)過脈壓處理后得到一個固定載頻的信號,且包絡近似為sinc函數(shù)。

      此外,LFM信號具有大的時寬帶寬積,而間歇采樣轉(zhuǎn)發(fā)是針對大時寬帶寬積信號的有效干擾技術,因此本文使用間歇采樣技術產(chǎn)生干擾信號。其過程為當己方截獲到雷達信號后,對其進行采樣然后轉(zhuǎn)發(fā)出去,直至信號結束,間歇采樣轉(zhuǎn)發(fā)干擾的原理如圖2所示。

      圖2 間歇采樣轉(zhuǎn)發(fā)干擾原理圖Fig.2 Schematic diagram of intermittent sampling and forwarding interference

      圖中:τ為采樣時間;η為轉(zhuǎn)發(fā)時間;Ts為間歇采樣轉(zhuǎn)發(fā)干擾的周期;間歇采樣信號p(t)可表示為

      式中:δ(t)為沖激函數(shù);n為采樣次數(shù)。

      干擾信號j(t)為

      脈沖壓縮技術能夠?qū)⒋髸r寬帶寬的脈沖信號壓縮為窄脈沖,以提高雷達對目標的距離分辨精度和距離分辨力。故不妨假設對方在收到干擾信號后,對其進行了脈壓處理,輸出y(t)為

      式(6)第一項中的ys(t)為式(3)的結果,可以得出,與真實目標脈壓后相比,干擾信號脈壓后可以產(chǎn)生與真實目標具有相同特性的假目標,僅在幅度上有所區(qū)別。因此,第一項為主假目標,其余均為次假目標,次假目標相當于對主假目標進行頻移,頻移量為±nfs,位于主假目標的兩側,因此總體上可以對敵方造成欺騙干擾。其中主假目標的幅度受占空比的影響,在時刻,次假目標幅度為,幅度同樣受占空比的影響。

      由此可知,改變間歇采樣的采樣時間、轉(zhuǎn)發(fā)時間,可以得到幅度以及位置都不相同的欺騙干擾。仿真圖形如圖3所示。為方便比較,信號幅度均進行歸一化處理。

      由圖3可知:采樣時間的占空比越大,則主次假目標的幅度越高。因此采樣時間、轉(zhuǎn)發(fā)時間等參數(shù)均是影響干擾效果的因素。

      圖3 干擾信號仿真圖Fig.3 Simulation diagram of interference signal

      2 基于強化學習算法的波形設計

      2.1 恒虛警概率檢測

      改變間歇采樣的參數(shù),可以影響干擾的性能,因此可以利用這一點設計不同的干擾波形。本文主要針對雷達檢測環(huán)節(jié)進行干擾,雷達信號檢測是基于一定的概率準則進行的。雷達根據(jù)系統(tǒng)對檢測概率PD和虛警概率PF的要求,在一定信噪比下確定檢測門限,當信號的強度超過該門限時就說明檢測到目標。恒虛警概率檢測能夠自適應地調(diào)整門限,是一種常用的雷達信號檢測技術,因此將CFAR作為環(huán)境交互模型。

      常見的CFAR 算法包括單元平均恒虛警概率(CA-CFAR)、單元取大恒虛警概率(GO-CFAR)、單元取小恒虛警概率(SO-CFAR)等。本文選取其中的CA-CFAR 算法進行分析,其原理如圖4所示。圖中:x1,x2,…,xN為左側每個參考單元信號的幅度值;y1,y2,…,yN為右側每個參考單元信號的幅度值;Z為總共2N個參考單元幅度的平均值。

      圖4 CA-CFAR算法檢測原理Fig.4 Principle diagram of CA-CFAR

      檢測單元的兩側設置保護單元和參考單元。檢測單元的門限值由左右兩側參考單元的幅度值來確定。若檢測單元的值大于檢測門限,則判斷存在目標信號;如若檢測單元的值小于檢測門限,則判斷目標信號不存在。僅有目標與噪聲時,設置信噪比15 dB,CA-CFAR算法檢測仿真如圖5所示。

      圖5 CA-CFAR算法檢測仿真Fig.5 The simulation diagram of CA-CFAR

      為了達到掩蓋目標信號的目的,需要將所有參考單元的電平值提高,使敵方發(fā)生嚴重的虛警。因此需要找到幅度值最低的單元向其填充干擾信號,而填充信號的幅度與間歇采樣信號的參數(shù)有關。間歇采樣干擾信號經(jīng)過匹配濾波后,波形近似為sinc函數(shù),每次向目標單元填充信號時,信號也會落入其他單元,隨著填充次數(shù)的增加,所有參考單元的幅度值均會提高。

      2.2 強化學習算法

      在實際戰(zhàn)場中雷達信號形式多變,無法得到一個確定的信號模型。而強化學習設置了獎勵機制,它通過試錯的方式與環(huán)境進行交互,通過多次采樣可以完成免模型條件下的最優(yōu)決策問題。因此考慮將強化學習應用到干擾波形設計中,使得干擾信號能夠自適應雷達信號的變化。

      強化學習是一個馬爾科夫過程,一個主體觀測到環(huán)境的狀態(tài)S后按照一定的策略π選擇動作A作用于環(huán)境,并得到此次動作的獎勵值r強化學習Q 表的更新,可以用動作值函數(shù)來表示,即

      式中:Qt(s,a)為當前時刻的動作值函數(shù);Qt(s′,a′)為取當前動作到下一狀態(tài)的動作值函數(shù);rt為當前時刻的獎勵值;Qt+1(s,a)為下一時刻的動作值函數(shù);α為學習率;γ為折扣因子。

      為了避免陷入局部最優(yōu)解,策略π的選取采取“探索-利用”折中的方法:ε-greedy(貪心)算法,其中以(1-ε)的概率進行利用,以ε的概率進行探索,可表示為

      根據(jù)馬爾科夫過程的性質(zhì),選擇異策略對非最優(yōu)解進行優(yōu)化,也就是使用強化學習中的Q-Learning算法:策略評估時使用貪心算法,策略改進時使用原始策略。

      為了對CFAR 進行干擾,強化學習的目的是將CFAR 中所有參考單元的幅度值提高,而參考單元幅度值的大小與間歇采樣的參數(shù)有關,因此不妨令采樣時間為轉(zhuǎn)發(fā)時間的a倍,得到強化學習的設計規(guī)則為:

      1)動作集A:采樣時間倍數(shù)ai,A∈[a1,am],初始動作隨機,下一動作按Q-Learning的策略π進行選擇;

      2)狀態(tài)集S:干擾信號距離單元,S∈[s1,sv],初始狀態(tài)隨機選擇,下一狀態(tài)為幅度最小值所在的距離單元;

      3)獎勵值r:當前參考單元與檢測單元幅度的比值,幅度值越高,獎勵值越大;

      4)循環(huán)次數(shù)設為j次。

      強化學習是一個探索加利用的過程,循環(huán)次數(shù)結束后得到一個收斂的動作-狀態(tài)值的二維表格。

      2.3 “切割”假設法

      實施干擾前,若能先偵察到對方雷達信號的長度,強化學習中的狀態(tài)值就能夠確定,便可實現(xiàn)本脈沖內(nèi)干擾,以達到實時性的要求。而在實際戰(zhàn)場中,由于環(huán)境的復雜變化,很難得到雷達信號的確切信息,這種情況下強化學習的狀態(tài)值無法確定。為此提出一種“切割”假設法,將狀態(tài)值這個未知量化為已知量,再運用強化學習完成本脈沖內(nèi)干擾,“切割”假設法示意圖如圖6所示。

      圖6 “切割”假設法示意圖Fig.6 Schematic diagram of‘cutting’method

      其過程為:當干擾系統(tǒng)偵察到對方雷達信號后,假設雷達信號的長度為Tw=b×w,w∈[1,2,3,…,M],單位為μs,然后對信號長度進行w次切割,切割單位為b??山忉尀椋寒敊z測到雷達信號時,便假設截獲到的信號長度為bμs,并對這bμs 的雷達信號進行脈壓處理,再應用強化學習的規(guī)則設計干擾波形,同時通過Q表得到bμs信號的最佳輸出動作值;若bμs后,仍檢測到對方信號,此時w的值為2,第2 次假設雷達信號的總長度為2bμs,并對b~2bμs 間的信號直接利用第1 次得到的最佳動作設計干擾波形;以此類推,直至信號結束。若bμs 信號的采樣次數(shù)為n,則信號長度為Tw時,采樣次數(shù)為w×n。最終將所有切割的信號組合到一起,組合后假設信號的長度可能會大于真實信號的長度,但對于檢測環(huán)節(jié)來說,開頭以及結尾的一段信號對于恒虛警概率檢測算法影響不大,因此可以近似得到真實雷達信號的干擾波形,“切割”假設法的流程如圖7所示。

      圖7 “切割”假設法流程圖Fig.7 Flow chart of‘cutting’method

      3 實驗仿真與分析

      3.1 仿真1:強化學習算法仿真分析

      對于已知形式的雷達信號可以直接使用強化學習算法,仿真參數(shù)設置為:雷達信號長度為50 μs,調(diào)頻帶寬10 MHz,距離分辨率為,故每個距離單元為15 m,信噪比15 dB,學習率α為0.001,折扣因子γ為0.8,ε為0.9,迭代次數(shù)為10 000 次,令間歇采樣周期為2 μs,則采取動作值為25 次,且取值范圍為1~10。由此可得仿真圖如圖8所示。

      圖8 強化學習后的干擾效果圖(50 μs)Fig.8 Effect diagram of interference after reinforcement learning

      由圖8可知,經(jīng)過強化學習后輸出一組動作值,根據(jù)這組動作值得到圖8(b)所示的干擾信號,干擾信號恒虛警概率檢測單元如圖8(c)(縱坐標歸一化處理)所示。

      此時不妨用幅度的均值E(h)與標準差σ(h)的比值d來描述整體的幅度提升效果,即,通過計算可得d=2.077 1。

      當雷達信號長度為80 μs時,強化學習后CFAR檢測單元值如圖9所示。

      圖9 強化學習后的干擾效果圖(80 μs)Fig.9 Effect diagram of interference after reinforcement learning

      此時,計算得d=2.786 0。

      3.2 仿真2:“切割”假設法對比分析

      對于未知形式的雷達信號用強化學習算法無法確定狀態(tài)值,因此運用假設法。

      仿真參數(shù)設置:隨機產(chǎn)生一個50~300 μs 的數(shù)T來表示未知長度的雷達信號,其他參數(shù)設置與仿真1相同。第1 個50 μs屬于強化學習中的學習過程,輸出的動作值并不是最佳動作值,但此時已經(jīng)成功建立Q表,通過Q 表的值可以得到最佳輸出動作,因此50 μs后的每一段信號便可直接使用這個最佳動作值。當隨機產(chǎn)生信號長度在50~100 μs 范圍內(nèi)時,假設真實信號的長度便為100 μs,并對100 μs 的信號進行強化學習,最終仿真圖形如圖10所示。

      圖10(b)的仿真結果給出了運用“切割”假設法得到的針對100 μs 雷達信號設計的干擾波形,其中d=2.952 0。

      圖10 100 μs內(nèi)信號的干擾效果圖Fig.10 Effect diagram of signal interference within 100 μs

      3.3 仿真3:與傳統(tǒng)算法對比分析

      在尋優(yōu)問題中,智能仿生算法也得到廣泛應用,其中蟻群算法具有較好的并行性和協(xié)作性,不妨將強化學習算法與蟻群算法進行對比。其設計步驟為:

      1)步驟1:將m只螞蟻隨機放入CFAR 距離單元中,起始信息素為0。

      2)步驟2:將間歇采樣信號的采樣時間倍數(shù)an作為螞蟻的動作變量。隨機選取ai為初始動作,進行間歇采樣轉(zhuǎn)發(fā)后計算比值d,并將螞蟻移至幅度最低的單元,每只螞蟻留下的信息素為,且。

      3)步驟3:第一次得到m條路徑后對信息素進行更新,選擇d最大的路徑為當前路徑,然后清空路徑表保留信息素,更新表達式為

      4)步驟4:重新將這組螞蟻隨機置于不同單元,重復步驟2 和3,對各代最佳路徑進行對比,能使各參考單元內(nèi)d值最大的一條路徑,就是最佳路徑。

      仿真參數(shù)設置:雷達信號長度為50 μs,其余參數(shù)與仿真1參數(shù)相同,螞蟻數(shù)量m為30,信息數(shù)揮發(fā)因子為0.2,迭代次數(shù)為100次,得到仿真圖如圖11所示。

      圖11 蟻群算法仿真圖Fig.11 Ant colony algorithm simulation diagram

      由圖11可知,蟻群算法也能完成對雷達信號的干擾,其中d=1.019 9。強化學習算法與蟻群算法均可實現(xiàn)對確定形式雷達信號的干擾。而d值在一定程度上反映了干擾效果,因此不妨令雷達信號長度依次為50 μs,100 μs,150 μs,…,300 μs,其他仿真參數(shù)均不變,分別計算d值,仿真結果如圖12所示。

      圖12 d值對比圖Fig.12 Contrast figure of‘d’

      由圖12 可知強化學習d值的變化范圍在2~3 之間,蟻群算法的變化范圍在1~1.5 之間。前者大于后者的原因在于強化學習是一個探索加利用的過程,設立了獎勵機制,先前學習到的結果可以為后面的學習提供參考,而蟻群算法前期搜索時間長以致收斂速度慢,并且解的質(zhì)量受參數(shù)的影響大。

      4 結束語

      本文針對傳統(tǒng)干擾系統(tǒng)干擾樣式單一、作戰(zhàn)效率低等問題,提出將強化學習算法與“切割”假設法相結合運用到干擾波形設計中,使干擾信號能夠達到自適應雷達信號變化的目的,同時將蟻群算法作為對比算法來驗證該方法的可行性和優(yōu)點。該方法從間歇采樣轉(zhuǎn)發(fā)干擾信號經(jīng)過匹配濾波器后的特性出發(fā),并用此特性來干擾檢測系統(tǒng)中的恒虛警概率。仿真結果表明,強化學習算法與假設法相結合能夠自適應雷達信號的變化,實時設計干擾波形。本文所提的基于強化學習算法的自適應波形設計理論和仿真分析結果可以為干擾波形的工程化應用提供理論參考。

      猜你喜歡
      干擾信號間歇幅度
      間歇供暖在散熱器供暖房間的應用
      煤氣與熱力(2022年4期)2022-05-23 12:44:46
      正弦采樣信號中單一脈沖干擾信號的快速剔除實踐方法
      電氣技術(2021年3期)2021-03-26 02:46:08
      基于粒子群算法的光纖通信干擾信號定位方法
      微波超寬帶高速數(shù)控幅度調(diào)節(jié)器研制
      基于ANSYS的四連桿臂架系統(tǒng)全幅度應力分析
      管群間歇散熱的土壤溫度響應與恢復特性
      淺析監(jiān)控干擾信號的優(yōu)化處置措施
      相參雷達典型干擾信號產(chǎn)生及關鍵技術
      2014年中期預增(降)幅度最大的50家上市公司
      間歇精餾分離喹啉和異喹啉的模擬
      富源县| 卢龙县| 遂平县| 北辰区| 泾川县| 抚顺市| 闸北区| 理塘县| 新泰市| 简阳市| 望谟县| 长治县| 夏津县| 黄大仙区| 北票市| 南陵县| 广宗县| 客服| 大渡口区| 托克逊县| 视频| 南雄市| 靖州| 商洛市| 封丘县| 察隅县| 济源市| 辉县市| 佳木斯市| 太仆寺旗| 古田县| 曲靖市| 新疆| 北川| 沾化县| 沙洋县| 开封市| 金湖县| 博白县| 皮山县| 洪江市|