夏成龍,李 祥,劉辰燁,楊 旸
(中國人民解放軍陸軍工程大學(xué) 通信工程學(xué)院,江蘇 南京 210007)
在未來的信息化戰(zhàn)場中,情報傳遞、戰(zhàn)場指揮、武器控制等絕大部分信息交互都通過數(shù)字化信息網(wǎng)絡(luò)實現(xiàn)??梢哉f,信息通信水平已經(jīng)成為影響現(xiàn)代戰(zhàn)爭成敗的最重要因素之一。如何取得信息化戰(zhàn)場中的“制信息權(quán)”,已經(jīng)成為軍事通信領(lǐng)域的研究熱點。機動性、靈活性是衡量作戰(zhàn)能力的重要標準,因此,便于“動中通”的無線通信手段和設(shè)備成為戰(zhàn)場信息傳輸?shù)闹匾M成部分。也正是因為無線通信的重要地位,無線通信干擾和抗干擾方之間的“矛盾之爭”日趨激烈。此外,人工智能技術(shù)的出現(xiàn)和日漸完善,大大提高了通信抗干擾方的智能化水平。因此,基于人工智能方法開展智能干擾技術(shù)研究,已成為當(dāng)務(wù)之急。
本文研究基于深度強化學(xué)習(xí)的智能干擾決策方法,基于Python 環(huán)境仿真分析了算法的有效性,得到了較好的干擾效果,能夠為智能化干擾設(shè)備的研制和實用化提供良好的理論驗證。
深度學(xué)習(xí)(Deep Learning,DL)的概念最先起源于人工神經(jīng)網(wǎng)絡(luò)的研究。直到2006 年,HINTON 在論文中詳細分析講解了DL 體系機構(gòu),掀起了深度學(xué)習(xí)研究的熱潮[1]。DL 的基本原理是通過學(xué)習(xí)一種分層的非線性網(wǎng)絡(luò)結(jié)構(gòu),計算樣本數(shù)據(jù)的分層特征或表示因子,其中的高層特征或因子由低層得到,在此基礎(chǔ)上得到樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,實現(xiàn)了用復(fù)雜函數(shù)逼近的目的[2]。通過學(xué)習(xí)過程得到的規(guī)律和復(fù)雜函數(shù),對文字、聲音、圖像等常用數(shù)據(jù)的解釋起到了很大的作用。DL 是一種復(fù)雜的機器學(xué)習(xí)算法,其最終目標是讓機器能夠像人一樣具有分析各種數(shù)據(jù)的能力[3]。因此,DL 更加強調(diào)對事物的感知和表達。在諸多技術(shù)領(lǐng)域中,DL 在語音和圖像識別方面取得了很好的研究和應(yīng)用成果。
DL 能使機器模仿復(fù)雜的人類思考活動,從而解決很多經(jīng)典算法束手無策的難題,使人工智能的相關(guān)技術(shù)取得了重大突破。作為機器學(xué)習(xí)領(lǐng)域最重要的研究熱點之一,DL 已經(jīng)在搜索技術(shù)、語音識別、數(shù)據(jù)挖掘、圖像分析、機器翻譯、推薦及個性化技術(shù)等眾多相關(guān)領(lǐng)域都取得了舉世矚目的成果。常見的深度學(xué)習(xí)模型主要有卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural NetWork,CNN)[4]、深度信念網(wǎng)絡(luò)(Deep Belief Network,DBN)[3]、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[3]等。
強化學(xué)習(xí)(Reinforcement Learning,RL)是機器學(xué)習(xí)的一個重要分支,是多學(xué)科、多領(lǐng)域交叉的產(chǎn)物。它的本質(zhì)是解決未知環(huán)境中的決策問題。強化學(xué)習(xí)來源于動物訓(xùn)練中經(jīng)常采用的“嘗試與獎勵”機制,通過與環(huán)境的交互取得獎勵(reword)來進行學(xué)習(xí),并進一步利用環(huán)境的反饋實現(xiàn)決策的優(yōu)化輸出。
RL 的基本實現(xiàn)框架如圖1 所示,是智能體(Agent)通過采取行動(Action)改變自己的狀態(tài)(State),從而與環(huán)境(Surrounding)發(fā)生交互并獲得獎勵(Reward)的循環(huán)過程。該過程是一個試探與評價的過程,其主要原理是通過比較Agent 在經(jīng)過一次次不同的行動后從環(huán)境中獲得的累計獎賞值,找到獎勵值最大的行動方式,以做出使目標最優(yōu)的決策。因此,RL 方法更加側(cè)重于選取解決問題的最優(yōu)策略。
圖1 強化學(xué)習(xí)的基本實現(xiàn)框架
由于RL 在學(xué)習(xí)過程中不需要提供額外信息,因此其在求解未知動態(tài)環(huán)境中的最優(yōu)策略方面具有很好的應(yīng)用價值,已經(jīng)廣泛應(yīng)用于仿真模擬、游戲博弈、金融經(jīng)濟、優(yōu)化與調(diào)度、機器人控制等眾多需要選擇決策的領(lǐng)域。而在通信系統(tǒng)的智能資源決策等問題中,RL 也可以達到很好的決策效果。
伴隨著科技進步和人類社會的飛速發(fā)展,越來越多復(fù)雜的現(xiàn)實任務(wù)場景出現(xiàn)了。它們大多擁有龐大雜亂的樣本數(shù)據(jù),需要利用DL 來獲取內(nèi)在規(guī)律和抽象表征,并以此為依據(jù)進行RL,從而尋求解決問題的最佳策略??紤]到上述應(yīng)用場景,將具有感知優(yōu)勢的DL 和具有決策優(yōu)勢的RL 相結(jié)合,深度強化學(xué)習(xí)(Deep Reinforcement Learning,DRL)應(yīng)運而生,而且迅速成為人工智能領(lǐng)域新的研究熱點。
DRL 是將DL 的感知能力和RL 的決策能力相結(jié)合的一種全新算法。輸入的文本、音頻、圖像、視頻等數(shù)據(jù)量巨大的復(fù)雜數(shù)據(jù),通過DRL 的處理,可以在無需人為干預(yù)的情況下,直接輸出最優(yōu)決策結(jié)果。這種從感知到動作的端到端的學(xué)習(xí),是一種更接近人類思維方式的人工智能學(xué)習(xí)方法,具有更強的通用性。DRL 的原理框架如圖2 所示。其學(xué)習(xí)過程可以描述如下:
圖2 深度強化學(xué)習(xí)原理框架圖
(1)從某個時刻開始,Agent 與環(huán)境交互得到環(huán)境的觀察,利用DL 方法來感知觀察環(huán)境和系統(tǒng)狀態(tài),從而得到環(huán)境和系統(tǒng)狀態(tài)的具體特征表示;
(2)基于DL 所得到的特征信息,RL 根據(jù)信息做出相應(yīng)的動作決策;
(3)當(dāng)動作作用于環(huán)境后,環(huán)境會對此動作做出反應(yīng),DL 從環(huán)境中獲得新的觀察,RL 從環(huán)境中獲得反饋獎賞,通過不斷循環(huán)以上過程,輸出可以實現(xiàn)目標的最優(yōu)策略。
近年來,由于巨大的應(yīng)用前景和強大的適用性,DRL 一直是人工智能領(lǐng)域的研究熱點,許多新的算法不斷提出。很多學(xué)者將深度學(xué)習(xí)與強化學(xué)習(xí)相結(jié)合并應(yīng)用到實際中[5-7],算是早期的DRL 雛形,但都不夠成熟,存在較多缺陷。
2012 年,深度學(xué)習(xí)在ImageNet 比賽大獲全勝。DeepMind 團隊想到把深度網(wǎng)絡(luò)與強化學(xué)習(xí)結(jié)合起來,基于強化學(xué)習(xí)領(lǐng)域很早就出現(xiàn)的值函數(shù)逼近(function approximation),通過深度神經(jīng)網(wǎng)絡(luò)這一神奇的工具,開創(chuàng)性地提出了深度Q 網(wǎng)絡(luò)(Deep Q-Network,DQN),巧妙地解決了狀態(tài)維數(shù)爆炸的問題。2013 年,DeepMind 團隊利用設(shè)計的DQN算法訓(xùn)練計算機進行Atari 游戲,成功使計算機在3款游戲上超過了人類的頂尖水平[8]??梢哉f,DQN是深度強化學(xué)習(xí)的開篇之作,也是最重要、最基礎(chǔ)的算法之一。DQN 被提出以后,深度強化學(xué)習(xí)開始進入廣泛應(yīng)用的階段。本文研究的智能干擾算法也是基于DQN 實現(xiàn)。
DQN 的模型結(jié)構(gòu)如圖3 所示。DQN 在訓(xùn)練過程中使用經(jīng)驗回放機制(experience replay)。而且其在訓(xùn)練時,通常要求樣本數(shù)據(jù)之間是相互獨立的。DQN 還單獨使用另一個網(wǎng)絡(luò)來產(chǎn)生目標Q 值。這些做法都可以大大降低樣本之間的關(guān)聯(lián)性,從而提高算法的穩(wěn)定性。
圖3 DQN 的模型結(jié)構(gòu)
實驗表明,DQN 在解決諸如Atari 2600 游戲等類真實環(huán)境的復(fù)雜問題時,表現(xiàn)出不遜色甚至超過人類頂尖玩家的競技水平,充分說明DQN 方法具有很強的適應(yīng)性和通用性。
本文基于深度強化學(xué)習(xí)中的深度Q 網(wǎng)絡(luò)算法(DQN),建立通信智能干擾系統(tǒng)模型,然后將感知到的頻譜數(shù)據(jù)作為狀態(tài),更好地描述動態(tài)條件下頻譜環(huán)境特征,構(gòu)建基于深度強化學(xué)習(xí)的決策網(wǎng)絡(luò),運用此網(wǎng)絡(luò)對頻譜信息進行處理,實現(xiàn)干擾策略在線學(xué)習(xí)與更新,并研究了基于深度強化學(xué)習(xí)的干擾方法。
智能干擾系統(tǒng)的組成如圖4 所示。系統(tǒng)共享多個可用信道。通信智能干擾子系統(tǒng)包括一臺干擾機和一臺頻譜感知設(shè)備,無線通信子系統(tǒng)由一對通信用戶(發(fā)送機和接收機)組成。感知設(shè)備負責(zé)頻譜的實時感知和獲取,干擾機負責(zé)干擾決策和發(fā)射干擾。通信系統(tǒng)具備多種通信模式,主要包括定頻、自適應(yīng)慢跳頻及快速跳頻通信。頻譜感知機會將感知到的頻譜數(shù)據(jù)傳送給智能干擾機,智能干擾機會根據(jù)監(jiān)測到的頻譜數(shù)據(jù)選擇干擾方式,最大化干擾效果。
圖4 智能干擾模型
本文著重討論感知機感知到的環(huán)境頻譜數(shù)據(jù)對干擾機決策的影響。為了便于計算和仿真,對感知機的感知效率和干擾機的功率等問題均進行理想化處理,即感知機能及時、準確地感知通信頻點,且干擾頻率與通信頻率一致即意味著干擾成功。
算法實現(xiàn)智能干擾的主要流程為:首先將干擾過程建模成一個MDP 模型,利用深度學(xué)習(xí)的強大的特征提取分析能力對動態(tài)、復(fù)雜的頻譜環(huán)境進行抽象提取,其次通過強化學(xué)習(xí)的不斷迭代和持續(xù)學(xué)習(xí)能力,不斷優(yōu)化長遠回報值,最終做出最佳決策。即干擾機通過接收到頻譜感知設(shè)備的頻譜圖,進一步?jīng)Q策出智能干擾策略。
首先構(gòu)建MDP 模型。馬爾科夫過程一般由四元組(S,A,P,R)所描述,其中S為狀態(tài)集,A為動作集,P為轉(zhuǎn)移概率,R為獎勵值集。頻譜感知設(shè)備不斷感知頻譜數(shù)據(jù)并進行存儲。a代表干擾機在經(jīng)過深度強化學(xué)習(xí)決策后作出的動作,a∈A;P={p(Sk+1)|Sk,ak}代表在狀態(tài)Sk下,干擾機做出干擾動作ak后轉(zhuǎn)移到狀態(tài)Sk+1的概率p∈P;r代表干擾機做出干擾動作后獲得的獎勵值r∈R。
依據(jù)以上模型,設(shè)獎勵函數(shù)Rj(干擾回報值)為:
式中:fu為干擾頻譜,fj為通信頻譜。當(dāng)干擾頻譜和通信頻譜重合,即fu=fj,表示干擾成功,則獲得回報值1;否則,fu≠fj表示干擾失敗,則回報值為0。干擾機的優(yōu)化目標是使累積的獎勵值最大,即:
式中:γ代表折扣因子,Rt代表在t時刻的獎勵值。St代表時間t之前的所有頻譜信息。文獻[9]的研究證明狀態(tài)集S可以通過頻譜強度熱力學(xué)圖(即頻譜的熱力學(xué)顏色)來表示,并以此來確定干擾策略。因此在動態(tài)環(huán)境中將頻譜熱力學(xué)圖作為狀態(tài)集。
輸入狀態(tài)為頻譜感知設(shè)備感知到用戶系統(tǒng)的頻譜瀑布圖,輸出的動作為干擾決策信道。在神經(jīng)網(wǎng)絡(luò)的設(shè)計上,利用卷積層提取頻譜信息,再用全連接層分析頻譜信息。神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示。
圖5 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
整體網(wǎng)絡(luò)結(jié)構(gòu)由兩個卷積層和兩個完全連接層構(gòu)成。卷積神經(jīng)網(wǎng)絡(luò)通過卷積和特征映射對圖像特征進行提取和降維處理,得到特征數(shù)據(jù);之后全連接層通過相連的點將提出到的特征進行綜合處理。數(shù)據(jù)處理后輸出估計的Q 函數(shù),最后根據(jù)Q函數(shù)輸出決策即將要執(zhí)行的干擾動作。
本文所設(shè)計的基于深度強化學(xué)習(xí)的智能干擾算法流程如以下偽代碼所示。
基于深度強化學(xué)習(xí)的智能干擾算法
初始化
(1)設(shè)定初始環(huán)境S1;
(2)經(jīng)驗回放庫M≠?,迭代次數(shù)t=0,初始化網(wǎng)絡(luò)參數(shù)θ為隨機值;
Whilet<T循環(huán)
(1)通過ε-greedy算法選擇干擾動作a;
(2)執(zhí)行a,并根據(jù)公式計算獎勵值;
(3)感知St+1,并把et=(St,at,Rt,St+1)存儲進回放庫M中;
(4)If sizeof(M)>N
從M中隨機選取e按照梯度下降法更新網(wǎng)絡(luò)參數(shù);
計算反饋目標值ηt=r(a)+λmaxQ(S',a';θt+1);
End if
結(jié)束循環(huán)
本文利用設(shè)計出的算法,在Python 下給出仿真參數(shù)的設(shè)置和仿真結(jié)果。考慮通信目標未跳頻通信模式進行干擾仿真,通信方在頻段內(nèi)以動態(tài)跳頻的方式每20 跳重復(fù)一次的跳頻規(guī)律,通信帶寬為20 MHz,跳頻周期為10 ms。圖6 為算法仿真所獲得的頻譜瀑布圖。圖6 中,灰色方塊為通信用戶的跳頻頻點,白色方塊為干擾機發(fā)送的干擾頻點。從圖6(a)可以看到,在學(xué)習(xí)剛開始時,干擾機不熟悉環(huán)境,因此干擾動作是隨機的。未經(jīng)深度強化學(xué)習(xí)的干擾機干擾效率差,不能有效跟上跳頻頻點。圖6(b)為經(jīng)過深度強化學(xué)習(xí)后的頻譜瀑布圖,從圖中可以看到,隨著算法收斂完成,干擾頻率會根據(jù)通信頻率而改變,干擾頻譜有效覆蓋了大多數(shù)用戶跳頻通信頻譜,充分證明了所提算法的有效性。干擾機有效學(xué)習(xí)到通信方的信道切換規(guī)律,而傳統(tǒng)跟蹤干擾方法由于傳輸時延問題并沒有智能干擾方法的效果明顯,因此從圖上可得所提深度強化學(xué)習(xí)算法具有更好的干擾效果。
圖6 算法所獲得的頻譜瀑布圖
改變通信方的通信跳頻參數(shù),進一步驗證智能干擾的適用性和智能性。首先改變跳頻序列周期,對不同跳頻序列周期的發(fā)送機進行干擾。圖7(a)、圖7(b)、圖7(c)選擇的跳頻序列周期分別為20,50,100,也就是跳頻序列每20,50,100 跳后循環(huán)重復(fù)一個周期。其中橫軸表示算法的迭代次數(shù),即頻譜感知和深度學(xué)習(xí)的次數(shù),縱軸表示通信目標的通信成功率,即能夠通信的頻點在總頻點中所占的比例??梢钥吹?,當(dāng)跳頻周期為20 和50時,干擾機經(jīng)過2 000 次頻譜感知和深度學(xué)習(xí)后,將通信方的通信成功率壓制到了10%左右,用戶機被成功干擾。而跳頻序列周期為100 的用戶機,也在3 000 多次迭代之后被成功干擾。
圖7 不同跳頻序列周期的仿真結(jié)果
之后改變跳頻帶寬,對不同跳頻帶寬的發(fā)送機進行干擾。圖8(a)、圖8(b)、圖8(c)選擇的跳頻帶寬分別是20 MHz,30 MHz,50 MHz。更寬的跳頻帶寬意味著跳頻可出現(xiàn)隨機頻點的范圍更大了??梢钥吹剑谏疃葟娀瘜W(xué)習(xí)的智能干擾效果明顯,達到了預(yù)計的80%的干擾成功率。
圖8 不同跳頻帶寬的仿真結(jié)果
考慮到電磁頻譜環(huán)境日益復(fù)雜,電磁頻譜對抗愈加激烈,本文對智能干擾決策方法進行了研究。在充分討論傳統(tǒng)干擾機干擾樣式貧乏、適用場景單一以及新興抗干擾手段復(fù)雜多變的研究現(xiàn)狀后,本文得出了“我方的干擾和攻擊技術(shù)己無法滿足通信對抗發(fā)展的需要”的結(jié)論。而后,本文充分討論了深度強化學(xué)習(xí)的原理和優(yōu)勢,提出了要將深入強化學(xué)習(xí)引入干擾技術(shù)。之后將干擾過程建模成一個MDP 過程,為提升干擾機在動態(tài)頻譜環(huán)境和大數(shù)據(jù)空間下的干擾能力,設(shè)計了基于深度強化學(xué)習(xí)的智能干擾方法。仿真結(jié)果表明,所提算法可以準確學(xué)習(xí)頻譜環(huán)境并進行有效干擾,對不同種類的跳頻通信信號具有很好的干擾效果??梢詾楹罄m(xù)干擾功能拓展開發(fā)、研究更加貼近實戰(zhàn)的智能干擾機提供理論依據(jù)。