• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于隨機(jī)森林強(qiáng)化學(xué)習(xí)的干擾智能決策方法研究*

      2019-10-09 05:22:22裴緒芳陳學(xué)強(qiáng)呂麗剛張雙義劉松儀汪西明
      通信技術(shù) 2019年9期
      關(guān)鍵詞:時(shí)隙信道狀態(tài)

      裴緒芳,陳學(xué)強(qiáng),呂麗剛,張雙義,劉松儀,汪西明

      (1.中國(guó)人民解放軍陸軍工程大學(xué) 通信工程學(xué)院,江蘇 南京 210000;2.中央軍委訓(xùn)練管理部信息中心,北京 100000)

      0 引 言

      電磁空間是現(xiàn)代戰(zhàn)爭(zhēng)作戰(zhàn)概念和技術(shù)的重要拓展,作為未來(lái)戰(zhàn)爭(zhēng)體系的物質(zhì)基礎(chǔ),電磁頻譜的爭(zhēng)奪和反爭(zhēng)奪將成為戰(zhàn)爭(zhēng)制勝的關(guān)鍵[1-2]。近年來(lái),人工智能技術(shù)的迅猛發(fā)展為電子對(duì)抗領(lǐng)域開辟了新的思路[3-6]。為提高惡劣電磁環(huán)境下的通信對(duì)抗能力,急需研究應(yīng)對(duì)敵方干擾攻擊的抗干擾技術(shù),以保障己方在惡劣電磁環(huán)境中的正常通信。同時(shí),利用干擾攻擊影響并破壞敵方的無(wú)線通信,也是提升通信對(duì)抗能力不可或缺的一部分。在電磁頻譜對(duì)抗環(huán)境下,為了對(duì)敵方通信實(shí)施有效干擾,引入了智能干擾的概念。

      傳統(tǒng)的干擾模式主要有定點(diǎn)干擾、掃頻干擾、梳狀干擾和跟蹤干擾等。然而,由于這幾類干擾模式相對(duì)固定且模式單一,通信用戶可以輕易尋找到干擾的變化規(guī)律而成功躲避干擾。若要對(duì)敵方通信實(shí)現(xiàn)精準(zhǔn)有效干擾,必須提高干擾算法的智能性。針對(duì)現(xiàn)有干擾技術(shù)存在的缺點(diǎn)與不足,美國(guó)國(guó)防高級(jí)研究局(DARPA)開展了行為學(xué)習(xí)自適應(yīng)電子戰(zhàn)(BLADE)、自適應(yīng)雷達(dá)對(duì)抗(ARC)和極端射頻條件下的通信等研究項(xiàng)目,引入自主學(xué)習(xí)機(jī)制以實(shí)現(xiàn)穩(wěn)健通信,獲取戰(zhàn)場(chǎng)環(huán)境的電磁權(quán)。相比于傳統(tǒng)的干擾技術(shù),智能干擾所面臨的挑戰(zhàn)主要有:(1)敵方通信用戶通信策略時(shí)刻變化,目標(biāo)識(shí)別獲取困難,干擾方需要準(zhǔn)確獲取目標(biāo)特征,快速生成最佳干擾;(2)干擾方必須具備在線持續(xù)學(xué)習(xí)能力,根據(jù)環(huán)境的動(dòng)態(tài)變化不斷產(chǎn)生后續(xù)干擾策略。

      近年來(lái),很多學(xué)者在智能干擾方面展開了研究[7-10]。文獻(xiàn)[7]研究了多天線MIMO無(wú)線通信鏈路的智能干擾攻擊問題,提出了一種最優(yōu)干擾信號(hào)設(shè)計(jì)方案,當(dāng)收發(fā)機(jī)采用抗干擾機(jī)制時(shí),可以最大限度地干擾MIMO傳輸。文獻(xiàn)[8]研究了干擾偽隨機(jī)碼相位調(diào)制引信,提出了一種基于多時(shí)延智能欺騙的新型干擾方法,并通過仿真驗(yàn)證了智能干擾算法的有效性。文獻(xiàn)[9]提出了一種多臂式結(jié)構(gòu)的干擾策略,能夠自適應(yīng)調(diào)整功率,有效地干擾敵方用戶通信,且證明了算法可以收斂到最優(yōu)干擾策略。文獻(xiàn)[10]從強(qiáng)化學(xué)習(xí)的角度出發(fā),設(shè)計(jì)了一種基于強(qiáng)化學(xué)習(xí)的智能干擾算法,干擾機(jī)通過自主學(xué)習(xí),可以實(shí)現(xiàn)對(duì)敵方通信用戶進(jìn)行跟蹤干擾的目的。

      受文獻(xiàn)[10]的啟發(fā),本文提出了一種基于隨機(jī)森林強(qiáng)化學(xué)習(xí)的智能干擾算法。干擾方可以通過學(xué)習(xí)用戶的信道切換規(guī)律,不斷優(yōu)化干擾策略。與文獻(xiàn)[10]不同之處在于:(1)在系統(tǒng)模型層面,文獻(xiàn)[10]只考慮干擾單個(gè)通信用戶,而本文同時(shí)干擾兩個(gè)通信用戶;(2)在算法設(shè)計(jì)層面,文獻(xiàn)[10]使用經(jīng)典Q學(xué)習(xí)算法,而本文提出了一種基于隨機(jī)森林強(qiáng)化學(xué)習(xí)的智能干擾算法;(3)本文所提算法重新定義了系統(tǒng)的效用回報(bào)為干擾的占空比,算法收斂速度更快。

      文章章節(jié)設(shè)置如下:第1節(jié)給出系統(tǒng)模型,并將干擾策略的決策過程建模為一個(gè)MDP過程;第2節(jié)針對(duì)建立的問題模型,提出了一種基于隨機(jī)森林強(qiáng)化學(xué)習(xí)的智能干擾算法;第3節(jié)給出了仿真結(jié)果,并分析了算法性能;最后,進(jìn)行總結(jié)。

      1 系統(tǒng)模型及問題建模

      1.1 系統(tǒng)模型

      本文考慮無(wú)線通信網(wǎng)絡(luò)中存在1個(gè)干擾機(jī)、1個(gè)認(rèn)知引擎和2個(gè)用戶,系統(tǒng)模型如圖1所示。系統(tǒng)的全頻段頻譜被劃分為M個(gè)帶寬相等的信道,信道集表示為每個(gè)信道帶寬為W。通信用戶雙方采用掃頻、梳狀以及隨機(jī)等信道切換策略進(jìn)行通信,干擾方通過認(rèn)知引擎獲得信道狀態(tài)信息,并根據(jù)獲得的信道狀態(tài)信息執(zhí)行強(qiáng)化學(xué)習(xí)算法來(lái)學(xué)習(xí)用戶的信道切換規(guī)律,以不斷優(yōu)化自身的干擾策略。假設(shè)每個(gè)用戶在每時(shí)隙只選擇一個(gè)信道進(jìn)行通信,干擾方同時(shí)干擾兩個(gè)信道。

      圖1 系統(tǒng)模型

      1.2 問題建模

      考慮到用戶通信信道時(shí)刻動(dòng)態(tài)變化,干擾方需要探索用戶的通信規(guī)律,以對(duì)其實(shí)施有效干擾。假設(shè)系統(tǒng)中存在M個(gè)可用信道,為了使描述更直觀,以M=7為例進(jìn)行舉例說(shuō)明。假設(shè)用戶1以掃頻方式通信,用戶2以固定序列跳頻方式通信,其用戶通信信道切換示意圖如圖2所示。

      圖2 用戶通信信道切換

      針對(duì)以上提出的問題,本文將干擾信道選擇問題建模為MDP過程。MDP一般用一個(gè)4元組表示,即,其中S代表狀態(tài)空間,A代表動(dòng)作空間,P代表狀態(tài)轉(zhuǎn)移概率,R代表效用回報(bào)。具體定義如下。

      設(shè)置狀態(tài)空間s:在n時(shí)隙時(shí),干擾方的狀態(tài)可 表 示 為sn=(cu1,cu2),cu1,cu2∈ {1,2,…,M}, 其 中cu1、cu2通過認(rèn)知引擎的頻譜感知獲得,分別代表當(dāng)前用戶1和用戶2的通信信道,因此狀態(tài)空間的大小為

      設(shè)置動(dòng)作空間A:在n時(shí)隙時(shí),干擾方會(huì)選擇兩個(gè)信道進(jìn)行干擾,干擾的動(dòng)作可表示為an=(cj1,cj2),cj1,cj2∈ {1,2,…,M},cj1、cj2分 別 表 示 干擾方下一時(shí)刻選擇干擾的信道,因此動(dòng)作空間的大小為

      設(shè)置狀態(tài)轉(zhuǎn)移概率矩陣P:在n時(shí)隙時(shí),表示干擾方從當(dāng)前狀態(tài)sn選擇動(dòng)作an到達(dá)下一時(shí)隙狀態(tài)sn+1狀態(tài)的概率。

      設(shè)置干擾效用R:干擾的目標(biāo)是探索最優(yōu)的干擾信道選擇策略使得累計(jì)成功干擾概率最大。n時(shí)隙時(shí),在當(dāng)前狀態(tài)sn下,干擾選擇動(dòng)作an,此時(shí)獲得的回報(bào)值為rn。本文中定義的rn為n時(shí)隙干擾方的占空比,即用戶單個(gè)時(shí)隙內(nèi)成功干擾到用戶通信所占的比例,具體可表示為:

      其中Toverlap為n時(shí)隙內(nèi)用戶通信被干擾的時(shí)長(zhǎng),Tuser為用戶通信時(shí)隙長(zhǎng)度。

      本文中,系統(tǒng)的優(yōu)化目標(biāo)為尋找到最優(yōu)的干擾策略π,最大化系統(tǒng)累積成功干擾概率,即:

      根據(jù)對(duì)動(dòng)態(tài)環(huán)境下干擾信道決策問題的分析,將其建模為一個(gè)MDP。對(duì)于這種未知環(huán)境下的決策問題,通常采用強(qiáng)化學(xué)習(xí)(RL)[3]給予解決。近年來(lái),Q學(xué)習(xí)作為一種最典型的強(qiáng)化學(xué)習(xí)方法得到了廣泛應(yīng)用。與文獻(xiàn)[10]不同,由于本文的系統(tǒng)模型狀態(tài)空間較大,傳統(tǒng)的Q學(xué)習(xí)算法無(wú)法解決由維數(shù)增長(zhǎng)帶來(lái)的狀態(tài)空間巨大的問題,因此本文提出了一種基于隨機(jī)森林強(qiáng)化學(xué)習(xí)的智能干擾算法。

      2 基于隨機(jī)森林強(qiáng)化學(xué)習(xí)的智能干擾算法

      Q學(xué)習(xí)是一種無(wú)模型的在線學(xué)習(xí)算法,無(wú)需知道環(huán)境的先驗(yàn)知識(shí),直接通過與環(huán)境不斷交互獲得最優(yōu)的策略[3]。在執(zhí)行Q學(xué)習(xí)算法的過程中,智能體會(huì)維護(hù)一張Q值表,用于評(píng)估不同狀態(tài)下對(duì)應(yīng)各個(gè)動(dòng)作的優(yōu)劣程度。Q學(xué)習(xí)的基本原理如圖3所示。

      圖3 Q學(xué)習(xí)基本原理

      在執(zhí)行算法的初始時(shí)刻,Q值表為全零矩陣,智能體會(huì)根據(jù)當(dāng)前狀態(tài)sn做出一個(gè)動(dòng)作an,并獲得相應(yīng)的回報(bào)rn,同時(shí)更新Q值表。隨著智能體不斷地與環(huán)境進(jìn)行交互,Q值表趨于穩(wěn)定,策略逐漸收斂于最優(yōu)。

      為了使系統(tǒng)長(zhǎng)期累積回報(bào)最大化,需要將單步回報(bào)值進(jìn)行累加求和從而得到長(zhǎng)遠(yuǎn)回報(bào)。對(duì)于這種長(zhǎng)期任務(wù)下的回報(bào)值計(jì)算,需引入折扣因子γ。為評(píng)價(jià)在給定狀態(tài)下采取某個(gè)策略好壞,一般通過值函數(shù)來(lái)反映。因此,在某一策略π下獲得的γ折扣長(zhǎng)遠(yuǎn)累積回報(bào)可表示為[11]:

      智能體在狀態(tài)sn下采取動(dòng)作an獲得的Q值可表示為:

      目標(biāo)是找到最優(yōu)策略能夠獲得最大化折扣回報(bào),根據(jù)Bellman方程最優(yōu)策略下所對(duì)應(yīng)值函數(shù)V*(sn)可定義為[11]:

      同理可得,對(duì)于Q*(sn)函數(shù)的Bellman最優(yōu)方程可定義為:

      在本文所提的系統(tǒng)模型中,定義在sn狀態(tài)下選擇動(dòng)作an,同時(shí)獲得一個(gè)回報(bào)值rn,然后更新相應(yīng)的Q值。由于本文信道狀態(tài)數(shù)較多,所以采用了并行多步更新Q值的方式,即同時(shí)對(duì)每個(gè)狀態(tài)-動(dòng)作對(duì)的Q值進(jìn)行更新。Q學(xué)習(xí)算法的更新公式為:

      其中α表示學(xué)習(xí)速率,具體為α=1/(1+Ta(n)),Ta(n)是干擾的決策動(dòng)作an在過去n個(gè)時(shí)隙中執(zhí)行的次數(shù)。γ(0<γ≤1)表示折扣因子,ψ為干擾方在sn+1狀態(tài)下所有可選策略對(duì)應(yīng)的最大Q值,具體表示為:

      在Q學(xué)習(xí)算法執(zhí)行過程中,若干擾方每一步都根據(jù)當(dāng)前Q值選擇最優(yōu)策略,即最大Q值對(duì)應(yīng)的動(dòng)作,很容易陷入局部最優(yōu)而無(wú)法去探索更多的策略。與文獻(xiàn)[10]不同的是,本文的決策空間較大,若使用標(biāo)準(zhǔn)的Q學(xué)習(xí),會(huì)導(dǎo)致算法收斂速度較慢甚至無(wú)法收斂的情況。因此,本文提出了一種基于隨機(jī)森林強(qiáng)化學(xué)習(xí)的智能干擾算法,即在策略選擇過程中,通過增加一個(gè)附加值來(lái)探索最優(yōu)策略[5]。它可以平衡在策略選擇過程中探索與利用的關(guān)系,并且可以大大提高算法的收斂速度。策略更新公式為:

      其中CH是預(yù)先設(shè)定大于零的常數(shù),Wa(n)為偏差因子,具體表示為:

      其中Si(an)為選擇決策動(dòng)作an的第i個(gè)狀態(tài),rn為當(dāng)前狀態(tài)sn下的即時(shí)回報(bào)值。干擾在選擇并執(zhí)行動(dòng)作a(n)后,在第n+1時(shí)隙到達(dá)狀態(tài)

      在無(wú)線通信系統(tǒng)中,用戶以任意模式的信道切換策略進(jìn)行通信,干擾方執(zhí)行Q學(xué)習(xí)算法學(xué)習(xí)用戶的信道切換規(guī)律。在執(zhí)行算法的開始,干擾方的初始狀態(tài)設(shè)置為s0(cu1(0),cu2(0)),其中cu1(0)、cu2(0)分別為用戶1和用戶2在0-th的通信信道,由干擾方通過認(rèn)知引擎的頻譜感知獲得。干擾方在0-th隨機(jī)選擇兩個(gè)信道cj1(0)、cj2(0)釋放干擾信號(hào),并計(jì)算相應(yīng)的回報(bào)值。之后的Twbss時(shí)間內(nèi),干擾方通過認(rèn)知引擎的頻譜感知獲得當(dāng)前時(shí)刻用戶1和用戶2的通信信道cu1(1)、cu2(1),然后更新下一時(shí)隙的狀態(tài)為s1(cu1(1),cu2(1)),同時(shí)對(duì)Q值表中s0狀態(tài)下所有動(dòng)作的Q值進(jìn)行更新。算法依次迭代,最終在動(dòng)態(tài)變化的環(huán)境中收斂到最優(yōu)的干擾策略。詳細(xì)的算法流程如下:

      初始化:

      1.設(shè)置仿真時(shí)隙數(shù)為N(N>0),初始時(shí)隙為n=0。

      2.設(shè)置Q學(xué)習(xí)參數(shù)γ,初始化Q值表Q(s,a)=0。

      3.設(shè)置初始工作狀態(tài)為s0=(cu1(0),cu2(0)),其中cu1(0)、cu2(0)由認(rèn)知引擎的頻譜感知獲得。干擾方隨機(jī)從所有信道中選擇兩個(gè)信道作為初始干擾信道cj1(0)、cj2(0)。

      循環(huán)開始n=0,1,2,…,N-1

      4.干擾方在cu1(n)、cu2(n)信道上對(duì)用戶通信進(jìn)行干擾,干擾時(shí)隙長(zhǎng)度為Tjam,根據(jù)式(1)計(jì)算相應(yīng)的回報(bào)值rn。

      5.干擾方通過認(rèn)知引擎的頻譜感知獲得用戶當(dāng)前時(shí)刻的通信信道cu1(n+1)、cu2(n+1)。

      7.計(jì)算α=1/(1+Ta(n))。

      8.根據(jù)式(7)并行更新所有狀態(tài)-動(dòng)作對(duì)的Q值。

      9.n=n+1。

      10.更新狀態(tài),令sn+1=sn。

      循環(huán)結(jié)束

      3 仿真結(jié)果

      本節(jié)對(duì)所提基于隨機(jī)森林強(qiáng)化學(xué)習(xí)的智能干擾算法在MATLAB上進(jìn)行仿真驗(yàn)證,并分析其收斂性能。仿真中,假設(shè)用戶1以掃頻方式進(jìn)行通信,用戶2以固定跳頻序列方式進(jìn)行通信,其信道切換規(guī)律如表1所示。本文的主要系統(tǒng)參數(shù)設(shè)置如下:信道數(shù)M=16,學(xué)習(xí)速率α∈(0,1],折扣因子γ=0.8。仿真時(shí)隙參數(shù)設(shè)置如表2所示。

      表1 敵方用戶信道切換規(guī)律

      表2 仿真時(shí)隙參數(shù)設(shè)置

      圖4給出了系統(tǒng)采用不同干擾算法的干擾概率曲線。為了評(píng)估所提算法的性能,比較基于隨機(jī)森林強(qiáng)化學(xué)習(xí)的智能干擾算法、文獻(xiàn)[10]所提智能干擾算法和基于感知的隨機(jī)信道選擇算法的算法性能。圖4中干擾概率曲線是由干擾每20個(gè)時(shí)隙中成功干擾次數(shù)所占比例計(jì)算所得。通過圖4可以發(fā)現(xiàn),與文獻(xiàn)[10]所提智能干擾算法以及基于感知的隨機(jī)信道選擇算法相比,本文所提算法干擾性能良好,且較文獻(xiàn)[10]中提出的智能干擾算法相比,收斂速度更快。

      圖5中給出了干擾和用戶時(shí)頻圖。圖5(a)為在強(qiáng)化學(xué)習(xí)初期的干擾效果圖,開始階段干擾無(wú)法捕捉用戶的通信信道,只能通過隨機(jī)選擇的方式不斷探索規(guī)律,用戶被干擾的概率極低。圖5(b)為在強(qiáng)化學(xué)習(xí)末期(系統(tǒng)達(dá)到收斂條件)的干擾效果圖,圖中畫圈部分即表明用戶被干擾。經(jīng)過在線學(xué)習(xí),干擾找到了用戶的通信規(guī)律,基本上可以成功對(duì)用戶通信頻點(diǎn)進(jìn)行干擾。

      圖4 系統(tǒng)采用不同算法的干擾概率變化曲線

      圖5 干擾與用戶時(shí)頻圖

      4 結(jié) 語(yǔ)

      本文研究了頻譜對(duì)抗環(huán)境中干擾智能決策問題。將干擾方的信道決策過程建模為一個(gè)MDP,提出了一種基于隨機(jī)森林強(qiáng)化學(xué)習(xí)的智能干擾算法。為了證明所提算法的有效性,本文將所提算法與文獻(xiàn)[10]所提智能干擾算法和基于感知的隨機(jī)信道選擇算法進(jìn)行對(duì)比。仿真結(jié)果表明,所提算法的收斂速度最快,還可以根據(jù)當(dāng)前的用戶通信環(huán)境成功學(xué)習(xí)到最優(yōu)的干擾策略。本文為大規(guī)模無(wú)線網(wǎng)絡(luò)中的智能干擾研究提供了新的思路,未來(lái)將研究更加復(fù)雜的用戶通信策略,使通信對(duì)抗雙方更具有智能性。

      猜你喜歡
      時(shí)隙信道狀態(tài)
      狀態(tài)聯(lián)想
      復(fù)用段單節(jié)點(diǎn)失效造成業(yè)務(wù)時(shí)隙錯(cuò)連處理
      生命的另一種狀態(tài)
      一種高速通信系統(tǒng)動(dòng)態(tài)時(shí)隙分配設(shè)計(jì)
      時(shí)隙寬度約束下網(wǎng)絡(luò)零售配送時(shí)隙定價(jià)研究
      熱圖
      家庭百事通(2016年3期)2016-03-14 08:07:17
      堅(jiān)持是成功前的狀態(tài)
      山東青年(2016年3期)2016-02-28 14:25:52
      基于導(dǎo)頻的OFDM信道估計(jì)技術(shù)
      一種改進(jìn)的基于DFT-MMSE的信道估計(jì)方法
      基于MED信道選擇和虛擬嵌入塊的YASS改進(jìn)算法
      于田县| 德阳市| 屏边| 天等县| 蕲春县| 江华| 罗山县| 禹州市| 涟水县| 巴彦县| 鄂伦春自治旗| 大理市| 温泉县| 咸丰县| 信丰县| 临西县| 辽宁省| 葫芦岛市| 上饶县| 双桥区| 杭州市| 石林| 阳原县| 福建省| 政和县| 汕头市| 邻水| 吴桥县| 晋州市| 焉耆| 来安县| 西安市| 噶尔县| 恩平市| 湘乡市| 恩施市| 辽源市| 罗江县| 香格里拉县| 安阳市| 商城县|