• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于馬爾可夫的多功能雷達(dá)認(rèn)知干擾決策建模研究

      2022-08-17 09:44:38朱霸坤朱衛(wèi)綱高天昊
      關(guān)鍵詞:短語(yǔ)雷達(dá)決策

      朱霸坤, 朱衛(wèi)綱, 李 偉, 楊 瑩, 高天昊

      (1. 航天工程大學(xué)電子光學(xué)工程系, 北京 101416; 2. 電子信息系統(tǒng)復(fù)雜電磁環(huán)境效應(yīng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,河南 洛陽(yáng) 471032; 3. 航天工程大學(xué)研究生院, 北京 101416)

      0 引 言

      電磁空間是繼陸、海、空、天、網(wǎng)后又一個(gè)獨(dú)立的作戰(zhàn)空間和作戰(zhàn)域。電子戰(zhàn)作為贏得電磁頻譜戰(zhàn)的核心手段,也追隨著電磁頻譜裝備發(fā)展的趨勢(shì),朝著智能化、多功能化、網(wǎng)絡(luò)化的趨勢(shì)發(fā)展。多功能雷達(dá)依托于數(shù)字相控陣體制,具有快速的天線波束掃描能力和靈活的多波束形成能力,能夠?qū)崿F(xiàn)檢測(cè)、跟蹤、制導(dǎo)等多種功能,是各國(guó)電磁頻譜裝備體系中的核心關(guān)鍵裝備之一,對(duì)于戰(zhàn)爭(zhēng)的勝負(fù)至關(guān)重要。因此,針對(duì)多功能雷達(dá)的干擾,一直是各國(guó)研究的熱點(diǎn)之一。雷達(dá)干擾策略優(yōu)化是認(rèn)知電子戰(zhàn)過(guò)程中實(shí)現(xiàn)認(rèn)知干擾的關(guān)鍵環(huán)節(jié),包括雷達(dá)干擾決策和雷達(dá)干擾波形優(yōu)化兩個(gè)部分,而本文的主要研究?jī)?nèi)容為雷達(dá)干擾決策。雷達(dá)干擾決策是指在雷達(dá)對(duì)抗的過(guò)程中,干擾方以完成既定的戰(zhàn)術(shù)目標(biāo)為目的,選擇干擾樣式的過(guò)程。傳統(tǒng)的雷達(dá)干擾決策方法包括基于模板匹配的干擾決策方法、基于博弈論的干擾決策方法和基于推理的干擾決策方法。這三類(lèi)方法各有特點(diǎn),但無(wú)一例外都需要大量的先驗(yàn)數(shù)據(jù)作為決策的支撐。而多功能雷達(dá)波形靈活多變,自適應(yīng)能力強(qiáng),依靠對(duì)大量先驗(yàn)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析進(jìn)而得到干擾策略的方法面臨著先驗(yàn)數(shù)據(jù)獲取困難問(wèn)題,進(jìn)而會(huì)導(dǎo)致干擾決策時(shí)效性和有效性的降低。

      強(qiáng)化學(xué)習(xí)是當(dāng)前機(jī)器學(xué)習(xí)研究中的熱門(mén)算法,已經(jīng)在游戲、機(jī)器人控制、無(wú)人駕駛、金融交易和建筑規(guī)劃等領(lǐng)域取得了廣泛的應(yīng)用,在干擾決策領(lǐng)域也得到了越來(lái)越多學(xué)者的青睞?;趶?qiáng)化學(xué)習(xí)的干擾決策方法具備一定的認(rèn)知能力,能夠在缺乏先驗(yàn)數(shù)據(jù)的情況下通過(guò)“試錯(cuò)”的方式學(xué)習(xí)得到最佳的干擾策略。文獻(xiàn)[14-17]和文獻(xiàn)[18]分別采用了基于Q-Learning和基于深度Q神經(jīng)網(wǎng)絡(luò)(deep Q network, DQN)的方法進(jìn)行雷達(dá)干擾決策,研究和驗(yàn)證了將強(qiáng)化學(xué)習(xí)算法應(yīng)用于干擾決策的可行性,但相關(guān)文獻(xiàn)在干擾決策過(guò)程的建模中還存在一些分歧,如多功能雷達(dá)信號(hào)的建模、雷達(dá)狀態(tài)的界定等問(wèn)題。

      本文主要是通過(guò)對(duì)多功能雷達(dá)信號(hào)和雷達(dá)對(duì)抗過(guò)程的研究,完善雷達(dá)認(rèn)知干擾決策模型的相關(guān)細(xì)節(jié),并在此模型的基礎(chǔ)上進(jìn)行仿真實(shí)驗(yàn),驗(yàn)證模型和算法的相關(guān)性能。本文以理論基礎(chǔ)、系統(tǒng)設(shè)計(jì)、模型算法研究的遞進(jìn)次序,分別研究了多功能雷達(dá)信號(hào)模型、認(rèn)知干擾決策系統(tǒng)和認(rèn)知干擾決策的馬爾可夫決策過(guò)程(Markov decision process, MDP)模型3個(gè)方面的內(nèi)容。

      1 多功能雷達(dá)信號(hào)模型研究

      1.1 多層級(jí)的多功能雷達(dá)信號(hào)模型

      多功能雷達(dá)是指能序貫執(zhí)行大量雷達(dá)任務(wù),具有多種雷達(dá)功能的雷達(dá)系統(tǒng),一般通過(guò)相控陣天線來(lái)實(shí)現(xiàn)。相比于傳統(tǒng)雷達(dá),多功能雷達(dá)具備瞬時(shí)改變雷達(dá)信號(hào)參數(shù)的能力,因此多功能雷達(dá)在時(shí)間和空間域上都具有很強(qiáng)的靈活性,并且能夠根據(jù)目標(biāo)和環(huán)境特性自適應(yīng)地調(diào)整性能指標(biāo)。多功能雷達(dá)的靈活性和自適應(yīng)性使其具有十分復(fù)雜的信號(hào)形式,傳統(tǒng)的基于統(tǒng)計(jì)的電子偵察模型難以對(duì)其進(jìn)行準(zhǔn)確描述。

      對(duì)此,Visenevski等人提出了多層級(jí)的多功能雷達(dá)信號(hào)模型。如圖1所示,該模型分為3層,分別為雷達(dá)字層、雷達(dá)短語(yǔ)層和雷達(dá)句子層。其中,雷達(dá)字為有限數(shù)目雷達(dá)脈沖的固定排列,是最基本的信號(hào)單元;有限個(gè)雷達(dá)字又構(gòu)成了雷達(dá)短語(yǔ),雷達(dá)短語(yǔ)的排列固定,由特定的文法規(guī)則產(chǎn)生,影響著多功能雷達(dá)在不同環(huán)境下的工作性能。雷達(dá)短語(yǔ)最終構(gòu)成了雷達(dá)句子。雷達(dá)句子是雷達(dá)信號(hào)序列高度符號(hào)化的形式。多層級(jí)的多功能雷達(dá)信號(hào)模型采用符號(hào)化的語(yǔ)言對(duì)雷達(dá)信號(hào)進(jìn)行表征,通過(guò)簡(jiǎn)潔的符號(hào)序列保留了雷達(dá)信號(hào)中的絕大部分關(guān)鍵特征信息,為多功能雷達(dá)信號(hào)的相關(guān)研究工作打下了良好的基礎(chǔ)。本節(jié)主要基于多層級(jí)的多功能雷達(dá)信號(hào)模型研究多功能雷達(dá)信號(hào)。

      圖1 多層級(jí)的多功能雷達(dá)信號(hào)模型Fig.1 Multi-level multi-functional radar signal model

      1.2 雷達(dá)狀態(tài)

      在多功能雷達(dá)中,一種雷達(dá)功能的實(shí)現(xiàn)需要序貫地執(zhí)行一系列的雷達(dá)任務(wù),多種雷達(dá)功能常以時(shí)分復(fù)用的形式并行執(zhí)行。如圖2所示,多功能雷達(dá)的任務(wù)調(diào)度模塊會(huì)根據(jù)雷達(dá)功能和雷達(dá)任務(wù)的優(yōu)先級(jí)排序生成任務(wù)序列。在生成任務(wù)序列后,多功能雷達(dá)會(huì)依據(jù)目標(biāo)和環(huán)境特性為雷達(dá)任務(wù)選擇雷達(dá)短語(yǔ)。而雷達(dá)短語(yǔ)序列會(huì)轉(zhuǎn)換為雷達(dá)字序列,最后映射為雷達(dá)脈沖信號(hào)。

      圖2 多功能雷達(dá)工作原理簡(jiǎn)圖Fig.2 Diagram of working principle of multi-functional radar

      多功能雷達(dá)的信號(hào)靈活多變,因此要對(duì)多功能雷達(dá)實(shí)施有效的干擾,需要實(shí)時(shí)地獲取雷達(dá)的工作狀態(tài)信息,以支撐干擾策略的快速調(diào)整??梢哉f(shuō),雷達(dá)狀態(tài)識(shí)別是多功能雷達(dá)對(duì)抗的基礎(chǔ),將雷達(dá)對(duì)抗中雷達(dá)的行為過(guò)程分解為離散的雷達(dá)狀態(tài)是進(jìn)行干擾決策的前提條件。在文獻(xiàn)[25]中,雷達(dá)狀態(tài)被定義為:以干擾方所接收的信號(hào)參數(shù)為基本依據(jù)而界定的目標(biāo)雷達(dá)所處的情況。而關(guān)于雷達(dá)狀態(tài)的表征方法,目前還存在著分歧。文獻(xiàn)[14]將雷達(dá)工作模式作為雷達(dá)狀態(tài),但多功能雷達(dá)在同一工作模式下會(huì)根據(jù)環(huán)境和目標(biāo)特性選取不同的雷達(dá)短語(yǔ),僅憑工作模式還不足以為干擾決策提供充足的信息。文獻(xiàn)[15]在已有的脈沖描述字和輻射源描述字的基礎(chǔ)上選取特征表征雷達(dá)狀態(tài),但如何選取特征,選取哪些特征又成為新的問(wèn)題。文獻(xiàn)[18]將雷達(dá)任務(wù)作為雷達(dá)狀態(tài),雷達(dá)任務(wù)雖與雷達(dá)短語(yǔ)有關(guān)但和雷達(dá)短語(yǔ)并不是一一對(duì)應(yīng)的關(guān)系,因此并不能用嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)符號(hào)來(lái)表示或者描述雷達(dá)任務(wù)。針對(duì)在當(dāng)前雷達(dá)狀態(tài)表征中存在的問(wèn)題,本文提出一種聯(lián)合雷達(dá)短語(yǔ)信息和雷達(dá)功能信息的雷達(dá)狀態(tài)表征方法。

      一款多功能雷達(dá),其雷達(dá)短語(yǔ)與雷達(dá)字之間映射關(guān)系是相對(duì)固定的,而且雷達(dá)字是雷達(dá)工程師經(jīng)過(guò)大量實(shí)驗(yàn)根據(jù)經(jīng)驗(yàn)設(shè)計(jì)出來(lái)的,也是相對(duì)固定的,所以導(dǎo)致多功能雷達(dá)的靈活性和自適應(yīng)性主要是雷達(dá)任務(wù)的調(diào)度機(jī)制和雷達(dá)短語(yǔ)的選取機(jī)制。在這兩個(gè)機(jī)制的作用下,多功能雷達(dá)生成了雷達(dá)短語(yǔ)序列,所以雷達(dá)短語(yǔ)序列集中反應(yīng)了多功能雷達(dá)的靈活性和自適應(yīng)性??梢钥紤]將雷達(dá)短語(yǔ)作為雷達(dá)狀態(tài),但同一雷達(dá)短語(yǔ)可能會(huì)被不同的雷達(dá)功能復(fù)用,這樣僅用雷達(dá)短語(yǔ)符號(hào)就無(wú)法區(qū)分不同雷達(dá)功能,進(jìn)而導(dǎo)致雷達(dá)短語(yǔ)序列中喪失多功能雷達(dá)信號(hào)中有關(guān)任務(wù)調(diào)度的信息。因此,可以考慮在雷達(dá)短語(yǔ)符號(hào)中加入雷達(dá)功能的信息進(jìn)行區(qū)分,使用雷達(dá)短語(yǔ)信息和雷達(dá)功能信息聯(lián)合表征雷達(dá)狀態(tài)。所以,雷達(dá)狀態(tài)可以用或者的語(yǔ)法結(jié)構(gòu)來(lái)表示,其中是多層級(jí)的多功能雷達(dá)信號(hào)模型中的雷達(dá)功能,是雷達(dá)短語(yǔ),是構(gòu)成雷達(dá)短語(yǔ)的雷達(dá)字,為了使表述更為簡(jiǎn)潔,將雷達(dá)狀態(tài)記為,,,…,其中,,表示不同的雷達(dá)狀態(tài),==;,,,,,,∈1,2,…。本文所提出的雷達(dá)狀態(tài)聯(lián)合表征的方法具有如下特點(diǎn)。

      (1) 聯(lián)合表征的雷達(dá)狀態(tài)本身就包含了雷達(dá)功能和雷達(dá)短語(yǔ)信息,并且在雷達(dá)狀態(tài)的變換中還隱藏著多功能雷達(dá)的任務(wù)調(diào)度和雷達(dá)短語(yǔ)選取的相關(guān)信息,能夠?yàn)槔走_(dá)的干擾決策提供較為充足的信息。

      (2) 本文所提的雷達(dá)狀態(tài)表征方法采用雷達(dá)功能和雷達(dá)短語(yǔ)聯(lián)合表征,而目前對(duì)于多功能雷達(dá)的工作模式識(shí)別和雷達(dá)字提取都有相關(guān)的研究,可以作為該方案可行性的支撐。

      (3) 雷達(dá)功能和雷達(dá)短語(yǔ)聯(lián)合表征的方法簡(jiǎn)單易操作,以簡(jiǎn)單的符號(hào)保留了最大量的雷達(dá)信號(hào)信息,且不需要進(jìn)行特征選擇、特征提取等操作。

      以水星功能雷達(dá)為例說(shuō)明雷達(dá)狀態(tài)的表征,水星多功能雷達(dá)可以實(shí)現(xiàn)5種雷達(dá)功能,分別為搜索、捕獲、非自適應(yīng)跟蹤、距離分辨、跟蹤保持,具有9種雷達(dá)字(,,…,)。9種雷達(dá)字一共構(gòu)成了43個(gè)雷達(dá)短語(yǔ),都是4字短語(yǔ),其中非自適應(yīng)跟蹤和跟蹤保持復(fù)用5個(gè)雷達(dá)短語(yǔ),捕獲、非自適應(yīng)跟蹤、跟蹤保持復(fù)用1個(gè)雷達(dá)短語(yǔ)。所以,水星多功能雷達(dá)共有50種雷達(dá)狀態(tài)。

      1.3 雷達(dá)狀態(tài)序列的馬爾可夫性

      按照第1.2節(jié)中提出的雷達(dá)狀態(tài)的表征方法,就可以將偵察感知環(huán)節(jié)得到的多功能雷達(dá)信號(hào)序列表示為雷達(dá)狀態(tài)序列,其形式如圖3所示。從雷達(dá)信號(hào)產(chǎn)生的角度出發(fā),多功能雷達(dá)的任務(wù)調(diào)度機(jī)制和雷達(dá)短語(yǔ)選擇機(jī)制直接影響了雷達(dá)狀態(tài)序列,因此可以通過(guò)分析多功能雷達(dá)的任務(wù)調(diào)度和雷達(dá)短語(yǔ)選擇機(jī)制研究雷達(dá)狀態(tài)序列的性質(zhì)。

      圖3 雷達(dá)狀態(tài)序列Fig.3 Radar state sequence

      任務(wù)調(diào)度:任務(wù)調(diào)度是指在給定雷達(dá)任務(wù)請(qǐng)求集合的條件下,根據(jù)某種準(zhǔn)則來(lái)安排任務(wù)的執(zhí)行序列,以期望在滿足系統(tǒng)約束的同時(shí),達(dá)到某種意義上的最優(yōu)調(diào)度結(jié)果。安排任務(wù)執(zhí)行序列的準(zhǔn)則被稱為調(diào)度策略,如圖4所示。多功能雷達(dá)的任務(wù)調(diào)度策略可以分為固定模板調(diào)度策略、多模板調(diào)度策略、自適應(yīng)調(diào)度策略和部分模板調(diào)度策略。

      圖4 4種調(diào)度策略的示意圖Fig.4 Schematic diagram of four scheduling strategies

      固定模板策略每次調(diào)度間隔按照相同的調(diào)度策略進(jìn)行調(diào)度安排,每個(gè)時(shí)間槽執(zhí)行確定的雷達(dá)任務(wù),若沒(méi)有相應(yīng)的雷達(dá)任務(wù)要執(zhí)行,則相應(yīng)的時(shí)間槽空出。多模板調(diào)度策略可以根據(jù)不同的場(chǎng)景選擇使用不同的模板。自適應(yīng)模板調(diào)度策略能綜合考慮資源、時(shí)間、戰(zhàn)場(chǎng)態(tài)勢(shì)等多種因素通過(guò)某種優(yōu)化算法選擇最佳的調(diào)度策略。部分模板調(diào)度策略則是固定模板調(diào)度策略和自適應(yīng)調(diào)度策略的結(jié)合。固定模板調(diào)度策略和多模板調(diào)度策略基于預(yù)設(shè)的調(diào)度模板,調(diào)度產(chǎn)生的雷達(dá)任務(wù)序列具有明顯的規(guī)律性,因而其產(chǎn)生的雷達(dá)任務(wù)序列具有馬爾可夫性。對(duì)于自適應(yīng)調(diào)度,雷達(dá)任務(wù)序列的產(chǎn)生受到任務(wù)規(guī)劃算法和各類(lèi)其他因素的影響,因此雷達(dá)任務(wù)序列受到任務(wù)規(guī)劃算法的影響,必然會(huì)包含某種規(guī)律,這種規(guī)律也會(huì)使雷達(dá)任務(wù)序列具有馬爾可夫性,部分模板調(diào)度策略同理。所以,可以用(+1|)表示雷達(dá)任務(wù)間的轉(zhuǎn)移概率。

      多功能雷達(dá)在生成雷達(dá)任務(wù)序列后,會(huì)根據(jù)目標(biāo)和環(huán)境特性選擇雷達(dá)短語(yǔ),因此可用(|,)來(lái)表示雷達(dá)短語(yǔ)選擇的策略,其中代表目標(biāo)和環(huán)境特性,是指在環(huán)境下,選擇雷達(dá)短語(yǔ)執(zhí)行雷達(dá)任務(wù)的概率。

      可以將雷達(dá)狀態(tài)間的轉(zhuǎn)移概率表示為

      (+1|)=(+1|)(|)

      (1)

      雷達(dá)任務(wù)反應(yīng)了雷達(dá)功能,雷達(dá)功能和雷達(dá)短語(yǔ)聯(lián)合表征了雷達(dá)狀態(tài),因此(|)=1,進(jìn)一步推導(dǎo)可得

      (+1|)=(+1|)=(+1|)(+1|+1,+1)

      (2)

      (+1|)(+1|+1,+1)體現(xiàn)了多功能雷達(dá)任務(wù)調(diào)度和選擇雷達(dá)短語(yǔ)的工作過(guò)程。

      (+1|)反應(yīng)了雷達(dá)狀態(tài)序列的馬爾可夫性,該馬爾可夫性受到多功能雷達(dá)的雷達(dá)任務(wù)調(diào)度策略、雷達(dá)短語(yǔ)選擇策略和目標(biāo)環(huán)境特性的影響。雷達(dá)狀態(tài)數(shù)量是有限的,可以用一個(gè)馬爾可夫狀態(tài)轉(zhuǎn)移模型來(lái)描述雷達(dá)狀態(tài)間的關(guān)系,圖5為雷達(dá)狀態(tài)數(shù)量為7時(shí)的馬爾可夫狀態(tài)轉(zhuǎn)移模型示意圖,通過(guò)狀態(tài)轉(zhuǎn)移概率描述7種雷達(dá)狀態(tài)間的轉(zhuǎn)換關(guān)系,(|)表示雷達(dá)狀態(tài)轉(zhuǎn)移到雷達(dá)狀態(tài)的概率。

      圖5 雷達(dá)狀態(tài)的馬爾可夫狀態(tài)轉(zhuǎn)移模型示意圖Fig.5 Schematic diagram of Markov state transition model of radar state

      2 認(rèn)知干擾決策系統(tǒng)

      針對(duì)多功能雷達(dá)信號(hào)靈活多變,并且能夠根據(jù)目標(biāo)環(huán)境特性調(diào)整信號(hào)波形的特點(diǎn),需要設(shè)計(jì)一種具備認(rèn)知能力的干擾決策系統(tǒng),能夠在沒(méi)有先驗(yàn)信息的情況下,實(shí)時(shí)學(xué)習(xí)雷達(dá)的狀態(tài)轉(zhuǎn)移特性并選擇合適的干擾樣式實(shí)施干擾。圖6為本文設(shè)計(jì)的認(rèn)知干擾決策系統(tǒng),主要包括偵察感知模塊、認(rèn)知干擾決策模塊和干擾實(shí)施模塊3個(gè)模塊。偵察感知模塊包括信號(hào)接收設(shè)備、信號(hào)處理、信號(hào)特征提取及識(shí)別的軟硬件設(shè)備,主要對(duì)目標(biāo)信號(hào)進(jìn)行搜索、檢測(cè)、截獲;測(cè)量基本參數(shù);形成對(duì)認(rèn)知干擾決策有用的信息。認(rèn)知干擾決策模塊可細(xì)分為策略學(xué)習(xí)模塊和干擾決策模塊,是認(rèn)知干擾決策系統(tǒng)的大腦,主要硬件為一臺(tái)計(jì)算機(jī),內(nèi)嵌策略學(xué)習(xí)和干擾決策的相關(guān)算法。干擾實(shí)施模塊包括干擾波形發(fā)生器和干擾波形庫(kù)等軟硬件設(shè)備,主要功能是執(zhí)行認(rèn)知干擾決策模塊的指令,最終對(duì)威脅目標(biāo)實(shí)施干擾。

      圖6 認(rèn)知干擾決策系統(tǒng)Fig.6 Cognitive interference decision system

      圖7以時(shí)隙結(jié)構(gòu)圖的形勢(shì)展示了雷達(dá)對(duì)抗過(guò)程中認(rèn)知干擾決策系統(tǒng)各模塊的工作情況,不同顏色的時(shí)間塊代表不同的工作階段。

      圖7 認(rèn)知干擾決策系統(tǒng)的工作時(shí)隙圖Fig.7 Working time slot diagram of a cognitive interference decision system

      圖7中,時(shí)隙結(jié)構(gòu)圖的起始時(shí)間為,時(shí)刻干擾實(shí)施模塊開(kāi)始發(fā)射干擾信號(hào)對(duì)多功能雷達(dá)進(jìn)行干擾。干擾信號(hào)并不會(huì)立刻到達(dá)多功能雷達(dá),而是存在一個(gè)電磁波傳播的延遲。多功能雷達(dá)接收到干擾信號(hào)后,會(huì)進(jìn)行相關(guān)的信號(hào)處理、雷達(dá)信號(hào)參數(shù)的選擇和波形優(yōu)化,稱為雷達(dá)的反應(yīng)時(shí)間,用表示。同樣,對(duì)于干擾決策系統(tǒng)也存在一個(gè)反應(yīng)時(shí)間,用表示,等于兩部分時(shí)間之和,分別是策略學(xué)習(xí)的時(shí)間和干擾決策的時(shí)間。認(rèn)知干擾決策系統(tǒng)中,偵察感知、策略學(xué)習(xí)、干擾決策和干擾實(shí)施的順序循環(huán)構(gòu)成了認(rèn)知干擾決策的閉環(huán),完成一個(gè)認(rèn)知閉環(huán)所需的時(shí)間稱為一個(gè)時(shí)間步,用steptime表示,其計(jì)算方法如下:

      steptime=2++=2+++

      (3)

      每一次認(rèn)知閉環(huán)的完成,都意味著多功能雷達(dá)與認(rèn)知干擾決策系統(tǒng)進(jìn)行了一次交互,而交互過(guò)后,多功能雷達(dá)遵循著自身固有的馬爾可夫性調(diào)整雷達(dá)狀態(tài),認(rèn)知干擾決策系統(tǒng)則會(huì)進(jìn)行策略學(xué)習(xí),通過(guò)策略學(xué)習(xí)不斷提升干擾策略,這一過(guò)程即為干擾決策系統(tǒng)的“認(rèn)知”過(guò)程。

      3 認(rèn)知干擾決策的MDP模型

      本節(jié)在前文研究的基礎(chǔ)上,將認(rèn)知干擾決策過(guò)程構(gòu)建為一個(gè)帶收益的MDP模型,并且在該模型的基礎(chǔ)上研究了求解干擾策略的認(rèn)知干擾決策算法。認(rèn)知干擾決策算法是認(rèn)知干擾決策系統(tǒng)中認(rèn)知干擾決策模塊的內(nèi)嵌算法,主要實(shí)現(xiàn)了策略學(xué)習(xí)和干擾決策功能。在本節(jié)中將以強(qiáng)化學(xué)習(xí)中的Q-Learning算法為基礎(chǔ)構(gòu)建認(rèn)知干擾決策算法。

      3.1 決策模型的構(gòu)建

      電子戰(zhàn)中的干擾效果評(píng)估,即評(píng)估電子對(duì)抗設(shè)備在規(guī)定的復(fù)雜電磁環(huán)境中,執(zhí)行干擾任務(wù)的能力,能否達(dá)到預(yù)期的干擾效果以及能達(dá)到的程度。文獻(xiàn)[1]將基于干擾效果的在線評(píng)估技術(shù)作為認(rèn)知電子戰(zhàn)的關(guān)鍵技術(shù)之一,而在基于強(qiáng)化學(xué)習(xí)的認(rèn)知干擾決策中,強(qiáng)化學(xué)習(xí)是通過(guò)收益的反饋引導(dǎo)智能體去學(xué)習(xí)和調(diào)整干擾策略,在整個(gè)過(guò)程中沒(méi)有明顯的干擾效果評(píng)估環(huán)節(jié)。干擾效果評(píng)估通常是對(duì)一次獨(dú)立的干擾行動(dòng)的干擾效果好壞進(jìn)行評(píng)估,利用干擾效果評(píng)估的結(jié)果可以修正單次干擾行動(dòng)的決策策略,以使得單次干擾行動(dòng)的干擾效果達(dá)到最好。強(qiáng)化學(xué)習(xí)中收益設(shè)置的目的,并不是使得單次的干擾效果達(dá)到最好,而是通過(guò)序列決策去達(dá)到某個(gè)戰(zhàn)術(shù)目的,這個(gè)戰(zhàn)術(shù)目的可以理解為使多功能雷達(dá)的雷達(dá)狀態(tài)轉(zhuǎn)移到某個(gè)或者某些狀態(tài)(例如:在戰(zhàn)機(jī)突防自衛(wèi)干擾的場(chǎng)景中,干擾的戰(zhàn)術(shù)目標(biāo)可以設(shè)置為讓多功能雷達(dá)處于非制導(dǎo)的雷達(dá)狀態(tài),可以是搜索或者跟蹤的雷達(dá)狀態(tài),這樣戰(zhàn)機(jī)就會(huì)一直處于一個(gè)不被制導(dǎo)波束照射的相對(duì)安全的狀態(tài),就可以成功突防)。因此,將認(rèn)知干擾決策問(wèn)題的戰(zhàn)術(shù)目的定義為:以最少的時(shí)間步使多功能雷達(dá)的雷達(dá)狀態(tài)轉(zhuǎn)移至目標(biāo)雷達(dá)狀態(tài),目標(biāo)雷達(dá)狀態(tài)可以是一個(gè),也可以是多個(gè)。這樣的戰(zhàn)術(shù)目的存在著兩方面的要求:① 直接要求,雷達(dá)狀態(tài)最終要轉(zhuǎn)移到目標(biāo)雷達(dá)狀態(tài);② 由實(shí)際戰(zhàn)場(chǎng)的實(shí)時(shí)性要求所帶來(lái)的隱含要求,即要以最少的時(shí)間轉(zhuǎn)移到目標(biāo)雷達(dá)狀態(tài)。在強(qiáng)化學(xué)習(xí)中,每一個(gè)回合的結(jié)束都意味著雷達(dá)狀態(tài)轉(zhuǎn)移到了目標(biāo)雷達(dá)狀態(tài),同時(shí)也意味著已經(jīng)完成了第一個(gè)方面的要求。所以在后續(xù)的研究中,主要以完成單個(gè)回合所需的時(shí)間步數(shù)來(lái)衡量算法的性能,最少的時(shí)間步數(shù)意味著最少的時(shí)間和最短的決策路徑,此時(shí)的策略也就是最佳的干擾策略。

      強(qiáng)化學(xué)習(xí)的決策過(guò)程是一個(gè)序列決策的過(guò)程,不再拘泥于單次的干擾行動(dòng),能充分圍繞目標(biāo)的實(shí)現(xiàn)靈活地進(jìn)行干擾決策,提升決策優(yōu)勢(shì),這與美軍提出的決策中心戰(zhàn)和馬賽克戰(zhàn)的理念將更加契合。序列決策是一種考慮更為長(zhǎng)遠(yuǎn),也更加智能的決策方式,判斷決策好壞的唯一標(biāo)準(zhǔn)是最終的戰(zhàn)術(shù)目的是否達(dá)到,而不是決策過(guò)程中某一步所選干擾樣式所產(chǎn)生的干擾效果。在基于強(qiáng)化學(xué)習(xí)的干擾決策中,收益的設(shè)置主要是依據(jù)專家的經(jīng)驗(yàn)和強(qiáng)化學(xué)習(xí)的相關(guān)理論,并且需要與認(rèn)知干擾決策的戰(zhàn)術(shù)目的相一致,即能夠完成戰(zhàn)術(shù)目的干擾策略可以獲得最大的收益。收益只需在對(duì)抗開(kāi)始之前進(jìn)行設(shè)置即可,在電子對(duì)抗中構(gòu)建收益函數(shù)的難度遠(yuǎn)低于在線的干擾效果評(píng)估。采用收益反饋的方式去引導(dǎo)干擾決策系統(tǒng)學(xué)習(xí)最佳的干擾策略,就可以在雷達(dá)狀態(tài)轉(zhuǎn)移馬爾可夫模型的基礎(chǔ)上將認(rèn)知干擾決策過(guò)程建模為一個(gè)帶收益的MDP模型。在本文中,由于沒(méi)有先驗(yàn)的專家經(jīng)驗(yàn),簡(jiǎn)單地將雷達(dá)狀態(tài)轉(zhuǎn)移至目標(biāo)雷達(dá)狀態(tài)的收益設(shè)置為100,其他情況下的收益設(shè)置為-1。這樣的收益設(shè)置,能保證強(qiáng)化學(xué)習(xí)的最佳策略滿足認(rèn)知干擾決策戰(zhàn)術(shù)目的兩方面的要求。

      認(rèn)知干擾決策的MDP模型如圖8所示,可用 {,,,}表示。,,,為MDP模型的四元組,其中是雷達(dá)狀態(tài)空間,是干擾樣式空間,是狀態(tài)轉(zhuǎn)移概率,是收益函數(shù)。對(duì)四元組詳細(xì)的定義如下:

      雷達(dá)狀態(tài)空間,:{=[,,…,]},雷達(dá)狀態(tài)空間中共有個(gè)雷達(dá)狀態(tài),=表示第個(gè)時(shí)間步的雷達(dá)狀態(tài)為,目標(biāo)雷達(dá)狀態(tài)記為,雷達(dá)狀態(tài)轉(zhuǎn)移至目標(biāo)雷達(dá)狀態(tài)代表一個(gè)干擾任務(wù)回合的結(jié)束。

      干擾樣式空間,:{=[,,…,]},干擾樣式空間共有種干擾樣式,=表示第個(gè)時(shí)間步的干擾樣式為。

      狀態(tài)轉(zhuǎn)移概率,在上文中用轉(zhuǎn)移概率(+1|)來(lái)描述雷達(dá)狀態(tài)間的馬爾可夫性,對(duì)于干擾方而言,采用何種干擾樣式進(jìn)行干擾是已知的,所以可以將狀態(tài)轉(zhuǎn)移概率寫(xiě)為={(+1|,)},(+1|,)表示在雷達(dá)狀態(tài)采取干擾樣式,雷達(dá)狀態(tài)轉(zhuǎn)移到+1的概率。

      收益函數(shù),:={(+1|)},(+1|)表示雷達(dá)狀態(tài)從轉(zhuǎn)移至+1干擾決策智能體獲得的收益,記為。收益函數(shù)為

      (4)

      圖8 認(rèn)知干擾決策的MDP模型Fig.8 MDP model of cognitive interference decision-making

      在認(rèn)知干擾決策的MDP模型中,干擾決策的目標(biāo)是尋找一個(gè)最佳干擾策略最大化累計(jì)收益,累計(jì)收益表示為=+1++2++3+…。其中,∈[0,1]為折扣率,表示未來(lái)的收益在當(dāng)前時(shí)刻的折現(xiàn)。干擾策略,即干擾決策系統(tǒng)選擇干擾樣式的方法,是雷達(dá)狀態(tài)到干擾樣式的映射:→。

      至此,雷達(dá)對(duì)抗中的認(rèn)知干擾決策問(wèn)題就被轉(zhuǎn)換為一個(gè)帶收益的MDP問(wèn)題,可以采用強(qiáng)化學(xué)習(xí)的方法來(lái)解決此類(lèi)問(wèn)題。

      3.2 基于Q-Learning的認(rèn)知干擾決策算法

      為了實(shí)現(xiàn)智能的序列決策,干擾機(jī)需要在對(duì)抗的過(guò)程中學(xué)習(xí)干擾策略,干擾策略是干擾機(jī)考慮長(zhǎng)遠(yuǎn)和智能的體現(xiàn),每一步中干擾樣式的選取都由干擾策略所決定。學(xué)習(xí)干擾策略的算法即認(rèn)知干擾決策算法。

      將雷達(dá)對(duì)抗中干擾機(jī)與多功能雷達(dá)的交互以圖9的形式展現(xiàn)。干擾機(jī)在當(dāng)前的時(shí)間步偵察到多功能雷達(dá)的雷達(dá)狀態(tài)為,干擾機(jī)根據(jù)雷達(dá)狀態(tài)的變換獲得收益,并在更新干擾策略后,采用干擾樣式對(duì)多功能雷達(dá)實(shí)施干擾,多功能雷達(dá)在受到干擾后,雷達(dá)狀態(tài)轉(zhuǎn)變?yōu)?span id="j5i0abt0b" class="subscript">+1,干擾機(jī)偵察到雷達(dá)狀態(tài)的變化并獲得收益+1,然后干擾機(jī)更新策略,并做出決策,如此反復(fù)迭代。干擾機(jī)就可以不斷地優(yōu)化干擾策略,使雷達(dá)狀態(tài)以最少的時(shí)間步轉(zhuǎn)換至目標(biāo)雷達(dá)狀態(tài)。這一交互的過(guò)程也就是強(qiáng)化學(xué)習(xí)的過(guò)程,考慮到雷達(dá)干擾決策問(wèn)題中干擾樣式-雷達(dá)狀態(tài)空間并不大,采用Q-Learning算法進(jìn)行認(rèn)知干擾決策。

      圖9 雷達(dá)對(duì)抗中的交互過(guò)程Fig.9 Interaction process in radar countermeasures

      在Q-Learning算法中,在狀態(tài)下依據(jù)策略選擇動(dòng)作所得到的累計(jì)收益期望被稱為狀態(tài)-動(dòng)作價(jià)值,記為(,)。(,)是選擇動(dòng)作的依據(jù),一般采用-greedy方法選擇動(dòng)作:

      (5)

      以1-的概率選擇使得當(dāng)前(,)達(dá)到最大的動(dòng)作,以的概率隨機(jī)選擇動(dòng)作,被稱為探索因子,用以平衡Q-Learning算法中的學(xué)習(xí)與探索。

      最佳策略滿足貝爾曼最優(yōu)方程:

      (,)=

      ∑(′,|,)[(,)+·max+(′,′)]

      (6)

      式中:′,′表示下一時(shí)刻的狀態(tài)和動(dòng)作;(′,|,)表示動(dòng)態(tài)環(huán)境特性;(,)表示關(guān)于狀態(tài)和動(dòng)作的函數(shù)。在Q-Learning中采用差分的方式對(duì)值進(jìn)行更新,不斷迭代直至(,)的值收斂就可以得到最佳策略;其表達(dá)式如下:

      (,)←(,)+[(,)+max(′,′)-(,)]

      (7)

      在雷達(dá)干擾決策問(wèn)題中,狀態(tài)即雷達(dá)狀態(tài),動(dòng)作即干擾機(jī)所采用的干擾樣式。在以上工作的基礎(chǔ)上,提出基于Q-Learning的認(rèn)知干擾決策算法如圖10所示。

      圖10 基于Q-Learning的認(rèn)知干擾決策算法Fig.10 Cognitive interference decision-making algorithm based on Q-Learning

      在實(shí)際的對(duì)抗過(guò)程中,可能需要經(jīng)歷多個(gè)任務(wù)回合才能讓認(rèn)知干擾決策系統(tǒng)學(xué)習(xí)到最佳的干擾策略。算法中展示的是在一個(gè)干擾任務(wù)回合中基于Q-Learning的干擾決策算法的實(shí)現(xiàn)過(guò)程,在干擾任務(wù)開(kāi)始之初,初始化的值表為0,干擾智能體對(duì)于干擾決策問(wèn)題毫無(wú)經(jīng)驗(yàn)。隨著時(shí)間步和任務(wù)回合數(shù)的增加,干擾智能體不斷學(xué)習(xí)到關(guān)于干擾決策的知識(shí),這種知識(shí)以值的形式存儲(chǔ)在表中,表在不斷地更新提升,干擾智能體就能在雷達(dá)干擾任務(wù)中做出越來(lái)越好的干擾決策,使雷達(dá)狀態(tài)以更少的時(shí)間步轉(zhuǎn)移到目標(biāo)雷達(dá)狀態(tài)。

      4 實(shí)驗(yàn)仿真和結(jié)果分析

      在實(shí)際的雷達(dá)對(duì)抗中,要實(shí)現(xiàn)對(duì)多功能雷達(dá)的認(rèn)知干擾,需要偵察感知、認(rèn)知干擾決策和干擾實(shí)施3個(gè)模塊相互配合,而本文研究的重點(diǎn)是認(rèn)知干擾決策模塊,所以實(shí)驗(yàn)仿真主要是為了驗(yàn)證基于Q-Learning的認(rèn)知干擾決策算法的性能。

      本節(jié)仿真了一個(gè)包含50個(gè)雷達(dá)狀態(tài)的多功能雷達(dá)模型,并假定認(rèn)知干擾決策系統(tǒng)可以選擇9種干擾樣式,雷達(dá)狀態(tài)與干擾樣式間的相互作用關(guān)系由隨機(jī)生成的狀態(tài)轉(zhuǎn)移矩陣決定,以驗(yàn)證基于Q-Learning的干擾決策算法的認(rèn)知特性,并測(cè)試其在不穩(wěn)定環(huán)境下的性能。

      4.1 仿真參數(shù)設(shè)置

      在本次實(shí)驗(yàn)中,仿真參數(shù)的設(shè)置分為多功能雷達(dá)狀態(tài)轉(zhuǎn)移模型的參數(shù)設(shè)置和干擾決策算法的參數(shù)設(shè)置。多功能雷達(dá)間的狀態(tài)按照概率={(+1|,)} 發(fā)生轉(zhuǎn)移,因此可以用一個(gè)××的三維矩陣描述在干擾樣式已知的情況下雷達(dá)狀態(tài)間的轉(zhuǎn)移關(guān)系,其中是干擾樣式的數(shù)量,是雷達(dá)狀態(tài)的數(shù)量,轉(zhuǎn)移矩陣的形式如圖11所示,由個(gè)×的矩陣構(gòu)成,分別是不同干擾樣式作用下的狀態(tài)轉(zhuǎn)移矩陣。

      圖11 多功能雷達(dá)的狀態(tài)轉(zhuǎn)移矩陣Fig.11 State transition matrix of multi-functional radar

      雷達(dá)狀態(tài)間的轉(zhuǎn)換情況可以用一張連通網(wǎng)絡(luò)來(lái)表示,采用python語(yǔ)言中的networks模塊生成隨機(jī)網(wǎng)絡(luò),如圖12(a)所示,網(wǎng)絡(luò)中的每一個(gè)節(jié)點(diǎn)為一個(gè)雷達(dá)狀態(tài),節(jié)點(diǎn)間用線相連表示雷達(dá)狀態(tài)間能夠轉(zhuǎn)換,單向箭頭表示能夠單向轉(zhuǎn)換,雙向箭頭表示能夠雙向轉(zhuǎn)換。狀態(tài)間的轉(zhuǎn)移概率用均值為、方差為的高斯分布隨機(jī)生成,并且滿足∈[0,1],同一雷達(dá)狀態(tài)轉(zhuǎn)移到其他雷達(dá)狀態(tài)的概率之和為1。將初始雷達(dá)狀態(tài)設(shè)為1,目標(biāo)雷達(dá)狀態(tài)數(shù)量為1個(gè),設(shè)為,即=,=,收益函數(shù)可以表示為

      (8)

      圖12 仿真實(shí)驗(yàn)的雷達(dá)狀態(tài)轉(zhuǎn)換情況Fig.12 Radar state transition of simulation experiment

      此外,基于Q-Learning的認(rèn)知干擾算法的需要設(shè)置3個(gè)參數(shù),參數(shù)設(shè)置如表 1所示。

      表1 干擾決策算法參數(shù)設(shè)置

      4.2 干擾決策算法的認(rèn)知特性驗(yàn)證

      將用于生成狀態(tài)轉(zhuǎn)移矩陣的高斯分布均值設(shè)置為1,方差設(shè)置為0,則在該條件下生成的狀態(tài)轉(zhuǎn)移矩陣是穩(wěn)定環(huán)境下的狀態(tài)矩陣,即對(duì)多功能雷達(dá)施加某一干擾樣式后,雷達(dá)狀態(tài)的轉(zhuǎn)移是確定的,干擾決策的環(huán)境是平穩(wěn)的。而作為干擾方,無(wú)論環(huán)境是否平穩(wěn),環(huán)境參數(shù)都是未知的。在仿真生成的穩(wěn)定環(huán)境中,保持決策算法的參數(shù)不變,進(jìn)行20次蒙特卡羅實(shí)驗(yàn),結(jié)果如圖13所示。

      圖13 認(rèn)知干擾決策算法的性能表現(xiàn)Fig.13 Performance of cognitive interference decision- making algorithms

      圖13的橫坐標(biāo)為認(rèn)知干擾決策系統(tǒng)與多功能雷達(dá)交互的回合數(shù),縱坐標(biāo)為在每一個(gè)回合中到達(dá)目標(biāo)狀態(tài)所需步數(shù)。在整個(gè)干擾任務(wù)開(kāi)始之初,雷達(dá)狀態(tài)到達(dá)目標(biāo)雷達(dá)狀態(tài)所需的步數(shù)需要200步以上,經(jīng)過(guò)不斷的交互學(xué)習(xí),所需步數(shù)最終收斂到5步左右。這充分體現(xiàn)了基于Q-Learning的干擾決策算法的認(rèn)知特性,能夠在缺乏先驗(yàn)知識(shí)的未知環(huán)境中,通過(guò)與環(huán)境的交互學(xué)習(xí),不斷提升干擾策略。由于存在0.1的探索率,所以曲線最終不會(huì)完全收斂到5步(見(jiàn)圖12(b),5步是最佳干擾策略所需的步數(shù)),也不會(huì)絕對(duì)的光滑。

      用干擾路徑來(lái)描述干擾決策的結(jié)果,在算法收斂后,所得干擾路徑為→→→→,共5步。圖12(b)中,紅色的箭頭是模型已知情況下用dijkstra算法所求最短路徑,用雷達(dá)狀態(tài)轉(zhuǎn)移路徑可表示為→→→→→,一共進(jìn)行5次狀態(tài)轉(zhuǎn)移,與采用干擾路徑進(jìn)行干擾所得結(jié)果相一致,這表明認(rèn)知干擾決策算法學(xué)習(xí)到了最佳的干擾策略。

      4.3 不穩(wěn)定環(huán)境下的算法性能分析

      考慮到在實(shí)際的雷達(dá)對(duì)抗過(guò)程中,對(duì)多功能雷達(dá)施加干擾后,雷達(dá)狀態(tài)的轉(zhuǎn)移不一定遵循著必然的規(guī)律,雷達(dá)狀態(tài)可能會(huì)發(fā)生轉(zhuǎn)移,也有可能不轉(zhuǎn)移,即環(huán)境的不穩(wěn)定性。在本文的仿真實(shí)驗(yàn)中,通過(guò)生成雷達(dá)狀態(tài)轉(zhuǎn)移矩陣的高斯分布控制環(huán)境的不穩(wěn)定性,均值越接近1,方差越小,環(huán)境越穩(wěn)定,均值越接近0,方差越大,環(huán)境越不穩(wěn)定。本節(jié)實(shí)驗(yàn)中主要討論非平穩(wěn)環(huán)境對(duì)算法性能的影響,所以將方差固定為(130),通過(guò)改變均值來(lái)控制環(huán)境的不穩(wěn)定性。將均值分別設(shè)置為01,03,05,07,09,1,在雷達(dá)狀態(tài)連通網(wǎng)絡(luò)相同的情況下,采用相同的干擾決策算法進(jìn)行仿真實(shí)驗(yàn),每一次改變值,進(jìn)行20次蒙特卡羅實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖14所示。

      圖14 不同穩(wěn)定性環(huán)境下認(rèn)知干擾決策算法性能對(duì)比Fig.14 Performance comparison of cognitive interference decision- making algorithm in different stable environment

      隨著值的不斷減小,曲線的起伏越來(lái)越劇烈,收斂所需的回合數(shù)不斷增加,每次回合所需的步數(shù)也越來(lái)越多,這意味著在戰(zhàn)場(chǎng)上,認(rèn)知干擾決策系統(tǒng)需要花費(fèi)更多的時(shí)間與多功能雷達(dá)交互更多的次數(shù)才能獲得最佳的干擾策略,即環(huán)境的穩(wěn)定越差,干擾決策算法學(xué)習(xí)的難度越大。但是從圖14中也可以看出,值小于等于0.3時(shí),干擾決策算法都能在400個(gè)回合收斂或者近似收斂,即使是值等于0.1時(shí),不能在400個(gè)回合內(nèi)收斂,其趨勢(shì)仍是向著收斂的方向發(fā)展,這表明基于Q-Learning算法在穩(wěn)定性極差的環(huán)境中,也具有良好的適應(yīng)性。

      在圖14的局部放大圖中,在不同穩(wěn)定性的環(huán)境下,干擾決策算法最終收斂的所需步數(shù)是不同的。其統(tǒng)計(jì)如表 2所示,環(huán)境穩(wěn)定性越差,最終收斂的步數(shù)越大,這是因?yàn)榄h(huán)境越不穩(wěn)定,決策產(chǎn)生最佳干擾路徑的概率就會(huì)越小。

      表2 不同μ值下干擾決策算法收斂時(shí)的步數(shù)

      總之,在非穩(wěn)定的環(huán)境中,盡管學(xué)習(xí)的難度會(huì)增大,但基于Q-Learning的認(rèn)知干擾決策算法還是能將到達(dá)目標(biāo)狀態(tài)的所需步數(shù)下降到一個(gè)可觀的范圍,這表明本文所提的認(rèn)知干擾決策算法具有較強(qiáng)的適應(yīng)性。

      5 結(jié)束語(yǔ)

      本文研究的核心問(wèn)題是認(rèn)知干擾決策問(wèn)題,所有內(nèi)容圍繞著認(rèn)知干擾決策問(wèn)題展開(kāi)。首先,作為干擾決策的前端,偵察感知應(yīng)該為干擾決策提供什么樣的信息?對(duì)此,本文提出了雷達(dá)功能和雷達(dá)短語(yǔ)聯(lián)合表征雷達(dá)狀態(tài)的方法,在理論上能為干擾決策提供充足的信息且簡(jiǎn)單易行。其次,認(rèn)知的閉環(huán)是怎么樣的,認(rèn)知干擾決策的系統(tǒng)應(yīng)如何設(shè)計(jì)?本文設(shè)計(jì)的認(rèn)知干擾決策系統(tǒng)不同于傳統(tǒng)的OODA閉環(huán)系統(tǒng),在整個(gè)系統(tǒng)中沒(méi)有了干擾評(píng)估環(huán)節(jié),認(rèn)知干擾決策將不再拘泥于單次的干擾效能最大化,而是進(jìn)行更長(zhǎng)遠(yuǎn)的序列決策,以收益函數(shù)為牽引尋求電磁戰(zhàn)場(chǎng)上的決策優(yōu)勢(shì)。最后,本文以強(qiáng)化學(xué)習(xí)中Q-Learning算法為基礎(chǔ),設(shè)計(jì)了基于Q-Learning認(rèn)知干擾決策算法,能在缺少先驗(yàn)信息的情況下,自主學(xué)習(xí)達(dá)到最佳干擾策略,并且在不穩(wěn)定的環(huán)境下也具有較好的決策性能。

      當(dāng)然,現(xiàn)實(shí)的世界是復(fù)雜的,本文的建模過(guò)程難免損失真實(shí)世界的一些細(xì)節(jié),將這些細(xì)節(jié)補(bǔ)充完整,設(shè)計(jì)更貼近真實(shí)世界的模型是下一步工作的方向之一。在強(qiáng)化學(xué)習(xí)中,提升算法收斂速度一直是一個(gè)經(jīng)久不衰的問(wèn)題,因此如何結(jié)合雷達(dá)對(duì)抗領(lǐng)域的特點(diǎn),因地制宜,更好地解決這個(gè)問(wèn)題,關(guān)系到相關(guān)理論研究能否應(yīng)用于工程實(shí)踐,值得進(jìn)一步研究。認(rèn)知干擾決策的問(wèn)題是一個(gè)龐大復(fù)雜的問(wèn)題,對(duì)其研究應(yīng)該遵循科學(xué)的規(guī)律,循序漸進(jìn)。本文將問(wèn)題封閉在一個(gè)足夠小的空間,即多功能雷達(dá)作為威脅對(duì)象,主要進(jìn)行干擾樣式的選擇,只有將一個(gè)個(gè)這樣的小空間不斷地?cái)U(kuò)張并拼湊在一起,才能最終實(shí)現(xiàn)真正的認(rèn)知干擾決策。而選取干擾樣式后更進(jìn)一步的干擾波形優(yōu)化與最終干擾能力的生成密切相關(guān),可以作為今后深入研究的一個(gè)方向。

      猜你喜歡
      短語(yǔ)雷達(dá)決策
      有雷達(dá)
      大自然探索(2023年7期)2023-08-15 00:48:21
      為可持續(xù)決策提供依據(jù)
      決策為什么失誤了
      雷達(dá)
      基于空時(shí)二維隨機(jī)輻射場(chǎng)的彈載雷達(dá)前視成像
      現(xiàn)代“千里眼”——雷達(dá)
      關(guān)于抗美援朝出兵決策的幾點(diǎn)認(rèn)識(shí)
      軍事歷史(1997年5期)1997-08-21 02:36:06
      湘贛邊秋收起義的決策經(jīng)過(guò)
      軍事歷史(1991年5期)1991-08-16 02:17:34
      404 Not Found

      404 Not Found


      nginx
      香格里拉县| 济源市| 昌乐县| 大荔县| 吉隆县| 兴业县| 岫岩| 鹤庆县| 前郭尔| 灵丘县| 普陀区| 巴彦县| 东莞市| 清新县| 边坝县| 桃源县| 上思县| 康平县| 泽州县| 昔阳县| 肃宁县| 舒城县| 清涧县| 徐汇区| 怀远县| 珠海市| 巨野县| 西乌珠穆沁旗| 吐鲁番市| 青神县| 额济纳旗| 甘肃省| 肇州县| 理塘县| 花莲县| 济源市| 瓦房店市| 潼关县| 页游| 怀化市| 十堰市|