• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種基于深度強(qiáng)化學(xué)習(xí)的測(cè)向基線布陣技術(shù)*

      2022-10-28 03:28:04朱子翰
      電訊技術(shù) 2022年10期
      關(guān)鍵詞:布陣基線設(shè)計(jì)師

      胡 超,朱子翰

      (中國(guó)西南電子技術(shù)研究所,成都 610036)

      0 引 言

      在無線電測(cè)向定位任務(wù)中,測(cè)向天線陣的陣列布局是影響測(cè)向定位效果的關(guān)鍵因素,必須在偵察任務(wù)系統(tǒng)的總體設(shè)計(jì)中統(tǒng)籌考慮,在充分有效發(fā)揮測(cè)向效能的基礎(chǔ)上綜合優(yōu)化設(shè)計(jì)。傳統(tǒng)的布陣方式是測(cè)向設(shè)計(jì)師根據(jù)經(jīng)驗(yàn)評(píng)估天線陣元位置得到測(cè)向陣列,再用測(cè)向算法對(duì)陣列的測(cè)向指標(biāo)進(jìn)行評(píng)估,當(dāng)指標(biāo)不滿足要求時(shí),繼續(xù)修改陣列,反復(fù)工作以獲得符合指標(biāo)要求的陣列。這種方式經(jīng)過一定的精力投入可以設(shè)計(jì)出符合要求的陣列,但卻費(fèi)時(shí)費(fèi)力,而且布陣效果極大依賴于設(shè)計(jì)人員的測(cè)向經(jīng)驗(yàn)和專業(yè)素養(yǎng),且能力不可復(fù)制,并且有些非標(biāo)準(zhǔn)陣列設(shè)計(jì)條件苛刻,狀態(tài)空間復(fù)雜,即使有豐富測(cè)向經(jīng)驗(yàn)的設(shè)計(jì)者也可能難以設(shè)計(jì)出符合要求的陣列。

      強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)作為機(jī)器學(xué)習(xí)的一種重要手段,研究的是智能體與環(huán)境交互完成決策模型的學(xué)習(xí),實(shí)現(xiàn)環(huán)境狀態(tài)到最佳動(dòng)作的映射。深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)是將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合起來從而實(shí)現(xiàn)感知到動(dòng)作的端對(duì)端學(xué)習(xí)的一種全新的算法,可應(yīng)用于機(jī)器人、游戲博弈、優(yōu)化與調(diào)度、仿真模擬、自然語言處理等領(lǐng)域,且在多個(gè)人機(jī)對(duì)抗競(jìng)賽中連續(xù)奪魁[1-3],在特定場(chǎng)景應(yīng)用中完全具備代替“人”的能力。

      為解決傳統(tǒng)測(cè)向布陣方法中存在的耗時(shí)耗力且嚴(yán)重依賴于人工經(jīng)驗(yàn)的現(xiàn)狀,本文設(shè)計(jì)了一種基于深度強(qiáng)化學(xué)習(xí)的測(cè)向基線布陣算法,既滿足相關(guān)干涉儀一維測(cè)向,也適配相關(guān)干涉儀二維測(cè)向。設(shè)計(jì)布陣智能體模擬人工設(shè)計(jì)測(cè)向基線,通過設(shè)定陣列類型、測(cè)向頻段、測(cè)向方位、基線空間約束、測(cè)向陣元數(shù)量等布陣條件,由智能體反復(fù)試錯(cuò),最終獲得符合指標(biāo)的最優(yōu)測(cè)向陣列。其布陣過程采用機(jī)器自主+人在回路的方式,經(jīng)過高性能計(jì)算機(jī)的優(yōu)化加速,可大大提高布陣效率,提升測(cè)向質(zhì)量,進(jìn)一步解放人力資源。

      1 基于DDPG的測(cè)向基線布陣方法

      1.1 智能布陣思想

      在傳統(tǒng)的測(cè)向布陣問題中,存在確定陣元數(shù)量、陣列類型、布陣頻率、布陣方位、空間尺寸等約束條件,如果能遍歷陣列的所有空間布局,理論上是可以找到最優(yōu)測(cè)向基線的,但是傳統(tǒng)的搜索算法受巨大搜索空間影響,無法在給定時(shí)間內(nèi)做出決策響應(yīng)。

      在強(qiáng)化學(xué)習(xí)方法中,智能體可通過與環(huán)境的相互作用來學(xué)習(xí)。一般地,將強(qiáng)化學(xué)習(xí)問題描述為在有限狀態(tài)、有限動(dòng)作集合的環(huán)境中,最大化智能體獲得的累積折扣回報(bào)。因此,強(qiáng)化學(xué)習(xí)通常被建模為馬爾科夫決策過程(Markov Decision Process,MDP)[4]。MDP模型是一個(gè)五元組(S,A,P,R,γ),主要含義如下:S為狀態(tài)空間,即環(huán)境狀態(tài)組成的有限集合;A為動(dòng)作空間,即所有可能動(dòng)作組成的有限集合;P為狀態(tài)轉(zhuǎn)移概率;R為執(zhí)行動(dòng)作后的獎(jiǎng)勵(lì)回報(bào);γ為折扣累積獎(jiǎng)勵(lì),表示在每個(gè)時(shí)間步長(zhǎng)之后,環(huán)境反饋給智能體相應(yīng)的折扣回報(bào)。

      本文采用深度強(qiáng)化學(xué)習(xí)的布陣方法是將傳統(tǒng)的布陣要素量化為智能網(wǎng)絡(luò)模型算法適配的數(shù)據(jù)輸入,利用智能體去學(xué)習(xí)和探索布陣經(jīng)驗(yàn),智能體每移動(dòng)一次陣列的坐標(biāo),環(huán)境反饋一個(gè)獎(jiǎng)勵(lì)(依據(jù)當(dāng)前陣列的測(cè)向精度和測(cè)向模糊性),以此來指導(dǎo)智能體的學(xué)習(xí)過程,其設(shè)計(jì)流程如圖1所示。

      圖1 基于深度強(qiáng)化學(xué)習(xí)的測(cè)向布陣方法原理圖

      在此過程中,相關(guān)干涉儀測(cè)向布陣算法主要包括對(duì)測(cè)向基線進(jìn)行相位差建庫,施加相位差誤差,再對(duì)該陣列進(jìn)行測(cè)試,得出測(cè)向精度和測(cè)向模糊指標(biāo),并根據(jù)測(cè)向指標(biāo)計(jì)算得到獎(jiǎng)勵(lì)值。

      整個(gè)布陣過程是一個(gè)“機(jī)器自主+人在回路”的工作模式,由機(jī)器訓(xùn)練迭代輸出符合條件且測(cè)向精度最優(yōu)的前三組測(cè)向陣列,然后由設(shè)計(jì)師根據(jù)實(shí)際需求將三組測(cè)向陣列或者測(cè)向精度最優(yōu)的測(cè)向陣列輸入到工程論證中所用的相關(guān)干涉儀測(cè)向分析軟件中對(duì)測(cè)向的性能進(jìn)行評(píng)估,并輸出評(píng)估報(bào)告。

      1.2 決策網(wǎng)絡(luò)設(shè)計(jì)

      針對(duì)測(cè)向基線布陣任務(wù)的特點(diǎn),智能體在決策時(shí)需要考慮布陣的約束條件和當(dāng)前的陣列坐標(biāo)信息。本方案智能體策略網(wǎng)絡(luò)的結(jié)構(gòu)主要依賴于編碼器-解碼器的Transformer,其中編碼器部分將時(shí)間序列上的測(cè)向陣列坐標(biāo)作為輸入,而解碼器部分以自回歸的方式預(yù)測(cè)下一時(shí)刻可以移動(dòng)的陣元編號(hào),解碼器使用注意力機(jī)制與編碼器連接。通過這種方式,解碼器可以學(xué)習(xí)在做出預(yù)測(cè)之前“關(guān)注”時(shí)間序列歷史值中最有用的部分。智能布陣的策略網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,策略網(wǎng)絡(luò)將陣列坐標(biāo)、陣元數(shù)量、空間尺寸約束、陣列類型等特征量作為輸入,通過Transformer網(wǎng)絡(luò)中的注意機(jī)制提取陣元之間的實(shí)體關(guān)系狀態(tài)特征信息,再將實(shí)體狀態(tài)信息經(jīng)過多個(gè)全連接網(wǎng)絡(luò)輸出狀態(tài)價(jià)值、陣元編號(hào)類選擇、動(dòng)作類型和陣元移動(dòng)距離等決策要素。

      圖2 智能測(cè)向陣列基線布陣決策網(wǎng)絡(luò)設(shè)計(jì)

      1.3 深度確定性策略梯度算法

      在本文中測(cè)向基線的布陣是根據(jù)當(dāng)前的布陣環(huán)境和策略輸出具體的動(dòng)作值,且陣元的移動(dòng)距離是連續(xù)確定性策略動(dòng)作,因此,本文采用深度確定性策略梯度強(qiáng)化學(xué)習(xí)算法。

      深度確定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)是連續(xù)控制領(lǐng)域經(jīng)典的強(qiáng)化學(xué)習(xí)算法[5],是DQN(Deep Q-learning Network)[6]在處理連續(xù)動(dòng)作空間的一個(gè)擴(kuò)充。Deep表示采用了深度神經(jīng)網(wǎng)絡(luò);Deterministic表示輸出的是一個(gè)確定性的動(dòng)作,可以用于連續(xù)動(dòng)作的輸出;Policy Gradient表示該算法用的是策略網(wǎng)絡(luò),但DDPG是單步更新方式,即每一個(gè)step更新一次 Policy 網(wǎng)絡(luò)[6]。DDPG借鑒了DQN的目標(biāo)網(wǎng)絡(luò)和經(jīng)驗(yàn)回放技巧,讓算法訓(xùn)練更穩(wěn)定,更容易擬合。相比DQN網(wǎng)絡(luò),DDPG具有更泛化的表達(dá)能力,需要采樣的數(shù)據(jù)少,算法效率高。算法架構(gòu)如圖3所示。

      圖3 DDPG算法架構(gòu)圖[5]

      1.4 狀態(tài)空間設(shè)計(jì)

      陣列的狀態(tài)空間主要包含陣列的固有屬性特征和陣元的狀態(tài)特征,如表1所示。

      表1 狀態(tài)空間表達(dá)

      1.5 動(dòng)作空間設(shè)計(jì)

      在布陣過程中,動(dòng)作的主要對(duì)象是對(duì)目標(biāo)陣元的操作,主要包含離散輸出和連續(xù)動(dòng)作兩種,離散動(dòng)作包含選擇陣元編號(hào)和動(dòng)作類型,連續(xù)動(dòng)作主要輸出陣元的移動(dòng)距離值,如圖4所示。

      圖4 策略輸出類型概念圖

      策略網(wǎng)絡(luò)的動(dòng)作空間輸出如表2所示。

      表2 動(dòng)作空間表達(dá)

      離散數(shù)據(jù)采用Softmax函數(shù)進(jìn)行描述,公式如下:

      (1)

      以動(dòng)作類型為例,一共有Left、Right、Up、Down 4種動(dòng)作類型,輸出為x1、x2、x3、x4,則概率如表3所示。

      表3 動(dòng)作概率輸出表達(dá)

      連續(xù)數(shù)據(jù)采用高斯函數(shù)進(jìn)行描述,公式如下:

      (2)

      1.6 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

      獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)是研究強(qiáng)化學(xué)習(xí)中非常重要的設(shè)置,它決定了強(qiáng)化學(xué)習(xí)算法的收斂速度和程度,是引導(dǎo)智能體學(xué)習(xí)的關(guān)鍵因素。在本文中,測(cè)向布陣的最終目標(biāo)是在約束條件下,得到一組符合測(cè)向精度且無模糊的最優(yōu)測(cè)向精度的陣列。獎(jiǎng)勵(lì)設(shè)計(jì)如表4所示。

      表4 獎(jiǎng)勵(lì)匯總表達(dá)

      為了適度激發(fā)布陣智能體對(duì)于狀態(tài)空間的探索,設(shè)計(jì)好奇心獎(jiǎng)勵(lì)函數(shù),根據(jù)當(dāng)前已經(jīng)探索狀態(tài)空間與當(dāng)前未探索的狀態(tài)空間對(duì)探索未知狀態(tài)的智能體進(jìn)行獎(jiǎng)勵(lì)。

      2 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

      2.1 仿真環(huán)境建模

      本文的仿真環(huán)境采用OpenAI團(tuán)隊(duì)針對(duì)強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)開發(fā)的開源平臺(tái)Gym,利用rendering模塊中的畫圖函數(shù)進(jìn)行圖形繪制,以便于直觀展示陣元的空間部署信息。布陣建模時(shí),主要考慮生成兩個(gè)引擎——圖像引擎和動(dòng)作引擎:圖像引擎render(),用來顯示測(cè)向基線中的天線陣元的空間位置;動(dòng)作引擎step(),在建模背景環(huán)境中扮演物理引擎的角色,即每次通過動(dòng)作引擎來移動(dòng)陣元位置。

      2.2 實(shí)驗(yàn)硬件平臺(tái)

      本文實(shí)驗(yàn)開展硬件配置如表5所示。

      表5 實(shí)驗(yàn)平臺(tái)與配置

      2.3 實(shí)驗(yàn)流程設(shè)計(jì)

      在布陣訓(xùn)練過程中,網(wǎng)絡(luò)收斂的速度與陣列類型、陣元數(shù)量、布陣頻率范圍有著直接關(guān)系。

      某項(xiàng)目擬設(shè)計(jì)偵測(cè)天線,要求測(cè)向天線陣實(shí)現(xiàn)全方位測(cè)向,同時(shí)具備水平測(cè)向和俯仰測(cè)向能力(即具備二維測(cè)向能力),布陣需求和參數(shù)設(shè)置如表6所示。

      表6 布陣需求和實(shí)驗(yàn)參數(shù)設(shè)置

      2.4 實(shí)驗(yàn)結(jié)果分析

      將以上布陣條件輸入測(cè)向布陣網(wǎng)絡(luò)進(jìn)行訓(xùn)練迭代,網(wǎng)絡(luò)模型每迭代一次都會(huì)輸出當(dāng)前設(shè)計(jì)測(cè)向陣列的陣列坐標(biāo)、測(cè)向模糊性、測(cè)向精度等評(píng)估結(jié)果。當(dāng)訓(xùn)練步長(zhǎng)達(dá)到設(shè)定值時(shí)結(jié)束訓(xùn)練,訓(xùn)練時(shí)長(zhǎng)3.7 h,訓(xùn)練結(jié)果曲線如圖5所示。值得注意的是,因?yàn)閷?shí)驗(yàn)是以訓(xùn)練迭代步長(zhǎng)episodes和是否收斂作為訓(xùn)練結(jié)束標(biāo)識(shí),所以在這個(gè)過程中布陣智能體可能沒有對(duì)測(cè)向陣列的所有狀態(tài)空間進(jìn)行探索,因此該技術(shù)的輸出結(jié)果是局部最優(yōu)的。

      圖5 線陣訓(xùn)練迭代結(jié)果曲線

      從訓(xùn)練過程中輸出的多個(gè)無測(cè)向模糊陣列中,輸出測(cè)向精度排名前三的3組測(cè)向陣列,如表7所示。

      表7 訓(xùn)練迭代生成的測(cè)向陣列

      采用測(cè)向精度最優(yōu)的第三個(gè)陣列(編號(hào)3)作為評(píng)估對(duì)象,其陣列布局如圖6所示。

      圖6 布陣基線示意圖

      采用相關(guān)干涉儀測(cè)向分析軟件對(duì)該陣列的布陣效果進(jìn)行驗(yàn)證測(cè)試,分別統(tǒng)計(jì)該測(cè)向陣列在俯仰角-15°、5°、0°、5°、15°時(shí),水平全方位(0°~360°)的測(cè)向精度,測(cè)試評(píng)估結(jié)果如表8所示。

      表8 測(cè)向陣列在不同俯仰角時(shí)的測(cè)向精度評(píng)估結(jié)果

      從表8中可以看出,該陣列在全頻段全方位的測(cè)向精度≤1.597 8°,優(yōu)于測(cè)向指標(biāo)3°。畫出該測(cè)向陣列在俯仰角為0°,頻點(diǎn)為100 MHz、400 MHz、700 MHz時(shí)水平全方位的測(cè)向曲線,對(duì)測(cè)向陣列的模糊指標(biāo)進(jìn)行驗(yàn)證評(píng)估,如圖7所示。

      (a)100 MHz時(shí)水平全方位測(cè)向曲線

      (b)400 MHz時(shí)水平全方位測(cè)向曲線

      (c)700 MHz時(shí)水平全方位測(cè)向曲線圖7 測(cè)向陣列在部分頻點(diǎn)全方位的測(cè)向曲線

      從圖7中可以看出,信號(hào)方位角與庫方位角做測(cè)向相關(guān)算法后,相關(guān)系數(shù)大于0.75的值均分布在相關(guān)峰附近。以圖7(c)測(cè)向陣列在700 MHz、水平全方位的測(cè)向曲線為例,信號(hào)方位角在200°時(shí),與庫中所有方位做復(fù)相關(guān)運(yùn)算后,相關(guān)系數(shù)大于0.75的值都集中在庫方位200°左右,與其他方位的相關(guān)系數(shù)無大于0.75的點(diǎn),即該陣列在700 MHz測(cè)向時(shí)全方位無測(cè)向模糊點(diǎn)。以此類推,驗(yàn)證得到該測(cè)向陣列在全頻段全方位均無測(cè)向模糊。綜上,該陣列的測(cè)向指標(biāo)均符合布陣需求,可進(jìn)一步作為工程實(shí)現(xiàn)參考陣列。

      為進(jìn)一步探索本文方法在實(shí)際使用中的增量,特請(qǐng)?jiān)诠こ添?xiàng)目中具有豐富經(jīng)驗(yàn)的3位測(cè)向設(shè)計(jì)師A、B、C參與布陣論證工作。

      以表6所述的相關(guān)參數(shù)作為布陣需求,讓3位設(shè)計(jì)師同時(shí)開展布陣論證工作,為控制變量,特要求3位老師在上班有效時(shí)間段全力以赴該論證工作,直到輸出結(jié)果為止。試驗(yàn)結(jié)果如表9所示,值得注意的是,表中的布陣耗時(shí)代表該設(shè)計(jì)師參與陣列基線設(shè)計(jì)的有效時(shí)間。

      表9 測(cè)向設(shè)計(jì)師布陣結(jié)果

      分別采用相關(guān)干涉儀測(cè)向分析軟件基于表9的測(cè)試條件,對(duì)表8中各設(shè)計(jì)師的輸出測(cè)向陣列在全頻段、水平全方位(俯仰角為0°)的測(cè)向精度和測(cè)向模糊指標(biāo)進(jìn)行評(píng)估,評(píng)估結(jié)果如表10所示。

      表10 各設(shè)計(jì)師測(cè)向布陣基線測(cè)向結(jié)果評(píng)估

      由表10可以看出,在4組測(cè)向陣列中,本文方法設(shè)計(jì)出來的陣列測(cè)向精度最優(yōu),且無測(cè)向模糊,證明了本文方法的實(shí)用性。由C設(shè)計(jì)的測(cè)向陣列3在450~700 MHz頻段內(nèi)測(cè)向時(shí)全方位存在大量模糊點(diǎn),在工程實(shí)施時(shí)無法應(yīng)用于測(cè)向任務(wù),以500 MHz測(cè)向曲線為例,如圖8所示。

      圖8 測(cè)向陣列3在500 MHz水平全方位測(cè)向曲線

      3 結(jié) 論

      本文針對(duì)當(dāng)前相關(guān)干涉儀測(cè)向提出了一種基于深度強(qiáng)化學(xué)習(xí)的測(cè)向基線布陣技術(shù),通過Gym仿真建模環(huán)境構(gòu)建布陣場(chǎng)景、DDPG深度強(qiáng)化學(xué)習(xí)算法構(gòu)建布陣智能體,以強(qiáng)化學(xué)習(xí)反復(fù)試錯(cuò)的機(jī)制模擬人工布陣的過程,并通過實(shí)驗(yàn)證明了本文方法的科學(xué)性和有效性。

      智能布陣過程采用機(jī)器自主+人在回路的形式,通過設(shè)計(jì)師輸入布陣條件,機(jī)器訓(xùn)練迭代輸出陣列結(jié)果,再由設(shè)計(jì)師對(duì)陣列結(jié)果進(jìn)行測(cè)試驗(yàn)證,整個(gè)過程大大降低了人參與的程度,且不依賴于設(shè)計(jì)師的測(cè)向經(jīng)驗(yàn),任何有測(cè)向布陣需求的設(shè)計(jì)師都可以使用該技術(shù),因此該方法具有實(shí)用性和普適性。

      猜你喜歡
      布陣基線設(shè)計(jì)師
      小小設(shè)計(jì)師
      幼兒100(2022年37期)2022-10-24 01:52:52
      我是小小設(shè)計(jì)師
      適用于MAUV的變基線定位系統(tǒng)
      排兵布陣
      設(shè)計(jì)師訪談
      航天技術(shù)與甚長(zhǎng)基線陣的結(jié)合探索
      科學(xué)(2020年5期)2020-11-26 08:19:14
      藍(lán)天保衛(wèi)戰(zhàn),能源怎樣排兵布陣?
      能源(2018年8期)2018-09-21 07:57:22
      推薦一個(gè)設(shè)計(jì)師
      足球比賽“排兵”里的布陣
      足球比賽里的“排兵布陣”(七)
      承德县| 雷山县| 吉林省| 广汉市| 扶绥县| 武陟县| 阳新县| 巴彦县| 铅山县| 黄浦区| 会同县| 大兴区| 阳东县| 木兰县| 安顺市| 东丽区| 镇雄县| 滨州市| 武山县| 浦东新区| 泾阳县| 库伦旗| 安陆市| 三穗县| 西充县| 陇南市| 张家川| 宾川县| 密云县| 伊金霍洛旗| 虹口区| 饶平县| 麻阳| 武宣县| 尼玛县| 瑞金市| 乌拉特后旗| 宝坻区| 苏尼特右旗| 琼结县| 梨树县|