• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于強(qiáng)化學(xué)習(xí)的多目標(biāo)點(diǎn)航關(guān)聯(lián)方法

      2022-04-21 05:18:08丁國勝蔡民杰
      指揮控制與仿真 2022年2期
      關(guān)鍵詞:測(cè)數(shù)據(jù)雜波航跡

      丁國勝,蔡民杰

      (南京電子技術(shù)研究所,江蘇 南京 210039)

      點(diǎn)跡-航跡關(guān)聯(lián)主要是完成航跡更新與航跡維持,也就是以確定航跡的預(yù)測(cè)值為中心,根據(jù)某種特定的準(zhǔn)則篩選符合條件的點(diǎn)跡,并利用點(diǎn)跡進(jìn)行濾波的過程。因此,點(diǎn)跡-航跡關(guān)聯(lián)主要涉及目標(biāo)跟蹤中常用的濾波算法,如最近鄰 (Nearest Neighbor, NN) 濾波、概率數(shù)據(jù)互聯(lián)(Probability Data Association, PDA)濾波、聯(lián)合概率數(shù)據(jù)互聯(lián)(Joint Probability Data Association, JPDA)濾波、多假設(shè)跟蹤(Multiple Hypothesis Tracking, MHT)濾波、交互多模型(Interacting Multiple Model, IMM)濾波及概率假設(shè)密度(Probabilistic Hypothesis Density, PHD) 濾波等。

      多目標(biāo)點(diǎn)跡-航跡關(guān)聯(lián)技術(shù)一直都是研究熱點(diǎn),學(xué)者利用目標(biāo)的運(yùn)動(dòng)特性和傳感器特點(diǎn)進(jìn)行分析,并取得了一定的成果。但隨著時(shí)代的發(fā)展,目標(biāo)受到了強(qiáng)雜波、強(qiáng)干擾等自然和人類行為等因素影響,很難有效辨別真實(shí)數(shù)據(jù)和受污染的數(shù)據(jù),尤其是目標(biāo)真實(shí)數(shù)據(jù)丟失時(shí),關(guān)聯(lián)難度大大增加。不考慮虛警、漏警等傳統(tǒng)數(shù)據(jù)關(guān)聯(lián)問題,還可能因目標(biāo)做出高機(jī)動(dòng)、交互運(yùn)動(dòng)等動(dòng)作出現(xiàn)數(shù)據(jù)混亂、交叉等更加復(fù)雜的問題,這也是多目標(biāo)點(diǎn)跡-航跡關(guān)聯(lián)領(lǐng)域亟待解決的問題。

      機(jī)器學(xué)習(xí)是當(dāng)前流行的人工智能手段,利用機(jī)器學(xué)習(xí)理論分析大量數(shù)據(jù)已經(jīng)較為普遍。RL技術(shù)是機(jī)器學(xué)習(xí)的一個(gè)分支,其主旨是在某一環(huán)境下作出能夠獲得最大預(yù)期收益的動(dòng)作。RL起源于二十世紀(jì)六十年代,發(fā)展至今已取得很多成果,如Q學(xué)習(xí)、動(dòng)態(tài)規(guī)劃、Policy Gradients、Deep-Q-Network等。

      結(jié)合數(shù)據(jù)關(guān)聯(lián)和強(qiáng)化學(xué)習(xí)兩大技術(shù)的共同特點(diǎn),利用人工智能的方式實(shí)現(xiàn)數(shù)據(jù)的高速處理,完成多目標(biāo)點(diǎn)跡-航跡關(guān)聯(lián),不僅有較高的工程實(shí)踐意義,也對(duì)國家國防建設(shè)有重要意義,這將可能會(huì)成為未來發(fā)展的一種趨勢(shì)。本文提出一種基于Q學(xué)習(xí)的多目標(biāo)點(diǎn)跡-航跡關(guān)聯(lián)算法,該方法在雜波環(huán)境下,以強(qiáng)化學(xué)習(xí)(RL)方法為基礎(chǔ),結(jié)合量測(cè)數(shù)據(jù)和目標(biāo)運(yùn)動(dòng)狀態(tài)信息,實(shí)現(xiàn)機(jī)動(dòng)與非機(jī)動(dòng)情況下多個(gè)目標(biāo)的點(diǎn)跡-航跡關(guān)聯(lián),為跟蹤濾波過程提供了較準(zhǔn)確的點(diǎn)跡數(shù)據(jù)。

      1 基于RL的多目標(biāo)點(diǎn)跡-航跡關(guān)聯(lián)算法

      傳感器提供的點(diǎn)跡數(shù)據(jù)中存在大量虛假信息,且傳統(tǒng)點(diǎn)跡-航跡關(guān)聯(lián)方法同時(shí)處理多個(gè)目標(biāo)量測(cè)數(shù)據(jù)時(shí)容易出現(xiàn)關(guān)聯(lián)混亂、目標(biāo)丟失等問題,因此,本文提出了基于RL的多目標(biāo)點(diǎn)跡-航跡關(guān)聯(lián)算法,有效解決了機(jī)動(dòng)與非機(jī)動(dòng)情況下多個(gè)目標(biāo)的點(diǎn)跡-航跡關(guān)聯(lián)問題。該算法首先基于量測(cè)數(shù)據(jù)和目標(biāo)狀態(tài)信息的特性,設(shè)置了狀態(tài)空間和行為空間;其次,利用目標(biāo)狀態(tài)預(yù)測(cè)值與量測(cè)數(shù)據(jù)的相關(guān)程度選擇當(dāng)前狀態(tài)的動(dòng)作,并按照行為空間的選擇定義獎(jiǎng)勵(lì)函數(shù);然后,對(duì)Q表進(jìn)行訓(xùn)練學(xué)習(xí),直到所有量測(cè)數(shù)據(jù)訓(xùn)練一遍后,停止迭代循環(huán),重新訓(xùn)練學(xué)習(xí);最后,由于雜波環(huán)境下目標(biāo)點(diǎn)跡-航跡關(guān)聯(lián)受雜波影響較大,尤其是當(dāng)目標(biāo)發(fā)生強(qiáng)機(jī)動(dòng)時(shí),機(jī)器對(duì)雜波的分辨能力減弱,訓(xùn)練學(xué)習(xí)后量測(cè)集合中仍然可能有雜波存在,大大影響了算法的關(guān)聯(lián)精度,因此,利用目標(biāo)運(yùn)動(dòng)的先驗(yàn)信息,對(duì)學(xué)習(xí)結(jié)束后選擇的所有量測(cè)進(jìn)行再學(xué)習(xí),并更新Q表中對(duì)應(yīng)Q值。

      1.1 模型建立

      建模是實(shí)現(xiàn)RL方法的首要步驟,模型實(shí)際是馬爾可夫決策(Markov decision process, MDP)過程。但不同于常規(guī)Q學(xué)習(xí)算法的是,一般的MDP過程是一個(gè)機(jī)器對(duì)應(yīng)一個(gè)過程,要處理多目標(biāo)點(diǎn)跡-航跡關(guān)聯(lián)問題,若將一個(gè)目標(biāo)看作一個(gè)機(jī)器,則應(yīng)該是多個(gè)MDP過程。然而,實(shí)際情況是目標(biāo)數(shù)未知,則MDP過程的數(shù)量也是未知的。因此,該方法將整個(gè)多目標(biāo)點(diǎn)跡-航跡關(guān)聯(lián)過程視作一個(gè)大的MDP過程,單個(gè)時(shí)刻一個(gè)機(jī)器可以在多個(gè)不同的狀態(tài)下選擇不同的動(dòng)作,也可以在一個(gè)狀態(tài)下選擇多個(gè)不同動(dòng)作,且狀態(tài)選擇動(dòng)作的過程互不相關(guān)。

      模型確定后,需要設(shè)置MDP過程的狀態(tài)集合和行為集合。由于多個(gè)目標(biāo)運(yùn)動(dòng)的實(shí)際環(huán)境比較復(fù)雜,狀態(tài)時(shí)刻受到環(huán)境影響,對(duì)機(jī)器訓(xùn)練學(xué)習(xí)的過程也造成了影響,因此,這里設(shè)置了兩個(gè)狀態(tài)集合。

      第一個(gè)狀態(tài)集合是由每個(gè)時(shí)刻獲得的量測(cè)數(shù)據(jù)構(gòu)成:

      ={},=0,1,2,…

      (1)

      第二個(gè)狀態(tài)集合是由每個(gè)時(shí)刻的目標(biāo)狀態(tài)預(yù)測(cè)值構(gòu)成:

      ={,},=0,1,2,…

      (2)

      式中,是第個(gè)時(shí)刻的狀態(tài)預(yù)測(cè)值集合,是第個(gè)時(shí)刻的狀態(tài)協(xié)方差預(yù)測(cè)值集合。

      集合為主狀態(tài)集合,集合為輔助狀態(tài)集合,的功能是輔助機(jī)器在狀態(tài)下選擇合適的動(dòng)作。一般的RL方法中機(jī)器是隨機(jī)選擇動(dòng)作的,雖然這樣會(huì)顯得機(jī)器更加智能,但是,在處理多目標(biāo)點(diǎn)跡-航跡關(guān)聯(lián)時(shí),實(shí)際環(huán)境中雜波較多,機(jī)器會(huì)同時(shí)處于很多不同的狀態(tài),同樣面臨的選擇也會(huì)很多,這樣大大增加了機(jī)器找到正確點(diǎn)跡的時(shí)間,算法復(fù)雜度太高。因此,本方法設(shè)置了雙狀態(tài)集合,利用輔助機(jī)器選擇正確的動(dòng)作轉(zhuǎn)移到下一個(gè)狀態(tài)。

      模型的狀態(tài)轉(zhuǎn)移函數(shù)設(shè)為(,,),其計(jì)算方式與Q學(xué)習(xí)的狀態(tài)轉(zhuǎn)移函數(shù)相同。

      1.2 動(dòng)作選擇與獎(jiǎng)勵(lì)函數(shù)

      動(dòng)作選擇過程的流程如下:

      (3)

      (4)

      =[][]

      (5)

      求出偏離程度后,作如下判斷:

      (6)

      當(dāng)前,RL方法中獎(jiǎng)勵(lì)函數(shù)的定義方式大致分兩種:終點(diǎn)(成功)獎(jiǎng)勵(lì)和瞬時(shí)獎(jiǎng)勵(lì)。多目標(biāo)點(diǎn)跡-航跡關(guān)聯(lián)過程沒有明確的終點(diǎn),也沒有成功的標(biāo)志,因此,本方法采用瞬時(shí)獎(jiǎng)勵(lì)的方式。獎(jiǎng)勵(lì)函數(shù)的定義如下:

      (7)

      1.3 學(xué)習(xí)與再學(xué)習(xí)

      Q表的訓(xùn)練學(xué)習(xí)是Q學(xué)習(xí)算法的核心步驟,學(xué)習(xí)結(jié)果直接影響機(jī)器選擇動(dòng)作。本方法每個(gè)時(shí)刻的Q表學(xué)習(xí)方式與Q學(xué)習(xí)算法相同,即

      (,,,+1,+1)=(1-)(,,,+1,+1)+

      (8)

      (9)

      式中,函數(shù)(·)表示求兩點(diǎn)間歐氏距離的公式。若滿足

      (10)

      (11)

      (12)

      2 仿真實(shí)驗(yàn)與結(jié)果分析

      本文方法分別在非機(jī)動(dòng)和強(qiáng)機(jī)動(dòng)情況下進(jìn)行測(cè)試,在單一情況下與NN算法和JPDA算法進(jìn)行對(duì)比,記本文方法為RL-MA算法。

      2.1 非機(jī)動(dòng)環(huán)境

      2.1.1 仿真環(huán)境設(shè)置

      假定探測(cè)區(qū)域內(nèi)有5個(gè)目標(biāo)在雜波環(huán)境下做勻速直線運(yùn)動(dòng),這5個(gè)目標(biāo)的運(yùn)動(dòng)情況是:目標(biāo)1的初始位置為[600 m,-600 m],初始速度為[-12 m/s, 6 m/s];目標(biāo)2的初始位置為[-800 m,-200 m],初始速度為[26 m/s, 6 m/s];目標(biāo)3的初始位置為[600 m,-600 m],初始速度為[-25/3 m/s, 40/3 m/s];目標(biāo)4的初始位置為[-200 m, 800 m],初始速度為[5 m/s,-25 m/s];目標(biāo)5的初始位置為[-800 m,-200 m],初始速度為[20 m/s,-10 m/s]。目標(biāo)最小速度_min=10 m/s,最大速度_max=100 m/s。采樣周期=1,目標(biāo)的檢測(cè)概率為0.98,雜波服從均值為λ的泊松分布。蒙特卡羅仿真次數(shù)為100,每個(gè)仿真時(shí)間為80 s,單次蒙特卡羅仿真中訓(xùn)練次數(shù)為100。訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)都是仿真雷達(dá)數(shù)據(jù),學(xué)習(xí)率為0.01,衰減因子為0.98。圖1是目標(biāo)真實(shí)運(yùn)動(dòng)軌跡情況,也是點(diǎn)航關(guān)聯(lián)結(jié)果的理論軌跡圖,圖中,紅色航跡為真實(shí)數(shù)據(jù),橫軸與縱軸的單位均為m(圖8與此圖例相同)。

      圖1 理論軌跡圖

      假設(shè)目標(biāo)的運(yùn)動(dòng)過程滿足狀態(tài)轉(zhuǎn)移方程

      =-1+-1

      (13)

      量測(cè)數(shù)據(jù)滿足方程

      =+

      (14)

      2.1.2 仿真結(jié)果與分析

      圖2是單次蒙特卡羅仿真中雜波個(gè)數(shù)均值=1時(shí)的量測(cè)圖。圖中,黑色點(diǎn)跡為量測(cè)數(shù)據(jù),橫軸與縱軸的單位均為m(下文圖9與此圖例相同)。

      圖2 λ=1時(shí)量測(cè)圖

      本文使用最優(yōu)子模式分配(OSPA)計(jì)算三種算法的關(guān)聯(lián)誤差。圖3表示=1時(shí)三種算法的關(guān)聯(lián)誤差比較圖。圖中,黑色線表示NN算法,綠色線表示JPDA算法,紅色線表示RL-MA算法,橫軸表示仿真時(shí)間,單位為s,縱軸表示關(guān)聯(lián)誤差距離,單位為m(下文中圖5、6、7、10、11、12、13與此圖例相同)。

      圖3 λ=1時(shí)三種算法的關(guān)聯(lián)誤差

      從圖3可以看出,=1時(shí)NN算法的性能最差,而JPDA算法和RL-MA算法的性能都比較好,且關(guān)聯(lián)精度相差不大。

      圖4~圖6分別表示=10、=30和=50時(shí)三種算法的關(guān)聯(lián)誤差比較圖。

      圖4 λ=10時(shí)三種算法的關(guān)聯(lián)誤差

      圖5 λ=30時(shí)三種算法的關(guān)聯(lián)誤差

      圖6 λ=50時(shí)三種算法的關(guān)聯(lián)誤差

      對(duì)比圖3~圖6可以明顯看出,隨著雜波強(qiáng)度增大,NN算法的性能依然最差,JPDA算法和RL-MA算法的性能沒有明顯下滑,關(guān)聯(lián)精度依然很高。

      綜上,JPDA算法和RL-MA算法都能夠適應(yīng)非機(jī)動(dòng)環(huán)境,受雜波影響較小,而NN算法性能較差。

      2.2 強(qiáng)機(jī)動(dòng)環(huán)境

      2.2.1 仿真環(huán)境設(shè)置

      假定探測(cè)區(qū)域內(nèi)有3個(gè)目標(biāo)在雜波環(huán)境下機(jī)動(dòng),這3個(gè)目標(biāo)的運(yùn)動(dòng)情況是:目標(biāo)1的初始位置為[450 m,-500 m],初始速度為[-50 m/s, 0 m/s];目標(biāo)2的初始位置為[800 m, 700 m],初始速度為[0 m/s,-50 m/s];目標(biāo)3的初始位置為[-900 m,-300 m],初始速度為[50 m/s, 0 m/s]。目標(biāo)最小速度_min=10 m/s,最大速度_max=100 m/s。采樣周期=1,目標(biāo)的檢測(cè)概率為0.98,雜波服從均值為的泊松分布。蒙特卡羅仿真次數(shù)為100,每個(gè)仿真時(shí)間為50 s,單次蒙特卡羅仿真中訓(xùn)練次數(shù)為100。訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)都是仿真雷達(dá)數(shù)據(jù),學(xué)習(xí)率為0.01,衰減因子為0.98。圖7是目標(biāo)真實(shí)運(yùn)動(dòng)軌跡情況,也是點(diǎn)航關(guān)聯(lián)結(jié)果的理論軌跡圖。目標(biāo)的運(yùn)動(dòng)過程滿足狀態(tài)轉(zhuǎn)移方程(13),量測(cè)數(shù)據(jù)滿足方程(14)。

      圖7 理論軌跡圖

      2.2.2 仿真結(jié)果與分析

      圖8是單次蒙特卡羅仿真中雜波個(gè)數(shù)均值=1時(shí)的量測(cè)圖。圖9表示=1時(shí)三種算法的關(guān)聯(lián)誤差比較圖。從圖8、9可以看出,=1時(shí)NN算法的性能最差,JPDA算法次之,RL-MA算法的性能最好,關(guān)聯(lián)誤差較低。

      圖8 λ=1時(shí)量測(cè)圖

      圖9 λ=1時(shí)三種算法的關(guān)聯(lián)誤差

      圖10~圖12分別表示=10、=30和=50時(shí)三種算法的關(guān)聯(lián)誤差比較圖。對(duì)比圖9~圖12可以明顯看出,隨著雜波強(qiáng)度增大,NN算法和JPDA算法的性能依然很差, RL-MA算法的性能雖然有所下滑,但關(guān)聯(lián)精度仍然較高。綜上,只有RL-MA算法能夠適應(yīng)密集雜波下的強(qiáng)機(jī)動(dòng)環(huán)境,性能較好。

      圖10 λ=10時(shí)三種算法的關(guān)聯(lián)誤差

      圖11 λ=30時(shí)三種算法的關(guān)聯(lián)誤差

      圖12 λ=50時(shí)三種算法的關(guān)聯(lián)誤差

      總的來說,相比NN算法和JPDA算法,RL-MA算法既能適應(yīng)非機(jī)動(dòng)環(huán)境,也能夠適應(yīng)強(qiáng)機(jī)動(dòng)環(huán)境,受雜波影響較小,具有較高的關(guān)聯(lián)精度。

      3 結(jié)束語

      本文針對(duì)密集雜波環(huán)境下的多目標(biāo)點(diǎn)跡-航跡關(guān)聯(lián)問題,提出了一種基于Q學(xué)習(xí)的多目標(biāo)點(diǎn)跡-航跡關(guān)聯(lián)算法。該算法的優(yōu)點(diǎn)如下:

      1)基于量測(cè)數(shù)據(jù)和目標(biāo)狀態(tài)信息的特性,建立了符合多目標(biāo)點(diǎn)跡-航跡關(guān)聯(lián)的MDP模型,設(shè)置了狀態(tài)空間和行為空間,保證了算法的可靠性。

      2)利用目標(biāo)狀態(tài)預(yù)測(cè)值與量測(cè)數(shù)據(jù)的相關(guān)程度選擇當(dāng)前狀態(tài)的動(dòng)作,并按照行為空間的選擇定義獎(jiǎng)勵(lì)函數(shù)。以特定規(guī)則輔助智能體選擇動(dòng)作,避免了錯(cuò)誤動(dòng)作的重復(fù)選擇,加快找到正確量測(cè)速度的同時(shí),提高了關(guān)聯(lián)結(jié)果的準(zhǔn)確性。

      3)針對(duì)雜波環(huán)境下目標(biāo)點(diǎn)跡-航跡關(guān)聯(lián)受雜波影響較大,尤其是當(dāng)目標(biāo)發(fā)生強(qiáng)機(jī)動(dòng)時(shí),機(jī)器對(duì)雜波的分辨能力減弱,訓(xùn)練學(xué)習(xí)后量測(cè)集合中仍然可能有雜波存在的問題,利用目標(biāo)運(yùn)動(dòng)的先驗(yàn)信息,對(duì)學(xué)習(xí)結(jié)束后選擇的所有量測(cè)進(jìn)行再學(xué)習(xí),并更新Q表中對(duì)應(yīng)Q值,提升了算法的有效性。

      4)從算法復(fù)雜度方面來看,與NN算法和JPDA算法相比,雖然RL-MA算法的復(fù)雜度較高,但是,仿真結(jié)果表明,在強(qiáng)機(jī)動(dòng)與非機(jī)動(dòng)兩種情況下,RL-MA算法依然能夠保證點(diǎn)跡-航跡關(guān)聯(lián)過程的穩(wěn)定性和關(guān)聯(lián)結(jié)果的高精度性,其性能明顯優(yōu)于NN算法和JPDA算法,具有良好的工程應(yīng)用前景。

      猜你喜歡
      測(cè)數(shù)據(jù)雜波航跡
      STAR2000型空管一次雷達(dá)雜波抑制淺析
      夢(mèng)的航跡
      青年歌聲(2019年12期)2019-12-17 06:32:32
      基于SCADA和WAMS的線路參數(shù)辨識(shí)研究
      視覺導(dǎo)航下基于H2/H∞的航跡跟蹤
      基于PMU/SCADA混合量測(cè)數(shù)據(jù)兼容性的船舶系統(tǒng)狀態(tài)估計(jì)研究
      無人機(jī)航跡追蹤算法研究與仿真
      密集雜波環(huán)境下確定性退火DA-HPMHT跟蹤算法
      相關(guān)廣義復(fù)合分布雷達(dá)海雜波仿真
      提高變電站基礎(chǔ)量測(cè)數(shù)據(jù)時(shí)間同步性的方法
      一種新的外測(cè)數(shù)據(jù)隨機(jī)誤差分離方法
      华池县| 华宁县| 绥阳县| 宝坻区| 长子县| 阿拉尔市| 桂东县| 互助| 菏泽市| 平陆县| 凤山县| 金门县| 玉门市| 灯塔市| 定安县| 六安市| 清新县| 高邑县| 江西省| 宜城市| 安龙县| 靖西县| 会昌县| 星座| 丹东市| 政和县| 富蕴县| 洪湖市| 巴南区| 桂林市| 永吉县| 舞阳县| 嘉善县| 阳山县| 龙山县| 哈尔滨市| 张家口市| 聂拉木县| 娄底市| 河曲县| 阿合奇县|