吳連慧,周秀珍,宋新超
(中國(guó)船舶重工集團(tuán)公司第七二三研究所,江蘇 揚(yáng)州 225101)
雷達(dá)信號(hào)分選是由多部隨機(jī)交錯(cuò)的脈沖信號(hào)流分離出各單部雷達(dá)輻射源脈沖的過程[1]。雷達(dá)信號(hào)分選分為預(yù)分選和主分選。傳統(tǒng)的雷達(dá)信號(hào)預(yù)分選一般采用小盒法[2]。小盒法簡(jiǎn)單易行,但是由于采用固定容差的方式,聚類形狀固定,容易引起邊界效應(yīng),造成增批和漏批現(xiàn)象[3]。
聚類分析[4]是數(shù)據(jù)挖掘中的重要技術(shù),基本思想是根據(jù)數(shù)據(jù)對(duì)象之間的相似性,將數(shù)據(jù)樣本分成不同的簇,使得同一簇內(nèi)差異盡可能小,不同簇中差異盡可能大。利用聚類分析可以彌補(bǔ)傳統(tǒng)預(yù)分選方法的不足。
文獻(xiàn)[5]提出了一種改進(jìn)的DBSCAN聚類分選方法,減少了參與聚類運(yùn)算的數(shù)據(jù)個(gè)數(shù),提高了未知雷達(dá)信號(hào)的聚類分選速度。然而由于DBSCAN對(duì)參數(shù)敏感,使得該方法不能有效作用于密度差異較大的雷達(dá)信號(hào)。文獻(xiàn)[6]提出了一種基于近類點(diǎn)和模糊點(diǎn)的未知雷達(dá)信號(hào)分選算法,能夠發(fā)現(xiàn)密度不均勻的聚類,但分選速度有待提高。
針對(duì)以上不足,本文結(jié)合雷達(dá)信號(hào)本身各參數(shù)的特點(diǎn),采用基于密度的OPTICS算法,并進(jìn)行網(wǎng)格單元?jiǎng)澐?,采用兩?jí)處理,縮短運(yùn)行時(shí)間。這是一種能夠克服邊界模糊效應(yīng),得到任意聚類形狀的雷達(dá)信號(hào)預(yù)分選方法。
OPTICS算法是一種由DBSCAN算法發(fā)展而來的密度聚類算法[7-8],引入了核心距離和可達(dá)距離的概念。通過建立增廣數(shù)據(jù)集排序(可達(dá)圖)[9]來表示它基于密度的數(shù)據(jù)結(jié)構(gòu),可達(dá)圖可以看作一系列參數(shù)設(shè)置的基于密度的聚類[10-11]。
使用OPTICS算法進(jìn)行雷達(dá)信號(hào)預(yù)分選的核心思想是:從一個(gè)隨機(jī)選定的脈沖出發(fā),朝著脈沖最為密集的區(qū)域擴(kuò)張,最終將所有同類的脈沖組織成可視化有序序列。
基于OPTICS聚類的雷達(dá)信號(hào)預(yù)分選過程如下所述。
輸入脈沖數(shù)據(jù)集{vi},i=1,2,…,N,其中vi為脈沖描述字(PDW)中載頻(RF)、到達(dá)角(DOA)、脈寬(PW)構(gòu)成的三維空間,N為總脈沖樣本個(gè)數(shù)。
歐式距離計(jì)算。設(shè)置ε為半徑,MinNp為同一聚類的最小脈沖數(shù),計(jì)算每個(gè)脈沖樣本vi與脈沖數(shù)據(jù)集所有樣本的歐式距離公式如下:
(1)
式中:j=1,2,…,N;fri代表vi的RF特征量;doai代表vi的DOA特征量;wpi代表vi的PW特征量。
核心距離計(jì)算。用Nε(i)表示d(vi,vj)中距離小于半徑ε的脈沖樣本數(shù)。若|Nε(i)|≥MinNp,即半徑ε內(nèi)脈沖樣本數(shù)超過最小脈沖數(shù)門限,則vi為核心對(duì)象。脈沖樣本vi的核心距離是指vi成為核心對(duì)象的最小εi′。如果vi不是核心對(duì)象,那么vi的核心距離沒有任何意義。核心距離為:
(2)
式中:MinNp是自然數(shù),MinNp-d(vi)表示vi到其最鄰近的MinNp個(gè)鄰接點(diǎn)的最大距離。
可達(dá)距離計(jì)算。脈沖樣本vj到脈沖樣本vi的可達(dá)距離是指vi的核心距離εi′和vi與vj歐式距離之間的較大值。如果vi不是核心對(duì)象,vi和vj之間的可達(dá)距離沒有意義。可達(dá)距離公式:
dr(vi,vj)=
(3)
核心距離和可達(dá)距離示意圖如圖1所示。已知半徑ε,最小脈沖數(shù)MinNp=4。A的核心距離為ε′(A)=d(vA,vB),C到A的可達(dá)距離dr(vA,vC)=εi′(A),D到A的可達(dá)距離dr(vA,vD)=d(vA,vD)。
圖1 核心距離和可達(dá)距離示意圖
有序種子隊(duì)列建立和結(jié)果隊(duì)列生成。將待處理的脈沖樣本按照可達(dá)距離升序排列得到有序種子隊(duì)列,總是選擇可達(dá)距離最小的脈沖進(jìn)行處理,使得聚類朝著脈沖最為稠密的區(qū)域擴(kuò)張。直到處理完當(dāng)前稠密區(qū)域,才會(huì)探索稀疏的邊界,進(jìn)入下一個(gè)稠密區(qū)域。根據(jù)有序種子隊(duì)列,生成結(jié)果隊(duì)列,用以存儲(chǔ)聚類結(jié)果。
脈沖聚類標(biāo)記數(shù)組{mi}的獲得。通過識(shí)別結(jié)果隊(duì)列中陡峭下降沿和上升沿區(qū)域來提取聚類,得到脈沖聚類標(biāo)記數(shù)組:
(4)
式中:k=1,2,…,K,表示聚類個(gè)數(shù),如圖2所示。
脈沖聚類通道劃分。根據(jù)聚類標(biāo)記數(shù)組{mi},將脈沖數(shù)據(jù)集{vi}進(jìn)行分類,送往聚類緩沖區(qū)中聚類號(hào)所對(duì)應(yīng)的通道中,從而實(shí)現(xiàn)信號(hào)預(yù)分選。
圖2 聚類通道緩沖區(qū)示意圖
由于DBSCAN對(duì)參數(shù)敏感的特點(diǎn)決定了該方法不能有效作用于簇密度差異較大的脈沖數(shù)據(jù)集中,繼而不適用于復(fù)雜體制雷達(dá)的信號(hào)分選。OPTICS算法雖然在一定程度上克服了DBSCAN對(duì)參數(shù)的敏感性,但是應(yīng)用到信號(hào)分選中存在著一些不足之處。當(dāng)脈沖密度過大時(shí),處理時(shí)間比較長(zhǎng)。
本文提出一種網(wǎng)格化的思想:將RF、DOA和PW劃分成網(wǎng)格單元,以網(wǎng)格的質(zhì)心代替網(wǎng)格中數(shù)據(jù)點(diǎn)的集合[12],將落在某個(gè)單元中的脈沖個(gè)數(shù)當(dāng)成這個(gè)單元的密度。最后,利用OPTICS算法輸出簇排序的可達(dá)圖。由于脈沖集合有效壓縮,因此使得算法運(yùn)行速度得到提高。
設(shè)網(wǎng)格單元RF分辨率為Δfr,DOA分辨率為Δda,PW分辨率為Δwp。輸入脈沖數(shù)據(jù)集{vi},i=1,2,…,N,其中vi為脈沖描述字(PDW)中載頻(RF)、到達(dá)角(DOA)、脈寬(PW)構(gòu)成的三維空間,記作vi={fri,doai,wpi},N為總脈沖樣本個(gè)數(shù)。
(5)
式中:Cntl為單元內(nèi)的脈沖個(gè)數(shù);SRFl為單元內(nèi)所有對(duì)象的RF之和;SDOAl為單元內(nèi)所有對(duì)象的DOA之和;SPWl為單元內(nèi)所有對(duì)象的PW之和。
將網(wǎng)格單元中有脈沖(Cntl>0)的單元格取出來,生成壓縮后的脈沖數(shù)據(jù)集{wm},m=1,2,…,M,對(duì)應(yīng)脈沖數(shù){cntm},m=1,2,…,M,其中wm={frcm,doacm,wpcm},M為壓縮后的網(wǎng)格單元數(shù)。相關(guān)參數(shù)對(duì)應(yīng)公式(5)。
(6)
式中:frcm,doacm,wpcm,cntm分別為第m個(gè)有脈沖(Cntl>0)的單元格的載頻質(zhì)心、方位質(zhì)心、脈寬質(zhì)心和單元格脈沖數(shù)。
對(duì)壓縮后的脈沖數(shù)據(jù)集進(jìn)行OPTICS算法處理,計(jì)算核心距離和可達(dá)距離時(shí),考慮計(jì)數(shù)值的影響。
網(wǎng)格單元脈沖數(shù)生成示意圖如圖3所示。圖3左側(cè)表示原始脈沖的RF和DOA關(guān)系,進(jìn)行網(wǎng)格單元?jiǎng)澐趾?,記錄每個(gè)單元的質(zhì)心和脈沖數(shù),如圖3右圖所示。
圖3 網(wǎng)格單元脈沖數(shù)生成示意圖
針對(duì)密度不均的雷達(dá)信號(hào)分選,當(dāng)信號(hào)環(huán)境存在噪聲時(shí),采用網(wǎng)格單元?jiǎng)澐值腛PTICS算法對(duì)高密度分選有效,但對(duì)低密度信號(hào)效果不明顯。本文提出一種兩級(jí)OPTICS網(wǎng)格單元處理方法?;舅枷胧牵阂患?jí)OPTICS網(wǎng)格單元處理,將高密度信號(hào)分選處理,并進(jìn)行網(wǎng)格過濾;將低密度信號(hào)和噪聲流入第二級(jí)處理,進(jìn)一步累積,若為低密度信號(hào),繼續(xù)累積存在一定的規(guī)律,若為噪聲,則繼續(xù)累積也沒有規(guī)律。圖4為兩級(jí)OPTICS處理示意圖,網(wǎng)格顏色越深,表示脈沖數(shù)越多。
圖4 兩級(jí)處理示意圖
為了驗(yàn)證聚類算法的有效性,本文進(jìn)行仿真實(shí)驗(yàn)。
雷達(dá)參數(shù)設(shè)置如表1所示。
表1 雷達(dá)參數(shù)信息表
從表1可以看出,不同屬性維度上4部雷達(dá)都相互混疊,相同時(shí)間內(nèi),雷達(dá)1和雷達(dá)4脈沖數(shù)多,雷達(dá)2和雷達(dá)3脈沖數(shù)少。采用DBSCAN聚類進(jìn)行雷達(dá)信號(hào)分選,若ε設(shè)置偏小,則分選出雷達(dá)1和雷達(dá)4,而認(rèn)為雷達(dá)2和雷達(dá)3是噪聲,沒有分選成功;若ε設(shè)置偏大,能夠分選出雷達(dá)2和雷達(dá)3,但雷達(dá)1和雷達(dá)4合并成一批了。
采用OPTICS聚類進(jìn)行雷達(dá)信號(hào)預(yù)分選可達(dá)圖如圖5所示。通過識(shí)別結(jié)果隊(duì)列中陡峭下降沿和上升沿區(qū)域,可以看出共有4部信號(hào)。每部信號(hào)對(duì)應(yīng)的脈沖數(shù)與設(shè)置相同。
圖5 OPTICS聚類的雷達(dá)信號(hào)預(yù)分選可達(dá)圖
對(duì)表1脈沖進(jìn)行網(wǎng)格單元?jiǎng)澐?,將脈沖依次添加到網(wǎng)格單元中,計(jì)算出單元的質(zhì)心和脈沖數(shù)。圖6以RF-DOA網(wǎng)格單元?jiǎng)澐譃槔?,高度為脈沖數(shù),高度越高表示脈沖數(shù)越多。
圖6 RF-DOA網(wǎng)格單元?jiǎng)澐?/p>
圖7為采用網(wǎng)格單元?jiǎng)澐值腛PTICS聚類的雷達(dá)信號(hào)預(yù)分選可達(dá)圖,可以看出同樣分為4部信號(hào)。
圖7 網(wǎng)格單元OPTICS聚類的雷達(dá)信號(hào)預(yù)分選可達(dá)圖
根據(jù)表1的輻射源參數(shù)產(chǎn)生雷達(dá)脈沖數(shù)據(jù)流,對(duì)前1 200個(gè)脈沖分別進(jìn)行OPTICS聚類和改進(jìn)OPTICS聚類,表2為2種算法在不同噪聲情況下的分選正確率。可以看出,高密度信號(hào)分選正確率受噪聲影響小;在噪聲情況下,通過網(wǎng)格劃分和兩級(jí)處理,低密度信號(hào)的分選正確率有效提高。
表2 不同噪聲情況下的分選正確率
對(duì)表1信號(hào)分別選取1 200,2 000,5 000,8 000,10 000個(gè)脈沖,對(duì)比傳統(tǒng)OPTICS聚類和本文改進(jìn)OPTICS聚類的運(yùn)行時(shí)間,隨著脈沖數(shù)的增加,傳統(tǒng)OPTICS聚類時(shí)間增加明顯,而改進(jìn)OPTICS聚類時(shí)間增加較少,大大減少了運(yùn)行時(shí)間,如圖8所示。
圖8 不同輸入脈沖數(shù)情況下運(yùn)行時(shí)間
由于在DBSCAN算法中,變量ε,MinNp是全局唯一的,當(dāng)空間脈沖密度不均勻時(shí),聚類質(zhì)量較差。為了克服在聚類分析中使用一組全局參數(shù)的缺點(diǎn),提出了OPTICS聚類的雷達(dá)信號(hào)預(yù)分選方法。同時(shí)采用網(wǎng)格單元?jiǎng)澐謥硖岣呔垲愃俣?。?shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的DBSCAN算法相比,改進(jìn)OPTICS算法適用于不同密度分布的雷達(dá)信號(hào),從而提高了復(fù)雜體制雷達(dá)信號(hào)分選的正確率,同時(shí)降低了算法運(yùn)行時(shí)間。后期為了進(jìn)一步提高分選正確率,可以將固定網(wǎng)格劃分變成自適應(yīng)網(wǎng)格劃分[12]。