王朗寧,侯炎磐,李彥峰
(太原衛(wèi)星發(fā)射中心,山西太原 030027)
挖掘窄帶雷達(dá)對目標(biāo)識別的潛力具有重要意義。期望利用窄帶雷達(dá)能夠?qū)臻g重點目標(biāo)群和非重點目標(biāo)類群(碎片等目標(biāo))進(jìn)行初步分類識別和篩選[1-2],雷達(dá)在此基礎(chǔ)上可集中更多的時間和能量資源重點對重要目標(biāo)進(jìn)行跟蹤,并為后續(xù)跟蹤識別提供重點目標(biāo)位置信息。目標(biāo)雷達(dá)散射截面(Radar Cross Section,RCS)信息反映了目標(biāo)的幾何特征和電磁散射特征,還隱含了目標(biāo)的運動特征,可以從中提取數(shù)學(xué)特征通過模式識別技術(shù)對目標(biāo)分類識別[3-5]。
支持向量機(Support Vector Machines,SVM)作為一種常用來解決分類和回歸問題的通用機器學(xué)習(xí)方法[6],對小樣本、非線性問題和高維問題等方面表現(xiàn)出良好泛化能力與預(yù)測能力,能夠避免“維數(shù)災(zāi)難”的弊端,被廣泛地應(yīng)用于諸多領(lǐng)域,同樣也適用于雷達(dá)目標(biāo)識別[7-8]。SVM算法復(fù)雜度與訓(xùn)練樣本數(shù)目成指數(shù)關(guān)系,而SVM增量算法需要用大數(shù)據(jù)集訓(xùn)練迭代,運算的存儲空間和時間代價花費巨大[6, 9-11]。
基于RCS統(tǒng)計特征數(shù)據(jù),SVM算法可以對空間目標(biāo)進(jìn)行分類識別。如果僅采用單次樣本數(shù)據(jù)訓(xùn)練SVM分類器,樣本數(shù)據(jù)全面性不足,很難保證未來的預(yù)測效果。因此,樣本集需要進(jìn)行初采樣,以節(jié)省計算資源同時保證選出的樣本子集能夠?qū)崿F(xiàn)全集合的SVM分類精度?;诖?,本文提出并應(yīng)用了一種用于RCS統(tǒng)計特征的支持向量機訓(xùn)練集約減方法,成功縮減了數(shù)據(jù)樣本集規(guī)模,同時保持支持向量機訓(xùn)練分類的精度。
支持向量機是建立在結(jié)構(gòu)風(fēng)險最小化等嚴(yán)格堅實的統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上的?;緮?shù)學(xué)模型如下:
(1)
s.t.yi(wTXi+b)+δi≥1,δi≥0,i=1,2,…,d
(3)
支持向量是拉格朗日系數(shù)不為0所對應(yīng)的樣本向量。從決策函數(shù)的表達(dá)式可以看出,最終分類超平面完全由支持向量決定。
通常來講,SVM訓(xùn)練樣本中非支持向量數(shù)目遠(yuǎn)大于支持向量的數(shù)目,而支持向量集就能夠構(gòu)造該訓(xùn)練樣本集的最優(yōu)分類超平面。Syed等最早開展SVM增量學(xué)習(xí)研究[9],每次增量學(xué)習(xí)將新增樣本集與原樣本集的支持向量構(gòu)成新樣本集進(jìn)行訓(xùn)練,依次不斷循環(huán)迭代。曾文華等提出了一種利用KKT(Kaush-Kuhn-Tucher)條件互相檢驗的SVM增量學(xué)習(xí)方法[10],分別對舊和新增樣本集訓(xùn)練后,互相找出違反對方KKT條件的樣本構(gòu)成新的訓(xùn)練集。但是,上述方法完全篩選淘汰所有的非支持向量,而在全集訓(xùn)練條件下,原訓(xùn)練集的一些非支持向量可能轉(zhuǎn)化為支持向量,而該部分樣本被忽略將降低分類精度。因此,必須采取有快速高效的采樣方法,淘汰掉每次樣本集中的無用樣本以提高訓(xùn)練的速度,同時保留重要信息來保證SVM訓(xùn)練的精度。
支持向量一定是分布在每一類訓(xùn)練集幾何意義上邊緣的樣本點,而不可能是訓(xùn)練集內(nèi)部的點?;诖耍疚膶γ看卧囼灥臉颖炯M(jìn)行初選樣,選取兩類邊界樣本和邊緣樣本構(gòu)成樣本子集。兩類邊界樣本是兩類樣本的交際區(qū)中,那些靠得近卻又不屬同類的樣本,支持向量常常被包含在其中。邊緣樣本是單類樣本空間分布幾何意義上邊緣區(qū)域的樣本集,代表了樣本集空間分布的幾何信息,常常包含了那些可能由非支持向量轉(zhuǎn)化為支持向量的樣本。
中心距離就是樣本到樣本中心的距離。已知兩類樣本,那么根據(jù)類別就分別有兩個中心點。某一樣本點到所屬類別中心距離稱為自中心距離,到非屬類別中心的距離稱為互中心距離,定義中心距離比值為自中心距離和互中心距離的比值。一般地,兩類邊界向量樣本的中心距離比值較大[11]。
Xi是k維特征的樣本向量,p(Xi)是其多維高斯分布密度函數(shù),表達(dá)式如下:
(4)
式中,μ為同類樣本向量的均值向量,β為協(xié)方差矩陣。已知兩類樣本,那么根據(jù)類別就分別得到兩個相應(yīng)的多維高斯分布。定義某樣本點高斯模型概率比值為非屬類別與所屬類別的高斯分布概率密度比值。一般地,兩類邊界向量樣本的高斯模型概率比值較大。本文融合考慮中心距離比值和高斯分布概率比值,按照比值從大到小的順序依次穿插排序,然后按所需樣本數(shù)量再取樣。
多維高斯分布模型在幾何上根據(jù)特征向量維度不同呈現(xiàn)為橢圓或者超橢球體結(jié)構(gòu)。首先對每類樣本求解出其高斯分布模型,對樣本分別沿所屬類別的超橢球軸投影,選擇軸投影軸兩端的樣本,最后按所需樣本數(shù)量再取樣。
直推式實驗設(shè)計(Transductive Experimental Design,TED)是一種代表性的適用于無任何標(biāo)簽信息的無監(jiān)督主動學(xué)習(xí)算法。根據(jù)無標(biāo)注樣本所包含的潛在結(jié)構(gòu)分布信息設(shè)計合適的采樣策略,來選擇最能代表樣本集結(jié)構(gòu)分布的高價值樣本。在最優(yōu)實驗設(shè)計算法的基礎(chǔ)上,將給定數(shù)據(jù)集上的預(yù)測誤差作為優(yōu)化目標(biāo)[12-13]。本文采取直推式實驗設(shè)計的采樣算法,對上述兩類邊界樣本集和單類邊緣樣本集進(jìn)行再采樣,縮減樣本集規(guī)模到指定水平。
本文使用包含有代表空間重點目標(biāo)和非重點目標(biāo)的RCS仿真數(shù)據(jù),標(biāo)記為目標(biāo)1(Class 1)和目標(biāo)2(Class 2)。利用上述RCS數(shù)據(jù)滑窗分段處理提取統(tǒng)計特征:計算每段時間窗內(nèi)的RCS序列的統(tǒng)計特征,以每個數(shù)據(jù)段的一組多維特征構(gòu)成一個特征向量(樣本向量),最終得到480個樣本。
雷達(dá)目標(biāo)RCS序列的常用統(tǒng)計特征有:(1)位置特征參數(shù),描述了目標(biāo)RCS時間序列的平均位置和特定位置,常用的有均值、極大/極小值、眾數(shù)等;(2)散布特征參數(shù),描述了目標(biāo)RCS序列的離散程度,極差、方差以及變異系數(shù)等;(3)分布特征參數(shù),描述了目標(biāo)RCS序列統(tǒng)計分布的總體密度函數(shù)的特征,標(biāo)準(zhǔn)偏度系數(shù)、標(biāo)準(zhǔn)峰度系數(shù)、多階中心矩等;(4)變換域特征,把RCS數(shù)據(jù)變換到其他特征域后重新進(jìn)行特征統(tǒng)計,提取新的特征以突出目標(biāo)特性,例如,采用傅里葉變換后的統(tǒng)計特征:頻譜均值、熵、低頻能量比等。
空間重點目標(biāo)和非重點目標(biāo)的RCS差異主要體現(xiàn)在群內(nèi)部成員形狀以及微運動特征上。例如,空間重點目標(biāo)飛行過程中常常保持姿態(tài)穩(wěn)定特性,而非重點目標(biāo)(碎片等)會產(chǎn)生翻滾等較為劇烈的微動變化,此時統(tǒng)計特征方差所表述的RCS序列的變化離散特性差異性大,有助于目標(biāo)分類識別??傊?,目標(biāo)狀態(tài)差異可以由RCS統(tǒng)計特征的不同得以體現(xiàn)。本節(jié)實驗提取了3組(A,B,C)二維特征(特征為:{A1,A2},{B1,B2},{C1,C2})向量構(gòu)成樣本集,所述特征進(jìn)行了減去均值再除以標(biāo)準(zhǔn)差的標(biāo)準(zhǔn)化數(shù)據(jù)處理,避免某一特征值過大或過小。
分別采用中心距離比值、高斯分布概率比值和融合方法,抽取訓(xùn)練集中兩類邊界樣本,抽取樣本的比例為20%。A樣本集({A1,A2}),兩類邊界樣本的抽取結(jié)果如圖1所示。B樣本集({B1,B2})情形下,兩類邊界樣本的抽取結(jié)果如圖2所示。C樣本集({C1,C2})情形下,兩類邊界樣本的抽取結(jié)果如圖3所示。
(a)中心距離比抽樣分布
(a)中心距離比抽樣分布
圖1(a)是采用概率比值方法抽取的樣本分布圖,圖1(b)是本文所述將距離/概率比值融合抽取的樣本分布圖。比較圖1(a)和(b),圖1(b)顯然更能代表兩類邊界樣本分布特性,圖1(b)所示的融合方法抽取效果顯著高于圖1(a)。
(a)概率比抽樣分布
圖2(a)是采用中心距離比方法抽取的樣本分布圖。圖2(b)是本文所述將距離/概率比值融合抽取的樣本分布圖。此時,圖2(a)所示的采用中心距離比采樣的效果不佳。
圖3(a)和(b)結(jié)果表明:采用高斯分布概率比值方法和采用中心距離比值方法抽取的結(jié)果都有局限。圖3(d)結(jié)果表明:本文所述的二者融合抽取的樣本分布情況最佳。圖3(c)是訓(xùn)練集樣本全分布與兩類別中心位置圖。綜上所述,與單獨使用中心距離比或者概率比方法對比,本文所述的融合抽取的樣本分布總能取得較好的抽樣結(jié)果,融合方法具備更好的適用性。
實驗分析單類邊緣樣本的抽取效果。對樣本分別沿所屬類別的橢圓軸方向投影,選擇軸投影方向兩端的樣本,設(shè)抽取樣本數(shù)目為134個;然后再使用直推式實驗設(shè)計(TED)方法,抽取20個單類邊緣樣本,抽取樣本的結(jié)果如圖4所示。文字標(biāo)號和圈點為TED法抽取樣本的順序與位置,TED法能夠選擇出最能代表樣本集結(jié)構(gòu)分布的樣本。
(a)A樣本集的邊緣樣本TED抽取結(jié)果
采用Matlab自帶的C-SVM數(shù)學(xué)模型,模型參數(shù):Csvm=1,線性核和SMO算法求解。采用本文優(yōu)化方法與隨機抽樣、TED法抽樣方法,得到不同的樣本子集,對比分析子集和全集之間SVM分類器精度的變化。首先,預(yù)設(shè)抽取樣本比例,分別用本文優(yōu)化方法、隨機抽樣與直推式實驗設(shè)計方法抽取樣本子集;然后,分別采用抽取的樣本進(jìn)行SVM訓(xùn)練,得到3條最優(yōu)分類線,同時,采用樣本全集也可以得到1條最優(yōu)分類線。最后,對比分析不同樣本集得到的4條最優(yōu)分類線:以子集分類線與全集分類線的相似/貼近程度衡量抽樣方法的性能,與全集分類線越相似/貼近的抽樣方法對分類精度影響越小。
圖5為B樣本集下的SVM訓(xùn)練分類線對比:圖5(a)、(b)、(c)和(d)分別對應(yīng)10%,20%,30%和50%抽樣比例;兩類目標(biāo)的全部樣本都被繪制在圖中;圖中所示4條線分別為:中空圓形點線代表本文優(yōu)化抽樣方法得到的最優(yōu)分類線,中空方形點線代表隨機抽樣方法得到的最優(yōu)分類線,中空菱形點線代表TED法得到的最優(yōu)分類線,虛線代表樣本全集得到的最優(yōu)分類線。
由圖5知,縱向整體對比圖5(a)、(b)、(c)和(d)的變化:隨著抽樣比例的提高,無論何種抽樣方式,每種方法的分類線都會更加貼近全集的最優(yōu)分類線,也就意味著分類精度越不受影響。
由圖5(c)和(d)知,在較大樣本采樣比例下(>30%),采用本文優(yōu)化的采樣方法得到的樣本子集,其SVM訓(xùn)練得到的分類線與全集訓(xùn)練得到的分類線基本完全貼合。而此時,采用隨機方法和TED法得到的分類線與全集訓(xùn)練出來的分類線尚有距離。
(a)10%抽樣比例
由圖5(a)和(b)知,在小樣本采樣比例下(<20%),本文優(yōu)化采樣方法優(yōu)勢則更加明顯。圖5(a)為在采樣比例10%下不同方法約減樣本集的SVM訓(xùn)練結(jié)果:此時,隨機方法和TED法得到的SVM分類線與全集分類線差距明顯,還錯分了許多樣本,分類精度明顯降低;而與之對比的本文優(yōu)化采樣方法的分類線則與全集得到分類線較為接近,分類精度降低不顯著。
圖6、圖7分別為A、C樣本集下的SVM訓(xùn)練分類線對比典型結(jié)果。
(a)10%抽樣比例
(a)10%抽樣比例
總之,在本文所述3個樣本集合的算法實驗中,本文優(yōu)化方法與隨機抽樣、TED法對SVM分類精度的影響規(guī)律與圖5保持高度一致:在每個采樣比例下,本文優(yōu)化方法得到的SVM分類線與全集得到的分類線更加貼近。隨著采樣比例的提升,本文優(yōu)化方法的分類線能夠在更小的采樣比例下與全集訓(xùn)練出的分類線貼合。在較低采樣比例下(10%),本文優(yōu)化方法的分類線與全集訓(xùn)練的結(jié)果基本吻合,保持較高的分類精度。
本文提出了一種支持向量機訓(xùn)練集的約減方法,成功應(yīng)用于基于窄帶RCS統(tǒng)計特征的空間目標(biāo)分類識別?;谥С窒蛄恳欢ㄊ欠植荚诿恳活愑?xùn)練集幾何意義上邊緣的樣本點的特點,本文用于SVM增量學(xué)習(xí)的樣本初選方法不依賴于SVM分類界面選取樣本向量,考慮樣本簇的分布情況,不簡單以距離量度決定樣本向量的選取,使用高斯模型的方式,依賴樣本向量的在兩類高斯分布的概率比或者以高斯模型橢圓方向的兩側(cè)投影距離,選取邊界支持向量和邊緣支持向量,最后采用TED優(yōu)化方法,在上述樣本集中再優(yōu)選出最能代表樣本集結(jié)構(gòu)分布的高價值樣本。實驗結(jié)果表明:通過對比抽取樣本方法分析對SVM分類的精度影響,本文優(yōu)化方法比隨機抽樣、TED法得到的SVM分類線更能貼近全集得到的分類線,特別是在小的采樣比例下,采用本文優(yōu)化方法得到的樣本子集在SVM訓(xùn)練出的分類精度保持顯著優(yōu)于另兩種抽樣方法。綜上所述,使用本文優(yōu)化方法抽取樣本子集,能夠在保證SVM分類訓(xùn)練精度的同時,有效地降低樣本集容量并保留原始樣本集中分布在空間幾何邊緣的樣本。