劉明輝,周 磊,謝婷婷,霍爍爍
(中國人民解放軍63891部隊(duì),河南洛陽471003)
電子裝備試驗(yàn)的目的主要是對(duì)電子裝備的各項(xiàng)戰(zhàn)技指標(biāo)進(jìn)行考核。傳統(tǒng)意義上的試驗(yàn)僅僅是對(duì)電子裝備各項(xiàng)性能滿足指標(biāo)的程度進(jìn)行考核,而并不過分關(guān)注裝備本身指標(biāo)性能可以達(dá)到的程度,這對(duì)裝備性能的提升,缺陷的查找、分析和改進(jìn)都是不利的。因此,有必要在試驗(yàn)過程中將裝備試驗(yàn)數(shù)據(jù)與指標(biāo)進(jìn)行對(duì)照檢驗(yàn)后,再進(jìn)行進(jìn)一步的分析,尋找其中的規(guī)律和問題。
在試驗(yàn)數(shù)據(jù)分析中,聚類分析是一類常見的試驗(yàn)數(shù)據(jù)處理方法,在試驗(yàn)數(shù)據(jù)分選、異常處理和故障判別等領(lǐng)域都有著廣泛的應(yīng)用。在各種聚類分析方法中,層次聚類方法是一種應(yīng)用較為廣泛的方法,典型的層次聚類算法有BIRCH算法[1]、CHAMELEON算法[2]和 CURE 算法[3]等。
CURE聚類方法是一種較為新穎的層次聚類方法,將傳統(tǒng)算法對(duì)簇的表示方法進(jìn)行了改進(jìn),提出了采用簇內(nèi)多個(gè)數(shù)據(jù)點(diǎn)來代表簇的思想,從每個(gè)簇中抽取固定數(shù)量,分布較好的點(diǎn)作為描述該簇的代表點(diǎn),代替類簇對(duì)象進(jìn)行類簇之間的距離計(jì)算。通過迭代計(jì)算,將最相似的簇進(jìn)行合并,以此完成聚類的目的。對(duì)于CURE算法,當(dāng)前在國內(nèi)已經(jīng)有一些研究和成功的應(yīng)用,如利用CURE算法進(jìn)行網(wǎng)絡(luò)用戶行為分析[4]、相似重復(fù)記錄檢測(cè)[5]、通信異常檢測(cè)[6]以及交通服務(wù)系統(tǒng)應(yīng)用[7]等。
在當(dāng)前的電子裝備試驗(yàn)?zāi)J街?,其試?yàn)數(shù)據(jù)處理方法大多是基于經(jīng)典統(tǒng)計(jì)學(xué)假設(shè)的,認(rèn)為在試驗(yàn)過程中,試驗(yàn)數(shù)據(jù)滿足平穩(wěn)隨機(jī)過程條件,在不同時(shí)間點(diǎn)獲取的試驗(yàn)數(shù)據(jù)均滿足同一分布,不受時(shí)間影響。然而,對(duì)于外場(chǎng)試驗(yàn)來說,由于試驗(yàn)環(huán)境、試驗(yàn)條件和試驗(yàn)手段的限制,其試驗(yàn)過程必然要受到各種因素的影響,在某些惡劣條件下,如高動(dòng)態(tài)升空平臺(tái)試驗(yàn),其過程很可能是非平穩(wěn)的,試驗(yàn)數(shù)據(jù)中包含了大量時(shí)變誤差,如試驗(yàn)數(shù)據(jù)誤差存在隨時(shí)間跳變現(xiàn)象;或者試驗(yàn)數(shù)據(jù)誤差存在時(shí)域周期性變化現(xiàn)象;或者驗(yàn)數(shù)據(jù)誤差存在遞增和歸零現(xiàn)象等。形成上述時(shí)變誤差的原因有很多,其原因可能主要有以下幾點(diǎn):①試驗(yàn)過程中各種干擾的影響,包括各種外部電磁環(huán)境影響,系統(tǒng)內(nèi)設(shè)備的自擾以及測(cè)量設(shè)備與被試設(shè)備的互擾等;②被試設(shè)備和測(cè)量設(shè)備狀態(tài)隨時(shí)間的漂移,使得試驗(yàn)結(jié)果在一定范圍內(nèi)出現(xiàn)規(guī)律性變化;③被試設(shè)備本身的設(shè)計(jì)缺陷造成的影響。對(duì)于這類誤差的分析、補(bǔ)償和修正,是試驗(yàn)數(shù)據(jù)處理中面臨的一項(xiàng)難題。為了更好地描述裝備的指標(biāo)特性,有必要尋找一種時(shí)變誤差的處理方法來進(jìn)行試驗(yàn)數(shù)據(jù)分析和處理。
對(duì)于存在時(shí)變誤差的試驗(yàn)過程,可以對(duì)其誤差狀態(tài)空間做如下合理假設(shè):
假設(shè)1:被試裝備的誤差狀態(tài)空間是封閉的,并且總可以被劃分為有限的若干區(qū)間類;
假設(shè)2:被試裝備誤差狀態(tài)區(qū)間類之間相互獨(dú)立。
根據(jù)以上假設(shè),可以采用一種按時(shí)間分段處理的方法,將整個(gè)試驗(yàn)時(shí)段T劃分為若干獨(dú)立時(shí)間段,即T={t1t2…tn},因?yàn)樵谳^短的一個(gè)時(shí)段內(nèi),可以近似地認(rèn)為,系統(tǒng)的狀態(tài)是穩(wěn)定的,其誤差以短時(shí)隨機(jī)誤差為主。
由上述分析可得,對(duì)于電子裝備時(shí)變誤差的處理問題,最終可以歸結(jié)為一個(gè)電子裝備時(shí)變誤差的聚類分析問題。經(jīng)過研究,本文最終選取了CURE算法來進(jìn)行時(shí)變數(shù)據(jù)的分類。
CURE聚類算法是一種高效的聚類算法,采用代表點(diǎn)來描述簇,其算法基本思路是:首先把每個(gè)數(shù)據(jù)點(diǎn)作為不同的簇,然后不斷使用基于代表點(diǎn)的方法對(duì)最相似的2個(gè)簇進(jìn)行合并。CURE算法使用多代表點(diǎn)來描述簇的方法具有很多優(yōu)點(diǎn):①基于多代表點(diǎn)的簇間相似性度量既可以降低噪聲點(diǎn)對(duì)簇合并的影響,又可以使相似性度量反映出簇的形狀、分布等信息,因此得到的簇的質(zhì)量更好;②在計(jì)算基于代表點(diǎn)的簇間相似度時(shí),只需計(jì)算代表點(diǎn)之間的距離,而不需要計(jì)算簇內(nèi)所有數(shù)據(jù)點(diǎn)之間的距離,因此算法效率更高。
CURE算法的詳細(xì)描述如下:設(shè)數(shù)據(jù)集合Φ由n個(gè)數(shù)據(jù)點(diǎn)構(gòu)成,即 Φ= { φ1φ2… φn},C為簇集合,C={C1C2…Cn},R(Ci)為簇Ci的代表點(diǎn)集合R(Ci)={ri1ri2…rip}(p<λ)其中 λ為每個(gè)簇中的最大代表點(diǎn)數(shù),收縮因子為α,定義dist(φ1,φ2)為任意2個(gè)數(shù)據(jù)項(xiàng)之間的歐氏距離,則2個(gè)聚類之間的距離為:
算法步驟如下:
① 根據(jù)每一個(gè)數(shù)據(jù)點(diǎn) φi建立一個(gè)簇Ci,R(Ci)= φi。
② 找出簇集C中代表點(diǎn)最近的2個(gè)簇Cj,Ck。
③ 將簇Cj,Ck合并為新簇Cnew。
④計(jì)算新簇的質(zhì)心
式中,表示簇中的樣本數(shù)。
⑤ 構(gòu) 建臨時(shí)集合tempΦ,從新簇中選擇 φi,如果tempΦ為空集,則使得φi滿足條件:
否則使得φi滿足條件:
最后將φi并入tempΦ,如果tempΦ中元素個(gè)數(shù)大于λ,則終止步驟⑤。
⑥計(jì)算新簇Cnew的代表點(diǎn):
⑦更新簇集,重新計(jì)算各簇間的距離dist(C1,C2),重新執(zhí)行步驟②。
對(duì)于算法終止的條件,可以采用文獻(xiàn)[8]中的方法來判別。
定義1 類內(nèi)距:類內(nèi)兩兩不相同樣本點(diǎn)之間的距離的平均,如果類內(nèi)所有樣本均相同,則類內(nèi)距定義為0,類內(nèi)距反映了類內(nèi)樣本的緊密程度。
定義2 類間連接對(duì):若類i中距離樣本點(diǎn)xj最近的樣本點(diǎn)為xi,且類j中距離xi最近的點(diǎn)也為xj,則稱(xi,xj)為類i和類j之間的1個(gè)連接對(duì)。其中xi屬于類i,xj屬于類j。
定義3 類間距:類i和類j之間的所有連接對(duì)的距離平均,類間距反映了類間分離程度。
由上述定義可得,如果類間距大于類內(nèi)距,就會(huì)認(rèn)為這2類不應(yīng)該合并為1類,相反地,就會(huì)認(rèn)為二者應(yīng)該歸為1類,在每次更新簇集后,計(jì)算一下各類的類內(nèi)距和類間距,當(dāng)所有類不應(yīng)再聚合時(shí),算法停止。
在成功完成誤差狀態(tài)空間分類之后,即可采用各種指標(biāo)對(duì)電子裝備系統(tǒng)的時(shí)變誤差進(jìn)行綜合評(píng)價(jià)。對(duì)于裝備誤差的評(píng)價(jià)指標(biāo),通常情況下為系統(tǒng)的均值和方差,以及由均值和方差衍生出的CEP、中間偏差或者其他類指標(biāo),對(duì)于電子裝備的時(shí)變誤差,采用這些指標(biāo)進(jìn)行考核是不合適的,因此,本文提出了3種用于考核電子裝備時(shí)變誤差的指標(biāo),這些指標(biāo)具有一定的代表性。
2.3.1 時(shí)變穩(wěn)定度
設(shè)被試裝備系統(tǒng)誤差均值為μ,方差為σ2,其各時(shí)段誤差的均值為E={μ1μ2… μn},pk為各時(shí)段數(shù)據(jù)點(diǎn)數(shù)量與試驗(yàn)數(shù)據(jù)總量的比值,即pk=nk/N,則可定義系統(tǒng)的時(shí)變穩(wěn)定度為:
時(shí)變穩(wěn)定度描述了各時(shí)段誤差均值與系統(tǒng)總體均值的偏離程度,ST值越小,則系統(tǒng)各時(shí)段的偏差值越小,系統(tǒng)性能越高。
2.3.2 時(shí)變一致性
設(shè)系統(tǒng)各時(shí)段方差為D={σ22… σ2n},則系統(tǒng)的時(shí)變一致性可定義為:
式中,pk定義同上。
時(shí)變一致性描述了系統(tǒng)在存在時(shí)變誤差條件下,在較短的時(shí)段內(nèi)系統(tǒng)誤差的一致性程度,也即被試裝備系統(tǒng)短時(shí)的穩(wěn)定程度,CT值越小,系統(tǒng)的時(shí)變一致性越好。
2.3.3 精度—時(shí)間概率
由于時(shí)變誤差的存在,系統(tǒng)的精度實(shí)際上是一個(gè)變化量,在不同時(shí)間段,系統(tǒng)的精度是不同的,同理,對(duì)于某一確定的精度值,系統(tǒng)能夠滿足其要求的時(shí)間也是不同的。精度—時(shí)間概率定義如下:
設(shè)某一任務(wù)對(duì)系統(tǒng)精度需求為P,則系統(tǒng)的精度—時(shí)間概率為:
式中,tk為滿足精度需求的時(shí)段;T為總時(shí)間。
為驗(yàn)證該方法的有效性,這里采用仿真數(shù)據(jù)進(jìn)行了驗(yàn)證,仿真數(shù)據(jù)源自2個(gè)不同型號(hào)的激光測(cè)距裝備試驗(yàn),采用線性變換的方式對(duì)試驗(yàn)數(shù)據(jù)進(jìn)行了處理。兩型裝備的試驗(yàn)數(shù)據(jù)如圖1和圖2所示。
圖1和圖2描述了A、B不同廠家設(shè)計(jì)的一激光測(cè)距裝備的誤差分布,由圖可以看出,A廠設(shè)計(jì)的激光測(cè)距裝備誤差較為均勻,而B廠設(shè)計(jì)的激光測(cè)距裝備則表現(xiàn)出了較為明顯的誤差時(shí)變性。采用CURE算法對(duì)兩型裝備進(jìn)行分類,最終A廠裝備試驗(yàn)數(shù)據(jù)被分為1類,而B廠裝備試驗(yàn)數(shù)據(jù)被分為5類,具體分類及數(shù)據(jù)結(jié)果如表1所示。由表1可以看出,A型裝備誤差均值小于B型裝備,但方差大于B型,二者差別不大,對(duì)于誤差均值和方差,二者不存在顯著性差別(t檢驗(yàn),P>0.05)。
圖1 A型裝備誤差分布
圖2 B型裝備誤差分布
表1 兩型激光測(cè)距裝備數(shù)據(jù)誤差及分類結(jié)果
但若對(duì)時(shí)變誤差進(jìn)行考慮,計(jì)算兩型裝備的時(shí)變穩(wěn)定度、時(shí)變一致性及精度—時(shí)間概率(精度p≤3 m)指標(biāo),則可發(fā)現(xiàn)兩型裝備的明顯差別,具體計(jì)算結(jié)果如表2所示,其中試驗(yàn)點(diǎn)數(shù)為100。
表2 兩型激光測(cè)距裝備時(shí)變誤差分析結(jié)果
由表2可知,A型裝備的時(shí)變穩(wěn)定性較好,誤差分布較為均勻,一般情況下應(yīng)優(yōu)先選用A型設(shè)備;但B型裝備時(shí)變一致性較好,若系統(tǒng)中還存在其他設(shè)備進(jìn)行修正或者有條件采用差分方法,則B型設(shè)備可以提供更高的精度;對(duì)于某些指定精度(如要求精度≤3 m)的任務(wù)需求,采用A型裝備是一個(gè)較好的選擇。
在以往的試驗(yàn)過程中,對(duì)電子裝備的時(shí)變誤差考慮較少,因此對(duì)系統(tǒng)的評(píng)價(jià)存在一定的片面性。本文提出了一種基于CURE算法的電子裝備時(shí)變誤差分析處理方法,通過CURE算法對(duì)試驗(yàn)數(shù)據(jù)進(jìn)行聚類,采用時(shí)變穩(wěn)定度、時(shí)變一致性和精度—時(shí)間概率對(duì)被試裝備的時(shí)變誤差進(jìn)行了考核,考核結(jié)果對(duì)裝備的評(píng)價(jià)、選型和改進(jìn)都有一定的指導(dǎo)意義,本文所提出的方法,也可以推廣到其他應(yīng)用領(lǐng)域中,具有較為廣泛的應(yīng)用前景。
[1]ZHANG T,RAMAKRISHMAN R,LIVNY M.BIRCH:An Efficient Data Clustering Method for very Large Databases[C].In Proc.1996 ACM-SIGMOD Int.Conf.Management of Data.Canada,1996,1 032-1 141.
[2]KARYPIS G,HAN E H,KUMAR V.CHAMELEMON:Ahierarchical Clustering Algorithm Using Dynamic Modeling[J].COMPUTR,1999(32):682 -751.
[3]GUHA S,RASTOGI R,SHIM K.CURE:an Efficient Clustering Algorithm for Large Database[J].Information Systems,2001,26(1):35 -58.
[4]孫燕花,李 杰 ,李 建.基于CURE算法的網(wǎng)絡(luò)用戶行為分析[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011,21(9):35-38.
[5]時(shí)念云,張金明,褚 希.基于CURE算法的相似重復(fù)記錄檢測(cè)[J].計(jì)算機(jī)工程,2009,35(5):56-58.
[6]周亞建,徐晨,李繼國.基于改進(jìn)CURE聚類算法的無監(jiān)督異常檢測(cè)方法[J].通信學(xué)報(bào),2010,31(7):18-23.
[7]張 愚 ,翁小雄.CURE聚類方法及其在交通服務(wù)信息系統(tǒng)中的應(yīng)用[J].科學(xué)技術(shù)與工程,2009,9(10):2 611-2 615.
[8]向 嫻 ,湯建龍.基于改進(jìn)的支持向量聚類的雷達(dá)信號(hào)分選[J].航天電子對(duì)抗,2011,27(1):50-53.