馮尚聰,楊保華,黃 冬
(1.北京機(jī)電工程研究所,北京 100074;2.奔牛機(jī)場(chǎng),江蘇 常州 213000)
導(dǎo)彈裝備研制、生產(chǎn)、使用等壽命周期內(nèi)產(chǎn)生、積累大量的數(shù)據(jù)信息,這些數(shù)據(jù)信息是工程應(yīng)用的基礎(chǔ),能夠?yàn)闄C(jī)器學(xué)習(xí)模型提供可靠的數(shù)據(jù)集,對(duì)于裝備故障預(yù)測(cè)、質(zhì)量判別、壽命預(yù)測(cè)等技術(shù)研究至關(guān)重要。由于在數(shù)據(jù)采集過(guò)程中測(cè)量精度、測(cè)量方法等因素引起的誤差、數(shù)據(jù)變異、錯(cuò)誤信息等,導(dǎo)致數(shù)據(jù)信息含有不同程度的異常數(shù)據(jù),為數(shù)據(jù)精準(zhǔn)應(yīng)用帶來(lái)困擾;數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清理、數(shù)據(jù)集成、變換以及數(shù)據(jù)規(guī)約3個(gè)部分,其中過(guò)濾掉奇異點(diǎn)、錯(cuò)誤干擾項(xiàng)、噪音數(shù)據(jù)、不一致數(shù)據(jù)等,獲得高質(zhì)量的數(shù)據(jù)是數(shù)據(jù)清理的一項(xiàng)重要任務(wù)。針對(duì)導(dǎo)彈測(cè)試數(shù)據(jù)的預(yù)處理研究,空軍勤務(wù)學(xué)院王茜教授基于某型導(dǎo)彈測(cè)試流程,提出了測(cè)試數(shù)據(jù)奇異項(xiàng)和趨勢(shì)項(xiàng)的方法,設(shè)計(jì)數(shù)據(jù)預(yù)處理模塊并進(jìn)行了仿真驗(yàn)證。海軍航空大學(xué)周璐等人為了研究基于測(cè)試數(shù)據(jù)的導(dǎo)彈質(zhì)量評(píng)估工作,將測(cè)試數(shù)據(jù)進(jìn)行篩選并調(diào)整測(cè)試模塊數(shù)據(jù)權(quán)重,最后進(jìn)行歸一化處理。中國(guó)船舶工業(yè)綜合技術(shù)經(jīng)濟(jì)研究院吳立金等人在研究基于深度學(xué)習(xí)的裝備故障預(yù)測(cè)技術(shù)時(shí),對(duì)數(shù)據(jù)處理提出通過(guò)故障數(shù)據(jù)特點(diǎn)分析進(jìn)行數(shù)據(jù)的參數(shù)化研究,形成訓(xùn)練樣本和識(shí)別樣本,從而刪除原始數(shù)據(jù)中的偽信息。
武器系統(tǒng)的測(cè)試數(shù)據(jù)異常域包括異常點(diǎn)、異常曲線和異常簇等,當(dāng)前對(duì)異常數(shù)據(jù)的常見識(shí)別與處理方法主要包括統(tǒng)計(jì)模型方法、距離/密度檢測(cè)方法、聚類方法等,對(duì)異常數(shù)據(jù)點(diǎn)的檢測(cè)通常采用均方差、盒圖模型、曲線擬合等統(tǒng)計(jì)模型的方法,對(duì)異常數(shù)據(jù)曲線的檢測(cè)采用距離模型、深度學(xué)習(xí)模型等方法,對(duì)異常數(shù)據(jù)簇的檢測(cè)采用ITree(隔離樹)、聚類模型等深度學(xué)習(xí)方法。對(duì)于數(shù)據(jù)奇異點(diǎn)的算法研究,燕山大學(xué)張寧等人分別對(duì)基于統(tǒng)計(jì)、距離、密度、偏移等離群點(diǎn)檢測(cè)算法進(jìn)行了歸納綜述,分析了其中的優(yōu)缺點(diǎn)。晉中學(xué)院信息技術(shù)與工程學(xué)院的李俊麗等人研究了高維數(shù)據(jù)的離群點(diǎn)檢測(cè)算法,描述了不確定數(shù)據(jù)和數(shù)據(jù)流離群檢測(cè)算法,提出了離群組合技術(shù)用于解決高維數(shù)據(jù)的關(guān)聯(lián)性。廣州珠江職業(yè)技術(shù)學(xué)院黃富平等人對(duì)現(xiàn)有的異常數(shù)據(jù)檢測(cè)邏輯進(jìn)行改進(jìn),利用 Hadoop平臺(tái)作為異常數(shù)據(jù)檢測(cè)組的運(yùn)行平臺(tái),提出利用動(dòng)態(tài)反饋模組對(duì)運(yùn)算后輸出結(jié)果數(shù)據(jù)進(jìn)行數(shù)據(jù)異常檢測(cè),能夠?qū)﹄[性異常數(shù)據(jù)進(jìn)行深度檢測(cè)。本文針對(duì)裝備數(shù)據(jù)異常域檢測(cè)方法能否適用于導(dǎo)彈裝備的測(cè)試數(shù)據(jù)進(jìn)行詳細(xì)探討,充分吸收各算法優(yōu)勢(shì),圍繞導(dǎo)彈測(cè)試數(shù)據(jù)的特點(diǎn)分類提出異常域檢測(cè)模型,滿足導(dǎo)彈測(cè)試數(shù)據(jù)在多場(chǎng)景工程應(yīng)用中的需求。
IQR
)將數(shù)據(jù)分為3個(gè)點(diǎn)和4個(gè)區(qū)間,表征第3個(gè)四分位數(shù)和第一個(gè)四分位數(shù)的差 (IQR
=Q
-Q
),異常點(diǎn)被定義為低于箱形圖下限(或Q
-1.
5x
IQR
)或高于箱形圖上限(或Q
+1.
5x
IQR
)的觀測(cè)值,考慮把上下限作為數(shù)據(jù)分布的邊界,任何高于上限或低于下限的數(shù)據(jù)點(diǎn)判定為異常點(diǎn);任意一組數(shù)據(jù)集或觀測(cè)值都可以根據(jù)數(shù)據(jù)的值以及它們與整個(gè)數(shù)據(jù)集的比較情況被劃分為4個(gè)確定的間隔,如圖2所示。最小二乘法將數(shù)據(jù)集或觀測(cè)數(shù)據(jù)擬合成曲線,根據(jù)最小二乘原理,將實(shí)際值與利用曲線擬合計(jì)算值的離差的平方和最小為優(yōu)化判據(jù),回歸的關(guān)聯(lián)式不可能全部通過(guò)每個(gè)回歸數(shù)據(jù)點(diǎn),借助相關(guān)系數(shù)“R”,剩余標(biāo)準(zhǔn)偏差“S”進(jìn)行判斷;將“R”越偏離于 1且“S”越偏離于 0的值判定為異常點(diǎn),算法原理如圖3所示。圖1 標(biāo)準(zhǔn)差法異常點(diǎn)檢測(cè)原理圖
圖2 盒圖模型異常點(diǎn)檢測(cè)原理圖
圖3 最小二乘法異常點(diǎn)檢測(cè)原理圖
k
的取值較為依賴,如果k
的取值太小,則少量的相鄰異常點(diǎn)容易計(jì)算出較低的臨近性度量值;如果k
的取值太大,而數(shù)據(jù)集點(diǎn)數(shù)偏少,則k
的簇中全部的數(shù)據(jù)點(diǎn)都有可能成為異常點(diǎn),在工程實(shí)施過(guò)程中,通常取k
個(gè)最近鄰的平均距離作為鄰近性度量的基準(zhǔn),在計(jì)算過(guò)程中能夠規(guī)避上述問(wèn)題。基于密度的異常檢測(cè)方法核心思想可以理解為將距離偏離度映射至異常點(diǎn)的密度分布區(qū)域,即異常點(diǎn)在低密度區(qū)域的分布,因此基于密度的異常點(diǎn)檢測(cè)與鄰近度的關(guān)系密切相關(guān),通常定義鄰域密度為到k
個(gè)最近鄰的平均距離的倒數(shù),如果該距離小,則鄰域密度高,偏離度亦小?;诿芏鹊漠惓|c(diǎn)檢測(cè)方法在定義密度概念的時(shí)候可根據(jù)數(shù)據(jù)屬性進(jìn)行變換,可定義為一個(gè)數(shù)據(jù)對(duì)象周圍的密度等于該數(shù)據(jù)對(duì)象指定距離d
內(nèi)對(duì)象的個(gè)數(shù),該方法依賴于d
值的選取,如果d
取值太小,則許多正常數(shù)據(jù)對(duì)象可能具有較低密度,從而具有很高的異常點(diǎn)度量值;如果d
取值太大,則許多異常點(diǎn)可能具有與正常數(shù)據(jù)對(duì)象類似的密度值,因此,d
值的選取影響異常點(diǎn)檢測(cè)的準(zhǔn)確度;為了正確的識(shí)別數(shù)據(jù)集對(duì)象中的異常點(diǎn),需要充分利用數(shù)據(jù)集鄰域相關(guān)的密度概念,通過(guò)定義點(diǎn)x
的密度與它的最近鄰y
的平均密度比值作為相對(duì)密度進(jìn)行度量鄰域異常狀態(tài),使用相對(duì)密度的異常點(diǎn)檢測(cè)步驟如下。步驟1:對(duì)于指定的近鄰個(gè)數(shù)k
,基于數(shù)據(jù)集的最近鄰計(jì)算對(duì)象的密度d
(x
,k
);步驟2:依據(jù)d
(x
,k
)計(jì)算每個(gè)對(duì)象的異常點(diǎn)度量值;步驟3:計(jì)算點(diǎn)的鄰近平均密度和平均相對(duì)密度。相對(duì)密度指示點(diǎn)是否在比它的近鄰更稠密或更稀疏的鄰域內(nèi),并取作點(diǎn)的異常點(diǎn)度量比。
基于密度的檢測(cè)方法最具代表性的是局部離群因子檢測(cè)方法(LOF,local outlier factor),在LOF方法中,為每個(gè)數(shù)據(jù)點(diǎn)都分配一個(gè)依賴于鄰域密度的離群因子 LOF,判斷該數(shù)據(jù)點(diǎn)是否為離群點(diǎn)。判別規(guī)則為若LOF遠(yuǎn)大于1,則該數(shù)據(jù)點(diǎn)為異常點(diǎn);若 LOF 接近于 1,則該數(shù)據(jù)點(diǎn)為正常數(shù)據(jù)點(diǎn),LOF值計(jì)算如公式(1)~(3)所示。
d
(o
,p
)=max{d
(o
,p
),d
(o
)}(1)
(2)
(3)
其中:K
為距離鄰域中的樣本點(diǎn)數(shù),d
(o
,p
)表示數(shù)據(jù)點(diǎn)o
到數(shù)據(jù)點(diǎn)p
的第k
可達(dá)距離;p
(o
)表示數(shù)據(jù)點(diǎn)p
的第k
局部可達(dá)密度,LOF
(p
)表示數(shù)據(jù)點(diǎn)p
的第k
局部離群因子。基于隔離樹(iTree)模型檢測(cè)方法是一種通過(guò)隔離實(shí)現(xiàn)異常檢測(cè)的方法,算法原理為用一個(gè)隨機(jī)平面來(lái)分區(qū)數(shù)據(jù)空間,一次可以生成兩個(gè)數(shù)據(jù)子空間,再繼續(xù)用一個(gè)隨機(jī)平面來(lái)分區(qū)每個(gè)數(shù)據(jù)子空間,循環(huán)分區(qū)直到每個(gè)數(shù)據(jù)子空間里面只有一個(gè)數(shù)據(jù)點(diǎn)為止,能夠發(fā)現(xiàn)那些密度很高的簇被隨機(jī)平面分區(qū)很多次是可以停止分區(qū)的,但是那些密度很低的點(diǎn)很容易被分割停到一個(gè)子空間中,從而實(shí)現(xiàn)將一個(gè)異類數(shù)據(jù)點(diǎn)從其他數(shù)據(jù)實(shí)例中隔離出來(lái)的效果。由于異常數(shù)據(jù)“少而不同”,因此這些異常數(shù)據(jù)更容易被檢測(cè),隔離樹模型對(duì)異常產(chǎn)生明顯的較短路徑,因?yàn)楫惓5膶?shí)例越少,導(dǎo)致分區(qū)數(shù)量越少,樹結(jié)構(gòu)中的路徑越短;具有可區(qū)分屬性值的實(shí)例容易在早期分區(qū)中被分離。因此,當(dāng)一個(gè)隔離樹對(duì)某些特定點(diǎn)產(chǎn)生較短的路徑長(zhǎng)度時(shí),這些點(diǎn)存在很大的異??赡苄?。
隔離樹的表示方法為設(shè)T
為隔離樹的一個(gè)節(jié)點(diǎn),T
要么是沒(méi)有子節(jié)點(diǎn)的外部節(jié)點(diǎn),要么是有一個(gè)測(cè)試和兩個(gè)子節(jié)點(diǎn)(T
,T
)的內(nèi)部節(jié)點(diǎn),一個(gè)測(cè)試由一個(gè)屬性q
和一個(gè)分割值p
組成,這樣測(cè)試就可以將數(shù)據(jù)點(diǎn)劃分為T
和T
。如給定來(lái)自某變量分布的N
個(gè)實(shí)例的數(shù)據(jù)樣本X
={X
,…X
},在構(gòu)建隔離樹的過(guò)程中,通過(guò)隨機(jī)選擇屬性q
和分割值p
遞歸地劃分X
,直到滿足:樹達(dá)到高度極限、路徑為1或X
中的所有數(shù)據(jù)都具有相同的值。隔離樹隸屬于二叉樹,其中樹中的每個(gè)節(jié)點(diǎn)為零或兩個(gè)子節(jié)點(diǎn)。假設(shè)所有實(shí)例都是不同的,當(dāng)一個(gè)隔離樹完全增長(zhǎng)時(shí),每個(gè)實(shí)例都被孤立到一個(gè)外部節(jié)點(diǎn),在這種情況下,外部節(jié)點(diǎn)的數(shù)量為N
,內(nèi)部節(jié)點(diǎn)的數(shù)量為N
-1;全部隔離樹的節(jié)點(diǎn)總數(shù)為2N
-1;異常檢測(cè)的任務(wù)是提供一個(gè)反映異常程度的排序,因此,可根據(jù)數(shù)據(jù)點(diǎn)的路徑長(zhǎng)度或異常分?jǐn)?shù)對(duì)數(shù)據(jù)點(diǎn)進(jìn)行排序,并由此可以看出異常域是排在列表頂部的區(qū)域?;诟綦x樹模型檢測(cè)異常的實(shí)現(xiàn)步驟如下。步驟1:隔離樹模型訓(xùn)練。
①構(gòu)建一個(gè)孤立樹,選擇N
個(gè)數(shù)據(jù)集對(duì)象作為樣本集,放入樹的根節(jié)點(diǎn);②設(shè)定樹的生長(zhǎng)高度,隨機(jī)指定一個(gè)屬性,在當(dāng)前節(jié)點(diǎn)數(shù)據(jù)集范圍內(nèi),隨機(jī)產(chǎn)生一個(gè)切割點(diǎn)P
;切割點(diǎn)滿足在當(dāng)前節(jié)點(diǎn)屬性數(shù)據(jù)中的最大值與最小值范圍內(nèi);③切割點(diǎn)P
的選取生成了一個(gè)平面分割邏輯,將當(dāng)前節(jié)點(diǎn)數(shù)據(jù)空間切分為二個(gè)可度量子空間:把當(dāng)前所選屬性下小于P
的點(diǎn)放在節(jié)點(diǎn)的左分支,把大于等于P
的點(diǎn)放在節(jié)點(diǎn)的右分支;④在節(jié)點(diǎn)的左分支和右分支節(jié)點(diǎn)遞歸步驟②、③,不斷構(gòu)造新的葉子節(jié)點(diǎn),直到葉子節(jié)點(diǎn)上只有一個(gè)數(shù)據(jù)點(diǎn)或孤立樹已經(jīng)生長(zhǎng)到了所設(shè)定的高度。
步驟2:隔離樹模型檢測(cè)。
由步驟1獲得t
個(gè)隔離樹,將全部隔離樹統(tǒng)一起來(lái)形成隔離樹集,即孤立森林(iForest),然后可以用生成的孤立森林來(lái)評(píng)估測(cè)試數(shù)據(jù)了。對(duì)于一組訓(xùn)練數(shù)據(jù)X
,我們令其遍歷每一棵孤立樹,計(jì)算X
在孤立樹中的高度值(X
從根節(jié)點(diǎn)穿過(guò)隔離樹的邊數(shù)來(lái)衡量,直到遍歷在外部節(jié)點(diǎn)結(jié)束),并可以計(jì)算得出X
在每棵孤立樹中的高度平均值。獲得每個(gè)測(cè)試數(shù)據(jù)的高度平均值后,設(shè)置一個(gè)閾值,高度平均值低于此閾值的測(cè)試數(shù)據(jù)即為異常,說(shuō)明異常點(diǎn)在這些樹中只有很短的平均高度。對(duì)于每個(gè)樣本X
,需要對(duì)其綜合計(jì)算每棵樹的結(jié)果,通過(guò)公式(4)計(jì)算測(cè)試數(shù)據(jù)的異常分?jǐn)?shù):S
(X
,n
)=2-(())()(4)
其中:E
(h
(x
)) 為隔離樹集合中的高度h
(x
)的平均值,c
(n
) 為給定樣本數(shù)n
的路徑長(zhǎng)度的平均值,用來(lái)對(duì)樣本x
的路徑長(zhǎng)度h
(x
) 進(jìn)行標(biāo)準(zhǔn)化處理。由公式(2)可以得出當(dāng)E
(h
(x
))→c
(n
),異常得分接近 0.
5,認(rèn)為樣本中可能不存在異常點(diǎn);當(dāng)E
(h
(x
))→0,異常得分接近 1,認(rèn)為x
為異常點(diǎn);以及當(dāng)E
(h
(x
))→n
-1,異常得分s
遠(yuǎn)小于0.
5,認(rèn)為x
為非異常點(diǎn)。K
個(gè)簇,讓簇內(nèi)的點(diǎn)盡量緊密的連在一起,而讓簇間的距離盡量的大。層次聚類把每個(gè)樣本值都視為一個(gè)類,計(jì)算各類之間的距離,選取最相近的兩個(gè)類,并為一個(gè)類;新類加入進(jìn)樣本繼續(xù)計(jì)算距離,再合并最近的兩個(gè)類,循環(huán)歸類。DBSCAN是一種基于密度的聚類算法,通過(guò)從數(shù)據(jù)樣本集中隨機(jī)選擇核心點(diǎn),以一個(gè)核心點(diǎn)為圓心,做半徑為r
的圓,選擇圓內(nèi)圈入點(diǎn)的數(shù)滿足密度閾值的核心點(diǎn),且將圈內(nèi)的點(diǎn)形成一個(gè)簇,其中核心點(diǎn)直接密度可達(dá)周圍的其他實(shí)心原點(diǎn),合并相互重合的簇區(qū)分類別。設(shè)輸入為樣本集為D
={X
,X
,…X
},聚類簇?cái)?shù)為k
,最大迭代次數(shù)N
;輸出聚類簇為C
={C
,C
,…C
},則k-means聚類算法步驟如下:①?gòu)臄?shù)據(jù)集D
中隨機(jī)選擇k
個(gè)樣本作為初始的k
個(gè)中心向量:μ
={μ
,μ
,…μ
};②初始化簇分類C
=φ
(1≤t
≤k
);C
={C
,C
,…,C
}。設(shè)輸入為樣本集為D
={X
,X
,…,X
},聚類簇距離度量函數(shù)為d
,聚類簇?cái)?shù)為k
;層次聚類可用樹圖表示聚類過(guò)程,其算法流程為:①計(jì)算類與類之間的距離,用鄰近度矩陣表示;
②將距離最近的兩個(gè)類合并為一個(gè)新的類;
③根據(jù)新的類,更新鄰近度矩陣;
④重復(fù)步驟②、③,至剩下滿足K條件的類為止;層次聚類過(guò)程如圖4所示。
圖4 鄰近度矩陣表示層次聚類過(guò)程示意圖
設(shè)輸入為樣本集為D
={X
,X
,…,X
},鄰域半徑r
,鄰域中數(shù)據(jù)樣本數(shù)目閾值t
,鄰域半徑r
內(nèi)樣本點(diǎn)的數(shù)量大于等于t
的點(diǎn)叫做核心點(diǎn),不屬于核心點(diǎn)但在某個(gè)核心點(diǎn)的鄰域內(nèi)的點(diǎn)叫做邊界點(diǎn),既不是核心點(diǎn)也不是邊界點(diǎn)的是噪聲點(diǎn)。樣本距離度量方式d
,可選用歐式距離計(jì)算;輸出聚類簇為C
={C
,C
,…,C
};則DBSCAN聚類算法步驟如下:①?gòu)臉颖炯腥我膺x取一個(gè)數(shù)據(jù)樣本點(diǎn)p
,計(jì)算出其它樣本點(diǎn)到P
的距離;②根據(jù)每個(gè)樣本點(diǎn)到p
的距離,計(jì)算出p
的r
鄰域;如果鄰域內(nèi)樣本數(shù)目大于t
,則對(duì)于參數(shù)r
和t
,所選取的數(shù)據(jù)樣本點(diǎn)p
為核心點(diǎn),可找出所有從p
密度可達(dá)的數(shù)據(jù)對(duì)象點(diǎn),形成一個(gè)簇;③如果選取的數(shù)據(jù)樣本點(diǎn)p
是邊緣點(diǎn),繼續(xù)選取另一個(gè)數(shù)據(jù)樣本點(diǎn);④重復(fù)步驟②、③,直到所有樣本點(diǎn)被處理,輸出聚類簇。
通過(guò)k-means聚類、層次聚類、DBSCAN聚類等聚類方法獲取數(shù)據(jù)樣本的聚類簇后,根據(jù)數(shù)據(jù)特點(diǎn)進(jìn)一步處理,將遠(yuǎn)離數(shù)據(jù)簇中心數(shù)據(jù)樣本、與平均中心距離值偏差較大的數(shù)據(jù)樣本或簇密度低下的數(shù)據(jù)進(jìn)行異常識(shí)別和判斷,以達(dá)到檢測(cè)異常的目的。
裝備測(cè)試數(shù)據(jù)包含系統(tǒng)、分系統(tǒng)及部件的測(cè)試數(shù)據(jù),某種程度上能夠反映裝備的故障情況或健康狀態(tài),在裝備使用過(guò)程中,部件或分系統(tǒng)的測(cè)試數(shù)據(jù)能夠通過(guò)裝備的分系統(tǒng)單元測(cè)試獲取,根據(jù)不同裝備的測(cè)試性設(shè)計(jì)要求,在全部的測(cè)試項(xiàng)目中每項(xiàng)測(cè)試信號(hào)異常均能表征裝備的若干故障模式;當(dāng)測(cè)試信號(hào)數(shù)據(jù)值在技術(shù)指標(biāo)范圍內(nèi)時(shí),其與技術(shù)指標(biāo)標(biāo)準(zhǔn)中心值之間的偏離程度在數(shù)據(jù)量可信的情況下可以度量狀態(tài)的健康狀態(tài),甚至可以預(yù)測(cè)裝備的故障發(fā)生趨勢(shì)。測(cè)試項(xiàng)目為數(shù)字量信號(hào)的,其異常值一目了然,無(wú)需過(guò)多解讀,本文以測(cè)試信號(hào)模擬量為研究對(duì)象,針對(duì)裝備對(duì)測(cè)試數(shù)據(jù)不同依賴需求下的異常域進(jìn)行分析,將分系統(tǒng)或部件的測(cè)試數(shù)據(jù)異常域分為如下3類:
1)某特征參數(shù)x
在測(cè)試序列中的異常點(diǎn)分布情況,即X
={X
,X
,…,X
},其中X
表示第i
次測(cè)試所產(chǎn)生的特征參數(shù)值,從數(shù)據(jù)序列中區(qū)分出異常點(diǎn)是一件較為容易的事,基于統(tǒng)計(jì)模型的方法、基于密度的檢測(cè)方法、基于聚類的檢測(cè)方法等均能檢測(cè)異常點(diǎn)分布,其中基于統(tǒng)計(jì)模型的方法在測(cè)試序列異常點(diǎn)的檢測(cè)中較為簡(jiǎn)潔且常用的方法;此需求場(chǎng)景多為判斷分系統(tǒng)或部件中某特性參量在試驗(yàn)或長(zhǎng)期服役后是否仍滿足使用要求。2)某特征參數(shù)X
在一次測(cè)試過(guò)程中隨單元測(cè)試時(shí)間變化的異常曲線分布情況,即X
=f
(t
),如某參數(shù)在每次測(cè)試中均滿足區(qū)間內(nèi)指數(shù)分布或線性分布,用f
(t
)=wt
-或f
(t
)=wt
+b
表示,則會(huì)出現(xiàn)在某測(cè)試過(guò)程中隨著時(shí)序變化某測(cè)試時(shí)刻出現(xiàn)曲線異常情況,在樣本量充足的前提下基于曲線間距離偏移度、神經(jīng)網(wǎng)絡(luò)模型等均可以快速檢測(cè)異常曲線,其中基于曲線間距離偏離度的方法較為常用;表1 參數(shù)原始測(cè)試數(shù)據(jù)
此需求滿足特定器件、電路特定參數(shù)隨通電時(shí)間相關(guān)性較大的性能變化趨勢(shì)分析。
根據(jù)裝備測(cè)試數(shù)據(jù)特性及異常點(diǎn)的判別方法論述,在工程應(yīng)用中具體的實(shí)現(xiàn)步驟可參考如下:①利用自動(dòng)測(cè)試系統(tǒng)進(jìn)行進(jìn)行測(cè)試特征參數(shù)值采集;②采集的特征參數(shù)值進(jìn)行數(shù)據(jù)處理并進(jìn)行在線比對(duì)分析,直觀判別超差參數(shù);③在參數(shù)無(wú)明顯超差的情況下,進(jìn)行測(cè)試特征數(shù)據(jù)一致性分析,尋找特征參數(shù)、參數(shù)序列之間的關(guān)系或變化規(guī)律,確認(rèn)參數(shù)是否符合某種分布;④基于特征參數(shù)的規(guī)律特性選擇合適的異常點(diǎn)檢測(cè)方法,評(píng)估與預(yù)測(cè)裝備的狀態(tài)。可結(jié)合裝備的信息化管理,建設(shè)裝備參數(shù)模型庫(kù)、異常域檢測(cè)算法模型庫(kù),模型庫(kù)嵌入測(cè)試系統(tǒng)軟件或裝備信息管理系統(tǒng)軟件,將測(cè)試結(jié)果數(shù)據(jù)分別進(jìn)行自動(dòng)數(shù)據(jù)處理、自主數(shù)據(jù)融合、自適應(yīng)模型判別、自生成輔助決策,提升裝備在大數(shù)據(jù)條件下的智能化自診斷水平。
對(duì)于復(fù)雜的導(dǎo)彈裝備,判斷其異常域往往涉及較多分系統(tǒng),如結(jié)構(gòu)、動(dòng)力、制導(dǎo)、控制、雷達(dá)、電氣等,而表征各分系統(tǒng)的性能參數(shù)無(wú)論是參數(shù)數(shù)量、度量單位、技術(shù)指標(biāo)均存在較大差異,提取各分系統(tǒng)特征參數(shù)綜合形成一個(gè)較大的特征參數(shù)滿足整體導(dǎo)彈裝備的性能需求,特征參數(shù)構(gòu)成的異常域?qū)儆诟呔S數(shù)據(jù),進(jìn)而演變成關(guān)于高維數(shù)據(jù)中異常點(diǎn)的挖掘研究,通過(guò)高維異常域的檢測(cè)判別裝備的性能狀態(tài)存在較大的難度,因此當(dāng)前對(duì)于裝備異常域的檢測(cè)仍集中于分系統(tǒng)及部件參數(shù),通過(guò)各分系統(tǒng)的異常域的檢測(cè)及分布情況,結(jié)合分系統(tǒng)在導(dǎo)彈裝備中的綜合權(quán)重,度量整個(gè)導(dǎo)彈裝備的測(cè)試數(shù)據(jù)異常域分布,進(jìn)而評(píng)估導(dǎo)彈裝備的健康狀態(tài)或故障發(fā)生趨勢(shì)。
x
,y
分別為兩項(xiàng)測(cè)試信號(hào),測(cè)試信號(hào)序列表征該分系統(tǒng)某部件當(dāng)前工作狀態(tài),從表中可以看出該數(shù)據(jù)序列每個(gè)參數(shù)項(xiàng)數(shù)據(jù)較為平滑,分別應(yīng)用局部離群因子檢測(cè)方法及DBSCAN檢測(cè)方法檢測(cè)數(shù)據(jù)序列{x
,y
}中的異常簇,檢測(cè)結(jié)果如圖5所示,均能將數(shù)據(jù)序列異常簇檢測(cè)隔離。圖5 局部離群因子與DBSCAN方法異常域檢測(cè)圖
本文詳細(xì)描述了導(dǎo)彈裝備在使用過(guò)程中的測(cè)試數(shù)據(jù)異常域分布及檢測(cè)需求,分析了基于統(tǒng)計(jì)模型、基于密度模型、基于隔離樹模型以及基于聚類模型等算法檢測(cè)異常域的基本原理與實(shí)現(xiàn)步驟,模擬了部分算法在檢測(cè)某測(cè)試序列異常簇的應(yīng)用,驗(yàn)證了文中所描述異常域檢測(cè)方法在導(dǎo)彈裝備測(cè)試數(shù)據(jù)處理中的應(yīng)用;但由于各類算法在收斂性、調(diào)參情況、復(fù)雜度、樣本數(shù)據(jù)量需求等方面各不相同,以及模擬數(shù)據(jù)與實(shí)際數(shù)據(jù)之間的差異性,算法并不完全適用于多種條件下的數(shù)據(jù)異常域檢測(cè),因此在導(dǎo)彈裝備更多復(fù)雜數(shù)據(jù)異常域檢測(cè)的應(yīng)用中,算法的實(shí)際運(yùn)用效果仍需進(jìn)一步探討與工程應(yīng)用。