• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      導(dǎo)彈裝備測(cè)試數(shù)據(jù)異常域檢測(cè)方法研究

      2022-06-01 13:17:14馮尚聰楊保華
      關(guān)鍵詞:測(cè)試數(shù)據(jù)聚類裝備

      馮尚聰,楊保華,黃 冬

      (1.北京機(jī)電工程研究所,北京 100074;2.奔牛機(jī)場(chǎng),江蘇 常州 213000)

      0 引言

      導(dǎo)彈裝備研制、生產(chǎn)、使用等壽命周期內(nèi)產(chǎn)生、積累大量的數(shù)據(jù)信息,這些數(shù)據(jù)信息是工程應(yīng)用的基礎(chǔ),能夠?yàn)闄C(jī)器學(xué)習(xí)模型提供可靠的數(shù)據(jù)集,對(duì)于裝備故障預(yù)測(cè)、質(zhì)量判別、壽命預(yù)測(cè)等技術(shù)研究至關(guān)重要。由于在數(shù)據(jù)采集過(guò)程中測(cè)量精度、測(cè)量方法等因素引起的誤差、數(shù)據(jù)變異、錯(cuò)誤信息等,導(dǎo)致數(shù)據(jù)信息含有不同程度的異常數(shù)據(jù),為數(shù)據(jù)精準(zhǔn)應(yīng)用帶來(lái)困擾;數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清理、數(shù)據(jù)集成、變換以及數(shù)據(jù)規(guī)約3個(gè)部分,其中過(guò)濾掉奇異點(diǎn)、錯(cuò)誤干擾項(xiàng)、噪音數(shù)據(jù)、不一致數(shù)據(jù)等,獲得高質(zhì)量的數(shù)據(jù)是數(shù)據(jù)清理的一項(xiàng)重要任務(wù)。針對(duì)導(dǎo)彈測(cè)試數(shù)據(jù)的預(yù)處理研究,空軍勤務(wù)學(xué)院王茜教授基于某型導(dǎo)彈測(cè)試流程,提出了測(cè)試數(shù)據(jù)奇異項(xiàng)和趨勢(shì)項(xiàng)的方法,設(shè)計(jì)數(shù)據(jù)預(yù)處理模塊并進(jìn)行了仿真驗(yàn)證。海軍航空大學(xué)周璐等人為了研究基于測(cè)試數(shù)據(jù)的導(dǎo)彈質(zhì)量評(píng)估工作,將測(cè)試數(shù)據(jù)進(jìn)行篩選并調(diào)整測(cè)試模塊數(shù)據(jù)權(quán)重,最后進(jìn)行歸一化處理。中國(guó)船舶工業(yè)綜合技術(shù)經(jīng)濟(jì)研究院吳立金等人在研究基于深度學(xué)習(xí)的裝備故障預(yù)測(cè)技術(shù)時(shí),對(duì)數(shù)據(jù)處理提出通過(guò)故障數(shù)據(jù)特點(diǎn)分析進(jìn)行數(shù)據(jù)的參數(shù)化研究,形成訓(xùn)練樣本和識(shí)別樣本,從而刪除原始數(shù)據(jù)中的偽信息。

      武器系統(tǒng)的測(cè)試數(shù)據(jù)異常域包括異常點(diǎn)、異常曲線和異常簇等,當(dāng)前對(duì)異常數(shù)據(jù)的常見識(shí)別與處理方法主要包括統(tǒng)計(jì)模型方法、距離/密度檢測(cè)方法、聚類方法等,對(duì)異常數(shù)據(jù)點(diǎn)的檢測(cè)通常采用均方差、盒圖模型、曲線擬合等統(tǒng)計(jì)模型的方法,對(duì)異常數(shù)據(jù)曲線的檢測(cè)采用距離模型、深度學(xué)習(xí)模型等方法,對(duì)異常數(shù)據(jù)簇的檢測(cè)采用ITree(隔離樹)、聚類模型等深度學(xué)習(xí)方法。對(duì)于數(shù)據(jù)奇異點(diǎn)的算法研究,燕山大學(xué)張寧等人分別對(duì)基于統(tǒng)計(jì)、距離、密度、偏移等離群點(diǎn)檢測(cè)算法進(jìn)行了歸納綜述,分析了其中的優(yōu)缺點(diǎn)。晉中學(xué)院信息技術(shù)與工程學(xué)院的李俊麗等人研究了高維數(shù)據(jù)的離群點(diǎn)檢測(cè)算法,描述了不確定數(shù)據(jù)和數(shù)據(jù)流離群檢測(cè)算法,提出了離群組合技術(shù)用于解決高維數(shù)據(jù)的關(guān)聯(lián)性。廣州珠江職業(yè)技術(shù)學(xué)院黃富平等人對(duì)現(xiàn)有的異常數(shù)據(jù)檢測(cè)邏輯進(jìn)行改進(jìn),利用 Hadoop平臺(tái)作為異常數(shù)據(jù)檢測(cè)組的運(yùn)行平臺(tái),提出利用動(dòng)態(tài)反饋模組對(duì)運(yùn)算后輸出結(jié)果數(shù)據(jù)進(jìn)行數(shù)據(jù)異常檢測(cè),能夠?qū)﹄[性異常數(shù)據(jù)進(jìn)行深度檢測(cè)。本文針對(duì)裝備數(shù)據(jù)異常域檢測(cè)方法能否適用于導(dǎo)彈裝備的測(cè)試數(shù)據(jù)進(jìn)行詳細(xì)探討,充分吸收各算法優(yōu)勢(shì),圍繞導(dǎo)彈測(cè)試數(shù)據(jù)的特點(diǎn)分類提出異常域檢測(cè)模型,滿足導(dǎo)彈測(cè)試數(shù)據(jù)在多場(chǎng)景工程應(yīng)用中的需求。

      1 數(shù)據(jù)異常域檢測(cè)方法分析

      1.1 基于統(tǒng)計(jì)模型的異常檢測(cè)方法

      基于統(tǒng)計(jì)的方法假設(shè)數(shù)據(jù)符合某種特定分布,通過(guò)數(shù)據(jù)一致性檢驗(yàn)、包絡(luò)分析確定異常點(diǎn),主要方法有符合正態(tài)分布的標(biāo)準(zhǔn)差法(3δ原則)、盒圖模型,符合線性回歸的最小二乘法等。標(biāo)準(zhǔn)差法即如果一個(gè)數(shù)據(jù)分布近似正態(tài),約 68% 的數(shù)據(jù)值會(huì)在均值的一個(gè)標(biāo)準(zhǔn)差范圍內(nèi),約 95% 會(huì)在兩個(gè)標(biāo)準(zhǔn)差范圍內(nèi),約 99.7% 會(huì)在3個(gè)標(biāo)準(zhǔn)差范圍內(nèi),因此,如果有數(shù)據(jù)點(diǎn)超過(guò)標(biāo)準(zhǔn)差的 3 倍,那么該數(shù)據(jù)點(diǎn)通常判定為異常點(diǎn),如圖1所示。盒圖模型即數(shù)據(jù)通過(guò)其四分位數(shù)形成的圖形化描述,是一種簡(jiǎn)單有效的可視化異常點(diǎn)的方法;四分位間距(

      IQR

      )將數(shù)據(jù)分為3個(gè)點(diǎn)和4個(gè)區(qū)間,表征第3個(gè)四分位數(shù)和第一個(gè)四分位數(shù)的差 (

      IQR

      =

      Q

      -

      Q

      ),異常點(diǎn)被定義為低于箱形圖下限(或

      Q

      -1

      .

      5

      x

      IQR

      )或高于箱形圖上限(或

      Q

      +1

      .

      5

      x

      IQR

      )的觀測(cè)值,考慮把上下限作為數(shù)據(jù)分布的邊界,任何高于上限或低于下限的數(shù)據(jù)點(diǎn)判定為異常點(diǎn);任意一組數(shù)據(jù)集或觀測(cè)值都可以根據(jù)數(shù)據(jù)的值以及它們與整個(gè)數(shù)據(jù)集的比較情況被劃分為4個(gè)確定的間隔,如圖2所示。最小二乘法將數(shù)據(jù)集或觀測(cè)數(shù)據(jù)擬合成曲線,根據(jù)最小二乘原理,將實(shí)際值與利用曲線擬合計(jì)算值的離差的平方和最小為優(yōu)化判據(jù),回歸的關(guān)聯(lián)式不可能全部通過(guò)每個(gè)回歸數(shù)據(jù)點(diǎn),借助相關(guān)系數(shù)“R”,剩余標(biāo)準(zhǔn)偏差“S”進(jìn)行判斷;將“R”越偏離于 1且“S”越偏離于 0的值判定為異常點(diǎn),算法原理如圖3所示。

      圖1 標(biāo)準(zhǔn)差法異常點(diǎn)檢測(cè)原理圖

      圖2 盒圖模型異常點(diǎn)檢測(cè)原理圖

      圖3 最小二乘法異常點(diǎn)檢測(cè)原理圖

      1.2 基于密度的異常檢測(cè)方法

      相較于基于統(tǒng)計(jì)模型的異常點(diǎn)檢測(cè)方法,基于密度的異常檢測(cè)方法在工程應(yīng)用中更常見,通過(guò)計(jì)算異常點(diǎn)在數(shù)據(jù)集中的偏離度,確定鄰域密度,度量異常點(diǎn)與整個(gè)數(shù)據(jù)集的臨近程度,即相似性度量或鄰近性度量,異常點(diǎn)臨近性度量的計(jì)算方法可由到它的k-最近鄰的距離計(jì)算,距離計(jì)算方式根據(jù)實(shí)際情況可選擇歐式距離、曼哈頓距離等距離計(jì)算公式,臨近性度量比對(duì)

      k

      的取值較為依賴,如果

      k

      的取值太小,則少量的相鄰異常點(diǎn)容易計(jì)算出較低的臨近性度量值;如果

      k

      的取值太大,而數(shù)據(jù)集點(diǎn)數(shù)偏少,則

      k

      的簇中全部的數(shù)據(jù)點(diǎn)都有可能成為異常點(diǎn),在工程實(shí)施過(guò)程中,通常取

      k

      個(gè)最近鄰的平均距離作為鄰近性度量的基準(zhǔn),在計(jì)算過(guò)程中能夠規(guī)避上述問(wèn)題。基于密度的異常檢測(cè)方法核心思想可以理解為將距離偏離度映射至異常點(diǎn)的密度分布區(qū)域,即異常點(diǎn)在低密度區(qū)域的分布,因此基于密度的異常點(diǎn)檢測(cè)與鄰近度的關(guān)系密切相關(guān),通常定義鄰域密度為到

      k

      個(gè)最近鄰的平均距離的倒數(shù),如果該距離小,則鄰域密度高,偏離度亦小?;诿芏鹊漠惓|c(diǎn)檢測(cè)方法在定義密度概念的時(shí)候可根據(jù)數(shù)據(jù)屬性進(jìn)行變換,可定義為一個(gè)數(shù)據(jù)對(duì)象周圍的密度等于該數(shù)據(jù)對(duì)象指定距離

      d

      內(nèi)對(duì)象的個(gè)數(shù),該方法依賴于

      d

      值的選取,如果

      d

      取值太小,則許多正常數(shù)據(jù)對(duì)象可能具有較低密度,從而具有很高的異常點(diǎn)度量值;如果

      d

      取值太大,則許多異常點(diǎn)可能具有與正常數(shù)據(jù)對(duì)象類似的密度值,因此,

      d

      值的選取影響異常點(diǎn)檢測(cè)的準(zhǔn)確度;為了正確的識(shí)別數(shù)據(jù)集對(duì)象中的異常點(diǎn),需要充分利用數(shù)據(jù)集鄰域相關(guān)的密度概念,通過(guò)定義點(diǎn)

      x

      的密度與它的最近鄰

      y

      的平均密度比值作為相對(duì)密度進(jìn)行度量鄰域異常狀態(tài),使用相對(duì)密度的異常點(diǎn)檢測(cè)步驟如下。步驟1:對(duì)于指定的近鄰個(gè)數(shù)

      k

      ,基于數(shù)據(jù)集的最近鄰計(jì)算對(duì)象的密度

      d

      (

      x

      ,

      k

      );步驟2:依據(jù)

      d

      (

      x

      ,

      k

      )計(jì)算每個(gè)對(duì)象的異常點(diǎn)度量值;

      步驟3:計(jì)算點(diǎn)的鄰近平均密度和平均相對(duì)密度。相對(duì)密度指示點(diǎn)是否在比它的近鄰更稠密或更稀疏的鄰域內(nèi),并取作點(diǎn)的異常點(diǎn)度量比。

      基于密度的檢測(cè)方法最具代表性的是局部離群因子檢測(cè)方法(LOF,local outlier factor),在LOF方法中,為每個(gè)數(shù)據(jù)點(diǎn)都分配一個(gè)依賴于鄰域密度的離群因子 LOF,判斷該數(shù)據(jù)點(diǎn)是否為離群點(diǎn)。判別規(guī)則為若LOF遠(yuǎn)大于1,則該數(shù)據(jù)點(diǎn)為異常點(diǎn);若 LOF 接近于 1,則該數(shù)據(jù)點(diǎn)為正常數(shù)據(jù)點(diǎn),LOF值計(jì)算如公式(1)~(3)所示。

      d

      (

      o

      ,

      p

      )=max{

      d

      (

      o

      ,

      p

      ),

      d

      (

      o

      )}

      (1)

      (2)

      (3)

      其中:

      K

      為距離鄰域中的樣本點(diǎn)數(shù),

      d

      (

      o

      ,

      p

      )表示數(shù)據(jù)點(diǎn)

      o

      到數(shù)據(jù)點(diǎn)

      p

      的第

      k

      可達(dá)距離;

      p

      (

      o

      )表示數(shù)據(jù)點(diǎn)

      p

      的第

      k

      局部可達(dá)密度,

      LOF

      (

      p

      )表示數(shù)據(jù)點(diǎn)

      p

      的第

      k

      局部離群因子。

      1.3 基于隔離樹模型的異常檢測(cè)方法

      基于隔離樹(iTree)模型檢測(cè)方法是一種通過(guò)隔離實(shí)現(xiàn)異常檢測(cè)的方法,算法原理為用一個(gè)隨機(jī)平面來(lái)分區(qū)數(shù)據(jù)空間,一次可以生成兩個(gè)數(shù)據(jù)子空間,再繼續(xù)用一個(gè)隨機(jī)平面來(lái)分區(qū)每個(gè)數(shù)據(jù)子空間,循環(huán)分區(qū)直到每個(gè)數(shù)據(jù)子空間里面只有一個(gè)數(shù)據(jù)點(diǎn)為止,能夠發(fā)現(xiàn)那些密度很高的簇被隨機(jī)平面分區(qū)很多次是可以停止分區(qū)的,但是那些密度很低的點(diǎn)很容易被分割停到一個(gè)子空間中,從而實(shí)現(xiàn)將一個(gè)異類數(shù)據(jù)點(diǎn)從其他數(shù)據(jù)實(shí)例中隔離出來(lái)的效果。由于異常數(shù)據(jù)“少而不同”,因此這些異常數(shù)據(jù)更容易被檢測(cè),隔離樹模型對(duì)異常產(chǎn)生明顯的較短路徑,因?yàn)楫惓5膶?shí)例越少,導(dǎo)致分區(qū)數(shù)量越少,樹結(jié)構(gòu)中的路徑越短;具有可區(qū)分屬性值的實(shí)例容易在早期分區(qū)中被分離。因此,當(dāng)一個(gè)隔離樹對(duì)某些特定點(diǎn)產(chǎn)生較短的路徑長(zhǎng)度時(shí),這些點(diǎn)存在很大的異??赡苄?。

      隔離樹的表示方法為設(shè)

      T

      為隔離樹的一個(gè)節(jié)點(diǎn),

      T

      要么是沒(méi)有子節(jié)點(diǎn)的外部節(jié)點(diǎn),要么是有一個(gè)測(cè)試和兩個(gè)子節(jié)點(diǎn)(

      T

      ,

      T

      )的內(nèi)部節(jié)點(diǎn),一個(gè)測(cè)試由一個(gè)屬性

      q

      和一個(gè)分割值

      p

      組成,這樣測(cè)試就可以將數(shù)據(jù)點(diǎn)劃分為

      T

      T

      。如給定來(lái)自某變量分布的

      N

      個(gè)實(shí)例的數(shù)據(jù)樣本

      X

      ={

      X

      ,…

      X

      },在構(gòu)建隔離樹的過(guò)程中,通過(guò)隨機(jī)選擇屬性

      q

      和分割值

      p

      遞歸地劃分

      X

      ,直到滿足:樹達(dá)到高度極限、路徑為1或

      X

      中的所有數(shù)據(jù)都具有相同的值。隔離樹隸屬于二叉樹,其中樹中的每個(gè)節(jié)點(diǎn)為零或兩個(gè)子節(jié)點(diǎn)。假設(shè)所有實(shí)例都是不同的,當(dāng)一個(gè)隔離樹完全增長(zhǎng)時(shí),每個(gè)實(shí)例都被孤立到一個(gè)外部節(jié)點(diǎn),在這種情況下,外部節(jié)點(diǎn)的數(shù)量為

      N

      ,內(nèi)部節(jié)點(diǎn)的數(shù)量為

      N

      -1;全部隔離樹的節(jié)點(diǎn)總數(shù)為2

      N

      -1;異常檢測(cè)的任務(wù)是提供一個(gè)反映異常程度的排序,因此,可根據(jù)數(shù)據(jù)點(diǎn)的路徑長(zhǎng)度或異常分?jǐn)?shù)對(duì)數(shù)據(jù)點(diǎn)進(jìn)行排序,并由此可以看出異常域是排在列表頂部的區(qū)域?;诟綦x樹模型檢測(cè)異常的實(shí)現(xiàn)步驟如下。

      步驟1:隔離樹模型訓(xùn)練。

      ①構(gòu)建一個(gè)孤立樹,選擇

      N

      個(gè)數(shù)據(jù)集對(duì)象作為樣本集,放入樹的根節(jié)點(diǎn);②設(shè)定樹的生長(zhǎng)高度,隨機(jī)指定一個(gè)屬性,在當(dāng)前節(jié)點(diǎn)數(shù)據(jù)集范圍內(nèi),隨機(jī)產(chǎn)生一個(gè)切割點(diǎn)

      P

      ;切割點(diǎn)滿足在當(dāng)前節(jié)點(diǎn)屬性數(shù)據(jù)中的最大值與最小值范圍內(nèi);③切割點(diǎn)

      P

      的選取生成了一個(gè)平面分割邏輯,將當(dāng)前節(jié)點(diǎn)數(shù)據(jù)空間切分為二個(gè)可度量子空間:把當(dāng)前所選屬性下小于

      P

      的點(diǎn)放在節(jié)點(diǎn)的左分支,把大于等于

      P

      的點(diǎn)放在節(jié)點(diǎn)的右分支;

      ④在節(jié)點(diǎn)的左分支和右分支節(jié)點(diǎn)遞歸步驟②、③,不斷構(gòu)造新的葉子節(jié)點(diǎn),直到葉子節(jié)點(diǎn)上只有一個(gè)數(shù)據(jù)點(diǎn)或孤立樹已經(jīng)生長(zhǎng)到了所設(shè)定的高度。

      步驟2:隔離樹模型檢測(cè)。

      由步驟1獲得

      t

      個(gè)隔離樹,將全部隔離樹統(tǒng)一起來(lái)形成隔離樹集,即孤立森林(iForest),然后可以用生成的孤立森林來(lái)評(píng)估測(cè)試數(shù)據(jù)了。對(duì)于一組訓(xùn)練數(shù)據(jù)

      X

      ,我們令其遍歷每一棵孤立樹,計(jì)算

      X

      在孤立樹中的高度值(

      X

      從根節(jié)點(diǎn)穿過(guò)隔離樹的邊數(shù)來(lái)衡量,直到遍歷在外部節(jié)點(diǎn)結(jié)束),并可以計(jì)算得出

      X

      在每棵孤立樹中的高度平均值。獲得每個(gè)測(cè)試數(shù)據(jù)的高度平均值后,設(shè)置一個(gè)閾值,高度平均值低于此閾值的測(cè)試數(shù)據(jù)即為異常,說(shuō)明異常點(diǎn)在這些樹中只有很短的平均高度。對(duì)于每個(gè)樣本

      X

      ,需要對(duì)其綜合計(jì)算每棵樹的結(jié)果,通過(guò)公式(4)計(jì)算測(cè)試數(shù)據(jù)的異常分?jǐn)?shù):

      S

      (

      X

      ,

      n

      )=2-(())()

      (4)

      其中:

      E

      (

      h

      (

      x

      )) 為隔離樹集合中的高度

      h

      (

      x

      )的平均值,

      c

      (

      n

      ) 為給定樣本數(shù)

      n

      的路徑長(zhǎng)度的平均值,用來(lái)對(duì)樣本

      x

      的路徑長(zhǎng)度

      h

      (

      x

      ) 進(jìn)行標(biāo)準(zhǔn)化處理。由公式(2)可以得出當(dāng)

      E

      (

      h

      (

      x

      ))→

      c

      (

      n

      ),異常得分接近 0

      .

      5,認(rèn)為樣本中可能不存在異常點(diǎn);當(dāng)

      E

      (

      h

      (

      x

      ))→0,異常得分接近 1,認(rèn)為

      x

      為異常點(diǎn);以及當(dāng)

      E

      (

      h

      (

      x

      ))→

      n

      -1,異常得分

      s

      遠(yuǎn)小于0

      .

      5,認(rèn)為

      x

      為非異常點(diǎn)。

      1.4 基于聚類的異常檢測(cè)方法

      聚類分析是在數(shù)據(jù)樣本中發(fā)現(xiàn)的描述對(duì)象及其對(duì)象關(guān)系的信息,將數(shù)據(jù)樣本對(duì)象進(jìn)行分類;目的是各類別內(nèi)的對(duì)象之間是相似的或相關(guān)的,而不同類別中的對(duì)象是不同的、不相關(guān)的或相關(guān)性差異較大的。聚類性質(zhì)表面類別內(nèi)的相似性越大,且類別間的差距越大,說(shuō)明聚類效果越好。基于聚類的異常檢測(cè)方法目的是借助聚類或距離計(jì)算,將遠(yuǎn)離所有簇中心的樣本作為異常點(diǎn),將密度極低處的樣本作為異常點(diǎn),基于聚類的隔離特性,可以快速檢測(cè)出異常點(diǎn)。本文介紹幾種常用的聚類算法:k-means聚類、層次聚類、DBSCAN聚類,其中k-means聚類對(duì)于給定的樣本集,按照樣本之間的距離大小,將樣本集劃分為

      K

      個(gè)簇,讓簇內(nèi)的點(diǎn)盡量緊密的連在一起,而讓簇間的距離盡量的大。層次聚類把每個(gè)樣本值都視為一個(gè)類,計(jì)算各類之間的距離,選取最相近的兩個(gè)類,并為一個(gè)類;新類加入進(jìn)樣本繼續(xù)計(jì)算距離,再合并最近的兩個(gè)類,循環(huán)歸類。DBSCAN是一種基于密度的聚類算法,通過(guò)從數(shù)據(jù)樣本集中隨機(jī)選擇核心點(diǎn),以一個(gè)核心點(diǎn)為圓心,做半徑為

      r

      的圓,選擇圓內(nèi)圈入點(diǎn)的數(shù)滿足密度閾值的核心點(diǎn),且將圈內(nèi)的點(diǎn)形成一個(gè)簇,其中核心點(diǎn)直接密度可達(dá)周圍的其他實(shí)心原點(diǎn),合并相互重合的簇區(qū)分類別。設(shè)輸入為樣本集為

      D

      ={

      X

      ,

      X

      ,…

      X

      },聚類簇?cái)?shù)為

      k

      ,最大迭代次數(shù)

      N

      ;輸出聚類簇為

      C

      ={

      C

      ,

      C

      ,…

      C

      },則k-means聚類算法步驟如下:①?gòu)臄?shù)據(jù)集

      D

      中隨機(jī)選擇

      k

      個(gè)樣本作為初始的

      k

      個(gè)中心向量:

      μ

      ={

      μ

      ,

      μ

      ,…

      μ

      };②初始化簇分類

      C

      =

      φ

      (1≤

      t

      k

      );

      ⑤循環(huán)步驟③、④如果中心向量不發(fā)生變化,則輸出

      C

      ={

      C

      ,

      C

      ,…,

      C

      }。設(shè)輸入為樣本集為

      D

      ={

      X

      ,

      X

      ,…,

      X

      },聚類簇距離度量函數(shù)為

      d

      ,聚類簇?cái)?shù)為

      k

      ;層次聚類可用樹圖表示聚類過(guò)程,其算法流程為:

      ①計(jì)算類與類之間的距離,用鄰近度矩陣表示;

      ②將距離最近的兩個(gè)類合并為一個(gè)新的類;

      ③根據(jù)新的類,更新鄰近度矩陣;

      ④重復(fù)步驟②、③,至剩下滿足K條件的類為止;層次聚類過(guò)程如圖4所示。

      圖4 鄰近度矩陣表示層次聚類過(guò)程示意圖

      設(shè)輸入為樣本集為

      D

      ={

      X

      ,

      X

      ,…,

      X

      },鄰域半徑

      r

      ,鄰域中數(shù)據(jù)樣本數(shù)目閾值

      t

      ,鄰域半徑

      r

      內(nèi)樣本點(diǎn)的數(shù)量大于等于

      t

      的點(diǎn)叫做核心點(diǎn),不屬于核心點(diǎn)但在某個(gè)核心點(diǎn)的鄰域內(nèi)的點(diǎn)叫做邊界點(diǎn),既不是核心點(diǎn)也不是邊界點(diǎn)的是噪聲點(diǎn)。樣本距離度量方式

      d

      ,可選用歐式距離計(jì)算;輸出聚類簇為

      C

      ={

      C

      ,

      C

      ,…,

      C

      };則DBSCAN聚類算法步驟如下:①?gòu)臉颖炯腥我膺x取一個(gè)數(shù)據(jù)樣本點(diǎn)

      p

      ,計(jì)算出其它樣本點(diǎn)到

      P

      的距離;②根據(jù)每個(gè)樣本點(diǎn)到

      p

      的距離,計(jì)算出

      p

      r

      鄰域;如果鄰域內(nèi)樣本數(shù)目大于

      t

      ,則對(duì)于參數(shù)

      r

      t

      ,所選取的數(shù)據(jù)樣本點(diǎn)

      p

      為核心點(diǎn),可找出所有從

      p

      密度可達(dá)的數(shù)據(jù)對(duì)象點(diǎn),形成一個(gè)簇;③如果選取的數(shù)據(jù)樣本點(diǎn)

      p

      是邊緣點(diǎn),繼續(xù)選取另一個(gè)數(shù)據(jù)樣本點(diǎn);

      ④重復(fù)步驟②、③,直到所有樣本點(diǎn)被處理,輸出聚類簇。

      通過(guò)k-means聚類、層次聚類、DBSCAN聚類等聚類方法獲取數(shù)據(jù)樣本的聚類簇后,根據(jù)數(shù)據(jù)特點(diǎn)進(jìn)一步處理,將遠(yuǎn)離數(shù)據(jù)簇中心數(shù)據(jù)樣本、與平均中心距離值偏差較大的數(shù)據(jù)樣本或簇密度低下的數(shù)據(jù)進(jìn)行異常識(shí)別和判斷,以達(dá)到檢測(cè)異常的目的。

      2 裝備測(cè)試數(shù)據(jù)異常域分析

      裝備測(cè)試數(shù)據(jù)包含系統(tǒng)、分系統(tǒng)及部件的測(cè)試數(shù)據(jù),某種程度上能夠反映裝備的故障情況或健康狀態(tài),在裝備使用過(guò)程中,部件或分系統(tǒng)的測(cè)試數(shù)據(jù)能夠通過(guò)裝備的分系統(tǒng)單元測(cè)試獲取,根據(jù)不同裝備的測(cè)試性設(shè)計(jì)要求,在全部的測(cè)試項(xiàng)目中每項(xiàng)測(cè)試信號(hào)異常均能表征裝備的若干故障模式;當(dāng)測(cè)試信號(hào)數(shù)據(jù)值在技術(shù)指標(biāo)范圍內(nèi)時(shí),其與技術(shù)指標(biāo)標(biāo)準(zhǔn)中心值之間的偏離程度在數(shù)據(jù)量可信的情況下可以度量狀態(tài)的健康狀態(tài),甚至可以預(yù)測(cè)裝備的故障發(fā)生趨勢(shì)。測(cè)試項(xiàng)目為數(shù)字量信號(hào)的,其異常值一目了然,無(wú)需過(guò)多解讀,本文以測(cè)試信號(hào)模擬量為研究對(duì)象,針對(duì)裝備對(duì)測(cè)試數(shù)據(jù)不同依賴需求下的異常域進(jìn)行分析,將分系統(tǒng)或部件的測(cè)試數(shù)據(jù)異常域分為如下3類:

      1)某特征參數(shù)

      x

      在測(cè)試序列中的異常點(diǎn)分布情況,即

      X

      ={

      X

      ,

      X

      ,…,

      X

      },其中

      X

      表示第

      i

      次測(cè)試所產(chǎn)生的特征參數(shù)值,從數(shù)據(jù)序列中區(qū)分出異常點(diǎn)是一件較為容易的事,基于統(tǒng)計(jì)模型的方法、基于密度的檢測(cè)方法、基于聚類的檢測(cè)方法等均能檢測(cè)異常點(diǎn)分布,其中基于統(tǒng)計(jì)模型的方法在測(cè)試序列異常點(diǎn)的檢測(cè)中較為簡(jiǎn)潔且常用的方法;此需求場(chǎng)景多為判斷分系統(tǒng)或部件中某特性參量在試驗(yàn)或長(zhǎng)期服役后是否仍滿足使用要求。2)某特征參數(shù)

      X

      在一次測(cè)試過(guò)程中隨單元測(cè)試時(shí)間變化的異常曲線分布情況,即

      X

      =

      f

      (

      t

      ),如某參數(shù)在每次測(cè)試中均滿足區(qū)間內(nèi)指數(shù)分布或線性分布,用

      f

      (

      t

      )=

      wt

      -

      f

      (

      t

      )=

      wt

      +

      b

      表示,則會(huì)出現(xiàn)在某測(cè)試過(guò)程中隨著時(shí)序變化某測(cè)試時(shí)刻出現(xiàn)曲線異常情況,在樣本量充足的前提下基于曲線間距離偏移度、神經(jīng)網(wǎng)絡(luò)模型等均可以快速檢測(cè)異常曲線,其中基于曲線間距離偏離度的方法較為常用;

      表1 參數(shù)原始測(cè)試數(shù)據(jù)

      此需求滿足特定器件、電路特定參數(shù)隨通電時(shí)間相關(guān)性較大的性能變化趨勢(shì)分析。

      根據(jù)裝備測(cè)試數(shù)據(jù)特性及異常點(diǎn)的判別方法論述,在工程應(yīng)用中具體的實(shí)現(xiàn)步驟可參考如下:①利用自動(dòng)測(cè)試系統(tǒng)進(jìn)行進(jìn)行測(cè)試特征參數(shù)值采集;②采集的特征參數(shù)值進(jìn)行數(shù)據(jù)處理并進(jìn)行在線比對(duì)分析,直觀判別超差參數(shù);③在參數(shù)無(wú)明顯超差的情況下,進(jìn)行測(cè)試特征數(shù)據(jù)一致性分析,尋找特征參數(shù)、參數(shù)序列之間的關(guān)系或變化規(guī)律,確認(rèn)參數(shù)是否符合某種分布;④基于特征參數(shù)的規(guī)律特性選擇合適的異常點(diǎn)檢測(cè)方法,評(píng)估與預(yù)測(cè)裝備的狀態(tài)。可結(jié)合裝備的信息化管理,建設(shè)裝備參數(shù)模型庫(kù)、異常域檢測(cè)算法模型庫(kù),模型庫(kù)嵌入測(cè)試系統(tǒng)軟件或裝備信息管理系統(tǒng)軟件,將測(cè)試結(jié)果數(shù)據(jù)分別進(jìn)行自動(dòng)數(shù)據(jù)處理、自主數(shù)據(jù)融合、自適應(yīng)模型判別、自生成輔助決策,提升裝備在大數(shù)據(jù)條件下的智能化自診斷水平。

      對(duì)于復(fù)雜的導(dǎo)彈裝備,判斷其異常域往往涉及較多分系統(tǒng),如結(jié)構(gòu)、動(dòng)力、制導(dǎo)、控制、雷達(dá)、電氣等,而表征各分系統(tǒng)的性能參數(shù)無(wú)論是參數(shù)數(shù)量、度量單位、技術(shù)指標(biāo)均存在較大差異,提取各分系統(tǒng)特征參數(shù)綜合形成一個(gè)較大的特征參數(shù)滿足整體導(dǎo)彈裝備的性能需求,特征參數(shù)構(gòu)成的異常域?qū)儆诟呔S數(shù)據(jù),進(jìn)而演變成關(guān)于高維數(shù)據(jù)中異常點(diǎn)的挖掘研究,通過(guò)高維異常域的檢測(cè)判別裝備的性能狀態(tài)存在較大的難度,因此當(dāng)前對(duì)于裝備異常域的檢測(cè)仍集中于分系統(tǒng)及部件參數(shù),通過(guò)各分系統(tǒng)的異常域的檢測(cè)及分布情況,結(jié)合分系統(tǒng)在導(dǎo)彈裝備中的綜合權(quán)重,度量整個(gè)導(dǎo)彈裝備的測(cè)試數(shù)據(jù)異常域分布,進(jìn)而評(píng)估導(dǎo)彈裝備的健康狀態(tài)或故障發(fā)生趨勢(shì)。

      3 測(cè)試數(shù)據(jù)異常域檢測(cè)應(yīng)用

      生成一組模擬數(shù)據(jù)表示某型導(dǎo)彈分系統(tǒng)原始測(cè)試數(shù)據(jù),如表1所示,其中參數(shù)

      x

      ,

      y

      分別為兩項(xiàng)測(cè)試信號(hào),測(cè)試信號(hào)序列表征該分系統(tǒng)某部件當(dāng)前工作狀態(tài),從表中可以看出該數(shù)據(jù)序列每個(gè)參數(shù)項(xiàng)數(shù)據(jù)較為平滑,分別應(yīng)用局部離群因子檢測(cè)方法及DBSCAN檢測(cè)方法檢測(cè)數(shù)據(jù)序列{

      x

      ,

      y

      }中的異常簇,檢測(cè)結(jié)果如圖5所示,均能將數(shù)據(jù)序列異常簇檢測(cè)隔離。

      圖5 局部離群因子與DBSCAN方法異常域檢測(cè)圖

      4 結(jié)束語(yǔ)

      本文詳細(xì)描述了導(dǎo)彈裝備在使用過(guò)程中的測(cè)試數(shù)據(jù)異常域分布及檢測(cè)需求,分析了基于統(tǒng)計(jì)模型、基于密度模型、基于隔離樹模型以及基于聚類模型等算法檢測(cè)異常域的基本原理與實(shí)現(xiàn)步驟,模擬了部分算法在檢測(cè)某測(cè)試序列異常簇的應(yīng)用,驗(yàn)證了文中所描述異常域檢測(cè)方法在導(dǎo)彈裝備測(cè)試數(shù)據(jù)處理中的應(yīng)用;但由于各類算法在收斂性、調(diào)參情況、復(fù)雜度、樣本數(shù)據(jù)量需求等方面各不相同,以及模擬數(shù)據(jù)與實(shí)際數(shù)據(jù)之間的差異性,算法并不完全適用于多種條件下的數(shù)據(jù)異常域檢測(cè),因此在導(dǎo)彈裝備更多復(fù)雜數(shù)據(jù)異常域檢測(cè)的應(yīng)用中,算法的實(shí)際運(yùn)用效果仍需進(jìn)一步探討與工程應(yīng)用。

      猜你喜歡
      測(cè)試數(shù)據(jù)聚類裝備
      好裝備這樣造
      港警新裝備
      防曬裝備折起來(lái)
      測(cè)試數(shù)據(jù)管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
      基于DBSACN聚類算法的XML文檔聚類
      基于自適應(yīng)粒子群優(yōu)化算法的測(cè)試數(shù)據(jù)擴(kuò)增方法
      空間co-location挖掘模式在學(xué)生體能測(cè)試數(shù)據(jù)中的應(yīng)用
      體育科技(2016年2期)2016-02-28 17:06:21
      基于改進(jìn)的遺傳算法的模糊聚類算法
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
      老河口市| 垣曲县| 黄山市| 达拉特旗| 调兵山市| 嵩明县| 甘孜县| 宁夏| 佛教| 柘荣县| 同德县| 宜宾县| 锦屏县| 温宿县| 诸城市| 施甸县| 永仁县| 肇州县| 河池市| 镶黄旗| 高唐县| 哈密市| 隆昌县| 鹰潭市| 阿尔山市| 开封市| 海晏县| 瓮安县| 洛扎县| 讷河市| 万载县| 炉霍县| 虹口区| 江安县| 抚远县| 金门县| 通江县| 涟源市| 舒兰市| 武清区| 合肥市|