• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于滑動窗口的直升機序列異常檢測算法

      2023-03-04 13:34:14趙子晗段同樂張冬寧
      計算機測量與控制 2023年2期
      關鍵詞:飛行數(shù)據(jù)滑動標簽

      趙子晗,段同樂,張冬寧

      (中國電子科技集團公司 第54研究所,石家莊 050081)

      0 引言

      隨著科學技術的發(fā)展和人類社會的進步,我們不管是在科技領域還是生活領域都積累了大量的數(shù)據(jù)信息,而且數(shù)據(jù)的規(guī)模越來越大,在如今數(shù)據(jù)爆發(fā)式增長的情況下,如何管理好并應用好這些數(shù)據(jù)就顯得尤為重要。在這個需求基礎上,數(shù)據(jù)分析等相關技術應運而生[1-2]。大數(shù)據(jù)分析的廣泛應用與進展,也導致了科研人員們針對于軍事工程應用中海量數(shù)據(jù)的管理問題有了全新的認識與要求,而大數(shù)據(jù)挖掘中的一項十分關鍵的分支應用便是異常檢測,異常檢測技術對于機械故障診斷、疾病監(jiān)測、保險欺騙檢測以及身份辨別等領域都發(fā)揮著相當重要的作用[3-6],對于軍事應用中的海量數(shù)據(jù)而言,異常數(shù)據(jù)中往往蘊含著顯著的行為信息,如何提取合適的異常特征并針對無標簽數(shù)據(jù)進行有效率的異常檢測,成為了當前面臨的難題[7-8]。

      當前無標簽的序列在異常檢測算法中往往存在著對數(shù)據(jù)的信息掌握不全面、不能合理使用的情況,采用深度學習方法又面臨著算法可解釋性差等問題[10-14],基于此我們以直升機飛行數(shù)據(jù)為例對序列異常檢測進行研究,采用基于滑動窗口的直升機序列異常檢測算法,提升算法檢測效率,實現(xiàn)算法優(yōu)化;同時選取特征變量,通過對比分析闡述算法的有效性和可解釋性[15-18]。

      1 飛行數(shù)據(jù)異常檢測技術

      1.1 異常及異常檢測相關定義

      在異常檢測技術中,異常是指信息中不滿足所規(guī)定的正常行為的狀態(tài),在一般過程中,信息通常是由一個或多個常規(guī)的形成機制產生的,其他的形成機制所產生的信息,一般可視為異常數(shù)據(jù)。所以,當某些數(shù)據(jù)點明確的區(qū)別或者脫離了通常的點集時,我們就可以大膽猜測其為異常模式所產生的。而序列性異常則是指在一定時刻上,或是在相對空間上具有天然序列性特征的數(shù)據(jù)。這些數(shù)列既可以是單特征變量的,也可以是多特征變量的[19-22]。系列中異常數(shù)據(jù)產生的因素也有許多,其中主要包括以下原因:

      因為工作的疏忽,造成信息的閱讀、錄入、統(tǒng)計等產生的錯誤;因為不同的數(shù)據(jù)庫系統(tǒng)的度量內容和時間通常并不相同,可能導致了在合并來自不同數(shù)據(jù)庫系統(tǒng)的信息上出現(xiàn)的問題;因為其內部結構的許多內部特征,如上下文關系、因果關系等難以避免的序列特征特異性產生的錯誤。

      而現(xiàn)如今針對飛行序列異常檢測通常要面臨以下兩個主要的難題:

      首先,不同于測試用的有標簽的明確數(shù)據(jù)集,應用于工業(yè)工程生產中的數(shù)據(jù)集往往同時具備數(shù)據(jù)量非常龐大和缺乏標簽這兩個特征。以直升機的飛行數(shù)據(jù)收集工作為例,數(shù)據(jù)量往往可以到達百萬量級,但因為給數(shù)據(jù)打標簽的工作通常是由行業(yè)內相關專家針對相應的特征變量手動進行,所以要得到一個具有準確異常標簽的訓練數(shù)據(jù)集,往往需要花費非常大的時間代價。由于異常的形成因素很多,所以收集已打好標簽并橫向上涵蓋該時間切片情況下,任何可能的異常行為數(shù)據(jù)往往比收集帶標記的正常數(shù)據(jù)的困難更大,但總的來說,針對在大數(shù)據(jù)環(huán)境下的無標記數(shù)據(jù),相關標簽的稀缺性使得異常檢測的難度驟增[23]。

      其次是數(shù)據(jù)類型的動態(tài)變化特性。在很多問題上我們都無法單純地從數(shù)據(jù)模型展開解釋,需要從其生成的時間流程、行為等來確定異常,而加入了時間的概念后,現(xiàn)階段識別或標簽出來的異常的行為也不一定在下一個時間結點下依然存在著意義,也因此在縱向上統(tǒng)一特征對應的異常界定也很困難,正常數(shù)據(jù)和異常數(shù)據(jù)邊界的不確定性會導致隨著動態(tài)數(shù)據(jù)的識別訓練過程中不斷增加新類型的異常模式。

      1.2 國內外研究現(xiàn)狀

      隨著科技的發(fā)展,國內外對于飛行數(shù)據(jù)的異常檢測技術都有了長足的發(fā)展:國外對直升機狀態(tài)的檢測從最初依賴工人專業(yè)素養(yǎng)和工作經(jīng)驗的的“看”“嗅”“聽”“摸”的人工模式逐漸發(fā)展為利用傳感器與計算機設備相結合的HUMS技術,對于直升機實時監(jiān)測分析的能力得到顯著提高。在這期間Guanguli和Chopra等人建立了非線性氣動彈性方程,模擬了質量塊丟失、槳葉吸潮、變距拉桿損壞等具體的故障[24];B.V.Jammu 提出里SBCN神經(jīng)網(wǎng)絡用于OH-58A直升機的診斷;Mao Yang和Chopra等在直升機上對旋翼和機身耦合進行了異常檢測等[25]。而我國在Hums方面的研究開展的比較晚,直升機故障檢測技術也發(fā)展的相對緩慢?!靶颖?、貧信息”的灰色系統(tǒng)理論逐漸應用于直升機領域[26];姚飛虎在盲源分離的人工免疫技術的基礎上創(chuàng)建的旋翼故障診斷方法[27];鄧升平在模擬旋翼不平衡實驗中建立的支持向量機和廣義神經(jīng)網(wǎng)絡的兩種故障診斷模型[28-29]等,都為相關領域提供了堅實的基礎。

      因飛行數(shù)據(jù)異常檢測中異常標簽的匱乏,監(jiān)督型學習方法不能很好地發(fā)揮其算法優(yōu)勢,通常要使用已知的正常樣本數(shù)據(jù)來進行學習檢測,當前在點異常檢測領域所采用的方法基本可分為三類,即基于密度或超平面劃分的方法、基于線性模型的方法和基于在線計算的方法:

      首先是基于密度或超平面劃分的方法中比較有代表性的三個算法:LOF算法、KNN算法和Iforest算法。其中LOF方法(Local Outlier Factor局部離群因子檢測)是根據(jù)密度的離群點測量技術中一個常用方法。其算法主要好處在于:它同時兼顧了數(shù)據(jù)子集的局部與全局特征。LOF由于性能好,因此特別適合于中高維的數(shù)據(jù)子集;KNN算法(k-NearestNeighbor算法)又稱k-近鄰算法。其算法原理是對信息的排序。使用KNN算法測試時序數(shù)據(jù)異常值的優(yōu)點在于訓練時間較短,對數(shù)值無假設,準確率高。比較適于對樣本容量較大的雷雨自動分析,也可以進行非線性回歸,但缺點是運算工作量較大,對稀有類別的數(shù)據(jù)精確度低,可解釋性也較差;Iforest方法是一種基于集成學習技術的快速異常分析方法,既不需要數(shù)學模型又不需要有標簽的訓練,同時具有線性的時間復雜度和高準確性。但是Iforest不能使用太大維度的數(shù)據(jù)。因為每次切數(shù)據(jù)都是隨機選擇某個維度,建了樹之后依然有大量的維度數(shù)據(jù)不能被利用。并且高維數(shù)據(jù)還可能存在大量噪音維度或者無關維度,使得樹的構建難度增大。Iforest算法的確在異常檢驗領域中發(fā)揮了很大影響,促進了重心推斷理論的進展,而且在分類聚類和異常檢驗領域中都有了明顯的成效。

      基于線性模型的代表性算法之一為PCA(principal component analysis)即主成分分析方法,是目前最為廣泛應用的數(shù)據(jù)降維技術。PCA是一個基于目標數(shù)據(jù)特征性的最佳正交變換,稱它為最佳正交變換主要因為它具備以下較好的特點:轉換后與新的能量正交或不有關;轉換矢量更趨平衡、能量更趨集中等。PCA由于簡單而有效,廣泛應用于數(shù)據(jù)處理中特征選取、數(shù)據(jù)壓縮等各個方面。

      基于在線計算的方法如LODA,除了快速和準確的特性之外,LODA還能夠對丟失變量的數(shù)據(jù)操作和更新。此外,LODA可以識別出被仔細檢查的樣本與大多數(shù)樣本不同的特征。當目標是找出導致異常的原因時,此功能非常有用。

      上述方法主要是以將點異常分析的研究為重點目標,而在針對無標簽數(shù)據(jù)的序列異常分析方面,現(xiàn)階段使用的主要是神經(jīng)網(wǎng)絡的方法,包括了自編碼網(wǎng)絡系統(tǒng)、對抗網(wǎng)絡系統(tǒng)和循環(huán)神經(jīng)網(wǎng)絡等最先進的深入學習模式,以變分自編碼網(wǎng)絡系統(tǒng)為例,它融合了機器學習與貝葉斯學習二者的優(yōu)勢,對于異常情況的模擬訓練有著更好的擬合效果,且可以充分發(fā)揮貝葉斯方法針對小樣本學習的穩(wěn)定性。再比如,訓練神經(jīng)網(wǎng)絡可以廣泛應用于處理各種序列數(shù)據(jù)現(xiàn)象的神經(jīng)網(wǎng)絡框架中,但一直無法解決傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡在訓練過程中所存在的時間梯度消失的問題。總的來說,現(xiàn)階段用神經(jīng)網(wǎng)絡的方式進行飛行數(shù)據(jù)序列異常檢測是一種非常值得研究應用的發(fā)展方向。

      2 算法設計與實現(xiàn)

      序列異常檢測中數(shù)據(jù)有一定順序特征,導致了傳統(tǒng)的異常檢測技術單一地解析各種數(shù)據(jù)實例,卻忽視了數(shù)據(jù)的序列特性,從而導致測試的復雜度和準確率都差強人意。而常用的神經(jīng)網(wǎng)絡的方法雖然一定意義上解決了序列特性,但是受限于算法本身,其可解釋性較差,對于工業(yè)級數(shù)據(jù)并不具備很好的普適性。

      基于此背景下,我們提出并證明了一種基于滑動窗口的序列異常檢測算法,通過分別引入兩個滑動窗口來滿足對于異常檢測所需特征的提取和多提取特征的時間關聯(lián)性需求,滑動窗口的引入獲取了序列統(tǒng)計特征,充分提取了時間片段的統(tǒng)計特征,從而實現(xiàn)了序列異常檢測問題到點異常檢測問題的轉換,在點異常檢測問題的基礎上我們就能有更多的驗證手段和檢測方法來驗證檢測效率的提升。我們在annthyroid、arrhythmia、breastw、cardio、mammography、musk、pendigits、pima、satellite、satimage-2、seismic_bumps、shuttle、thyroid、wbc這14個帶標簽的公開數(shù)據(jù)集上,按照各個數(shù)據(jù)集已知的異常比例對各個算法設置異常比例參數(shù)為運行算法計算auc評分并取均值,并統(tǒng)計每個算法能在多少數(shù)據(jù)集上獲得最高評分。其結果見表 1。

      表1 算法選擇標準

      通過綜合比對算法檢測的評分和算法能夠獲得最高評分的數(shù)據(jù)集個數(shù)后,我們最終在算法內部選擇使用Iforest和PCA與滑動提取序列特征的窗口相結合。

      所采用的序列異常檢測算法流程如圖1所示。

      圖1 序列異常檢測算法流程圖

      1)數(shù)據(jù)預處理。將原始數(shù)據(jù)按照序列順序進行篩選,即將數(shù)據(jù)劃分為某個平臺仿真實現(xiàn)的某時間區(qū)間內的全部數(shù)據(jù),并標注相應的時間關系。

      2)特征提取。通過提取數(shù)據(jù)的波動情況和數(shù)據(jù)的統(tǒng)計信息來完成特征提取的任務。通過計算時間窗口內的2-范數(shù)值和范數(shù)變化率,得到數(shù)據(jù)的波動情況。

      (1)

      其中:X={x1,x2,…,xn}。范數(shù)變化率即為相鄰時間窗口間的范數(shù)值之差。

      再使用時間窗口獲取數(shù)據(jù)統(tǒng)計信息。數(shù)據(jù)的統(tǒng)計信息可以反映該段時間內數(shù)據(jù)的總體狀況。本算法中選取的特征值見表2。

      表2 統(tǒng)計特征表

      用T={T1,T2,…,Tn-1,Tn}來表示m維時間序列,Ti代表第i時刻參數(shù)項數(shù)據(jù)值。其中:

      (2)

      引入滑動窗口W1,設置窗口大小為k、滑動步長為step_1,計算每k個時間步內,第j項的參數(shù)數(shù)據(jù)的范數(shù)值和范數(shù)變化率。

      (3)

      DNj(Tk)=Nj(Tk)-Nj(Tk-1)

      (4)

      通過公式(3)、(4)計算得到波動特征數(shù)據(jù)集D,D的維度為u*v,其中m為選取飛行特征數(shù)量,

      (5)

      v=2*m

      (6)

      n為總數(shù)據(jù)個數(shù)。

      引入第二個滑動窗口W2, 設置窗口大小為k*、滑動步長為step_2,計算波動特征數(shù)據(jù)集中每k*個時間步內,各項參數(shù)數(shù)據(jù)的統(tǒng)計特征值,最終得到帶有波動統(tǒng)計信息的特征數(shù)據(jù)集S。

      S的維度為x*y,其中:

      (7)

      y=v*z

      (8)

      z為所選統(tǒng)計特征的數(shù)量。

      圖2 提取波動特征數(shù)據(jù)集示意圖

      圖3 提取帶統(tǒng)計特征的波動特征數(shù)據(jù)集示意圖

      3)聚類分析。對于數(shù)據(jù)集S,使用mean-shift均值漂移的方法進行聚類,針對數(shù)據(jù)集,隨機選擇b個樣本計算其兩兩之間的距離,并用距離的c分位數(shù)作為聚類方法所選用的半徑(c分位數(shù)即數(shù)據(jù)中小于等于該數(shù)的比例為c。),將高維數(shù)據(jù)集S聚類。b通常選取100,c通常選取3。

      4)異常檢測。這里我們選用iforest作為算法內層的異常檢測手段,其流程分為兩個步驟進行:

      首先是訓練樹形模型:從全量數(shù)據(jù)中抽取部分樣本,然后隨機選擇一個特征作為起始節(jié)點,在該特征的最大值和最小值之間隨機選擇一個值,將樣本數(shù)據(jù)中小于該取值的數(shù)據(jù)劃到左分支,大于等于該取值的劃到右分支。接下來在劃分好的兩個分支數(shù)據(jù)中不斷迭代上述全部步驟,直到滿足數(shù)據(jù)不可再分(只包含一條數(shù)據(jù),或者全部數(shù)據(jù)相同)和二叉樹達到限定的最大深度這兩個條件時退出,即完成iTree 構建。

      其次是進行模型預測:通過估算它在每棵iTree中的路徑長度來計算得到所選數(shù)據(jù)x的異常得分。先隨機選取一棵iTree,從根節(jié)點開始按不同特征的取值從上往下,直到到達某葉子節(jié)點。假設iTree的訓練樣本中同樣落在x所在葉子節(jié)點的樣本數(shù)為T.size,則數(shù)據(jù)x在這棵iTree上的路徑長度h(x) ,可以用式(9)對其進行計算:

      h(x)=e+C(T.size)

      (9)

      式(9)中,e表示數(shù)據(jù)x從iTree的根節(jié)點到葉節(jié)點過程中經(jīng)過的邊的數(shù)目,C(T.size)表示在一棵用T.size條樣本數(shù)據(jù)構建的二叉樹的平均路徑長度。通常情況下,我們可以用公式(10)對C(n)進行計算:

      (10)

      數(shù)據(jù)x最終的異常分值Score(x)綜合了多棵 iTree 的結果:

      Score(x)=2-E(h(x))/C(φ)

      (11)

      其中:E(h(x))表示數(shù)據(jù)x在多棵iTree路徑長度的均值,C(φ)表示用φ條數(shù)據(jù)構建完成的二叉樹的平均路徑長度。

      從異常分值的公式看,如果數(shù)據(jù)x在多棵iTree中的平均路徑長度越短,得分越接近1,表明數(shù)據(jù)x越異常;如果數(shù)據(jù)x在多棵iTree中的平均路徑長度越長,得分越接近0,表示數(shù)據(jù)x越正常。

      得到上一步驟的聚類結果后,對S中的每一類分別使用Iforest算法進行異常檢測,異常比例θ進行統(tǒng)一設置。

      5)降維可視化。選取降維算法時要注意到數(shù)據(jù)線性變化和數(shù)據(jù)損耗的情況。PCA(principal component analysis),即主成分分析方法,是目前最為廣泛應用的數(shù)據(jù)降維技術。因為PCA是一個基于目標數(shù)據(jù)特征性的最佳正交變換,稱它為最佳正交變換主要因為它具備以下較好的特點:轉換后與新的能量正交或不有關;轉換矢量更趨平衡、能量更趨集中等。PCA系統(tǒng)由于簡單而有效,廣泛應用于數(shù)據(jù)處理中特征選取、數(shù)據(jù)壓縮等各個方面?;诖耍舅惴ㄖ形覀冞x取PCA方法將高維數(shù)據(jù)集S降維到2維,并進行聚類結果和異常檢測結果的可視化。

      通過1)~5),我們便在本算法內部實現(xiàn)了Iforest算法和PCA算法同滑動窗口的結合,實現(xiàn)了從序列異常到帶序列特征的點異常的問題轉換。完成了基于滑動窗口的序列異常檢測算法的算法設計部分。

      3 實驗結果及其分析

      3.1 數(shù)據(jù)分析處理

      3.1.1 數(shù)據(jù)特征

      通過對實際飛行數(shù)據(jù)的模擬仿真獲取的數(shù)據(jù)共2 376 662條,飛行時間涵蓋六個月;對特征的類型進行歸類可知主要涵蓋直升機架次時間、操控信息和位置信息這三類,特征屬性可見表 3。

      表3 直升機數(shù)據(jù)集特征表

      由于直升機自身的速度限制,不能在很短的時間使得經(jīng)緯度發(fā)生較大的改變,因此我們剔除掉經(jīng)緯度屬性分析,轉而使用速度和高度分析空間位置的變化情況。

      直升機的姿態(tài)角度說明如圖 4所示:航向角為將機體水平方向映射向地面,并與預定目標(一般正北)所形成的夾角,右偏航方向則為正。橫滾角表示機翼橫軸線與地平面角度,以右傾為正;橫滾表示機翼橫軸線與地平面夾角,右傾斜為正;俯仰角表示機身縱軸與地平面的角度,以抬頭方向為正。

      圖4 飛機方向角示意圖

      3.1.2 數(shù)據(jù)預處理

      通過觀察數(shù)據(jù)文件發(fā)現(xiàn)數(shù)據(jù)中包含一些特殊的特征屬性,其經(jīng)緯度為0的異常噪點數(shù)據(jù),與實際經(jīng)緯度顯然不符,將這些數(shù)據(jù)作為噪點數(shù)據(jù)消除。

      經(jīng)過對數(shù)據(jù)的觀察,經(jīng)緯度范圍相對固定,經(jīng)度在[110,120],緯度在[30,40],因此消除經(jīng)度在[110,120]之外、緯度在[30,40]之外的噪點。

      3.1.3 異常檢測特征選取

      為了直觀地分析不同特征對于異常檢測的影響,我們先對已選擇的特征進行可視化分析,由于四維及以上已經(jīng)超出人腦的空間感受,因此可視化時選擇最多三維。

      圖5展示了某一數(shù)據(jù)集文件中飛行狀態(tài)中的方向角特征的變化情況,使用Iforest異常檢測算法設置異常比例為0.01進行異常檢測,通過plt繪制灰度圖,正常點為深色,異常點為淺色。從圖中可發(fā)現(xiàn)直升飛機方向角的數(shù)據(jù)聚為4簇,猜測飛行中存在四種模式,考慮受到機組以及飛行狀態(tài)的影響存在不同的差別,所以分別獲取每個簇對其進行進一步的分析。

      圖5 數(shù)據(jù)文件中方向角特征異常檢測結果

      為了研究航線的飛行規(guī)律,我們也嘗試按照經(jīng)緯度繪制不同平臺飛機的航線,圖6顯示的某一平臺上一天采集并記錄到的的航線實例。我們使用pandas加載飛行數(shù)據(jù)記錄,過濾掉航速為0的靜止狀態(tài)記錄,提取出飛行軌跡的經(jīng)度和緯度列表,根據(jù)經(jīng)緯度數(shù)據(jù)取點連線,繪制了地圖和飛行軌跡,飛行軌跡結果見圖6。

      圖6 某一平臺記錄的飛行軌跡圖

      可以發(fā)現(xiàn),飛機一次飛行的經(jīng)、緯度改變很小,其它平臺也有類似特點,所以經(jīng)、緯度不作為檢測特征。對所有數(shù)據(jù)進行可視化分析表明飛行狀態(tài)不隨航向發(fā)生明顯變化,且呈現(xiàn)較為明顯的四個簇,每個簇受到飛行平臺和機組的不同顯現(xiàn)出細微的變化。這與實際也十分契合,因為不同的操作方式不會隨著直升機航向的變化而發(fā)生變化,只與周圍環(huán)境以及自身飛行狀態(tài)有關。飛機姿態(tài)由航向角,俯仰角和橫滾角確定,航向角僅對航向有影響,因此航向角不作為姿態(tài)異常的檢測特征。最終選擇高度、俯仰角、橫滾角和航速特征作為異常檢測特征。

      3.2 不同航線上的實驗驗證

      3.2.1 算法有效性驗證

      為了驗證算法效率的提升,我們將本算法和上文中提及的幾種常用的點異常檢測算法應用于網(wǎng)絡上幾種不同類別的帶有異常標簽的公開數(shù)據(jù)集上,進行對比試驗。

      我們選取了三個不同行業(yè)帶有不同異常類別的公開數(shù)據(jù)集,分別為annthyoid、breastw和wbc,針對這三個數(shù)據(jù)集分別使用Iforest算法、PCA算法和本文提出的滑動窗口算法進行異常檢測,并使用auc評分進行異常檢測效率的對比分析,進行三次試驗后,分別對得分取均值作為結果填入表中,結果見表 4。

      表4 多種算法對比auc評分

      其中橫坐標為所用的數(shù)據(jù)集,縱坐標為所使用的異常檢測方法,前兩種為滑動窗口中使用到的普適性算法,第三種為本文提出的基于滑動窗口的序列異常檢測算法,從結果分析上來看,相較于Iforest算法和PCA算法,基于滑動窗口的序列異常檢測算法有一定的提升,雖然基于滑動窗口的序列異常檢測算法僅在兩個數(shù)據(jù)集上跑到了最大值,但是在其他數(shù)據(jù)集上和其他算法的auc評分差距都很小,從而最終相對算法的平均auc評分最高。

      由此可見,使用基于滑動窗口的序列異常檢測算法在算法層面上實現(xiàn)了兩個優(yōu)化,首先是相較于普通的異常檢測算法的檢測效率有一定的提升;同時將序列異常檢測問題轉化為點異常檢測問題,解決了以往算法不能很好地獲取數(shù)據(jù)間序列特征的問題。

      3.2.2 針對聚類結果的預實驗分析

      為了驗證本算法針對無標簽數(shù)據(jù)集的檢測效果,我們將其應用于直升機飛行數(shù)據(jù)集上進行預實驗:選取三條航線數(shù)據(jù),以A1-2021-X1-Y1為例,其表示為2021年X1月Y1日記錄在A1平臺上的全部航線數(shù)據(jù)。通過對比不同航線聚類結果和異常檢測結果來進行驗證分析。

      所有實驗所選擇的飛行特征都為高度、俯仰、橫滾和航速,且對所有特征都進行歸一化處理;窗口均選擇參數(shù)為W1=5,步長為2,W2=2,步長為1;異常檢測算法均使用Iforest,異常比例設置為0.02;使用PCA將特征數(shù)據(jù)集S降維至2維,進行可視化分析。

      1)實驗一。

      數(shù)據(jù)選擇:A1-2021-X1-Y1。

      聚類半徑選擇距離中的2分位數(shù),半徑為0.855 1,聚為4類。

      圖7 A1-2021-X1-Y1聚類結果、異常檢測圖

      2)實驗二。

      數(shù)據(jù)選擇:A2-2021-X2-Y2。

      聚類半徑選擇距離中的6分位數(shù),半徑為1.711,聚為4類。

      圖8 A2-2021-X2-Y2聚類結果、異常檢測圖

      3)實驗三。

      數(shù)據(jù)選擇:A3-2021-X3-Y3。

      聚類半徑選擇距離中的3分位數(shù),半徑為0.601 7,聚為8類。

      圖9 A3-2021-X3-Y3聚類結果、異常檢測圖

      上述實驗中圖 7、圖 8和圖 9中三個左圖均為將帶有統(tǒng)計信息特征數(shù)據(jù)集S使用上述參數(shù)進行聚類后使用PCA降維至二維的展示,圖中每一種顏色深淺代表高維中聚類的一類。圖 7、圖 8和圖 9中三個右圖則為將帶有統(tǒng)計信息特征數(shù)據(jù)集S中每一類使用Iforest進行異常檢測并降維可視化至二維平面的示意圖,圖中圓點為正常數(shù)據(jù)點,三角為異常數(shù)據(jù)點。

      通過對比三組實驗可以發(fā)現(xiàn),通過在高維進行聚類并異常檢測后,其降到二維后同一類的點基本在一片區(qū)域內,但由于原本維度較大,使用PCA降至二維后所選取的特征在二維中不一定是明顯的分類,因為損失了部分信息,導致在二維中看起來接近的部分其實是不同的類別。降至低維時其同時篩選出的異常數(shù)據(jù)均在二維平面所展示類的邊緣部分,符合對異常點的定義(即離群點)。同時反映出在這些時間段內,數(shù)據(jù)的某些或某幾個特征存在較大的波動變化。因此從算法上和直觀上,都可以展示出該異常檢測算法有一定的正確性和可解釋性。

      最終篩選出存在異常波動的時間窗口。在短時間內,可以認為飛行習慣不會產生較大變化。此時若新增序列加入,可以通過該飛機的歷史航線飛行記錄對其窗口的統(tǒng)計特征進行聚類,計算出新序列的統(tǒng)計特征,并計算其與各類中心的距離。若距離各個中心都較遠,超過某一閾值,則表示該段序列相較原飛行數(shù)據(jù)可能存在異常,反之則代表其大概率為正常。但若新增序列距離上次聚類時間較長,飛行員的飛行習慣以及直升機的屬性等可能發(fā)生改變,導致數(shù)據(jù)聚類的中心發(fā)生改變。因此為了保證檢測效率,需要使用最近一段的飛行數(shù)據(jù)重新進行聚類,更新聚類中心。

      3.2.3 針對特征變量的實驗分析

      通過預實驗分析,我們驗證了基于滑動窗口的序列異常檢測算法可以應用于無標簽的直升機飛行數(shù)據(jù)上,接下來將通過飛行特征隨時序變化的趨勢來驗證該異常檢測算法的有效性和可解釋性。

      我們針對試驗所選擇的飛行特征為高度、俯仰、橫滾和航速,將會以對比實驗的形式分別,分析以不同飛行特征作為序列異常檢測特征時,特征的變化規(guī)律、檢測為異常時飛行特征是否發(fā)生突變等情況,驗證算法有效性和可解釋性。

      通過對實驗數(shù)據(jù)的篩選處理,我們最終選擇了A、B兩條航線通過對比試驗的方式對四個飛行特征進行驗證。

      A航線:

      所選航線為A4-2021-X4-Y4,其數(shù)據(jù)條數(shù)為4 352條。如圖10、11所示,所選聚類分位數(shù)為3分位數(shù),聚類半徑為1.235 9,將高維數(shù)據(jù)聚為2類。將其降維后,可以看到異常點幾乎分布在每一類的周圍。將其中的高度-時間圖和俯仰-時間圖繪制出來,將異常窗口起始用點標明,并將異常點在灰度圖中顯示。可以看到,在高度-時間圖中,異常點基本處于高度突變且頻率較密的地方,同時俯仰角也都在突變區(qū)域。由此可見在異常點處其飛行情況確實存在較大波動。

      圖10 A4-2021-X4-Y4聚類結果、異常檢測結果圖

      圖11 A4-2021-X4-Y4高度-時間圖、俯仰-時間圖

      B航線:

      所選航線為A5-2021-X5-Y5,其數(shù)據(jù)條數(shù)為6 408條。如圖12、13所示,所選聚類分位數(shù)為2分位數(shù),聚類半徑為1.211 0,將高維數(shù)據(jù)聚為2類。將其降維后,可以看到異常點幾乎分布在每一類的周圍。將其中的橫滾-時間圖和航速-時間圖繪制出來,將異常窗口起始用點標明,并將異常點在灰度圖中顯示,可以看到,在航速-時間圖中,異常點基本處于高度突變且頻率較密的地方,對應到橫滾-時間圖中可見異常點基本處于高度突變狀態(tài)中,綜合二者可分析得到異常點處其飛行情況確實存在較大波動。

      圖12 A5-2021-X5-Y5聚類結果、異常檢測結果

      圖13 A5-2021-X5-Y5橫滾-時間圖、航速-時間圖

      由此,可以證明基于滑動窗口的序列異常檢測算法不僅在算法層面上對于檢測效率有一定的提升,在面向數(shù)據(jù)層面上也能適應數(shù)據(jù)集中多維度的特征變量,滑動窗口對于序列特征的數(shù)據(jù)波動情況和數(shù)據(jù)統(tǒng)計信息有一定的有效性和可解釋性。

      4 結束語

      為了解決無標簽的序列異常檢測問題中常常出現(xiàn)的對于數(shù)據(jù)序列特征獲取不充分、無法有效利用;且采用深度學習的方法往往可解釋性較差的問題,使用基于滑動窗口的序列異常檢測算法來完成針對直升機飛行數(shù)據(jù)的異常檢測:使用多個帶標簽的公開數(shù)據(jù)集驗證了算法檢測效率的提升;并使用無標簽數(shù)據(jù)集驗證了算法針對序列異常檢測問題的有效性和可解釋性??梢詾橹鄙龣C飛行數(shù)據(jù)等無標簽數(shù)據(jù)的序列異常檢測和提供一定的幫助與提升。在后續(xù)研究中將針對算法在工業(yè)生產中面向實時數(shù)據(jù)流和數(shù)據(jù)漂移等情況進一步分析研究。

      猜你喜歡
      飛行數(shù)據(jù)滑動標簽
      一種新型滑動叉拉花鍵夾具
      無懼標簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      Big Little lies: No One Is Perfect
      GARMIN1000系統(tǒng)維修平臺搭建預研究
      淺談飛行數(shù)據(jù)集中處理流程管理
      標簽化傷害了誰
      基于廣域信息管理的飛行數(shù)據(jù)服務設計與實現(xiàn)
      基于多進制查詢樹的多標簽識別方法
      計算機工程(2015年8期)2015-07-03 12:20:27
      滑動供電系統(tǒng)在城市軌道交通中的應用
      北碚区| 安庆市| 四川省| 红安县| 临洮县| 军事| 高陵县| 特克斯县| 电白县| 乌审旗| 濮阳县| 台州市| 上林县| 融水| 衢州市| 灌云县| 民乐县| 鄂尔多斯市| 新蔡县| 百色市| 随州市| 湖州市| 澄城县| 汕尾市| 襄樊市| 白玉县| 潜山县| 边坝县| 华安县| 基隆市| 调兵山市| 大关县| 聊城市| 黑龙江省| 射阳县| 青阳县| 改则县| 齐齐哈尔市| 巫山县| 涟源市| 静海县|