謝吉慧,郄殿福
(1. 可靠性與環(huán)境工程技術重點實驗室; 2. 北京衛(wèi)星環(huán)境工程研究所:北京 100094)
真空熱試驗是航天器總裝、測試、試驗(AIT)階段必不可少的測試項目。真空熱試驗過程中可能出現(xiàn)硬件設備工作異常、某些類型工作參數(shù)設置錯誤等問題,這些問題須通過對數(shù)據(jù)異常的監(jiān)測來發(fā)現(xiàn)。目前對試驗數(shù)據(jù)異常的監(jiān)測與分析主要依靠人工完成。由于數(shù)據(jù)量龐大,人工監(jiān)測的負擔較重,實時性和全面性也難以保證,所以急需自動化的監(jiān)測手段以降低人工成本,提高監(jiān)測效率,同時增強試驗過程的安全性。本文從試驗數(shù)據(jù)的相似性特征出發(fā),采用數(shù)據(jù)挖掘的方法識別出離群變化行為,以提高對試驗過程異常情況監(jiān)測的自動化程度和及時性。
真空熱試驗中試驗產(chǎn)品的不同部件上會布置大量測溫點,由于粘貼位置的關系,鄰近部位測溫點具有相近的幅值和相似的變化趨勢;另外,在部組件熱真空試驗中,試驗要求各控溫點按照統(tǒng)一步調(diào)與幅值進行高低溫循環(huán),因此,測點數(shù)據(jù)間的相似性在各種航天器真空熱試驗中普遍存在??梢岳眠@一特性進行試驗過程的異常監(jiān)測,具體的實現(xiàn)原理為:對試驗過程中各測量點的數(shù)據(jù)進行相似性聚類,對同類測點新產(chǎn)生的數(shù)據(jù)進行離群檢測,判斷哪些測點出現(xiàn)了脫離“組織”行動的異常行為,提示試驗人員關注(如圖1)。
圖1 真空熱試驗數(shù)據(jù)異常自動監(jiān)測原理Fig. 1 Automatic monitoring of the abnormity of vacuum thermal test data
真空熱試驗數(shù)據(jù)是一種典型的時間序列。時間序列由于其自身噪聲與波動性的特點,相似的時間序列會呈現(xiàn)多種變形,如振幅平移和伸縮、線性漂移、不連續(xù)及時間軸伸縮等[1-2]。
形態(tài)距離算法[3]基于人類視覺直觀判斷的經(jīng)驗,將時間序列變換為曲線形態(tài)特征的集合,一個時間序列的形態(tài)可以表示為(模式,時刻)對的形式。兩個時間序列間的形態(tài)距離越小,它們的形態(tài)越接近。形態(tài)距離對時間序列的振幅平移、伸縮不敏感,并能支持線性漂移。
動態(tài)時間彎曲距離(dynamic time warping,簡稱 DTW)[4]是把時間規(guī)整和距離測度計算結(jié)合起來的一種非線性規(guī)整技術,它運用動態(tài)規(guī)劃思想尋找一條具有最小彎曲代價的最佳路徑,支持時間序列時間軸伸縮的相似性度量。
本文將以上兩種距離度量方法有機融合,提出了一種改進DTW-形態(tài)距離算法,該算法能較好地解決時間序列的各類相似性變形問題。
進行真空熱試驗數(shù)據(jù)相似性度量的實現(xiàn)流程如圖 2所示。首先對真空熱試驗數(shù)據(jù)進行小波變換,提取變換后的低頻尺度數(shù)據(jù)作為分析對象,實現(xiàn)數(shù)據(jù)的壓縮和去噪;然后對低頻尺度數(shù)據(jù)分別進行形態(tài)特征提取和規(guī)范化處理后,代入距離計算公式,計算得出各數(shù)據(jù)間的距離,形成相異度矩陣;最后對相異度矩陣進行聚類分析,識別出具有相似性特征的聚類簇。
對于真空熱試驗測量數(shù)據(jù)的相似性度量,需要確定統(tǒng)一的度量標準,以實現(xiàn)數(shù)據(jù)的自動相似性聚類。因此有必要在度量之前進行數(shù)據(jù)規(guī)范化處理,防止具有較大初始值域?qū)傩耘c具有較小初始值域?qū)傩韵啾葯?quán)重過大[5],造成度量標準不統(tǒng)一。
一般而言,形態(tài)特征提取在數(shù)據(jù)規(guī)范化后進行。然而,對于值域范圍很小、略帶小噪聲的穩(wěn)態(tài)數(shù)據(jù),數(shù)據(jù)規(guī)范化會給形態(tài)特征提取帶來負面影響:小噪聲被放大,形態(tài)符號計算失真,如圖3所示。規(guī)避這一問題的方法是將形態(tài)符號的計算安排在規(guī)范化之前進行,通過選擇合理的模式區(qū)分閾值[3]過濾掉采集噪聲的影響,見圖2算法流程。
圖3 規(guī)范化前后的數(shù)據(jù)曲線Fig .3 Curves before and after the standardization
Db4小波基有近似的對稱性,數(shù)據(jù)分解和重構(gòu)時的相位失真較小;另外,該小波基支撐長度為2N,計算復雜度和數(shù)據(jù)分解的光滑程度適中,因此,本文選用Db4作為小波基。
使用小波變換后,低頻尺度數(shù)據(jù)的值域較原始數(shù)據(jù)發(fā)生了變化,因此,模式區(qū)分閾值選取時應在數(shù)據(jù)采集系統(tǒng)不穩(wěn)定度的基礎上,乘以不同尺度小波變換引發(fā)的幅值變化系數(shù),即可消除不同層數(shù)小波變換對閾值變化的影響,實現(xiàn)模式區(qū)分閾值取值的通用化。
相似性度量算法具體實現(xiàn)步驟如下:
1)設真空熱試驗原始數(shù)據(jù)由n組序列組成,記為序列組{A1, A2, …, An},對每組序列進行小波變換后的低頻尺度序列組記為{B1, B2, …, Bn}。
2)設第i組低頻尺度序列Bi的總長度為m,記為{Bi1, Bi2, …, Bim},按照文獻[2]中的方法,獲得序列組{B1, B2, …, Bn}所對應的形態(tài)符號序列組{C1, C2, …, Cn},其中 Ci記為{Ci1, Ci2, …, Ci(m-1)}。
3)對序列組{B1, B2, …, Bn}按照
進行規(guī)范化處理,處理后的數(shù)據(jù)記為{E1, E2, …, En}。
4)對序列組兩兩之間進行相似性度量,獲得相異度矩陣 D,距離度量計算公式如式(2)、式(3)所示。為了提升 DTW的計算效率,限定規(guī)劃路徑約束斜率[4]在 1/2~2范圍內(nèi),搜索寬度[4]在(m?1)的 10%范圍內(nèi)取整數(shù)值;在進行式(2)計算時,設定提前終止計算閾值(記為ε),當Dij還未計算結(jié)束而其最小值已經(jīng)大于 ε時,提前退出計算,令Dij=∞,則
式(2)、式(3)中:a為序列 Ci的元素下標,b為序列 Cj的元素下標,1≤a≤m-1,1≤b≤m-1,|a?b|≤β。
平均準確率[3]可以用來衡量聚類算法準確度,通過考察任意兩組時間序列之間類屬關系與人工聚類是否一致來評價聚類算法的效果。平均準確率越接近于1,聚類算法準確度越高。
本次試驗采用實測數(shù)據(jù)作為數(shù)據(jù)源,使用改進DTW-形態(tài)距離算法和層次聚類法對數(shù)據(jù)源進行相似性聚類試驗,通過調(diào)整相似性度量閾值α和搜索寬度β的取值,計算不同數(shù)據(jù)源和小波變換層數(shù)γ下聚類的平均準確率 ρ,統(tǒng)計分析參數(shù) α、β的最佳取值范圍,使得ρ取最優(yōu)值。試驗中相似性度量算法提前終止計算閾值ε等于α。
考慮到小波變換對樣本數(shù)據(jù)的去噪效果以及變換后數(shù)據(jù)的長度(不宜太短,需要保留一定的信息量),小波變換層數(shù)γ在[5, 8]的范圍內(nèi)取整數(shù)值。
從目前4種典型真空熱試驗類型中選取4組測試數(shù)據(jù)源,這些數(shù)據(jù)源覆蓋了真空熱試驗測量數(shù)據(jù)的各種情況,如表1所示;圖4為測試數(shù)據(jù)的曲線圖。
表1 測試數(shù)據(jù)源Table 1 Test data sources
圖4 測試數(shù)據(jù)源曲線Fig. 4 Test curve for the data source
相似性度量閾值α越小,度量標準越嚴酷,但過小會導致相似性關系的漏報。使用改進DTW-形態(tài)距離算法和層次化聚類方法對表1中的1號和4號數(shù)據(jù)源進行聚類測試,發(fā)現(xiàn)α在0.02附近取值的通用性較好,如圖5所示。因此,在相似性聚類試驗中,α取值以0.002為間隔,最小取0.002,最大取0.04,共20組。
圖5 1號和4號數(shù)據(jù)源聚類樹Fig. 5 Cluster tree of data sources I and IV
搜索寬度β越大,時間序列的允許扭曲范圍越大,適應性更好,但會引入一些不合理的時間扭曲,降低聚類的準確率,同時增加計算的復雜度。因此,將搜索寬度 β限定在變換后形態(tài)符號序列長度(m?1)的 10%以內(nèi),使用改進 DTW-形態(tài)距離算法和層次化聚類方法對表1中的4組數(shù)據(jù)源進行聚類測試,發(fā)現(xiàn)β在{0, 1, 2, 3}范圍內(nèi)取值的聚類結(jié)果較好,因此,在相似性聚類試驗中,β取值以1為間隔,最小取0,最大取3,共4組。
在以上定義的α、β、γ取值范圍下,對4組測試樣本進行相似性聚類試驗。設定 ρ(α, β, γ, n)為不同參數(shù)對應的聚類平均準確率,其中n為測試數(shù)據(jù)源,n={1, 2, 3, 4}。定義如下2組統(tǒng)計數(shù)據(jù):
式(4)和式(5)分別統(tǒng)計了 ρ(α, β, γ, n)在不同 γ、不同 n取值情況下的平均值和最小值分布情況,計算結(jié)果如圖 6 所示。從圖 6 中可以看出:AVR(ργ,n(α, β))和MIN(ργ,n(α, β))整體趨勢隨著 α 值的增加在減小,當β為0、1,度量閾值α在0.028~0.032范圍內(nèi)時,聚類的平均準確率高。表2給出了α=0.03、β=0、γ=8時4組數(shù)據(jù)源自動聚類與人工聚類結(jié)果的對比情況。
圖6 平均準確率的均值分布與最小值分布Fig. 6 The average and minimum distributions of average precision
表2 聚類結(jié)果對比Table 2 Comparison between the clustering results
使用以上參數(shù),對隨機選擇的某整星試驗的40路測點進行聚類,測點數(shù)據(jù)長度為4 860,對數(shù)據(jù)進行聚類驗證,計算得出的平均準確率如表3所示。其中平均準確率最大值為 0.985,最小值為0.835,參數(shù)的適應性良好。
表3 某整星試驗數(shù)據(jù)聚類平均準確率驗證數(shù)據(jù)Table 3 Validation data of average precision for a satellite test data cluster
為驗證算法對異常數(shù)據(jù)的監(jiān)測效果,選取了具有相似性特征的真實試驗數(shù)據(jù)(共4個測點),對其中的1號測點數(shù)據(jù)進行調(diào)整,模擬了2種典型的異常情況:①數(shù)據(jù)異常跳動(如圖7(a)中,260 min之后,1號測點出現(xiàn)了幅值約0.6 ℃,持續(xù)時間約15 min的尖峰跳動);②變化趨勢出現(xiàn)偏離。如圖8(a)中,660 min之后,2、3、4號測點溫度開始平緩上升,而1號測點依然維持下降趨勢)。
使用本文的相似性度量算法對以上2組數(shù)據(jù)進行離群檢測,相關參數(shù)取值為:α=0.03,β=0,γ=6。該算法能準確地將1號測點與2、3、4號測點劃分為不同類,如圖 7(b)、圖 8(b)所示。算法度量出的2、3、4號測點間的相似性距離d在0.01以下,而1號測點與2、3、4號測點的相似性距離d在0.1以上,可見該算法對以上2種異常情況識別的靈敏度較高。
圖7 數(shù)據(jù)異常跳動曲線及檢測結(jié)果Fig. 7 Data abnormal jump curves and the check result
圖8 數(shù)據(jù)變化趨勢偏離曲線及檢測結(jié)果Fig. 8 Data abnormal deviation curves and the check result
本文所提出的改進 DTW-形態(tài)距離算法支持振幅及時間的平移和伸縮,實現(xiàn)了度量參數(shù)的通用化;該算法與人工視覺分析原理接近,比較適合于進行真空熱試驗數(shù)據(jù)的相似性關系度量。試驗數(shù)據(jù)及故障仿真分析結(jié)果證明,該算法對真空熱試驗數(shù)據(jù)的相似性聚類精度較高,具有較好的應用前景。進一步的研究方向包括相似性度量方法的優(yōu)化和離群檢測算法、參數(shù)的研究。
(References)
[1]賈澎濤, 何華燦, 劉麗, 等. 時間序列數(shù)據(jù)挖掘綜述[J].計算機應用研究, 2007, 24(11): 15-18 Jia Pengtao, He Huacan, Liu Li, et al. Overview of time series data mining[J]. Application Research of Computers,2007, 24(11): 15-18
[2]Chung Fu-Lai, Fu Tak-Chung. An revolutionary approach to pattern-based time series segmentation[J]. IEEE Trans on Evolutionary Computation, 2004, 8(5): 471-89.
[3]董曉莉, 顧成奎, 王正歐. 基于形態(tài)的時間序列相似性度量研究[J]. 電子與信息學報, 2007, 29(5):1228-1231 Dong Xiaoli, Gu Chengkui, Wang Zheng’ou. Research on shape-based time series similarity measure[J]. Journal of Electronics & Information Technology, 2007, 29(5):1228-1231
[4]陳立萬. 基于語音識別系統(tǒng)中DTW 算法改進技術研究[J]. 微計算機信息, 2006, 22(2): 267-269 Chen Liwan. Discussion of DTW programming improved way on speech recognition[J]. Control & Automation,2006, 22(2): 267-269
[5]韓家煒, 堪博. 數(shù)據(jù)挖掘概念與技術[M]. 北京: 機械工業(yè)出版社, 2007: 46