鄢青青,肖 鋒,柳振民
基于差分和局部離群因子的遙測(cè)數(shù)據(jù)野值檢測(cè)方法
鄢青青,肖 鋒,柳振民
(西昌衛(wèi)星發(fā)射中心,西昌,615000)
為提高火箭飛行遙測(cè)數(shù)據(jù)孤立型野值檢測(cè)的準(zhǔn)確性和檢測(cè)效率,針對(duì)遙測(cè)數(shù)據(jù)變化范圍大、分布參數(shù)未知、數(shù)據(jù)量大等特點(diǎn),提出一種基于差分和局部離群因子的野值檢測(cè)算法,通過一階差分使遙測(cè)數(shù)據(jù)中快速變化段的突變點(diǎn)與正常幅值點(diǎn)區(qū)分開,然后去除差分值中的重復(fù)值以降低計(jì)算復(fù)雜度,并將數(shù)據(jù)點(diǎn)的重疊度引入局部離群因子的計(jì)算中以快速篩選出局部離群程度較大的突變點(diǎn),最后利用突變點(diǎn)的差分值符號(hào)特征來辨識(shí)野值點(diǎn)。通過實(shí)例應(yīng)用分析,驗(yàn)證了該算法的高效性和準(zhǔn)確性。
遙測(cè)數(shù)據(jù);野值;差分;局部離群因子
野值是指偏離被測(cè)信號(hào)變化規(guī)律[1]或被測(cè)目標(biāo)真值[2]的數(shù)據(jù)點(diǎn),通常是由數(shù)據(jù)采集、處理、傳輸中的誤差或干擾引起的,與被測(cè)系統(tǒng)的正常或異常行為均無關(guān),在文獻(xiàn)中又稱為異常點(diǎn)、粗大誤差、離群(點(diǎn))值、孤立(點(diǎn))值、跳點(diǎn)[7]等[3~7]。野值的檢測(cè)與清除是運(yùn)載火箭飛行遙測(cè)數(shù)據(jù)預(yù)處理中的重要環(huán)節(jié),關(guān)系到后續(xù)數(shù)據(jù)分析挖掘、故障排查與處置的效率和成功率。遙測(cè)數(shù)據(jù)中,連續(xù)的多個(gè)偏離正常變化規(guī)律的值(成片野值或斑點(diǎn)野值)[6,8],通常表明被測(cè)系統(tǒng)、數(shù)據(jù)處理、傳輸通道或被測(cè)環(huán)境存在異常,而這些都是遙測(cè)數(shù)據(jù)分析的重要方面,故該類值一般不能作為無關(guān)數(shù)據(jù)直接剔除,下文中的野值僅指單個(gè)、相對(duì)鄰近點(diǎn)孤立的偏離點(diǎn)。
遙測(cè)數(shù)據(jù)反映著火箭飛行中自身與內(nèi)外環(huán)境、傳輸通道的狀態(tài)。隨著近年來中國(guó)航天發(fā)射量的大幅增長(zhǎng),傳統(tǒng)的人工分析模式已不能滿足大量遙測(cè)數(shù)據(jù)的深度挖掘利用在效率、覆蓋率、準(zhǔn)確率等方面的需求。自動(dòng)化甚至智能化的數(shù)據(jù)分析對(duì)數(shù)據(jù)預(yù)處理提出了更高的要求,尤其是對(duì)野值檢測(cè)效率和準(zhǔn)確度的要求,關(guān)系更高效的現(xiàn)代化數(shù)據(jù)處理手段能否真正應(yīng)用于實(shí)際工作。
遙測(cè)數(shù)據(jù)是被測(cè)對(duì)象狀態(tài)的反映,因此根據(jù)不同時(shí)段被測(cè)對(duì)象的狀態(tài)不同而可能變化范圍較大。如果被測(cè)對(duì)象狀態(tài)變化頻繁,則可能會(huì)導(dǎo)致遙測(cè)數(shù)據(jù)出現(xiàn)頻繁起伏。同時(shí)由于被測(cè)對(duì)象工作狀態(tài)轉(zhuǎn)換,使遙測(cè)數(shù)據(jù)中常包含幾類幅值瞬時(shí)變化較快、與相鄰點(diǎn)差異較大的突變點(diǎn):極值點(diǎn)、階躍點(diǎn)、單調(diào)區(qū)間分界點(diǎn)、野值點(diǎn)等。這類突變點(diǎn)的變化特征為在數(shù)個(gè)單位時(shí)間內(nèi)數(shù)據(jù)的幅值呈現(xiàn)大幅度變化,與相鄰點(diǎn)(包括快速變化中的其他點(diǎn))的差值絕對(duì)值相對(duì)其他時(shí)段的相鄰點(diǎn)差值絕對(duì)值較大,在差分后易被誤識(shí)別為野值點(diǎn)。
綜上所述,遙測(cè)數(shù)據(jù)的變化幅度大、數(shù)據(jù)量也大,使得在野值檢測(cè)過程中區(qū)分正常值與野值和提高檢測(cè)效率的難度較大。
遙測(cè)數(shù)據(jù)的野值特性如圖1所示。
圖1 遙測(cè)數(shù)據(jù)的野值特性
遙測(cè)數(shù)據(jù)的野值是指幅值和變化規(guī)律均偏離兩側(cè)相鄰點(diǎn)較大的孤立數(shù)據(jù)點(diǎn),其幅值大小不確定(甚至可能與數(shù)據(jù)序列中某些正常值相當(dāng)),幅值偏離兩側(cè)相鄰點(diǎn)的方向也不確定(大于或小于兩側(cè)相鄰點(diǎn)),不連續(xù)出現(xiàn)但出現(xiàn)的次數(shù)不確定,見圖1a。
遙測(cè)數(shù)據(jù)中的野值大小、數(shù)量、方向不確定,也容易與其他類型的突變點(diǎn)混淆,在檢測(cè)過程中還要排除分層值的干擾。
由于遙測(cè)數(shù)據(jù)的采樣頻率較高,在其緩變時(shí)段,單位采樣時(shí)間間隔的數(shù)據(jù),幅值變化程度很小。因此遙測(cè)數(shù)據(jù)進(jìn)行一階前向差分后,差分值除瞬時(shí)變化較快的突變點(diǎn)附近外,其他緩變區(qū)間的幅值相對(duì)大幅縮小。如此可將包括野值在內(nèi)的少量突變點(diǎn)與數(shù)據(jù)序列中大部分正常緩變值區(qū)分開來。
e)局部可達(dá)密度。
f)局部離群因子。
基于差分和局部離群因子的野值檢測(cè)方法(簡(jiǎn)稱DIFF-LOF)對(duì)遙測(cè)數(shù)據(jù)進(jìn)行一階差分后,首先通過局部離群因子識(shí)別數(shù)據(jù)中的突變點(diǎn),然后利用野值點(diǎn)與其他突變點(diǎn)的差分值符號(hào)特性差別辨識(shí)突變點(diǎn)集合中的野值點(diǎn),具體步驟如下:
e)排除被標(biāo)記為野值點(diǎn)中的差分值為分層值的點(diǎn),剩下的均為野值。
圖2 遙測(cè)數(shù)據(jù)序列及其差分序列
表1 算法性能對(duì)比分析
Tab.1 Comparative Analysis of Algorithm Performance
算法配置漏判率誤判數(shù)平均用時(shí)ms LOF參數(shù)設(shè)置(=23)k——16.76 >163042.86%0 1~163028.57%0 <1300>273 1≥3000 120~3014.285%0 1≤2028.57%0 不去重(截取80s)002485.6 不符號(hào)辨識(shí)02310.82 不差分0458.45 單純3σ法>2.5σ100%01.51 1.1σ<|X|Δ<2.5σ50%0 |X|Δ<1.1σ50%>2×104 差分與符號(hào)辨識(shí)3σ法28.57%和004.19
采用DIFF-LOF方法且不進(jìn)行突變點(diǎn)的符號(hào)特征辨識(shí),其結(jié)果表明符號(hào)特征辨識(shí)是在幅值判別(LOF閾值)為疑似野值的數(shù)據(jù)點(diǎn)中進(jìn)一步區(qū)分野值與其他類型突變點(diǎn)的有效方法。
隨機(jī)選擇1000個(gè)歷史數(shù)據(jù)序列進(jìn)行上述多種方法的檢測(cè)結(jié)果對(duì)比,并統(tǒng)計(jì)野值檢測(cè)的漏判率、誤判數(shù)(將非野值點(diǎn)誤判為野值的總數(shù)量)、平均用時(shí)。漏判率的計(jì)算方法為
表2 基于歷史數(shù)據(jù)的野值檢測(cè)對(duì)比分析
Tab.2 Comparative Analysis of Outlier Detection based on Historical Data
檢測(cè)方法平均漏判率誤判數(shù)平均用時(shí)/ms DIFF-LOF11.95%1716.76 基于差分的3σ法9.65%>6×1041.26 不差分LOF24.39%>3×104303.72 不符號(hào)辨識(shí)LOF11.63%541016.11 單純3σ法41.93%>2×1050.57
圖3 DIFF-LOF方法野值檢測(cè)結(jié)果示例
不進(jìn)行差分的LOF法漏判率和誤判數(shù)均較大,因?yàn)檫b測(cè)數(shù)據(jù)的幅值變化范圍較大,使部分正常值與野值混合在一起,局部鄰域點(diǎn)密度不能準(zhǔn)確反映野值點(diǎn)或突變點(diǎn)與正常數(shù)據(jù)的差別。另外,不進(jìn)行差分的LOF方法計(jì)算復(fù)雜度也極大,部分幅值極大的數(shù)據(jù)在計(jì)算時(shí)甚至發(fā)生內(nèi)存不足問題。
不進(jìn)行符號(hào)辨識(shí)的LOF法的誤判數(shù)較高,而漏判率則較小,這是因?yàn)樵诓贿M(jìn)行符號(hào)辨識(shí)時(shí),會(huì)將大量局部密度較小的突變點(diǎn)誤判為野值點(diǎn);而漏判率比DIFF-LOF稍小的原因是有1個(gè)較小的疑似野值在符號(hào)辨識(shí)中被辨識(shí)為極值點(diǎn)。
圖4 基于差分的法野值檢測(cè)結(jié)果示例
圖5為采用DIFF-LOF法對(duì)歷史數(shù)據(jù)進(jìn)行野值檢測(cè)的結(jié)果,部分同時(shí)包含具明顯特征的突變點(diǎn)和野值點(diǎn)檢測(cè)結(jié)果??梢奃IFF-LOF法可準(zhǔn)確區(qū)分普通突變點(diǎn)與野值點(diǎn)。
圖5 DIFF-LOF方法對(duì)多個(gè)遙測(cè)數(shù)據(jù)序列的野值檢測(cè)結(jié)果
DIFF-LOF算法包含改進(jìn)的LOF和多個(gè)針對(duì)遙測(cè)數(shù)據(jù)特征的功能設(shè)計(jì),以確保算法的野值檢測(cè)效果和計(jì)算復(fù)雜度。
綜合分析表明,DIFF-LOF算法具有明顯的優(yōu)異性和工程實(shí)踐應(yīng)用價(jià)值。
針對(duì)遙測(cè)數(shù)據(jù)的變化范圍大、分布參數(shù)未知、單次數(shù)據(jù)量大等特點(diǎn),提出一種基于差分和LOF的野值檢測(cè)算法(DIFF-LOF),通過實(shí)例分析表明:a)對(duì)遙測(cè)數(shù)據(jù)進(jìn)行差分可將突變點(diǎn)與普通幅值區(qū)分開來,提高了野值檢測(cè)的準(zhǔn)確性;
b)差分后去重并將數(shù)據(jù)點(diǎn)的重疊度引入LOF計(jì)算,可大幅提高野值檢測(cè)的效率,降低計(jì)算復(fù)雜度;
c)對(duì)經(jīng)過LOF閾值篩選的疑似野值數(shù)據(jù)點(diǎn)進(jìn)行符號(hào)特征辨識(shí)可區(qū)分不同類型突變點(diǎn),降低誤識(shí)別率。
同時(shí)通過基于歷史數(shù)據(jù)的對(duì)比分析,進(jìn)一步驗(yàn)證了DIFF-LOF方法的檢測(cè)準(zhǔn)確性和檢測(cè)效率。而遙測(cè)數(shù)據(jù)中不同參數(shù)的數(shù)據(jù)在分層值、局部變化頻率和速率等方面存在區(qū)別,應(yīng)該針對(duì)不同類型遙測(cè)參數(shù)設(shè)置不同的LOF參數(shù),以進(jìn)一步提高野值檢測(cè)的準(zhǔn)確性。
[1] 張?jiān)俚? 等. GJB 2238A -2004, 遙測(cè)數(shù)據(jù)處理[S]. 北京: 總裝司令部, 2004.
Zhang Zaidi, et al. GJB 2238A -2004, telemetry data processing[S]. Beijing: General Equipment Command, 2004.
[2] 胡紹林, 孫國(guó)基. 靶場(chǎng)外測(cè)數(shù)據(jù)野值點(diǎn)的統(tǒng)計(jì)診斷技術(shù)[J]. 宇航學(xué)報(bào), 1999, 20(2): 68-74.
[J]1999, 20(2): 68-74.
[3] 葉茂. 大規(guī)模聚類算法及在異常檢測(cè)中的應(yīng)用研究[D]. 鄭州: 解放軍信息工程大學(xué), 2017.
[4] 耿素軍, 余劍. 智能測(cè)量系統(tǒng)中粗大誤差的處理[J]. 電氣電子教學(xué)學(xué)報(bào), 2005, 27(3): 37-39.
[5] 辛麗玲. 基于密度差異的離群點(diǎn)檢測(cè)研究[D]. 北京: 北京交通大學(xué), 2015.
Xin Liling. Research on outlier detection based on density difference[D]. Beijing: Beijing Jiaotong University, 2015.
[6] 谷陽陽, 趙圣占. 遙測(cè)數(shù)據(jù)野值剔除方法的對(duì)比與分析[J]. 戰(zhàn)術(shù)導(dǎo)彈技術(shù), 2012(2): 60-63.
[J]2012(2): 60-63.
[7] 趙圣占, 等. 遙測(cè)數(shù)據(jù)處理的野值剔除方法研究[J]. 強(qiáng)度與環(huán)境, 2005, 32(1): 59-63.
[J]2005, 32(1): 59-63.
[8] 祝轉(zhuǎn)民, 等. 動(dòng)態(tài)測(cè)量數(shù)據(jù)野值的辨識(shí)與剔除[J]. 系統(tǒng)工程與電子技術(shù), 2004, 26(2): 147-149,190.
[J]2004, 26(2): 147-149, 190.
[9] 李安梁, 郭才發(fā), 蔡洪. 地磁測(cè)量數(shù)據(jù)野值的辨識(shí)與剔除[J]. 飛行器測(cè)控學(xué)報(bào), 2001, 30(2): 89-94.
[J].2001, 30(2): 89-94.
[10] 任玉川, 邵會(huì)兵. 傳遞對(duì)準(zhǔn)野值加權(quán)矩陣修正方法應(yīng)用研究[J]. 現(xiàn)代防御技術(shù), 2009, 37(4): 47-49, 103.
[J]., 2009, 37(4): 47-49, 103.
[11] 朱學(xué)鋒. 基于聚類模糊系統(tǒng)的動(dòng)態(tài)數(shù)據(jù)野值剔除方法[J]. 飛行器測(cè)控學(xué)報(bào), 2011, 30(5): 81-84.
[J]., 2011, 30(5): 81-84.
[12] Subutai Ahmad, Scott Purdy. Real-time anomaly detection for streaming analytics[OL] //https://www.researchgate.net/publication/205119405Real- Time_Anomaly_Detection_for_Streaming_Analytics. 2019.07.05.
[13] Breunig M M, et al. LOF: Identifying Density-Based Local Outliers[C]. New York: the 2000 ACM SIGMOD International Conference on Management of Data, 2000.
[14] Mei Bai, et al. An efficient algorithm for distributed density- based outlier detection on big data[J]. Neurocomputing, 2016(181): 19-28.
[15] Meiling Liu. A novel approach to mining local outliers[J]. Energy Procedia, 2011(13): 6332-6339.
[16] Meiling Liu. A hybrid algorithm for mining local outliers incategorical data[J]. Wireless and Mobile Computing, 2017, 13(1): 78-85.
[17] Zhiping Xie, Xiaoyu Li, Wenyi Wu. An improved outlier detection algorithmto medical insurance[C]. Yangzhou: the 17th International Conference on Intelligent Data Engineering and Automated Learning, 2016.
[18] 徐全智, 呂恕. 概率論與數(shù)理統(tǒng)計(jì)(第三版)[M]. 北京: 高等教育出版社, 2017.
Xu Quanzhi,Shu. Probability theory and mathematical statistics (Third Edition) [M]. Beijing: Higher Education Press, 2017.
[19] 段超. 基于多屬性的空間離群點(diǎn)檢測(cè)算法研究[D]. 上海: 華東理工大學(xué), 2013.
Duan Chao. Research based on multiple attributes spatial outlier detection[D]. Shanghai: East China University of Science and Technology, 2013.
Outlier Detection Method for Telemetry Data based on Difference and Local Outlier Factor
Yan Qing-qing, Xiao Feng, Liu Zhen-min
(Xichang Satellite Launch Center, Xichang, 615000)
In order to improve the accuracy and efficiency of isolated outlier detection for rocket flight telemetry data, an outlier detection algorithm based on difference and local outlier factor (DIFF-LOF) is proposed, aiming at the characteristics of large variation range, unknown distribution parameters and large amount of data of telemetry data. Through the first-order difference, DIFF-LOF distinguishes the mutation point of the fast change section from the normal amplitude point in the telemetry data, and then removes the duplicate value in the difference value to reduce the computational complexity. DIFF-LOF introduces the overlap degree of data points into the calculation of local outlier factor to quickly screen out the mutation points with larger local outlier degree, and uses the difference symbolic features of mutation points to identify outliers. The efficiency and accuracy of the algorithm are verified by an example.
telemetry data; outliers; differences; local outlier factor
2097-1974(2023)01-0093-08
10.7654/j.issn.2097-1974.20230119
V557+.3
A
2020-04-01;
2020-12-25
鄢青青(1986-),男,博士,工程師,主要研究方向?yàn)楹教炱鳒y(cè)試發(fā)射。
肖 鋒(1978-),男,高級(jí)工程師,主要研究方向?yàn)楹教炱鳒y(cè)試發(fā)射。
柳振民(1980-),男,高級(jí)工程師,主要研究方向?yàn)楹教炱鳒y(cè)試發(fā)射。