張友浩 趙鳴 徐夢瑤 趙光晶
摘?要:由于時序數(shù)據(jù)的海量、高維等特點,對原始數(shù)據(jù)進(jìn)行預(yù)處理是實現(xiàn)時序數(shù)據(jù)挖掘的重要步驟。有效的預(yù)處理不僅能去除噪聲、冗余,減低數(shù)據(jù)規(guī)模、提升計算效率,還能通過提取數(shù)據(jù)特征,揭示數(shù)據(jù)關(guān)系,有助于實施時序數(shù)據(jù)挖掘。本文從數(shù)據(jù)缺失、數(shù)據(jù)噪聲、離群點/異常值、特征提取和模式表示幾個方面,對已有的原理和方法進(jìn)行分析歸納,為后續(xù)時序數(shù)據(jù)挖掘研究提供參考。
關(guān)鍵詞: 時間序列;預(yù)處理;數(shù)據(jù)清洗;特征提取;模式表示
文章編號: 2095-2163(2021)01-0074-05 中圖分類號:TP391.41 文獻(xiàn)標(biāo)志碼:A
【Abstract】Due to the massive and high-dimensional characteristics of time series data, preprocessing the original data is an important step for time series data mining. Effective preprocessing can not only remove noise and redundancy, reduce the scale of data, and improve computing efficiency, but it can also reveal data relationships by extracting data features, which helps to implement time series data mining. This paper analyzes and summarizes the existing principles and methods from the aspects of data missing, data noise, outliers/anomalous value, feature extraction and pattern representation, and provides references for subsequent time series data mining research.
【Key words】time series; preprocessing; data cleaning; feature extraction; pattern representation
0 引?言
時間序列數(shù)據(jù)(Time Series Data)是指一系列依時間為序的觀察值的集合。例如在設(shè)備運(yùn)行狀態(tài)監(jiān)測、金融市場趨勢預(yù)測、病人健康狀態(tài)監(jiān)測、交通流量監(jiān)測,網(wǎng)絡(luò)流量監(jiān)測等領(lǐng)域,都會產(chǎn)生海量的時間序列數(shù)據(jù)。時變性是時序數(shù)據(jù)的重要特征,不同的應(yīng)用背景,時序數(shù)據(jù)表現(xiàn)出的特性各不相同,對其進(jìn)行分類的標(biāo)準(zhǔn)相應(yīng)地也有所不同。按照時序數(shù)據(jù)變量數(shù)目,可分為單變量時間序列和多變量時間序列;按其變量特征,可分為平穩(wěn)性時間序列和非平穩(wěn)性時間序列;按其連續(xù)性,可分為連續(xù)時間序列和離散時間序列,等等。
對時序數(shù)據(jù)分析的目的在于揭示時間序列規(guī)律,并基于此規(guī)律預(yù)報未來事件,再通過干預(yù)來控制未來事件。時序數(shù)據(jù)分析經(jīng)歷了描述性時序分析、統(tǒng)計性時序分析、頻域分析、時域分析,時間序列數(shù)據(jù)挖掘(Time Series Data Mining,TSDM)幾個階段。
由于時序數(shù)據(jù)具有高維度、高噪音、動態(tài)性及采集過程引起的數(shù)據(jù)缺失、數(shù)據(jù)冗余、離群點/異常值等特點,將直接導(dǎo)致后續(xù)處理分析耗費(fèi)時間長,無法提取有用信息,甚至得出完全錯誤的結(jié)論。因此時序數(shù)據(jù)預(yù)處理是進(jìn)行時序數(shù)據(jù)挖掘的重要步驟。
本文重點討論時序數(shù)據(jù)預(yù)處理中涉及的數(shù)據(jù)缺失、數(shù)據(jù)噪聲、離群點/異常值、特征提取與模式表示問題。
1 數(shù)據(jù)缺失
在數(shù)據(jù)采集過程中,產(chǎn)生數(shù)據(jù)缺失的機(jī)制主要有完全隨機(jī)缺失、隨機(jī)缺失和非隨機(jī)缺失三種情況。其中,完全隨機(jī)缺失完全由隨機(jī)因素造成,隨機(jī)缺失只依賴于已觀測到的變量值,非隨機(jī)缺失與缺失值自身有關(guān)。根據(jù)數(shù)據(jù)缺失機(jī)制與觀測變量間的關(guān)系及不同的研究目標(biāo),采取不同方法處理數(shù)據(jù)缺失。
1.1 基于統(tǒng)計學(xué)的填充方法
主要有固定值填充、常用值填充、均值填充、中值填充、上下文數(shù)據(jù)填充、插值填充[1]等。例如,文獻(xiàn)[2]針對GNSS基準(zhǔn)站坐標(biāo)序列含缺失值問題,根據(jù)小波系數(shù)與坐標(biāo)序列數(shù)據(jù)的重構(gòu)關(guān)系,提出非插值的二進(jìn)小波變換最小范數(shù)解法 ,與傳統(tǒng)的插值算法精度相當(dāng)。文獻(xiàn)[3]針對單變量時間序列缺失值問題,提出基于稀疏表示下的缺失值插補(bǔ)方法;針對多變量時間序列缺失值問題,提出SPCA-GKNNI算法,提高了數(shù)據(jù)集利用率和插補(bǔ)精度,避免了傳統(tǒng)最近鄰算法高維數(shù)據(jù)的維災(zāi)問題。
1.2 基于模型的填充方法
主要有自回歸模型(Autoregressive Model,AR) [4]、自回歸差分移動平均模型?(Autoregressive Integrated Moving Average Model,ARIMA)[5]、馬爾科夫鏈蒙特卡羅法等。此類方法的缺點是模型的誤判容易導(dǎo)致估計值不夠準(zhǔn)確。文獻(xiàn)[6]根據(jù)時空相關(guān)性建立填充缺失值模型,處理臟數(shù)據(jù)。文獻(xiàn)[7]針對多元時間序列回歸任務(wù)中的非隨機(jī)缺失問題,提出一種稱為正反向可變敏感的長短期記憶網(wǎng)絡(luò),由缺失指標(biāo)、正向和反向缺失的兩個時間間隔和每個變量的缺失率作為增強(qiáng)模型的輸入,能較好處理大量信息缺失,提高預(yù)測精度。
1.3 基于機(jī)器學(xué)習(xí)的填充方法
主要有最近鄰(K-Nearest Neighbour,KNN),遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN),期望最大化算法(Expectation Maximization,EM)等。文獻(xiàn)[8]針對KNN補(bǔ)全算法在缺失數(shù)據(jù)K近鄰選取上的偏向性問題,引入空間坐標(biāo)、閾值和影響權(quán)重進(jìn)行改進(jìn),使得補(bǔ)全的數(shù)據(jù)更為合理。文獻(xiàn)[9]針對多變量時間序列數(shù)據(jù)缺失問題,在RNN的長短時記憶單元引入衰減機(jī)制,能更好地獲取長時間間隔的隱藏信息和實現(xiàn)缺失數(shù)據(jù)填充。文獻(xiàn)[10]針對GPS坐標(biāo)序列中的缺失值問題,提出基于數(shù)據(jù)驅(qū)動的RegEM插補(bǔ)算法,在大量數(shù)據(jù)缺失的情況下,插值效果均優(yōu)于傳統(tǒng)方法。文獻(xiàn)[11]將統(tǒng)計學(xué)與機(jī)器學(xué)習(xí)結(jié)合,利用動態(tài)貝葉斯網(wǎng)絡(luò)將測量數(shù)據(jù)通過隱藏狀態(tài)傳遞給環(huán)境控制數(shù)據(jù),用期望最大化算法來推斷隱藏狀態(tài)并學(xué)習(xí)模型的參數(shù)。與基于回歸的分析模型相比,該模型能夠以非常精確的方式擬合校準(zhǔn)數(shù)據(jù),對環(huán)境參數(shù)的變化具有更強(qiáng)的魯棒性。
2 數(shù)據(jù)噪聲
在數(shù)據(jù)采集過程中,噪聲是不可避免的、不隨原信號變化、無規(guī)律的額外信息,一般從時域和頻域兩個方面來進(jìn)行分析。對此擬展開研究論述如下。
2.1 時域濾波方法
傳統(tǒng)的時域濾波法是用一個濾波器來去除噪聲,濾波器通常是一個滑動窗口,而去噪就是用窗口內(nèi)數(shù)據(jù)的統(tǒng)計值(如均值、中值等)來代替當(dāng)前值,主要有滑動平均濾波、算術(shù)平均濾波、中位值濾波、自適應(yīng)濾波等。時域濾波實際就是對數(shù)據(jù)進(jìn)行平滑化處理,去除序列中的噪聲,但計算量大且可能忽視時間序列局部細(xì)節(jié)變化。
2.2 頻域濾波方法
傳統(tǒng)的頻域濾波法是將信號從時域變換到頻域,通過設(shè)定閾值將不同頻率的信號分開,主要有低通濾波、高通濾波、帶通濾波等,但由于需要獲取序列的先驗知識且一定程度忽視了時間這一特征,無法準(zhǔn)確展示序列細(xì)節(jié)變化,所以實際應(yīng)用較少。隨著小波理論的發(fā)展,其克服了傅里葉變換的缺點,在時序去噪方面主要有小波分解與重構(gòu)法去噪[12]、小波變換閾值去噪[13]、小波變換模極大值去噪[14]。文獻(xiàn)[15]將信息熵引入小波包變換去噪中來表示殘差序列小波系數(shù)的噪聲含量,以獲得有色噪聲的小波系數(shù),通過逆變換獲得有色噪聲的序列,并將其剔除。然而小波分析的結(jié)果受小波基的影響很大,確定的小波基可能是全局最優(yōu),但在局部并非最優(yōu)。為克服基函數(shù)無法自適應(yīng)的問題,經(jīng)驗?zāi)B(tài)分解(Empirical Mode Decomposition, EMD)將序列分解為若干個內(nèi)涵模態(tài)分量(Intrinsic Mode Function, IMF)之和,各IMF分量包含了原序列不同時間尺度的局部特征,但EMD存在端點效應(yīng)和模態(tài)混疊的缺陷。針對模態(tài)混疊問題,集合經(jīng)驗?zāi)B(tài)分解(Ensemble Empirical Mode Decomposition, EEMD)[16] 通過向序列中添加白噪聲的方式,使序列極值點分布均勻以減少模態(tài)混疊的影響。變分模態(tài)分解(Variational Mode Decomposition, VMD)[17]通過迭代搜尋變分模態(tài)的最優(yōu)解,不斷更新各模態(tài)函數(shù)及中心頻率,得到若干具有一定寬帶的模態(tài)函數(shù),有效地解決了傳統(tǒng)EMD算法的端點效應(yīng)和模態(tài)混疊問題。
3 離群點/異常值
數(shù)據(jù)中的異常值(也稱為“離群點”)不同于噪聲,可能蘊(yùn)含著重要警示信息。在時間序列數(shù)據(jù)中,“異?!笨赡苁窃谔囟〞r間點的外部誤差或外生變化,只影響此特定時刻的觀測值;也可能是由于內(nèi)部變化或噪聲過程中的內(nèi)源性作用引起,影響所有后續(xù)觀測值[18]。對此,文中將給出闡釋分述如下。
3.1 基于統(tǒng)計學(xué)的方法
(1)3σ法則。該方法的缺點是需要先前獲知序列的分布模型,而對于大多數(shù)序列而言難以描述其分布模型。
(2)回歸分析。將時間作為自變量,序列值作為因變量,依據(jù)歷史數(shù)據(jù)建立回歸模型,如果預(yù)測值與觀測值相差大于指定值,則認(rèn)定為異常。主要有自回歸(AR)模型、自回歸移動平均(Auto Regressive Moving Average Model, ARMA)模型,但該類方法存在難以確定序列所屬模型問題。
(3)相似性度量。主要以歐式距離、動態(tài)彎曲距離、編輯距離等作為測度函數(shù),進(jìn)行異常值檢測,并可以借助于模式表示方法對原序列進(jìn)行特征提取[19],以減少干擾和計算復(fù)雜度,提高算法的效率,具有較好的魯棒性。
(4)聚類分析。利用聚類算法對數(shù)據(jù)進(jìn)行聚類,最終不能被聚類或者數(shù)據(jù)個數(shù)少的被視為“異常”,但需要滿足數(shù)據(jù)集中大部分樣本都是正常的或者異常占比例較小的前提條件,主要有DBSCAN[20], K-means[21]及其改進(jìn)算法。
3.2 基于模式表示的方法
時間序列具有海量性的特點,直接對其進(jìn)行異常檢測所耗費(fèi)的計算量和時間是十分巨大的,而模式表示可以保留原序列的形態(tài)趨勢,去除干擾并進(jìn)行一定程度的壓縮,大大簡化了計算復(fù)雜度,提高算法計算效率[22]。目前主要有頻率表示、奇異值表示(Singular Value Decomposition,SVD)、符號聚合近似(Symbolic Aggregate Approximation,SAX)、分段線性表示(Piecewise Linear Representation,PLR)、分段聚合近似(Piecewise Aggregate Approximation,PAA)等。
3.3 基于機(jī)器學(xué)習(xí)的方法
用于時間序列的機(jī)器學(xué)習(xí)方法主要有循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[23]、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[24],其原理同傳統(tǒng)的異常檢測方法類似,將異常檢測問題轉(zhuǎn)換為分類或者預(yù)測問題。文獻(xiàn)[25]針對時序數(shù)據(jù)不平衡問題,提出了基于深度卷積神經(jīng)網(wǎng)絡(luò)的偏斜類異常檢測方法,采用抽樣法增加少數(shù)類異常樣本,縮小異常樣本與正常樣本間的差距,隨后對數(shù)據(jù)進(jìn)行尺度變換和時間切片分段作為分類器的輸入。文獻(xiàn)[26]在駕駛輔助領(lǐng)域?qū)⒙访鏅z測問題轉(zhuǎn)換為時間序列分類問題,將小波卷積網(wǎng)絡(luò)與多通道網(wǎng)絡(luò)技術(shù)相結(jié)合,實現(xiàn)對路面狀況的異常檢測,提升駕駛安全。
4 特征提取和模型表示
由于時間序列數(shù)據(jù)的高維性,直接處理原數(shù)據(jù)會占用大量資源,運(yùn)算效率低下。而通過提取原數(shù)據(jù)中的主要特征并用合適的模型表示,不僅降低維度,節(jié)省運(yùn)算成本,而且可以去除一定的噪聲。目前主要有基于統(tǒng)計特征、基于預(yù)測模型、基于變換、基于分段函數(shù)的表示方式。這部分研究內(nèi)容可做剖析闡述如下。
4.1 基于統(tǒng)計特征的時序表示
基于統(tǒng)計特征的模式表示方法主要涉及時域和頻域兩方面。時域包括最大值、最小值、峰值、均值、方差、均方值、均方根值等有量綱特征,以及峰值因子、脈沖因子、裕度因子、峭度因子、波形因子、偏度等無量綱特征。頻域包括重心頻率、均方頻率、均方根頻率、頻率方差、頻率標(biāo)準(zhǔn)差等特征。文獻(xiàn)[27]針對滾動軸承故障提取軸承運(yùn)行的時域信號特征,提高了故障識別準(zhǔn)確率。文獻(xiàn)[28]針對轉(zhuǎn)子系統(tǒng)早期碰磨故障提出了一種基于時域和時頻域聯(lián)合特征提取和分析的方法。
4.2 基于預(yù)測模型的時序表示
基于預(yù)測模型的時序表示,假設(shè)時間序列是某個預(yù)測模型的觀測值,確定該預(yù)測模型的參數(shù)值,構(gòu)建合適的模型。一般分為模型假設(shè)、模型估計、參數(shù)估計、模型檢驗幾個步驟,代表性的方法有自回歸移動平均(ARMA)模型、馬爾科夫鏈(Markov Chains,MCs)、隱馬爾可夫模型(Hidden Markov Model,HMM)[29]等。文獻(xiàn)[30]針對滾動軸承故障識別問題,利用ARMA模型的自回歸參數(shù)矩陣反映軸承工況的變化并結(jié)合表征故障程度的峭度值以充分提取軸承故障程度特征,為軸承故障診斷提供了一種有效的方法。文獻(xiàn)[31]在時間序列異常檢測方面,通過自編碼器對分段后的序列進(jìn)行特征提取并采用K-means處理生成符號化序列,進(jìn)而構(gòu)建隱馬爾可夫模型(HMM),提升了表征原始時間序列的能力。
4.3 基于變換的時序表示
基于變換的表示方法將序列進(jìn)行不同域中的映射變換,使得特征能在某一個維度上突顯出來。常見的特征變換有傅里葉變換(Fourier Transformation,F(xiàn)T)、小波變換(Wavelet Transform,WT)、主成分分析(Principal Component Analysis,PCA)等。
傅里葉變換算法將序列分析從時域分析轉(zhuǎn)換成頻域分析,但傅里葉變換是一種整體性變換,無法描述序列的時頻局部特性。針對這一缺陷,?Gabor提出了短時傅里葉變換(Short-time Fourier Transform,SFTF),采用加窗的方法來描述序列局部特性。但對于給定的窗函數(shù)而言,其分辨率是固定的。窄窗會導(dǎo)致時間分辨率高、頻率分辨率低,寬窗會導(dǎo)致時間分辨率低、頻率分辨率高。為解決這一缺陷,小波變換(WT)采用有限長會衰減的小波基,通過伸縮和平移實現(xiàn)對序列的多尺度細(xì)化分析。
主成分分析(PCA)將可能存在相關(guān)性的一組變量轉(zhuǎn)換為一組線性不相關(guān)的變量,經(jīng)過轉(zhuǎn)換后的變量稱為主成分,其本質(zhì)是將方差最大的方向作為主要特征,從而剝離出對分類影響大的變量,實現(xiàn)降維。PCA很好地解除線性相關(guān),但無法應(yīng)用于非線性時序數(shù)據(jù)。因此,核主成分分析方法將在低維線性不可分的數(shù)據(jù)用非線性的變換映射到高維線性可分的數(shù)據(jù)空間,然后在高維的空間應(yīng)用PCA提取特征進(jìn)行降維。
文獻(xiàn)[32]針對傳統(tǒng)電路診斷方法診斷波形圖與實際波形差異大,診斷結(jié)果準(zhǔn)確率低的問題,提出基于小波變換和神經(jīng)網(wǎng)絡(luò)的診斷方法,利用小波變換來提取故障特征,通過DWT技術(shù)構(gòu)建時頻矩陣作為深度神經(jīng)網(wǎng)絡(luò)的輸入,建立不同故障類型的映射關(guān)系實現(xiàn)故障診斷。文獻(xiàn)[33]針對多元時間序列指標(biāo)多、時序長,難以兼顧2個維度進(jìn)行特征提取的問題,采用PCA提取指標(biāo)維度特征結(jié)合長短時記憶神經(jīng)網(wǎng)絡(luò)(Long Short Term Memory Network,LSTM)降低時間維度,從而實現(xiàn)對數(shù)據(jù)的特征提取,有效地保留數(shù)據(jù)間的相互關(guān)系,降低維度和模型復(fù)雜度。
4.4 基于分段的時序表示
采用分段的思想可以提取原時間序列的整體特征,進(jìn)行有效的數(shù)據(jù)壓縮和噪聲過濾,但計算量很大。代表性的方法有分段線性表示(Piece Linear Representation,PLR)[34]、分段聚合近似(Piecewise Aggregate Approximation,PAA)[35],符號聚合近似(Symbolic Aggregate Approximation,SAX)[36]等。
PLR分為滑動窗口、自頂而下、自底而上三種類型[37],其原理是利用首尾相連的線段將原序列的特征點連接起來,從而實現(xiàn)連續(xù)平滑的簡化表示,但容易受到序列極值點和波動幅度的影響。PAA是將原序列進(jìn)行分段,得到以分段均值組成的特征序列,但由于僅采用均值作為特征,而忽視了序列的形態(tài)趨勢特征,可以通過增加特征來更為精確地表征原序列,例如斜率,標(biāo)準(zhǔn)差(或方差)等。SAX借助于PAA,對規(guī)范后(均值為0,標(biāo)準(zhǔn)差為1)的時序數(shù)據(jù)進(jìn)行降維處理,將PAA所表示的均值離散映射到相應(yīng)符號空間,應(yīng)用領(lǐng)域擴(kuò)展到文本處理、信息檢索等。對PAA的缺陷主要從分段特征和分段距離兩個方面進(jìn)行改進(jìn)。在分段特征上使用統(tǒng)計特征,例如均值、最大值、最小值、斜率,拐點等。在分段距離方面就是對序列進(jìn)行不等間隔的劃分,例如使用全局關(guān)鍵點對序列進(jìn)行分段,隨后在分段上根據(jù)趨勢特征進(jìn)行分段或者利用隨機(jī)小距離提高接近點分為同一段的概率。
文獻(xiàn)[38]從時間序列形態(tài)趨勢的角度,提出高、低濾波點和高、低濾波線概念,提取上、下濾波點作為線性分段點來描述時間序列,具有良好的逼近性。文獻(xiàn)[39]針對分段線性表示受序列極值點和波動幅度影響問題,提出基于轉(zhuǎn)折點和趨勢段的時間序列趨勢提取算法,克服使用斜率差作為評價指標(biāo)的非線性缺陷,結(jié)合極值趨勢段得到全局意義下的轉(zhuǎn)折點,并針對分段點不足問題,定義差值轉(zhuǎn)折點,在分段點序列中進(jìn)行插值以滿足最后的壓縮率要求。
5 結(jié)束語
由于原始時序數(shù)據(jù)中存在數(shù)據(jù)缺失、數(shù)據(jù)噪聲、離群點/異常值等問題,數(shù)據(jù)挖掘前對數(shù)據(jù)進(jìn)行預(yù)處理至關(guān)重要。
面對時序數(shù)據(jù)海量性和高維度所導(dǎo)致的高度復(fù)雜性,在數(shù)據(jù)缺失方面,傳統(tǒng)的統(tǒng)計學(xué)方法已經(jīng)無法滿足處理要求,借助于深度學(xué)習(xí)算法強(qiáng)大的學(xué)習(xí)能力,基于數(shù)據(jù)驅(qū)動學(xué)習(xí)變量間的相互關(guān)系和內(nèi)在規(guī)律以克服人工特征的局限性,從而提高缺失值填充準(zhǔn)確率。
在時序數(shù)據(jù)的去噪方面,小波變換和經(jīng)驗?zāi)B(tài)分解已得到了廣泛應(yīng)用。但對于特殊領(lǐng)域以及噪聲分布的不均衡性問題,往往只能對特定的噪聲進(jìn)行去除,例如高頻白噪聲等。因此,如何最大程度地消除噪聲的影響,根據(jù)噪聲的特性自適應(yīng)尋優(yōu)去噪一直是研究的熱點。
在異常檢測方面,單變量時間序列異常檢測的發(fā)展已經(jīng)較為成熟,主要有基于聚類、相似性、模型、分類、預(yù)測等異常檢測方法。鑒于實際應(yīng)用中的時效性要求,未來研究將更加側(cè)重于算法的在線實時檢測能力。多變量時間序列異常檢測目前有2種主流思路,一是將多變量時間序列轉(zhuǎn)換為多個單變量時間序列進(jìn)行異常檢測,二是直接對多變量時間序列進(jìn)行異常檢測。
特征提取和模式表示是在充分表征原序列的基礎(chǔ)上,最大程度地簡化序列,以減少計算復(fù)雜度,提高算法效率。多變量時間序列包含時間維和變量維,極大地增加了數(shù)據(jù)規(guī)模,同時又涉及變量維間相關(guān)性等問題,如何對現(xiàn)有特征提取和模式表示方法進(jìn)行擴(kuò)展以適應(yīng)多變量時間序列的要求是未來研究的重點。
總地來說,現(xiàn)有的時序數(shù)據(jù)預(yù)處理方法主要針對單變量時間序列,而隨著研究的深入,能夠更加全面描述事物特性的多變量時間序列將成為主流。相較于單變量時間序列,多變量時間序列增加了變量維度,導(dǎo)致數(shù)據(jù)規(guī)模急劇擴(kuò)大并引入變量維間相關(guān)性等問題,使得預(yù)處理更加復(fù)雜,因此在其預(yù)處理中應(yīng)當(dāng)著重考慮變量的維間相關(guān)性,去除冗余信息,在變量維和時間維進(jìn)行特征提取和模式表示以簡化序列,為后續(xù)的數(shù)據(jù)分析做鋪墊。
參考文獻(xiàn)
[1]MA Jun, CHENG J C P, DING Yuexiong, et al. Transfer learning for long-interval consecutive missing values imputation without external features in air pollution time series[J]. Advanced Engineering Information, 2020, 44:101092.
[2]嵇昆浦,沈云中. 含缺值GNSS基準(zhǔn)站坐標(biāo)序列的非插值小波分析與信號提取[J]. 測繪學(xué)報,2020,49(5):537-546.
[3]程萬偉. 時間序列缺失值插補(bǔ)方法研究[D]. 長沙:湖南大學(xué),2018.
[4]SRIDEVI S, RAJARAM S, PARTHIBAN C,et al. Imputation for the analysis of missing values and prediction of time series data[C]//2011 International Conference on Recent trends in information Technology(ICRTIT) . [S.l.]:IEEE,2011:1158-1163.
[5]鄧方進(jìn),王緒本,李德偉. ARIMA模型在LMT數(shù)據(jù)處理中的應(yīng)用[J]. 物探化探計算技術(shù),2017,39(5):612-619.
[6]孫天成. 基于時空相關(guān)性的感知數(shù)據(jù)清洗研究[D]. 北京:北京建筑大學(xué),2020.
[7]FOULADGAR N, FRMLING K. A novel LSTM for multivariate time series with massive missingness[J]. Sensors (Basel, Switzerland),2020,20(10):2832.
[8]張孫力, 楊慧中. 基于改進(jìn)的K近缺失數(shù)據(jù)補(bǔ)全[J]. 計算機(jī)與應(yīng)用化學(xué), 2015, 32(12):1499-1502.
[9]孫曉麗, 郭艷, 李寧,等. 基于改進(jìn)RNN的多變量時間序列缺失數(shù)據(jù)填充算法[J]. 信息技術(shù)與網(wǎng)絡(luò)安全, 2019,38(11):47-53.
[10]王方超,呂志平,呂浩,等. 基于數(shù)據(jù)驅(qū)動的Reg EM算法在GPS坐標(biāo)時間序列插值中的應(yīng)用[C]// 第十屆中國衛(wèi)星導(dǎo)航學(xué)術(shù)年會. 北京:中國衛(wèi)星導(dǎo)航學(xué)術(shù)年會組委會,2019:29-34.
[11]KOCIAN A, CARMASSI G, CELA F,et al. Bayesian Sigmoid-type time series forecasting with missing data for greenhouse crops[J]. Sensors, 2020, 20(11):3246.
[12]張鵬,王甜,王遠(yuǎn)明. 基于小波變換去噪的ARMA堤壩水平位移預(yù)測模型[J].人民長江,2017,48(S2):259-261,287.
[13]牛宏俠,張肇鑫,寧正,等. 基于小波變換的閾值自適應(yīng)尋優(yōu)去噪方法[J]. 傳感器與微系統(tǒng),2020,39(2):33-36.
[14]趙鴻圖,劉云. 基于三次樣條插值的小波模極大值去噪算法[J]. 計算機(jī)工程與設(shè)計,2014,35(8):2965-2968,2975.
[15]馬俊,曹成度,姜衛(wèi)平,等. 利用小波包系數(shù)信息熵去除GNSS站坐標(biāo)時間序列有色噪聲[J/OL]. 武漢大學(xué)學(xué)報(信息科學(xué)版):1-11[2020-06-30]. http://doi.org/10.13203/j.whugis20190353.
[16]WU Zhaohua, HUANG N E. Ensemble empirical mode decomposition: A noise-assisted data analysis method[J]. Advances in Adaptive Data Analysis,2009,1(1):1-41.
[17]DRAGOMIRETSKIY K, ZOSSO D, Variational mode decomposition[J].IEEE Transactions on Signal Processing,2004,62(3):531-544.
[18]尚華. 兩類時間序列模型的異常值檢測研究[D]. 北京:首都經(jīng)濟(jì)貿(mào)易大學(xué),2016.
[19]孫焱,林意. 基于相似性分析的時間序列異常檢測方法[J]. 山東農(nóng)業(yè)大學(xué)學(xué)報(自然科學(xué)版),2017,48(2):287-292.
[20]肖勇,鄭楷洪,余忠忠,等. 基于三次指數(shù)平滑模型與DBSCAN聚類的電量數(shù)據(jù)異常檢測[J].電網(wǎng)技術(shù),2020,44(3):1099-1104.
[21]張仁斌,許輔昊,劉飛,等. 基于K-均值聚類的工業(yè)異常數(shù)據(jù)檢測[J]. 計算機(jī)應(yīng)用研究,2018,35(7):2180-2184.
[22]詹艷艷,陳曉云,徐榮聰. 基于時間序列模式表示的異常檢測算法[J]. 計算機(jī)應(yīng)用研究,2007,24(11):96-99.
[23]曾霄笑. 基于改進(jìn)RNN及密度聚類的異常流量檢測方法[D]. 北京:北京郵電大學(xué),2019.
[24]胡姣姣. 基于深度學(xué)習(xí)的飛行器遙測時間序列數(shù)據(jù)異常檢測與預(yù)測方法研究[D]. 西安:西安理工大學(xué),2019.
[25]胡姣姣,王曉峰,張萌,等. 基于深度學(xué)習(xí)的時間序列數(shù)據(jù)異常檢測方法[J]. 信息與控制,2019,48(1):1-8.
[26]李博,張洪剛. 基于多通道小波卷積神經(jīng)網(wǎng)絡(luò)的路面異常檢測算法[J]. 華中師范大學(xué)學(xué)報(自然科學(xué)版), 2019,53(2):200-206.
[27]馬麗華,朱春梅,趙西偉,等. 基于思維進(jìn)化優(yōu)化極限學(xué)習(xí)機(jī)的滾動軸承故障的智能診斷[J]. 制造技術(shù)與機(jī)床,2019(11):103-109.
[28]趙柄錫,冀大偉,袁奇,等. 基于時域與時頻域聯(lián)合特征提取和可分度分析的轉(zhuǎn)子系統(tǒng)碰磨故障診斷[J/OL]. 西安交通大學(xué)學(xué)報:1-10[2019-10-17].http://kns.cnki.net/kcms/detail/61.1069.T.20191017.1340.004.html.
[29]李海林,楊麗彬.時間序列數(shù)據(jù)降維和特征表示方法[J].控制與決策,2013,28(11):1718-1722.
[30]韓清鵬,李天成,李晨晨,等. 基于ARMA模型的滾動軸承故障診斷研究[J]. 機(jī)電工程技術(shù),2018,47(1):68-71.
[31]霍緯綱,王慧芳. 基于自編碼器和隱馬爾可夫模型的時間序列異常檢測方法[J]. 計算機(jī)應(yīng)用,2020,40(5):1329-1334.
[32]何東中,貢麗霞,白艷萍. 小波變換和神經(jīng)網(wǎng)絡(luò)的電路故障診斷[J]. 現(xiàn)代電子技術(shù),2020,43(10):30-32,37.
[33]張可,崔樂. 基于PCA-LSTM模型的多元時間序列分類算法研究[J]. 統(tǒng)計與決策,2020,36(15):44-49.
[34]喻高瞻,彭宏,胡勁松,等. 時間序列數(shù)據(jù)的分段線性表示[J]. 計算機(jī)應(yīng)用與軟件,2007,24(12):17-18.
[35]李海林,郭崇慧,楊麗彬. 基于分段聚合時間彎曲距離的時間序列挖掘[J]. 山東大學(xué)學(xué)報(工學(xué)版),2011,41(5):57-62.
[36]LIN J,KEOGH E,LONARDI S,et al.A symbolic representation of time series,with implications for streaming algorithms[C]/ /Proc of the 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery.San Diego, California, USA: ACM Press,2003: 2-11.
[37]張苗苗. 心電監(jiān)測時序數(shù)據(jù)識別算法研究[D]. 南京:南京航空航天大學(xué),2018.
[38]林意,朱志靜.基于趨勢的時間序列分段線性化算法[J].重慶大學(xué)學(xué)報,2019,42(3):92-98.
[39]劉意楊,李俊朋,白洪飛,等. 基于轉(zhuǎn)折點和趨勢段的時間序列趨勢特征提取[J].計算機(jī)應(yīng)用,2020,40(S1):92-97.