伍冠潮 凌捷
摘 要:對信息物理系統(tǒng)(CPS)的時間序列進行檢測是一種重要的異常檢測手段,然而現(xiàn)有的一些時間序列異常檢測方法往往忽略了時間序列內部的依賴關系,使得預測或重構數(shù)據(jù)建立起的依賴關系較差,進而影響異常檢測性能。針對以上問題,提出一種基于自適應交互學習的CPS時間序列異常檢測方法。利用神經網(wǎng)絡識別CPS的隱藏狀態(tài),然后通過全局自適應融合與交互學習來保留時間序列的依賴關系;接著使用無跡卡爾曼濾波跟蹤時間序列的變化趨勢,以此增強預測過程的魯棒性;最后計算異常分數(shù)并評估異常情況。應用該方法在三個CPS數(shù)據(jù)集上實驗獲得的平均性能為F1分數(shù)0.940、精度0.965、召回率91.7%。實驗結果表明,相較于近年來的其他研究方法,該方法能夠較好地保留時間序列的依賴關系,提取更準確的時間序列特征,進而提高模型的預測性能,使得異常檢測的召回率和F1分數(shù)得到較好提升,具有良好的應用前景。
關鍵詞:異常檢測; 時間序列; 自適應交互學習; 無跡卡爾曼濾波; 信息物理系統(tǒng)
中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2023)10-008-2933-06
doi:10.19734/j.issn.1001-3695.2023.03.0095
Time series anomaly detection for cyber physical systems
based on adaptive interactive learning
Wu Guanchao, Ling Jie
(School of Computer Science & Technology, Guangdong University of Technology, Guangzhou 510006, China)
Abstract:Detection against time series of cyber physical systems (CPS) is an important means of anomaly detection. How-ever, some existing time series anomaly detection methods often ignore the dependencies within the time series, making the predicted or reconstructed data establish poor dependencies, which in turn affects the anomaly detection performance. To address the above problems, this paper proposed a time series anomaly detection method for cyber physical systems via adaptive interactive learning and unscented Kalman filter. The method used neural networks to identify the hidden states of CPS, and then preserved the dependencies of the time series through global adaptive fusion and interactive learning. Moreover, the me-thod used the traceless Kalman filter to track the trend of the time series to enhance the robustness of the prediction process. Finally, the method evaluated anomalies by calculating anomaly scores. The average performance obtained by applying this method on three CPS datasets is 0.940 for F1 score, 0.965 for precision, and 91.7% for recall. The experimental results show that compared with other research methods in recent years, the proposed method can better preserve the time series dependencies, extract more accurate time series features, and thus improve the prediction performance of the model, resulting in better recall and F1 scores of anomaly detection, which has good application prospects.
Key words:anomaly detection; time series; adaptive interactive learning; unscented Kalman filters; cyber physical systems
0 引言
異常檢測是解決信息物理系統(tǒng)(cyber physical systems,CPS)[1]安全相關問題的一種安全狀態(tài)估計方法[2]。針對具體的攻擊手段進行異常分析,需要對異常領域知識具有深刻的了解,且通用性不夠好,把時間序列作為異常檢測的對象可以較好地解決這一問題。Blzquez-García等人[3]將時間序列的異常類型劃分為點異常和子序列異常,其中子序列默認考慮內部依賴關系和時間依賴性,在數(shù)據(jù)處理過程中需要注意數(shù)據(jù)之間的依賴關系,因此,子序列的異常檢測更具挑戰(zhàn)性且成本更高。除了時間序列之間的依賴問題,提升方法對噪聲的抗干擾能力也是一個主要挑戰(zhàn)。
近年來,針對時間序列異常檢測的研究,一種常用的手段是通過計算異常分數(shù)來評估異常情況,若異常分數(shù)超過閾值,則被判定為異常值。傳統(tǒng)機器學習的方法在時間序列異常檢測的有效性已經得到證實[4],但它們在處理重構或預測任務時難以保留時間序列的依賴關系,進而影響性能;雖然有些模型可以一定程度上保持時間序列內部的依賴關系,但它們對噪聲敏感,當噪聲嚴重時,其性能會受到影響。目前,基于深度學習的時間序列異常檢測方法取得了較好的效果[5~8],但仍然面臨著保持好時間序列依賴關系和對噪聲具有較好魯棒性之間的平衡問題。對于深度學習的方法,根據(jù)任務模型可以將時間序列異常檢測方法劃分為基于重構模型、基于預測模型、其他模型[9]。
基于重構模型的時間序列異常檢測方法,通過對原始數(shù)據(jù)進行降維和降噪等處理,使其轉換為更容易處理的形式。Su等人[10]提出了一種隨機遞歸神經網(wǎng)絡OmniAnomaly,它采用具有隨機變量連接和平面歸一化的深度生成模型來描述潛在空間的非高斯分布,該方法的性能受時間序列依賴關系強度的影響。Audibert等人[11]提出了一種基于自編碼器結構的多元時間序列無監(jiān)督異常檢測方法USAD,通過GAN來放大異常,該方法僅對數(shù)據(jù)特征進行重構,忽略了時間序列的依賴關系。
基于預測模型的時間序列異常檢測方法,通常利用測量值與偏差或噪聲進行預測計算。盡管基于重構模型的時間序列異常檢測方法表現(xiàn)出不錯的性能[10~12],但模型對噪聲敏感。Goh等人[6]提出了一種基于殘差的時間序列異常檢測算法LSTM-PRED,但它僅使用基于LSTM的回歸器作為預測模塊,在預測長期時間序列的時候可能會出現(xiàn)噪聲累積的問題,從而導致依賴關系逐步減弱。Feng等人[13]提出了一種基于神經系統(tǒng)識別和貝葉斯濾波的時間異常檢測方法NSIBF,該方法利用神經網(wǎng)絡識別信息物理系統(tǒng),再利用貝葉斯濾波預測測量值的變化趨勢,提高模型的穩(wěn)定性。Han等人[14]提出了一種基于稀疏圖的時間序列異常檢測方法,通過稀疏圖的潛在表示方法,再利用自編碼器來學習這個稀疏圖形的低維表示,但該方法僅考慮了稀疏性先驗知識,而未考慮時間序列數(shù)據(jù)中的依賴關系。
其他模型的時間序列異常檢測方法,如Zong等人[7]提出的深度自編碼高斯混合模型DAGMM,該方法假設潛在空間是高斯混合先驗分布。Zhang等人[15]提出了一種基于圖關系學習的時間序列異常檢測方法,將時間序列數(shù)據(jù)視為圖的一部分,并使用圖的關系學習算法來推斷出時間序列的異常;在長期依賴性較強的情況下,該方法提取時間序列特征的能力會下降。
現(xiàn)有的異常檢測方法大多側重于數(shù)據(jù)自身的特征,容易忽略時間序列特征的傳遞,導致模型無法有效地捕捉時間序列的依賴關系,從而影響檢測效果。本文提出了一種基于自適應交互學習的CPS時間序列異常檢測方法;該方法利用狀態(tài)方程和觀測方程來表示信息物理系統(tǒng);為捕獲CPS的動態(tài)特征,利用神經網(wǎng)絡構造狀態(tài)空間模型,再采取端到端的訓練模式來捕獲CPS的動態(tài)信息;為更好地保留時間序列的依賴關系,設計了一個全局自適應融合與交互學習網(wǎng)絡結構來提取時間序列的局部特征和局部依賴關系,采用分層的網(wǎng)絡結構來提取全局特征和全局依賴關系,使得預測或重構數(shù)據(jù)之間建立起良好的相關性;此外,為了跟蹤隱藏狀態(tài)的變化趨勢和提高模型抗噪聲的魯棒性,利用無跡卡爾曼濾波來跟蹤時間序列的變化趨勢。在SWAT、WADI、PUMP三個數(shù)據(jù)集上的實驗結果表明:相較于NSIBF方法[13],本文方法的平均F1分數(shù)提高了2.8%、平均精度提高了1.6%、平均召回率提高了3.9%。
本文提出一種基于自適應交互學習的CPS時間序列異常檢測方法,它能夠保持較好的時間序列依賴關系的同時,對噪聲影響具有較好的魯棒性;對Liu等人[16]的交互學習模塊SCINet進行優(yōu)化,使其能夠更好地保留時間序列的全局特征和時間依賴性。通過將無跡卡爾曼濾波技術和樣本卷積與交互學習網(wǎng)絡結合,突破SCINet結構的定性預測和非概率預測的限制。為評估異常檢測方法的綜合性能,本文給出了一種加權平均性能的定義和分析思路。
1 相關概念
1.1 時間序列的依賴關系
時間序列數(shù)據(jù)主要有四個特性,即趨勢性、季節(jié)性、周期性和不確定性。趨勢性是指隨著時間的推移,數(shù)據(jù)變化呈現(xiàn)一定趨勢;季節(jié)性是指在不同的季節(jié)之間可能具有不一樣的變化特點;周期性是指在不同的時間間隔內發(fā)生變化;不確定性是指數(shù)據(jù)變化有時是不規(guī)則的,可能由某個特定事務引起,也可能是受到噪聲或攻擊的影響。這些特性共同作用,使得時間序列數(shù)據(jù)具有依賴性。時間序列依賴關系的缺失,會對重構和預測數(shù)據(jù)產生偏差,使得模型難以識別出異常數(shù)據(jù),從而影響異常檢測方法的召回率和性能。
1.2 交互學習網(wǎng)絡結構
時間序列的局部相關信息反映在片刻時間隙內的連續(xù)變化中,這種局部特征可以通過卷積濾波器進行捕獲;針對長時間序列任務,Transformers模型在預測方面效果良好[17],但根據(jù)時間序列特點設計的時間卷積網(wǎng)絡(temporal convolutional network,TCN)處理時間序列的效果往往更好[18]。Liu等人[16]參考TCN提出一個名為SCINet的樣本卷積與交互學習網(wǎng)絡。SCINet的基礎模塊SCI-Block將數(shù)據(jù)特征下采樣為兩個子序列,并使用一組卷積濾波器對每個子序列進行特征提??;為彌補下采樣過程中的信息損失,在兩個子序列之間進行交互學習。SCI-Block 的劃分采取二叉樹的分層結構,以保留子序列內部的依賴關系。在所有的下采樣—卷積—交互操作之后,將所有低分辨率分量重新排列并連接成一個新的序列;為提取復雜的時間動態(tài),可以進一步堆疊多個SCINet。
1.3 信息物理系統(tǒng)的表示方式
為跟蹤系統(tǒng)的狀態(tài)變化,可以用無跡卡爾曼濾波對狀態(tài)空間模型進行離散化,利用無跡變換讓非線性系統(tǒng)向線性系統(tǒng)逼近,再對動態(tài)系統(tǒng)的隱藏狀態(tài)進行遞歸估計[19]。無跡卡爾曼濾波用狀態(tài)方程和觀測方程來表示系統(tǒng)的狀態(tài)空間模型,如式(1)(2)所示。其中:z是傳感器狀態(tài)矩陣;u是執(zhí)行器狀態(tài)矩陣;A是狀態(tài)轉移矩陣;B是輸入控制矩陣;x是系統(tǒng)測量值;H是狀態(tài)觀測矩陣;e1是過程噪聲,e2是測量噪聲,e1和e2都是高斯白噪聲;上標t表示某個時刻。
2 本文方法
2.1 本文方法流程
本文方法的異常檢測過程包括三步,依次為預測步、更新步、異常分數(shù)計算與異常評估。預測步,根據(jù)t-1時刻的隱藏狀態(tài)均值t-1和協(xié)方差pt-1預測出隱藏狀態(tài)分布在t時刻的均值t和協(xié)方差pt;更新步,利用先驗均值、協(xié)方差、測量值和卡爾曼增益來更新隱藏狀態(tài)下一時刻的后驗均值和協(xié)方差;異常分數(shù)計算與異常評估,計算實際測量值和預測值的異常分數(shù),使用point-adjust策略[20]來評估異常情況。在point-adjust方法中,如果一個異常序列中有一個或多個異常點被正確檢測到,那么該異常序列內的所有值都被認為是異常序列的點,異常序列外的點按常規(guī)處理;如果序列沒有被檢測到有異常點,就判定為正常序列。
使用隨機梯度下降算法訓練模型后,CPS的狀態(tài)空間模型式(1)(2)轉變?yōu)槿缦滦问剑?/p>
其中:anet、bnet、cnet、dnet是自適應交互學習與無跡卡爾曼濾波網(wǎng)絡(adaptive interactive learning and unscented Kalman filter,AIUKF)的四個子網(wǎng)絡,它利用自適應交互學習模塊(adaptive interactive learning network,AINet)捕獲時間序列的依賴關系并提取有效的數(shù)據(jù)特征;利用了無跡卡爾曼濾波(unscented Kalman filter,UKF)跟蹤時間序列的變化趨勢,提高魯棒性。
2.3 自適應交互學習模塊AINet
自適應交互學習模塊AINet是一個全局自適應融合與交互學習網(wǎng)絡模型,其結構如圖2所示。相較于SCINet直接交互的學習策略,AINet不僅增加了自適應融合模塊,而且引入了全局特征來進行交互學習,可以更好地保留全局特征和時間序列的依賴關系。
AINet是一種下采樣—全局卷積—局部卷積—自適應融合—全局交互學習的結構,基于時間序列的獨特屬性,在不同時間分辨率下迭代進行特征提取和信息交互,捕獲局部與全局的時間序列依賴關系,提取到更加準確的時間序列數(shù)據(jù)特征,從而學習到更有效的表示形式并增強預測性。如圖2(a)所示,AI-Block是AINet的核心基礎模塊,利用其進行自適應融合與交互學習,可以有效提取時間序列的特征信息,保留時間序列的局部依賴關系。如圖2(b)所示,為保留子序列的全局依賴關系,AINet 以AI-Block作為節(jié)點構造完全滿二叉樹結構,上層的信息逐漸向下累積,較深層次的特征將包含從較淺層次傳輸?shù)某毘叨葧r間信息,通過這種方式,可以進一步捕獲長期和全局的時間依賴關系,提取更準確的全局特征,從而學習到具有增強可預測性的有效表示。在下采樣—全局卷積—局部卷積—自適應融合—全局交互學習操作后,將所有低分辨率分量重新排列并連接成一個新序列,然后用該序列與原始序列進行預測操作。當時間序列的依賴關系較強時,單個AINet提取的信息特征是不夠的,為了更好地捕獲長期的時間依賴關系和提取復雜時間序列的信息特征,可以通過堆疊多個AINet形成Stacked AINet結構,如圖2(c)所示,這可以有效提高模型的表示學習能力,為預測任務提取更穩(wěn)健的時間關系。
需要注意的是,當輸入窗口較大時,淺層堆棧已經可以很好地捕捉時間序列的時間依賴性,在這種情況下,隨著參數(shù)的增加,使用更深的堆??赡軙霈F(xiàn)過擬合問題,降低推理階段的性能。
AI-Block先將特征下采樣為兩個子序列,用卷積濾波器提取同質和異質信息,再提取子序列的特征與依賴關系;然后通過將局部特征與全局特征進行自適應融合,并進行奇偶序列的交互學習,從而減少下采樣過程中信息的損失和依賴關系的削弱。
其中:conv1、conv2、conv3、conv4都是一維卷積模塊且可以共享參數(shù)。與Liu等人[16]的下采樣—卷積—交互體系結構相比,本文提出的下采樣—全局卷積—局部卷積—自適應融合—全局交互學習的結構,在不同時間分辨率下使用不同的卷積濾波器迭代提取每個子序列的特征與依賴關系,再通過迭代融合全局與其他局部序列的特征信息,以此彌補下采樣過程中的信息損失,不僅表示能力更好,而且保留的時間序列局部與全局依賴關系更強,預測性能更好。
3 實驗與結果分析
為證明本文方法的有效性,在PUMP、WADI、SWAT三個真實的CPS數(shù)據(jù)集上進行異常檢測實驗,并與近幾年的方法進行比較。
3.1 數(shù)據(jù)集
表1給出了三個CPS數(shù)據(jù)集的具體細節(jié),本文實驗將訓練數(shù)據(jù)按3∶1的比例分割為訓練集和驗證集。SWAT數(shù)據(jù)集來自CPS實驗臺,該實驗臺是一個按比例縮小的水過濾處理系統(tǒng)[21];數(shù)據(jù)共采集11天,系統(tǒng)7天正常運作,4天存在異常攻擊,利用公開攻擊模型進行攻擊,攻擊類型包括單階段單點攻擊、單階段多點攻擊、多階段單點攻擊和多階段多點攻擊,這四種攻擊涉及到了時間序列異常攻擊的絕大部分情況。WADI數(shù)據(jù)集來自一個物理測試臺,該測試臺是一個縮小版的真實城市供水系統(tǒng)[22];數(shù)據(jù)共采集16天,系統(tǒng)14天正常運作,2天存在異常攻擊,該數(shù)據(jù)集系統(tǒng)使用的攻擊模型與SWAT數(shù)據(jù)集的攻擊模型相同;由于最后一天的數(shù)據(jù)與前15天的數(shù)據(jù)分布不同,所以忽略最后一天的數(shù)據(jù)。在本文實驗中,SWAT和WADI數(shù)據(jù)集都是每5 s采樣一個數(shù)據(jù)點。PUMP數(shù)據(jù)集是從一個現(xiàn)實小鎮(zhèn)的水泵系統(tǒng)收集的,數(shù)據(jù)每分鐘收集一次,持續(xù)5個月。
3.2 對比實驗
3.2.1 基準方法
為了證明本文方法的優(yōu)越性,選擇了近年來比較優(yōu)秀的時間序列異常檢測方法進行對比。
a)LSTM-Pred[6]:基于預測模型的異常檢測方法,使用LSTM的回歸器作為預測模塊,利用殘差計算異常分數(shù)。
b)DAGMM[7]:基于其他模型的異常檢測方法,基于深度自編碼高斯混合模型,該方法假設潛在空間是高斯混合先驗分布,然后使用深度生成模型來估計輸入樣本的似然性。
c)OmniAnomaly[10]:基于重構模型的異常檢測方法,采用具有隨機變量連接和平面歸一化的深度生成模型來描述潛在空間的非高斯分布,采用重構概率作為異常分數(shù)。
d)USAD[11]:基于重構模型的異常檢測方法,利用迭代的方式重構正常數(shù)據(jù),通過GAN來放大異常,采用殘差作為異常分數(shù)。
e)NSIBF[13]:基于預測模型的異常檢測方法,利用神經網(wǎng)絡來識別信息物理系統(tǒng),再利用貝葉斯濾波預測測量值的變化趨勢,提高模型的穩(wěn)定性。
f)GRelLeN[15]:基于其他模型的異常檢測方法,通過將時間序列數(shù)據(jù)構建圖結構,實現(xiàn)對時序數(shù)據(jù)的高級特征表示,再利用將時序數(shù)據(jù)與基準模型進行比較來檢測異常。
g)FuSAGNet[14]:基于預測模型的異常檢測方法,將時間序列數(shù)據(jù)構建稀疏圖,節(jié)點表示不同的時間序列變量,邊表示節(jié)點間的相互作用,通過自編碼器來學習這個稀疏圖形的低維表示,以便在低維空間中檢測異常。
3.2.2 性能比較
本文方法在三個CPS數(shù)據(jù)集上進行實驗并與近幾年的一些優(yōu)秀時間序列異常檢測方法進行對比。表2給出了精度(PRE)、召回率(REC)和F1分數(shù)三種實驗指標的對比情況。
本文方法在三個數(shù)據(jù)集上均取得最好的F1分數(shù),分別為0.955、0.925、0.936。相較于性能排第二的NSIBF方法,分別提高了4.3%、2.4%、2.7%。
為評估方法的綜合性能,結合三個數(shù)據(jù)集的特征,針對基于預測模型的異常檢測方法,本文提出了一種加權平均性能的定義和分析思路??紤]到模型的最優(yōu)性和訓練數(shù)據(jù)僅使用正常數(shù)據(jù)的情況,因此忽略訓練集對模型性能的潛在影響。盡管數(shù)據(jù)集來自不同設備,設備之間的差異會對模型性能產生影響,但忽略設備的差異性有利于評估算法的泛化性能。異常數(shù)據(jù)的數(shù)量和比例是影響模型性能的關鍵因素,綜上分析,得出加權平均性能定義如下:
其中:Avg是某個性能指標的加權平均值;N是數(shù)據(jù)集個數(shù);λ是數(shù)據(jù)集異常比例;ρ是數(shù)據(jù)集的某個性能指標。根據(jù)所提加權平均性能定義和方法,表3給出了符合條件且基于預測模型的方法在PUMP、WADI、SWAT三個CPS數(shù)據(jù)集上的加權平均性能??梢钥吹?,本文方法的加權平均F1分數(shù)為0.940、加權平均精度為0.965、加權平均召回率為0.917,性能全面優(yōu)于第二的NSIBF方法,其中加權平均F1分數(shù)提高了2.8%,加權平均精度提升了1.6%,加權平均召回率提升了3.9%。
本文方法性能優(yōu)于NSIBF的主要原因是AINet對時間序列進行預測的性能要比LSTM好,而且AIUKF網(wǎng)絡模型可以更好地提取時間序列特征和保持時間序列的依賴關系。首先,AINet的二叉樹結構可以保留時間序列的局部特征與局部依賴關系,堆疊AINet的結構可以保留長期和復雜時間序列的全局特征與全局依賴性關系。其次,AI-Block在SCI-Block的基礎上引入全局自適應融合與交互學習模塊,能夠進一步保留子序列的局部與全局特征。此外,LSTM網(wǎng)絡的并行處理效果一般,全局時間依賴關系容易丟失;因此,AINet預測的時間序列會更好地保留時間序列的依賴關系,預測性能也更好。
3.2.3 計算效率比較
用本文AIUKF方法與NSIBF方法進行計算效率的比較,在相同設備條件和參數(shù)最優(yōu)的情況下,分別在每個數(shù)據(jù)集上進行五輪實驗,計算數(shù)據(jù)的平均值并繪制出圖3和4。
由圖3和4可得,在三個數(shù)據(jù)集上,AIUKF方法在測試階段的耗時低于NSIBF方法,NSIBF方法在訓練階段的耗時略低于AIUKF方法。內存占用情況,AIUKF方法占用的內存和顯存資源在訓練和測試階段均遠小于NSIBF方法;在WADI數(shù)據(jù)集上,NSIBF所占用的內存高達37.79 GB,遠高于AIUKF方法的15.24 GB。綜合分析,AIUKF方法的計算效率高于NSIBF方法。
雖然AIUKF的網(wǎng)絡結構比NSIBF復雜,但AINet的運算比LSTM簡單,而且Stack AINet堆疊兩層就達到最好效果,所以AIUKF方法的計算效率會高于NSIBF方法。
3.3 消融實驗
AIUKF網(wǎng)絡模型包括重構模塊和預測模塊,為證明無跡卡爾曼濾波的作用,這里設計AIUKF-RECON和AIUKF-PRED兩個方法來進行實驗對比。其中AIUKF-RECON是舍棄了無跡卡爾曼濾波但基于重構模型的方法;而AIUKF-PRED是舍棄了無跡卡爾曼濾波但基于預測模型的方法。如表4所示,配有無跡卡爾曼濾波的AIUKF模型方法在三個數(shù)據(jù)集上的F1分數(shù)均遠高于AIUKF-PRED和AIUKF-RECON,提高了12.4%~47.7%,證明無跡卡爾曼濾波模塊起到了非常重要的作用。實驗表明,神經網(wǎng)絡識別結合無跡卡爾曼濾波在跟蹤隱藏狀態(tài)不確定性上具有優(yōu)越性和抗噪聲的魯棒性,無跡卡爾曼濾波可以讓樣本卷積與交互網(wǎng)絡應用于概率預測任務,突破了樣本卷積與交互網(wǎng)絡結構定性預測的設定。
圖5給出了AIUKF、AIUKF-RECON、AIUKF-PRED的RCO曲線及其對應的AUC值。ROC值在0~1,值越大代表分類器的性能越好,AIUKF的ROC值為0.999 8,遠高于AIUKF-RECON和AIUKF-PRED的ROC值。AIUKF方法的AUC值逼近1,表明本文方法性能之優(yōu)越與應用潛力之大。
4 結束語
本文提出了一種基于自適應交互學習的CPS時間序列異常檢測方法。該方法采用全局自適應融合與交互學習網(wǎng)絡結構,能夠有效保留時間序列的依賴關系,從而建立起預測或重構數(shù)據(jù)之間的良好相關性;為了跟蹤隱藏狀態(tài)的變化趨勢和提高模型的魯棒性,采用無跡卡爾曼濾波來跟蹤時間序列的變化趨勢。在PUMP、SWAT、WADI三個CPS數(shù)據(jù)集上進行實驗,本文方法取得的加權平均性能為F1分數(shù)0.94、精度0.965、召回率0.917,相較于NSIBF這個近年較好的方法,加權平均F1分數(shù)提高2.8%,加權平均精度提升1.6%,加權平均召回率提升3.9%,這充分證明本文方法在CPS時間序列異常檢測任務中具有顯著的優(yōu)越性;此外, AUC值為0.999 8,證明了本文方法的潛在應用價值之大。
目前,模型訓練表現(xiàn)存在偏差現(xiàn)象,但波動范圍較小且測試效果穩(wěn)定;推測該問題的原因是樣本卷積與交互結構的問題,當噪聲過大時,預測性能會大幅度波動[16]。因此,提高模型抗干擾的穩(wěn)定性也是未來研究的方向之一。
參考文獻:
[1]孫利民, 石志強, 朱紅松,等. GB/T 41262—2022,工業(yè)控制系統(tǒng)的信息物理融合異常檢測系統(tǒng)技術要求[S].北京:中國科學院信息工程研究所等,2022.(Sun Liming, Shi Zhiqiang, Zhu Hongsong, et al. GB/T 41262—2022,Technical requirements for cyber-physical fusion anomaly detection specification of industrial control system[S].Beijing:Institute of Information Engineering,Chinese Academy of Sciences,2022.)
[2]Ding Derui, Han Q L, Ge Xiaohua, et al. Secure state estimation and control of cyber-physical systems:a survey[J].IEEE Trans on Systems, Man, and Cybernetics: Systems,2020,51(1):176-190.
[3]Blázquez-García A, Conde A, Mori U, et al. A review on outlier/anomaly detection in time series data[J].ACM Computing Surveys,2021,54(3):1-33.
[4]王騰,焦學偉,高陽.一種基于Attention-GRU和iForest的周期性時間序列異常檢測算法[J].計算機工程與科學,2019,41(12):2217-2222.(Wang Teng, Jiao Xuewei, Gao Yang. An anomaly detection algorithm based on Attention-GRU and iForest for periodic time series[J].Computer Engineering & Science,2019,41(12):2217-2222.)
[5]Paparrizos J, Kang Y, Boniol P, et al. TSB-UAD: an end-to-end benchmark suite for univariate time-series anomaly detection[J].Proceedings of the VLDB Endowment,2022,15(8):1697-1711.
[6]Goh J, Adepu S, Tan M, et al. LSTM-Pred:anomaly detection in cyber physical systems using recurrent neural networks[C]//Proc of the 18th IEEE International Symposium on High Assurance Systems Engineering.Piscataway,NJ:IEEE Press,2017:140-145.
[7]Zong Bo, Song Qi, Min M R, et al. DAGMM: deep autoencoding Gaussian mixture model for unsupervised anomaly detection[C]//Proc of International Conference on Learning Representations.2018.
[8]夏英,韓星雨.融合統(tǒng)計方法和雙向卷積LSTM的多維時序數(shù)據(jù)異常檢測[J].計算機應用研究,2022,39(5):1362-1367,1409.(Xia Ying, Han Xingyu. Multi-dimensional time series data anomaly detection fusing statistical methods and bidirectional convolutional LSTM[J].Application Research of Computers,2022,39(5):1362-1367,1409).
[9]Darban Z Z, Webb G I, Pan Shirui, et al. Deep learning for time series anomaly detection:a survey[EB/OL].(2022-12-05).https://arxiv.org/abs/2211.05244.
[10]Su Ya, Zhao Youjian, Niu Chenhao, et al. OmniAnomaly: robust anomaly detection for multivariate time series through stochastic recurrent neural network[C]//Proc of the 25th ACM SIGKDD Internatio-nal Conference on Knowledge Discovery & Data Mining.New York:ACM Press,2019:2828-2837.
[11]Audibert J, Michiardi P, Guyard F, et al. USAD: unsupervised anomaly detection on multivariate time series[C]//Proc of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.New York:ACM Press,2020:3395-3404.
[12]張月,唐倫,王愷,等.基于GB-AENet-FL網(wǎng)絡的物聯(lián)網(wǎng)設備異常檢測[J].計算機應用研究,2022,39(11):3410-3416.(Zhang Yue, Tang Lun, Wang Kai, et al. Anomaly detection algorithm of IoT devices based on GB-AENet-FL network[J].Application Research of Computers,2022,39(11):3410-3416.)
[13]Feng Cheng, Tian Pengwei. NSIBF: time series anomaly detection for cyber-physical systems via neural system identification and Bayesian filtering[C]//Proc of the 27th ACM SIGKDD Conference on Know-ledge Discovery & Data Mining.New York:ACM Press,2021:2858-2867.
[14]Han Siho, Woo S S. Learning sparse latent graph representations for anomaly detection in multivariate time series[C]//Proc of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2022:2977-2986.
[15]Zhang Weiqi, Zhang Chen, Tsung F. GRELEN: multivariate time series anomaly detection from the perspective of graph relational lear-ning[C]//Proc of the 31st International Joint Conference on Artificial Intelligence.2022:2390-2397.
[16]Liu Minhao, Zeng Ailing, Xu Qiang, et al. Time series is a special sequence: forecasting with sample convolution and interaction[EB/OL].(2021-10-20).https://arxiv.org/pdf/2106.09305v2.
[17]Zhou Haoyi, Zhang Shanghang, Peng Jieqi, et al. Informer: beyond efficient transformer for long sequence time-series forecasting[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2021:11106-11115.
[18]Nguyen N, Quanz B. Temporal latent auto-encoder:a method for probabilistic multivariate time series forecasting[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2021:9117-9125.
[19]Singh A K. Major development under Gaussian filtering since unscented Kalman filter[J].IEEE/CAA Journal of Automatica Sinica,2020,7(5):1308-1325.
[20]Xu Haowen, Chen Wenxiao, Zhao Nengwen, et al. Unsupervised anomaly detection via variational auto-encoder for seasonal KPIs in Web applications[C]//Proc of World Wide Web Conference. Switzer-land:International World Wide Web Conferences Steering Committee,2018:187-196.
[21]Goh J, Adepu S, Junejo K N, et al. A dataset to support research in the design of secure water treatment systems[C]//Proc of International Conference on Critical Information Infrastructures Security.Cham:Springer,2017:88-99.
[22]Ahmed C M, Palleti V R, Mathur A P. WADI:a water distribution testbed for research in the design of secure cyber physical systems[C]//Proc of the 3rd International Workshop on Cyber-Physical Systems for Smart Water Networks.New York:ACM Press,2017:25-28.
收稿日期:2023-03-18;修回日期:2023-05-10
基金項目:廣東省重點領域研發(fā)計劃資助項目(2019B010139002);廣州市重點領域研發(fā)計劃資助項目(202007010004)
作者簡介:伍冠潮(1999-),男,廣東肇慶人,碩士研究生,主要研究方向為網(wǎng)絡信息安全技術、異常檢測;凌捷(1964-),男,廣東人,教授,博導,博士,CCF會員,主要研究方向為網(wǎng)絡信息安全技術(jling@gdut.edu.cn).