周愛(ài)平,常 俊,陳為高,楊彥飛,杜垣江,賈子熙
(1.國(guó)家能源集團(tuán)煤炭運(yùn)輸部,北京 100011;2.勝利能源公司工程部,沈陽(yáng) 110000;3.中國(guó)神華煤炭管理部綜合處,北京 100011;4.中煤科工集團(tuán)沈陽(yáng)設(shè)計(jì)研究院有限公司,沈陽(yáng) 110000;5.東北大學(xué)機(jī)器人科學(xué)與工程學(xué)院,沈陽(yáng) 110819)
異常檢測(cè)(anomaly detection)是指利用數(shù)學(xué)概率計(jì)算或深度學(xué)習(xí)等機(jī)器學(xué)習(xí)的方法識(shí)別數(shù)據(jù)中的“異常點(diǎn)”。常用的異常檢測(cè)算法有:基于統(tǒng)計(jì)模型、基于距離、基于密度、基于聚類(lèi)[1]的方法。但是這些方法通常只適用于低維空間的異常檢測(cè),對(duì)于高維空間的異常檢測(cè),通常表現(xiàn)較差。
在異常檢測(cè)方面,丁小歐等[2]針對(duì)多維時(shí)間序列數(shù)據(jù),提出了一種基于序列相關(guān)性分析的多維時(shí)間序列異常檢測(cè)方法;王偉等[3]針對(duì)工業(yè)數(shù)據(jù)的異常檢測(cè),提出了一種基于PU學(xué)習(xí)的工業(yè)控制系統(tǒng)異常檢測(cè)方法;李超等[4]對(duì)工業(yè)控制系統(tǒng)中的基于單類(lèi)支持向量機(jī)異常檢測(cè)方法作了深入的研究。張仁斌等[5]對(duì)傳統(tǒng)k均值算法作了改進(jìn),將改進(jìn)后的K-均值算法與傳統(tǒng)自回歸模型結(jié)合,對(duì)異常數(shù)據(jù)進(jìn)行檢測(cè)。
針對(duì)傳統(tǒng)機(jī)械生產(chǎn)領(lǐng)域中各種基礎(chǔ)設(shè)備的異常數(shù)據(jù)檢測(cè)及異常預(yù)警,本文提出了一種基于模糊規(guī)則的數(shù)據(jù)異常檢測(cè)系統(tǒng)框架,分為檢測(cè)和預(yù)測(cè)兩部分。對(duì)于異常檢測(cè),預(yù)期效果是準(zhǔn)確率達(dá)到80%以上;對(duì)于異常預(yù)測(cè),主要是在理論上進(jìn)行探索,嘗試根據(jù)歷史數(shù)據(jù),以下一時(shí)刻的樣本標(biāo)簽為預(yù)期輸出,對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,嘗試發(fā)現(xiàn)數(shù)據(jù)中存在的異常趨勢(shì)特征。整個(gè)系統(tǒng)框架具有良好的可擴(kuò)展性和交互性,可方便實(shí)現(xiàn)不同模型之間的切換和結(jié)果的可視化。
在異常處理模型中,本文嵌入整合了支持向量機(jī)、決策樹(shù)、隨機(jī)森林、Logistic回歸等基本模型。其中,支持向量機(jī)模型準(zhǔn)確率高、訓(xùn)練速度較慢,適用于中小型數(shù)據(jù)量的場(chǎng)景;決策樹(shù)模型訓(xùn)練速度快、泛化性能較差,適用于單一場(chǎng)景的異常處理;隨機(jī)森林模型訓(xùn)練快、泛化性強(qiáng),易受到強(qiáng)噪聲樣本影響;邏輯回歸模型訓(xùn)練快,無(wú)法解決非線性問(wèn)題,準(zhǔn)確率相對(duì)較低。當(dāng)數(shù)據(jù)量較大且數(shù)據(jù)噪聲樣本較少時(shí),建議選擇隨機(jī)森林模型。
對(duì)于異常檢測(cè),SVM的輸出為標(biāo)準(zhǔn)的無(wú)閾值輸出:
f(x)=h(x)+b
(1)
式中,f(x)為模型輸出;b為偏置;h(x)的計(jì)算公式如下:
(2)
式中,yi為模型輸出的第i個(gè)分量;ai為模型的第i個(gè)權(quán)重系數(shù);k(xi,x)為核函數(shù);xi為樣本第i個(gè)分量;x為原始樣本。
利用sigmoid-fitting方法[6]將標(biāo)準(zhǔn)SVM的輸出結(jié)果進(jìn)行處理,轉(zhuǎn)換成后驗(yàn)概率為:
(3)
式中,A、B為待擬合的參數(shù);f為樣本x的無(wú)閾值輸出。sigmoid-fitting方法的優(yōu)點(diǎn)在于保持SVM稀疏性的同時(shí),可以良好的估計(jì)后驗(yàn)概率[7]。在進(jìn)行異常檢測(cè)及預(yù)警時(shí),可以據(jù)此計(jì)算異常程度值。
在應(yīng)用決策樹(shù)模型時(shí),樣本的類(lèi)別概率是葉子中相同類(lèi)別的樣本的分?jǐn)?shù),據(jù)此可以對(duì)樣本的異常程度值進(jìn)行計(jì)算。例如,測(cè)試樣本數(shù)據(jù)對(duì)應(yīng)的葉子節(jié)點(diǎn)中有7個(gè)正常樣本及3個(gè)異常樣本,那么這個(gè)樣本的異常程度值為0.3。
隨機(jī)森林是一個(gè)包含多個(gè)決策樹(shù)的分類(lèi)器。在應(yīng)用隨機(jī)森林進(jìn)行異常檢測(cè)時(shí),樣本的異常程度值為森林中樹(shù)木輸出的異常程度值的平均值。
Logistic回歸是一種廣義線性回歸,常用于分類(lèi)問(wèn)題。其計(jì)算公式如下(Sigmoid函數(shù)):
(4)
式中,w為權(quán)重;x為樣本;b為偏置;y為模型輸出,其取值范圍為[0,1]。在異常檢測(cè)時(shí),y表示異常程度值,0表示“正?!保?表示“異?!?。
模糊規(guī)則,本質(zhì)是定義X與Y的二元模糊關(guān)系R。模糊規(guī)則的一般形式為:“IfxisAthenyisB”。 “xisA”稱(chēng)為前提,“yisB”稱(chēng)為結(jié)論。
傳統(tǒng)的分類(lèi)模型如隨機(jī)森林等,往往直接輸出樣本的類(lèi)別(即樣本是否異常)。在應(yīng)用模糊規(guī)則時(shí),首先根據(jù)基本模型,計(jì)算出樣本數(shù)據(jù)的異常程度值p。然后將異常程度劃分為四個(gè)級(jí)別:非常小、較小、較大、非常大。同時(shí),將異常等級(jí)分為0級(jí)和1級(jí)(0級(jí)表示正常,1級(jí)表示異常),并且定義如下規(guī)則:
①異常程度值非常小,異常等級(jí)為0級(jí);
②異常程度值較小,異常等級(jí)為0級(jí);
③異常程度值較大,異常等級(jí)為1級(jí);
④異常程度值非常大,異常等級(jí)為1級(jí)。
對(duì)于不同的異常程度級(jí)別,定義隸屬度如表1所示。
表1 模糊規(guī)則隸屬度表
對(duì)于p=0.2,其滿(mǎn)足p<0.3,由規(guī)則①~規(guī)則④,計(jì)算出異常概率L1如下:
L1=0.7×0+0.2×0+0.1×1+0×1=0.1
則相應(yīng)的正常概率L2為:
L2=1-L1=0.9
由于正常概率較大,因而將此數(shù)據(jù)記為正常。同理可以對(duì)其他數(shù)據(jù)進(jìn)行判斷。
在實(shí)際工業(yè)生產(chǎn)過(guò)程中,真正具有實(shí)用價(jià)值和研究意義的是對(duì)于異常發(fā)生的預(yù)警,通過(guò)合理的預(yù)警可以更早更及時(shí)的做出調(diào)整,以減少因?yàn)楫惓6鴰?lái)整條生產(chǎn)線停工的損失。
對(duì)于大規(guī)模數(shù)據(jù)的異常檢測(cè),在經(jīng)過(guò)預(yù)處理后,將數(shù)據(jù)輸入到異常檢測(cè)模型中,可實(shí)現(xiàn)異常數(shù)據(jù)的快速檢測(cè);對(duì)于異常預(yù)警,本文創(chuàng)新性的提出了使用已有的數(shù)據(jù)和數(shù)據(jù)標(biāo)簽,將異常發(fā)生之前的數(shù)據(jù)進(jìn)行標(biāo)注。具體來(lái)說(shuō),首先統(tǒng)計(jì)真實(shí)異常發(fā)生前一段時(shí)間內(nèi)的數(shù)據(jù)特征最大值,作為新的特征,然后將真實(shí)異常數(shù)據(jù)的標(biāo)簽作為預(yù)期輸出,進(jìn)行模型訓(xùn)練工作。對(duì)于異常預(yù)警,首先對(duì)數(shù)據(jù)做如上標(biāo)注,然后利用決策樹(shù)算法計(jì)算異常程度值,之后結(jié)合模糊規(guī)則,以實(shí)現(xiàn)對(duì)下一時(shí)刻異常發(fā)生的預(yù)測(cè),即實(shí)現(xiàn)預(yù)警功能。
對(duì)于數(shù)據(jù)擬合預(yù)測(cè),主要思路是利用數(shù)據(jù)在時(shí)間序列上的規(guī)律,實(shí)現(xiàn)對(duì)數(shù)據(jù)特征取值的預(yù)測(cè),尤其是對(duì)缺失特征值的預(yù)測(cè)。數(shù)據(jù)擬合預(yù)測(cè)分為兩種:一種是根據(jù)時(shí)間序列的規(guī)律,進(jìn)行下一時(shí)刻數(shù)據(jù)的擬合預(yù)測(cè);另一種是根據(jù)多維數(shù)據(jù)之間的內(nèi)在聯(lián)系,對(duì)缺失的特征數(shù)據(jù)進(jìn)行預(yù)測(cè)。在數(shù)據(jù)擬合預(yù)測(cè)模塊,本文嵌入了循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)、多層感知機(jī)(MLP)等模型,對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行擬合預(yù)測(cè)。
RNN是一類(lèi)用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),易出現(xiàn)梯度消失問(wèn)題;LSTM是對(duì)普通RNN模型的改進(jìn),解決了梯度消失問(wèn)題,即對(duì)于較長(zhǎng)的時(shí)間長(zhǎng)度序列,LSTM擬合效果較好;MLP是一種前饋人工神經(jīng)網(wǎng)絡(luò)模型,訓(xùn)練速度快,但是當(dāng)數(shù)據(jù)量特別大時(shí),易出現(xiàn)過(guò)擬合問(wèn)題。當(dāng)數(shù)據(jù)量較大且時(shí)間跨度較長(zhǎng)時(shí),建議選擇LSTM模型。
為了驗(yàn)證本文方法的通用性,在多個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),這些數(shù)據(jù)源自于不同背景,在數(shù)據(jù)量及數(shù)據(jù)特征維度上差異較大,能夠?qū)Ρ疚姆椒ㄟM(jìn)行更為合理的檢驗(yàn)與評(píng)價(jià)。
為了盡可能符合實(shí)際工業(yè)生產(chǎn)領(lǐng)域數(shù)據(jù)的特征,共選擇了5組真實(shí)數(shù)據(jù)。前三組數(shù)據(jù)含有標(biāo)簽,用于異常檢測(cè)及預(yù)警;第四組數(shù)據(jù)不含標(biāo)簽,用于擬合預(yù)測(cè);最后一組數(shù)據(jù)為真實(shí)的電機(jī)運(yùn)行數(shù)據(jù),記錄了異常發(fā)生前電流、電壓等指標(biāo)的變化情況,用于進(jìn)行模型驗(yàn)證,驗(yàn)證模型的異常預(yù)警效果。各數(shù)據(jù)背景來(lái)源如下:
(1)第一組數(shù)據(jù)(data_01)來(lái)源于一個(gè)存儲(chǔ)系統(tǒng),共20列。其中Timestamp為時(shí)間戳,Labels表示是否異常,其他列表示4條短傳送帶及2條導(dǎo)軌對(duì)應(yīng)的3個(gè)傳感器的數(shù)據(jù),數(shù)據(jù)記錄了包裹運(yùn)行時(shí)傳感器到機(jī)器邊緣的距離;
(2)第二組數(shù)據(jù)(data_02)是從一個(gè)零件生產(chǎn)線獲取的多個(gè)零件溫度數(shù)據(jù)。在這些零件的生產(chǎn)過(guò)程中,零件溫度對(duì)合格程度有著較大影響。數(shù)據(jù)共38列,其中Timestamp列為時(shí)間戳,Labels表示零件是否異常(Labels=1表示異常),其余列表示各零件溫度;
(3)第三組數(shù)據(jù)(data_03)記錄了煤礦生產(chǎn)時(shí)的機(jī)器設(shè)備溫度。當(dāng)機(jī)器設(shè)備發(fā)生故障時(shí),設(shè)備溫度往往高于正常值。數(shù)據(jù)共3列,Timestamp列為時(shí)間戳;var_1表示機(jī)器設(shè)備溫度,取值范圍為[20,120];Labels表示設(shè)備是否異常(Labels=1表示異常);
(4)第四組數(shù)據(jù)(data_04)為單維度數(shù)據(jù),記錄了工業(yè)生產(chǎn)中相對(duì)濕度的變化情況。數(shù)據(jù)共2列,Timestamp列為時(shí)間戳,var_1表示相對(duì)濕度;
(5)第五組數(shù)據(jù)(data_05)為電機(jī)運(yùn)行狀態(tài)真實(shí)數(shù)據(jù),其中記錄了電機(jī)轉(zhuǎn)速、電壓數(shù)據(jù)、電流數(shù)據(jù)在真實(shí)異常前的變化趨勢(shì)。
各個(gè)數(shù)據(jù)集的主要信息匯總?cè)绫?所示。
表2 數(shù)據(jù)集基本信息
在異常處理模塊,對(duì)于每組數(shù)據(jù),我們每次都會(huì)隨機(jī)選擇其中的75%作為訓(xùn)練集,然后我們將余下的其他數(shù)據(jù)作為測(cè)試集,這樣可以更為客觀的驗(yàn)證模型的效果。接下來(lái)我們將訓(xùn)練次數(shù)根據(jù)模型不同分別設(shè)置為{10,100,10,100},損失函數(shù)為二分類(lèi)交叉損熵,評(píng)價(jià)指標(biāo)為準(zhǔn)確率。此外,考慮到實(shí)際需求,加入了召回率這一指標(biāo)。評(píng)價(jià)指標(biāo)計(jì)算公式如下:
(5)
(6)
式中,TP為T(mén)rue Positive;FP為False Positive ;FN為False Negative。在計(jì)算過(guò)程中,為了更加有效的反映出異常的檢測(cè)準(zhǔn)確率和召回率,所有的計(jì)算均是按單純異常的數(shù)據(jù)進(jìn)行計(jì)算。
在數(shù)據(jù)擬合預(yù)測(cè)模塊,我們將滑動(dòng)窗口長(zhǎng)度設(shè)置為5,即將(t-5,t-4,...,t-1)的特征數(shù)據(jù)作為輸入,將t時(shí)刻的數(shù)據(jù)作為期望輸出;訓(xùn)練集比例設(shè)為75%,迭代次數(shù)設(shè)為10。同時(shí)選取R2評(píng)分函數(shù)作為模型的評(píng)價(jià)指標(biāo)。R2評(píng)分函數(shù)計(jì)算如下:
(7)
表3為data_01、data_02和data_03數(shù)據(jù)集在不同檢測(cè)模型下的準(zhǔn)確率和召回率結(jié)果。
表3 異常檢測(cè)準(zhǔn)確率召回率
可以看出,對(duì)于采用任意一種模型進(jìn)行單純的異常檢測(cè)而言,數(shù)據(jù)的維度對(duì)于檢測(cè)的準(zhǔn)確率起到了非常重要的影響??梢钥闯觯瑳Q策樹(shù)和隨機(jī)森林算法對(duì)于多維度的數(shù)據(jù)的檢測(cè)更加高效準(zhǔn)確,而邏輯回歸算法則更適用于單維度的數(shù)據(jù)檢測(cè),支持向量機(jī)算法則由于其核函數(shù)的存在,在低維數(shù)據(jù)和高維數(shù)據(jù)中都能夠獲得相對(duì)均衡額效果,這是由其本身的模型結(jié)構(gòu)所決定的。多數(shù)據(jù)維度能夠更加真實(shí)的反映實(shí)際工業(yè)生產(chǎn)過(guò)程中多變量因素的情況。
對(duì)于傳統(tǒng)的不加模糊規(guī)則的方法在理論上更加適用于單維度或者少維度數(shù)據(jù)的異常檢測(cè),但是實(shí)際工業(yè)生產(chǎn)中一件設(shè)備的異常發(fā)生往往是由多個(gè)因素共同作用的結(jié)果,而從多參數(shù)的高維數(shù)據(jù)空間進(jìn)行數(shù)據(jù)的檢測(cè)往往不能取得很好的結(jié)果,為此提出了加入了模糊規(guī)則,將得到的異常程度值進(jìn)行狀態(tài)模糊化,可以更好的對(duì)應(yīng)標(biāo)簽的屬性,能夠得到更好的準(zhǔn)確率和召回率。
理論上在異常發(fā)生之前數(shù)據(jù)會(huì)呈現(xiàn)出一定的變化趨勢(shì),通過(guò)捕獲這種變化趨勢(shì)可以在一定程度上實(shí)現(xiàn)異常發(fā)生的預(yù)測(cè)。按照這種思路,可以將實(shí)際的正常異常標(biāo)簽進(jìn)行預(yù)測(cè)報(bào)警狀態(tài)的擴(kuò)充成為三種或者更多種狀態(tài),但是實(shí)際數(shù)據(jù)中的異常往往是異常集中在一起較難處理,所以常常無(wú)法取得較為理想的效果。
為此采用基于決策樹(shù)的算法,將原始數(shù)據(jù)進(jìn)行預(yù)處理之后,在固定的時(shí)間步長(zhǎng)中取出每一維度數(shù)據(jù)中最大值作為新的特征值,取時(shí)間步長(zhǎng)之外下一時(shí)刻的狀態(tài)作為標(biāo)簽,然后進(jìn)行回歸計(jì)算和模糊規(guī)則映射,通過(guò)深入挖掘在異常發(fā)生之前的趨勢(shì),可以在動(dòng)態(tài)數(shù)據(jù)產(chǎn)生的過(guò)程中,通過(guò)捕獲當(dāng)前數(shù)據(jù)并結(jié)合前幾個(gè)時(shí)刻的數(shù)據(jù),得到下一時(shí)刻可能的狀態(tài)值,從而實(shí)現(xiàn)下一時(shí)刻異常的預(yù)測(cè)預(yù)警。表4為三個(gè)帶標(biāo)簽的數(shù)據(jù)集按照異常預(yù)測(cè)模式[8]進(jìn)行測(cè)試后的異常預(yù)警準(zhǔn)確率和異常預(yù)警召回率。分析下述實(shí)驗(yàn)結(jié)果可知,在進(jìn)行數(shù)據(jù)異常預(yù)警時(shí),維度特征高的數(shù)據(jù)表現(xiàn)更佳。
表4 異常發(fā)生預(yù)警準(zhǔn)確率
同時(shí)對(duì)比了在固定時(shí)間步長(zhǎng)中對(duì)同一維度的數(shù)據(jù)使用max(最大值)和mean(平均值)兩種不同的操作,其結(jié)果如表5所示。
表5 不同處理方式下的準(zhǔn)確率/召回率
采用最大化的處理方式在特征維度較低時(shí)可以獲得略好的結(jié)果,而當(dāng)特征維度較高時(shí),兩種方法的性能相當(dāng)。這主要是兩種方式對(duì)于不同的因素會(huì)學(xué)習(xí)到不同的權(quán)重,在維度較高時(shí)其權(quán)重相對(duì)分散,造成其結(jié)果并沒(méi)有太大的差距。
本文介紹了兩種不同數(shù)據(jù)擬合的方式:未缺失數(shù)據(jù)的擬合預(yù)測(cè)和缺失數(shù)據(jù)的擬合預(yù)測(cè);前者是根據(jù)原始數(shù)據(jù)對(duì)目標(biāo)數(shù)據(jù)進(jìn)行擬合預(yù)測(cè),后者是指多維度數(shù)據(jù)中的某一維度數(shù)據(jù)是缺失的,這對(duì)于數(shù)據(jù)的擬合預(yù)測(cè)而言有一定的難度。對(duì)于缺失數(shù)據(jù)的擬合預(yù)測(cè),通過(guò)分析其他維度的數(shù)據(jù)與該維度的數(shù)據(jù)關(guān)系,然后進(jìn)行擬合預(yù)測(cè),這對(duì)于實(shí)際工業(yè)現(xiàn)場(chǎng)因故障造成數(shù)據(jù)丟失的數(shù)據(jù)獲取具有重要意義。
對(duì)于數(shù)據(jù)擬合預(yù)測(cè)效果的評(píng)估,使用R2得分來(lái)衡量擬合的效果。表6和表7是對(duì)不同數(shù)據(jù)集按照兩種擬合方式進(jìn)行預(yù)測(cè)的效果和R2得分的表現(xiàn)。
表6 缺失數(shù)據(jù)擬合R2得分
表7 未缺失數(shù)據(jù)擬合R2得分
通過(guò)上述結(jié)果可以明顯看出未缺失數(shù)據(jù)擬合的效果要遠(yuǎn)好于缺失數(shù)據(jù)的擬合效果。圖1為缺失數(shù)據(jù)擬合預(yù)測(cè)時(shí)在LSTM網(wǎng)絡(luò)按照時(shí)間步長(zhǎng)為5,迭代次數(shù)為10的效果圖。圖2為未缺失數(shù)據(jù)在LSTM網(wǎng)絡(luò)按照時(shí)間步長(zhǎng)為5,迭代次數(shù)為10的擬合預(yù)測(cè)效果圖。
圖1 缺失數(shù)據(jù)擬合效果示意圖 圖2 未缺失數(shù)據(jù)擬合效果示意圖
同時(shí),為了更加有效地說(shuō)明問(wèn)題,將data_04設(shè)置為標(biāo)準(zhǔn)的正弦波變化規(guī)律的數(shù)據(jù),然后進(jìn)行擬合,如圖3所示。
圖3 規(guī)律數(shù)據(jù)擬合效果示意圖
可以看出,在數(shù)據(jù)預(yù)測(cè)方面,RNN、LSTM、MLP在兩個(gè)數(shù)據(jù)集上的表現(xiàn)相近,LSTM模型預(yù)測(cè)的效果最佳。同時(shí)經(jīng)過(guò)實(shí)驗(yàn)發(fā)現(xiàn),對(duì)于數(shù)據(jù)的擬合在很大程度取決于預(yù)測(cè)的形式,對(duì)于未缺失數(shù)據(jù)的預(yù)測(cè),相較于原來(lái)的數(shù)據(jù)變化趨勢(shì)會(huì)存在一種滯后的現(xiàn)象;而對(duì)于缺失數(shù)據(jù)的預(yù)測(cè)效果,則在很大程度上取決于數(shù)據(jù)形式,對(duì)于變化極不規(guī)律的數(shù)據(jù)無(wú)法做到精準(zhǔn)的擬合預(yù)測(cè),這兩個(gè)結(jié)果也從側(cè)面表明了對(duì)于時(shí)序數(shù)據(jù)的擬合無(wú)法做到完全的預(yù)測(cè),只能近似得到其變化趨勢(shì)和數(shù)值。
為了驗(yàn)證本文模型的異常預(yù)警效果,針對(duì)第5組數(shù)據(jù)進(jìn)行了模型驗(yàn)證,數(shù)據(jù)整體情況如圖4所示。
圖4 電機(jī)運(yùn)行狀態(tài)變化趨勢(shì)圖
其中曲線1表示電壓變化趨勢(shì),曲線2和3分別表示電流、電機(jī)轉(zhuǎn)速變化趨勢(shì)。曲線的終點(diǎn)處為故障點(diǎn),即此時(shí)的機(jī)器發(fā)生故障。由于數(shù)據(jù)量相對(duì)較少,選取全部數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,效果如圖5所示。
圖5 異常程度變化趨勢(shì)圖
圖5中曲線為模型預(yù)測(cè)的異常程度變化趨勢(shì)。對(duì)應(yīng)圖4可以看出,當(dāng)電流急劇增加時(shí),異常程度也顯著增加;從時(shí)間上看,異常程度的趨勢(shì)稍稍滯后于電流變化趨勢(shì)。這也在一定程度上說(shuō)明,對(duì)數(shù)據(jù)中的異常點(diǎn)進(jìn)行準(zhǔn)確預(yù)測(cè),在理論上存在很大難度。通過(guò)對(duì)機(jī)器運(yùn)行數(shù)據(jù)的分析,在真實(shí)異常發(fā)生前進(jìn)行預(yù)警,是一種值得嘗試的研究思路。
本文提出了一個(gè)基于模糊規(guī)則的異常數(shù)據(jù)檢測(cè)系統(tǒng)框架,該框架不但能實(shí)現(xiàn)對(duì)異常數(shù)據(jù)的高效檢測(cè),同時(shí)在數(shù)據(jù)異常預(yù)警方面具有良好的表現(xiàn)。在兼具良好數(shù)據(jù)檢測(cè)模型和算法,創(chuàng)新性的提出了使用決策樹(shù)算法結(jié)合模糊規(guī)則實(shí)現(xiàn)了對(duì)下一時(shí)刻異常狀態(tài)的預(yù)測(cè)算法,對(duì)異常預(yù)測(cè)進(jìn)行了一定的探討與嘗試。