胡田 田穎
摘 要:為改善傳統(tǒng)離群點(diǎn)檢測(cè)技術(shù)以適應(yīng)工業(yè)過程中由于設(shè)備老化、催化劑失效等引起的時(shí)變特性,運(yùn)用強(qiáng)化學(xué)習(xí)自主探索田納西伊斯曼工業(yè)環(huán)境以提取最優(yōu)特征變量,運(yùn)用稀疏PCA算法,對(duì)所提取的變量建立模型進(jìn)行離群點(diǎn)檢測(cè),并將檢測(cè)結(jié)果與強(qiáng)化PCA、稀疏PCA和KNN模型進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,強(qiáng)化稀疏PCA模型可以有效提取出最優(yōu)建模變量,建立最優(yōu)離群點(diǎn)檢測(cè)模型,準(zhǔn)確率為93.33%?;趶?qiáng)化學(xué)習(xí)的特征提取方法可以有效實(shí)現(xiàn)高維數(shù)據(jù)降維,基于稀疏PCA的離群點(diǎn)檢測(cè)提高了離群點(diǎn)識(shí)別率,增強(qiáng)了主成分解釋能力。
關(guān)鍵詞:強(qiáng)化學(xué)習(xí);稀疏PCA;特征提取;時(shí)變特性;離群點(diǎn)檢測(cè)
DOI:10. 11907/rjdk. 192481 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
中圖分類號(hào):TP306文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2020)008-0084-05
Abstract: In order to improve the traditional outlier detection technology to adapt to the time-varying characteristics caused by equipment aging and catalyst failure in industrial process, the reinforcement learning is used to explore the Tennessee Eastman industrial environment to extract the optimal characteristic variables. The sparse PCA algorithm is applied for outlier detection according to the extracted variables and the results are compared with reinforced PCA, sparse PCA and KNN models. The experimental results show that the RSPCA model can effectively extract the optimal modeling variables and establish an optimal outlier detection model with an accuracy of 93.33%. The feature extraction method based on reinforcement learning can effectively reduce the dimensionality of high-dimensional data. The outlier detection based on sparse PCA improves the recognition rate of outliers and enhances the interpretation ability of principal components.
Key Words: reinforcement learning; sparse PCA; extracted variables; time-varying characteristics; outlier detection
0 引言
計(jì)算機(jī)技術(shù)的快速發(fā)展導(dǎo)致數(shù)據(jù)海量化和存儲(chǔ)快速化,人們很難從大量高維數(shù)據(jù)中提取出有用信息。因此,如何從海量、復(fù)雜、高維數(shù)據(jù)中獲取有價(jià)值的數(shù)據(jù)成為亟待解決的重要課題。目前,傳統(tǒng)技術(shù)很難滿足數(shù)據(jù)處理要求,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生[1]。
離群點(diǎn)檢測(cè)作為數(shù)據(jù)挖掘中重要的研究方向之一,對(duì)于異常信息的檢測(cè)及監(jiān)控起著非常重要的作用。離群點(diǎn)指明顯與其它觀測(cè)對(duì)象的觀測(cè)結(jié)果相差甚遠(yuǎn),與現(xiàn)存機(jī)制模型不一樣的數(shù)據(jù)。離群點(diǎn)的存在嚴(yán)重影響了正常數(shù)據(jù)的分析,可能導(dǎo)致模型誤差、參數(shù)估計(jì)偏差和錯(cuò)誤的結(jié)果。因此,在對(duì)數(shù)據(jù)集進(jìn)行建模和分析之前,執(zhí)行離群點(diǎn)檢測(cè)任務(wù)具有重要意義,它可以消除噪聲或發(fā)現(xiàn)潛在的、有意義的知識(shí),廣泛應(yīng)用在金融領(lǐng)域欺詐檢測(cè)、互聯(lián)網(wǎng)領(lǐng)域入侵檢測(cè)、疾病診斷、工業(yè)領(lǐng)域故障監(jiān)測(cè)等諸多領(lǐng)域。隨著測(cè)量技術(shù)的完善和采集設(shè)備的增多,數(shù)據(jù)來(lái)源變廣且維數(shù)急劇增加,導(dǎo)致離群點(diǎn)檢測(cè)技術(shù)面臨一系列問題。
在以往的離群點(diǎn)檢測(cè)算法中,王震等 [2]針對(duì)基于距離的離群點(diǎn)檢測(cè)算法存在的時(shí)效性問題,提出一種基于粗粒度單元的離群點(diǎn)檢測(cè)算法,避免對(duì)象之間海量的距離計(jì)算,實(shí)現(xiàn)離群點(diǎn)檢測(cè);張衛(wèi)旭等 [3]提出一種基于密度的聚類算法思想,并借鑒文獻(xiàn)[2]將數(shù)據(jù)距離按次序排列,僅掃描該簇類的數(shù)據(jù)檢測(cè)離群點(diǎn),減少了時(shí)間及復(fù)雜度;古平等 [4]借鑒文獻(xiàn)[3]的聚類思想,提出一種基于多重聚類的離群點(diǎn)檢測(cè)算法PMLDOF。該算法采用聚類剪枝技術(shù)減少計(jì)算量,并計(jì)算剩余數(shù)據(jù)的局部離群度LDOF,利用多重聚類的差異性對(duì)簇的邊緣點(diǎn)進(jìn)行篩選實(shí)現(xiàn)離群點(diǎn)檢測(cè);Bai等 [5]提出基于分布式密度的大數(shù)據(jù)離群點(diǎn)檢測(cè)方法,改進(jìn)了文獻(xiàn)[3];Aggarwal等 [6]提出基于子空間投影和遺傳算法的離群點(diǎn)檢測(cè)方法,采用遺傳算法劃分子空間進(jìn)行離群點(diǎn)檢測(cè);Zhang等 [7]借鑒文獻(xiàn)[6]中基于投影的思想,提出高維數(shù)據(jù)流中投影離群點(diǎn)檢測(cè)技術(shù),采用無(wú)監(jiān)督或監(jiān)督學(xué)習(xí)獲得在線自進(jìn)化和適應(yīng)動(dòng)態(tài)數(shù)據(jù)流的稀疏子空間模板(SST),用于有效檢測(cè)投影離群點(diǎn);Filzmoser 等 [8]提出在轉(zhuǎn)換空間的數(shù)據(jù)上采用主成分單一性質(zhì)檢測(cè)離群點(diǎn),需要的計(jì)算開銷小,且適合于處理大規(guī)模數(shù)據(jù)集;Thennadil等 [9]改進(jìn)了文獻(xiàn)[8],提出利用偏最小二乘法和改進(jìn)的馬氏距離檢測(cè)離群點(diǎn),該方法可應(yīng)用于多元變量數(shù)據(jù)集,并根據(jù)權(quán)重自動(dòng)更新模型,但容易受到靈敏度參數(shù)的影響;Huang等 [11]改進(jìn)了文獻(xiàn)[10],根據(jù)互鄰圖概念和離群點(diǎn)聚類大小通常遠(yuǎn)小于正常聚類的思想,提出一種新的離群點(diǎn)聚類算法ROCF,其可自動(dòng)計(jì)算數(shù)據(jù)庫(kù)的離群率,有效檢測(cè)出不含top-n參數(shù)的離群點(diǎn)及簇;Reis等 [12]應(yīng)用并拓展了一種基于無(wú)監(jiān)督隨機(jī)森林的離群點(diǎn)檢測(cè)算法。利用該算法計(jì)算實(shí)驗(yàn)光譜的相似性度量,然后對(duì)數(shù)據(jù)集進(jìn)行可視化和聚類,利用相似矩陣搜索數(shù)據(jù)集中的對(duì)象并檢測(cè)數(shù)據(jù)集中的離群點(diǎn);Smadi等 [13]提出了一種神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)相結(jié)合的在線網(wǎng)絡(luò)釣魚郵件檢測(cè)方法,該方法可隨著時(shí)間推移對(duì)系統(tǒng)進(jìn)行改進(jìn),增強(qiáng)了釣魚郵件檢測(cè)率。
從上述文獻(xiàn)發(fā)現(xiàn),傳統(tǒng)的離群點(diǎn)檢測(cè)算法通常針對(duì)靜態(tài)數(shù)據(jù)集,在設(shè)備老化、催化劑及數(shù)據(jù)漂移等引起的數(shù)據(jù)時(shí)變性上,以及高維數(shù)據(jù)集下的精度及效率上存在很多問題,難以有效挖掘出離群點(diǎn),存在較高的誤檢率。而離群點(diǎn)檢測(cè)算法與強(qiáng)化學(xué)習(xí)相結(jié)合則在特征提取和離群點(diǎn)檢測(cè)率方面表現(xiàn)更好。本文采用強(qiáng)化學(xué)習(xí)與稀疏PCA結(jié)合的方法對(duì)TE過程進(jìn)行驗(yàn)證,并與強(qiáng)化PCA、稀疏PCA和KNN進(jìn)行比較。
1 強(qiáng)化稀疏PCA模型
1.1 強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)是一種重要的機(jī)器學(xué)習(xí)方法,其基本原理是通過感知環(huán)境狀態(tài)信息學(xué)習(xí)動(dòng)態(tài)系統(tǒng)的最優(yōu)策略,并通過反復(fù)試驗(yàn)不斷與環(huán)境互動(dòng)改善其行為[14]。強(qiáng)化學(xué)習(xí)的基本框架如圖1所示,由智能體、環(huán)境、策略、行為和獎(jiǎng)勵(lì)5個(gè)要素組成 [15]。
為了適應(yīng)工業(yè)環(huán)境的時(shí)變性,采用強(qiáng)化學(xué)習(xí)探索離群點(diǎn)檢測(cè)率變量。強(qiáng)化學(xué)習(xí)探索關(guān)鍵變量及提取過程如下:
設(shè)定環(huán)境的初始狀態(tài)是一個(gè)僅含有0元素和1元素的隨機(jī)矩陣[S∈Rl×m],其中[m]是環(huán)境所包含的過程變量維數(shù),[l]是初始狀態(tài)數(shù)目。每個(gè)狀態(tài)[Si∈Ri×m(i=1,2...l)]表示為稀疏PCA建模所選擇的變量組合。如表1所示,元素0表示不選擇對(duì)應(yīng)的相關(guān)變量建立模型,元素1表示已經(jīng)選擇相關(guān)變量建立模型。
2 實(shí)證分析
2.1 實(shí)驗(yàn)數(shù)據(jù)
TE工藝是一個(gè)基準(zhǔn)案例,包括反應(yīng)器、產(chǎn)品冷凝器、蒸汽—液體分離器、循環(huán)壓縮機(jī)和產(chǎn)品汽提器5個(gè)單元操作[18],該過程有12個(gè)操作變量,22個(gè)連續(xù)過程測(cè)量,19個(gè)成分。有關(guān)TE工藝的詳細(xì)介紹見參考文獻(xiàn)[19]。在不考慮反應(yīng)器攪拌速度的前提下,利用TE仿真模型生成實(shí)驗(yàn)數(shù)據(jù)集,并對(duì)包含的52個(gè)變量進(jìn)行模擬。訓(xùn)練數(shù)據(jù)集包括正常數(shù)據(jù)[X∈R100×52]和異常數(shù)據(jù)[Y∈R50×52]。測(cè)試數(shù)據(jù)是[Z∈R500×52],包含16個(gè)異常值。利用訓(xùn)練數(shù)據(jù)集,采用增強(qiáng)稀疏PCA方法建立離線模型,并通過測(cè)試數(shù)據(jù)驗(yàn)證該方法的可行性。
2.2 實(shí)驗(yàn)方法
對(duì)于離群值檢測(cè),構(gòu)造兩個(gè)統(tǒng)計(jì)量分別檢測(cè)主元空間和殘差空間的變化,即[T2]和[SPE]統(tǒng)計(jì)量。[T2]統(tǒng)計(jì)量代表標(biāo)準(zhǔn)得分的平方和,其用于衡量主導(dǎo)模型中所包含的信息量。[SPE]統(tǒng)計(jì)量是通過分析新測(cè)量數(shù)據(jù)的殘差以顯示此樣本數(shù)據(jù)是否符合主元模型而進(jìn)行的離群點(diǎn)檢測(cè),它度量了數(shù)據(jù)點(diǎn)無(wú)法由主元模型描述的信息量。根據(jù)式(8)建立的稀疏PCA模型,統(tǒng)計(jì)信息定義如下:
其中,[i=1,2, ,n],表示第[i]個(gè)樣本,[Λ=diag(λ1, ,][λm)]是由樣本[X]協(xié)方差矩陣的特征值構(gòu)成的對(duì)角矩陣,[T2lim]是[T2]統(tǒng)計(jì)量的置信限,[SPElim]是[SPE]統(tǒng)計(jì)量的置信限。本文采取核密度估計(jì)方法估算置信限[20],以核密度中99%的概率分布線作為置信限,該方法包含1%的錯(cuò)誤率。
2.3 實(shí)驗(yàn)結(jié)果
圖3(a)表示使用最優(yōu)RSPCA模型進(jìn)行異常值檢測(cè)的結(jié)果,共檢測(cè)到15個(gè)離群點(diǎn)。結(jié)果表明,強(qiáng)化學(xué)習(xí)所提取的最優(yōu)變量有效且很重要,稀疏PCA檢測(cè)離群點(diǎn)方法準(zhǔn)確;圖3(b)通過計(jì)算[T2]和[SPE]統(tǒng)計(jì)量,利用強(qiáng)化主成分分析(RPCA)方法進(jìn)行離群點(diǎn)檢測(cè)。最優(yōu)RPCA模型精確檢測(cè)出14個(gè)離群點(diǎn);圖3(c)表明,通過計(jì)算[T2]和[SPE]統(tǒng)計(jì)量,只使用稀疏PCA模型檢測(cè)異常值,其中13個(gè)異常值被正確檢測(cè)。稀疏PCA能檢測(cè)出離群點(diǎn),但誤檢率較高;圖3(d)使用更新的KNN方法對(duì)離群點(diǎn)和正常點(diǎn)進(jìn)行分類,這是一種基于在線檢測(cè)結(jié)果動(dòng)態(tài)更新的方法。利用更新KNN方法對(duì)在線數(shù)據(jù)進(jìn)行分類以檢測(cè)異常值。橫坐標(biāo)表示樣本點(diǎn),縱坐標(biāo)表示類別,其中類標(biāo)簽“1”和“2”分別表示正常點(diǎn)和異常點(diǎn)。紅色符號(hào)表示測(cè)試數(shù)據(jù)集已知的正確類,藍(lán)色符號(hào)表示KNN分類的測(cè)試數(shù)據(jù)集結(jié)果。圖3(d)為最優(yōu)KNN模型檢測(cè)結(jié)果,精確檢測(cè)到15個(gè)異常值。顯然,改進(jìn)后的KNN方法中的異常率與RSPCA方法一致。但是,由于更新的KNN方法對(duì)稀疏點(diǎn)不敏感,因此其誤檢率高于RSPCA方法。
將RSPCA模型與其它3種方法進(jìn)行比較,發(fā)現(xiàn)RSPCA模型能有效檢測(cè)出離群點(diǎn),且準(zhǔn)確率高,誤檢率低,如表2所示。
圖4表示PCA模型和稀疏PCA模型第一主成分的負(fù)載向量。紅色表示主成分與52個(gè)變量相關(guān),藍(lán)色對(duì)應(yīng)稀疏主成分,表明與3個(gè)選定的變量高度相關(guān)。第2個(gè)和42個(gè)變量與稀疏主成分呈負(fù)相關(guān),第21個(gè)變量與稀疏主成分呈正相關(guān)。圖4表明稀疏主成分分析可以清晰地解釋主成分的最重要特征,從而提高主成分的可解釋性。
3 結(jié)語(yǔ)
本文通過強(qiáng)化學(xué)習(xí)方法實(shí)現(xiàn)特征提取,并在此基礎(chǔ)上建立稀疏PCA模型,針對(duì)具有時(shí)變特性的工業(yè)過程所存在的離群點(diǎn)進(jìn)行檢測(cè)。強(qiáng)化學(xué)習(xí)特征提取方法不僅增強(qiáng)了工業(yè)環(huán)境自主探索能力,還可從原始數(shù)據(jù)中提取出最關(guān)鍵的變量,缺點(diǎn)是該方法所需要的時(shí)間較長(zhǎng)。稀疏PCA模型中加入正則化參數(shù),增強(qiáng)了重構(gòu)變量的可解釋能力,同時(shí)提高了計(jì)算效率。TE過程仿真結(jié)果表明,該方法能有效提取最優(yōu)變量,驗(yàn)證了HRSPCA檢測(cè)離群點(diǎn)的有效性和準(zhǔn)確性。未來(lái)要優(yōu)化強(qiáng)化學(xué)習(xí)訓(xùn)練時(shí)間問題,進(jìn)一步研究導(dǎo)致離群點(diǎn)產(chǎn)生的原因,實(shí)現(xiàn)離群點(diǎn)的實(shí)時(shí)檢測(cè)及原因分析。
參考文獻(xiàn):
[1] 劉小霞. ?面向海量數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘算法研究[D]. ?北京:北京郵電大學(xué), 2007.
[2] 王震. ?基于距離的離群點(diǎn)檢測(cè)算法分析與研究[D]. ?重慶:重慶大學(xué), 2011.
[3] 張衛(wèi)旭, 尉宇. ?基于密度的局部離群點(diǎn)檢測(cè)算法[J]. ?計(jì)算機(jī)與數(shù)字工程, 2010, 38(10):11-14
[4] 古平, 劉海波, 羅志恒. ?一種基于多重聚類的離群點(diǎn)檢測(cè)算法[J]. ?計(jì)算機(jī)應(yīng)用研究, 2013, 30(3):751-753.
[5] BAI M, WANG X, XIN J, et al. An efficient algorithm for distributed density-based outlier detection on big data[J]. Neurocomputing, 2016, 181(C):19-28.
[6] AGGARWAL C C, YU P S. An effective and efficient algorithm for high-dimensional outlier detection[J]. ?VLDB Journal, 2005, 14(2):211-221.
[7] ZHANG J, GAO Q, WANG H, et al. Detecting projected outliers from high dimensional dataStreams[C]. Cancun:International Conference on Database & Expert Systems Applications. Springer-Verlag, 2009.
[8] FILZMOSER P, MARONNA R, WERNER M. Outlier identification in high dimensions[J]. ?Computational Statistics and Data Analysis, 2008, 52(3):1694-1711.
[9] THENNADIL S N, DEWAR M, HERDSMAN C, et al. Automated weighted outlier detection technique for multivariate data[J]. ?Control Engineering Practice, 2018(70):40-49.
[10] DUAN L. A local-density based spatial clustering algorithm with noise[J]. ?Information Systems, 2007, 32 (7):978-986.
[11] HUANG J, ZHU Q, YANG L, et al. A novel outlier cluster detection algorithm without top-n parameter[J]. ?Knowledge-Based Systems, 2017(121):32-40.
[12] REIS I, POZNANSKI D, BARON D, et al. Detecting outliers and learning complex structures with large spectroscopic surveys——a case study with APOGEE stars[J]. ?Monthly Notices of the Royal Astronomical Society, 2018, 476(2):2117-2136.
[13] SMADI S, ASLAM N, ZHANG L. Detection of online phishing email using dynamic evolving neural network based on reinforcement learning[J]. ?Decision Support Systems, 2018(9): 107-121.
[14] KAELBLING L P, LITTMAN M L, MOORE A W. Reinforcement learning: a survey[J]. Artificial Intelligence Research, 1996, 4(1):237-285.
[15] KLUSá EK J, JIRSíK V. Comparing fitness functions for genetic feature transformation[J]. ?IFAC-PapersOnLine, 2016, 49(25):299-304.
[16] HUI Z, HASTIE T. Regularization and variable selection via the elastic net[J]. ?Journal of the Royal Statistical Society, 2005, 67(2):301-320.
[17] DOWNS J J, VOGEL E F. A plant-wide industrial process control problem[J]. ?Computers & Chemical Engineering,1993, 17(3):245-255.
[18] CHEN H, TI O P, YAO X. Cognitive fault diagnosis in tennessee eastman process using learning in the model space[J]. ?Computers & Chemical Engineering, 2014, 67(3):33-42.
[19] JIANG Q, YAN X, ZHAO W. Fault detection and diagnosis in chemical processes using sensitive principal component analysis[J]. Industrial & Engineering Chemistry Research,2017,50(4):1635-1644.
(責(zé)任編輯:杜能鋼)