陳 沖,何 為,2,鐘田福,王 晶
(1.中國石油大學(北京) 信息科學與工程學院,北京 102249;2.中國石油集團安全環(huán)保技術(shù)研究院有限公司 HSE 檢測中心,北京102206)
催化裂化裝置產(chǎn)生的廢氣是空氣環(huán)境的潛在威脅之一。90萬噸/年催化裂化裝置煙氣排放經(jīng)過煙氣輪機做功后進入余熱鍋爐,正常情況下SO2排放濃度為800~2 000 mg/m3,NOx的排放濃度為140~300 mg/m3,均超過我國于2015年實施的GB31570—2015《石油煉制工業(yè)污染物排放標準》中規(guī)定的50 mg/m3與100 mg/m3的排放標準?;跉v史數(shù)據(jù)(生產(chǎn)數(shù)據(jù)、監(jiān)測數(shù)據(jù)等)構(gòu)建催化裂化裝置的預(yù)測模型,根據(jù)不同工況預(yù)測煙氣排放是控制催化裂化裝置煙氣排放的有效方法之一。目前,我國已初步形成了環(huán)保信息網(wǎng)絡(luò),環(huán)境監(jiān)測數(shù)據(jù)由生產(chǎn)企業(yè)上報,地方環(huán)保部門收集、上報并存儲到環(huán)境保護監(jiān)測數(shù)據(jù)庫中。然而,在數(shù)據(jù)采集、存儲設(shè)備本身以及采集人員、采集過程等各個環(huán)節(jié)中,都不可避免地引入異常數(shù)據(jù)。異常數(shù)據(jù)的引入可能引起數(shù)據(jù)的偽相關(guān)(spurious correlation)等問題,從而影響數(shù)據(jù)的可用性。因此,為了保證數(shù)據(jù)分析與處理結(jié)果的準確性,在使用數(shù)據(jù)之前,有必要對數(shù)據(jù)進行異常識別。
異常數(shù)據(jù)可由噪聲、系統(tǒng)自身、客觀因素以及復(fù)雜環(huán)境等原因造成,導(dǎo)致個別數(shù)據(jù)與整體數(shù)據(jù)規(guī)律不一致,大多數(shù)研究者認同來自Hawkins[1]的定義:“異常值是指樣本中的個別值,其數(shù)值明顯偏離它(或它們)所屬樣本的其余觀測值”。無監(jiān)督異常檢測方法簡單、高效,已經(jīng)被廣泛應(yīng)用于異常檢測中。Yamanishi等人[2]使用高斯混合模型擬合實際數(shù)據(jù),并根據(jù)模型篩選異常數(shù)據(jù)?;诰垲惖漠惓?shù)據(jù)檢測方法主要有CBLOF(Cluster-Based Local Outlier Factor)[3]、LDCOF(Local Density Cluster-Based Outlier Factor)[4]、CMGOS(Clustering-based Multivariate Gaussian Outlier Score)[5]等[6]。劉旋等[7]提出了一種基于逆K最近鄰的密度峰值異常檢測方法(Rknn-DP),在多種數(shù)據(jù)集下與ABOD(Angle-Based Outlier Detection)[8]、CBLOF、LSCP(Locally Selective Combination in Parallel outlier ensembles)[9]、HBOS(Histogram-based Outlier Score)[10]及孤立森林算法(iForest,Isolation Forest)[11]進行了實驗對比,證明了Rknn-DP算法的有效性?;诰嚯x的方法主要原理是根據(jù)數(shù)據(jù)樣本與其余樣本點之間的距離是否超過閾值來檢測異常樣本[12]。Breunig等[13]闡述了局部異常數(shù)據(jù)的定義,提出了局部異常因子算法LOF(Local Outlier Factor),基于可達距離、可達密度定義局部離群因子,衡量樣本的異常程度,從而實現(xiàn)異常值檢測。Du等[14]提出了利用統(tǒng)計參數(shù)進行局部異常檢測的方法,結(jié)合聚類與密度方法實現(xiàn)了大數(shù)據(jù)的異常值檢測。與以上幾種基于密度與距離的算法不同,Liu等[11]提出孤立森林算法,通過借鑒隨機森林的集成學習提高算法的魯棒性,并采用樹型結(jié)構(gòu)減小了計算量,且能保證較高的準確度。Yu等[15]結(jié)合LOF的優(yōu)點對孤立森林算法進行了改進,先利用LOF算法對原始數(shù)據(jù)進行異常檢測,再利用孤立森林算法對檢測結(jié)果進行篩選,從而提高檢測結(jié)果的穩(wěn)定性和精確度,但是也增加了算法的計算消耗。Liu等[16]基于分裂選擇標準(SC,Split-selection Criterion)對孤立森林算法進行改進,提出SCiForest(Split-selection Criterion iForest)檢測聚類異常。Ding等[17]提出了iForestASD算法,該算法通過滑窗對實時數(shù)據(jù)分割檢測,有效地解決了流動數(shù)據(jù)的異常檢測問題。Aryal等[18]針對孤立森林無法有效檢測局部異常數(shù)據(jù)的問題,提出了一種基于相對質(zhì)量改進的孤立森林算法。該算法利用相對質(zhì)量代替距離點計算,更加有效地體現(xiàn)了數(shù)據(jù)與鄰近數(shù)據(jù)的分布規(guī)律,解決了局部異常數(shù)據(jù)在異常數(shù)據(jù)檢測中出現(xiàn)的遮掩問題。Bandaragoda等[19]提出了一種基于距離的改進方法——使用K近鄰的孤立方法(iNNE,isolation using Nearest Neighbour Ensemble),其運行速度明顯快于現(xiàn)有的最近鄰方法,并且解決了孤立森林算法局部異常檢測、缺少屬性數(shù)據(jù)的異常檢測以及正常實例包圍的異常檢測情況。
本文以中國石油某煉化企業(yè)350萬噸/年重油催化裂化裝置為研究對象,基于孤立森林算法對該催化裂化裝置所排放煙氣中氮氧化物的監(jiān)測數(shù)據(jù)開展數(shù)據(jù)異常識別研究。從算法的分支步驟與局部度量方面,改進孤立森林算法,提高算法性能。在多個標準數(shù)據(jù)集上與多個異常識別算法進行對比,驗證算法的優(yōu)越性。
孤立森林算法的主要思想是對數(shù)據(jù)集進行隨機切割,并通過集成學習的方式收斂數(shù)據(jù)切割的過程[11]。圖1為一個數(shù)據(jù)集被隨機切割的過程示例。其中,正常點xi需經(jīng)過多次切割才能被識別出來,而異常點xo則很容易被切割出來,切割次數(shù)等于孤立樹的深度,孤立森林根據(jù)數(shù)據(jù)點與根節(jié)點的深度來診斷數(shù)據(jù)的異常程度。
圖1 正常值與異常值的分割過程Fig.1 Segmentation process of normal and abnormal observations
孤立森林算法過程主要包括兩個部分。首先,利用原始數(shù)據(jù)隨機采樣生成t個孤立樹,組成孤立森林模型;其次,數(shù)據(jù)樣本遍歷孤立樹計算出異常分值。孤立樹的構(gòu)建步驟:
步驟1:從原始數(shù)據(jù)集中隨機挑選T個數(shù)據(jù)點作為采樣數(shù)據(jù)集;
步驟2:在采樣數(shù)據(jù)集中隨機選取維度,隨機取值獲得分割點p對樣本集切割,切割后的數(shù)據(jù)分別放在左右葉子節(jié)點(在該維度中小于p的樣本放在左葉子節(jié)點,大于等于p的樣本放在右葉子節(jié)點);
步驟3:遞歸進行步驟2,切割數(shù)據(jù)集,直到滿足停止條件(即樣本數(shù)據(jù)集不可再分或孤立樹的高度到達上限)。
建立t個孤立樹之后(即生成了孤立森林模型),使未知數(shù)據(jù)點x遍歷所有孤立樹后記錄x在每棵孤立樹的層數(shù)h(x),計算x的平均深度。對平均深度進行歸一化得到數(shù)據(jù)點x的異常分值。為了保證異常分值能夠準確表示數(shù)據(jù)的異常程度,采用
(1)
進行計算。其中,E[·]為數(shù)據(jù)的期望;c(φ)起歸一化作用,是由φ個點組成的二叉樹的平均高度,即
(2)
式中:H(φ)=ln(φ)+ξ,ξ為歐拉常數(shù)。
由式(1)可以看出,S(x)越接近1表示樣本x每次分割都被快速分割出來,是異常數(shù)據(jù)的可能性大;越接近0表示樣本x遠離根節(jié)點,是正常點的可能性大;當所有樣本的S(x)都接近于0.5時,表明數(shù)據(jù)集中沒有明顯的異常數(shù)據(jù)。
分裂準則是在樹節(jié)點分裂過程中所依據(jù)的標準,以選擇最優(yōu)的分裂屬性與分裂點,是決策樹算法中的核心問題之一,前期已有許多學者對此進行了研究[20-22]。在樹節(jié)點分裂過程中,為了考慮數(shù)據(jù)的多個屬性,優(yōu)化模型性能,引入非軸平行于原始屬性的隨機超平面;同時,在隨機超平面的選取過程中加入Sdgain檢驗指標,作為數(shù)據(jù)超平面的選擇標準,以生成最佳超平面。由于樹模型是一種集成學習模型,因此,單個超平面的效果對整體效果影響有限,所得到的模型作為一個整體仍然有效。在構(gòu)造孤立樹的每個節(jié)點時,隨機生成τ個超平面,選擇其中Sdgain最大的超平面作為最優(yōu)超平面。超平面f(對應(yīng)分割點p)的計算公式為
(3)
(4)
其中,YL∪YR=Y,Y為采樣數(shù)據(jù)集X′在超平面f上的映射;avg(·)為計算平均值。在式(4)中,使用σ(Y)對計算值進行歸一化。結(jié)合式(3)、式(4),尋找能夠使Sdgain最大的p值生成最佳超平面。
雖然孤立森林算法在許多實驗中被證明是有效的,但是其無法有效識別局部異常數(shù)據(jù)。這是由于孤立森林算法的異常分數(shù)根據(jù)路徑長度進行全局度量,導(dǎo)致無法考慮樣本數(shù)據(jù)點與其鄰近數(shù)據(jù)點之間的相對孤立關(guān)系。因此,Aryal等人[18]提出了一種簡單但有效的方法——相對質(zhì)量(Relative Mass),考慮樣本數(shù)據(jù)點與鄰近數(shù)據(jù)分布情況,以克服孤立森林在局部異常值檢測方面的不足。相對質(zhì)量是一種基于數(shù)據(jù)質(zhì)量的局部度量方式。考慮一個數(shù)據(jù)集中的兩個區(qū)域,其中一個區(qū)域是另一個區(qū)域的子集,數(shù)據(jù)的相對質(zhì)量是覆蓋該數(shù)據(jù)的兩個區(qū)域中的數(shù)據(jù)質(zhì)量的比例。在樹模型結(jié)構(gòu)中,數(shù)據(jù)的相對質(zhì)量根據(jù)樣本數(shù)據(jù)從根節(jié)點到葉節(jié)點中的質(zhì)量比計算。
在孤立森林中,關(guān)注樣本點x和它的局部鄰域的相對質(zhì)量用
(5)
異常分數(shù)則由t個孤立樹異常分數(shù)取均值得到,即
(6)
計算出每個節(jié)點的異常分數(shù)之后,根據(jù)異常分數(shù)的大小對各個節(jié)點進行排序,節(jié)點異常分數(shù)越大異常節(jié)點的概率越大。
針對孤立森林算法在考慮數(shù)據(jù)整體屬性以及局部異常檢測中的局限,引入分裂準則與相對質(zhì)量改進孤立森林算法,在提高模型(局部異常數(shù)據(jù)識別)精確度的同時減小計算消耗。在建立樹模型時考慮數(shù)據(jù)的多維屬性引入隨機超平面,利用Sdgain篩選超平面,從而提高樹模型的質(zhì)量;利用相對質(zhì)量改進異常分數(shù)的計算,解決將每個待測樣本遍歷所有孤立樹的問題,避免內(nèi)存浪費、減小模型時間復(fù)雜度。具體步驟如圖2所示。
輸入D——數(shù)據(jù)集;n——子采樣大小;t——生成孤立樹的數(shù)量。
步驟1:設(shè)置孤立樹的最大高度,初始化孤立森林。
步驟2:構(gòu)建孤立樹。
步驟2.1:輸入D′——構(gòu)建孤立樹的子數(shù)據(jù)集;q——生成超平面的屬性數(shù)量;τ——隨機生成的超平面數(shù)量;
步驟2.2:初始化生成孤立樹算法參數(shù);
步驟2.3:在τ個使用q個屬性值生成的隨機超平面中,篩選最大Sdgain所對應(yīng)的最佳超平面f;
步驟2.4:將數(shù)據(jù)映射到最佳超平面f上,根據(jù)映射值將其分類;
步驟2.5:在映射點的最大值和最小值中隨機取數(shù)記為v;
步驟2.6:重復(fù)步驟2.1—2.5,直至采樣數(shù)據(jù)小于最小分裂數(shù)值。
步驟3:計算每棵樹的異常分數(shù)。
步驟3.1:輸入x——待檢測樣本;T——孤立樹;
步驟3.2:計算x映射在該分裂節(jié)點的最佳超平面上的值y;
步驟3.3:判斷y是否大于0,若大于0則放在左子節(jié)點,若小于0則放在右子節(jié)點;
步驟3.4:重復(fù)步驟3.2—3.3,直至x落在的葉子節(jié)點的大小是一個外部節(jié)點;
步驟3.5:計算葉子節(jié)點與其直系父節(jié)點的數(shù)據(jù)質(zhì)量;
步驟3.6:計算si(x)。
步驟4:遍歷所有孤立樹,計算異常分數(shù)的均值。
圖2 改進的孤立森林算法流程Fig.2 Flow chart of the improved isolated forest algorithm
為了驗證改進的孤立森林算法以及該算法在催化裂化裝置排污數(shù)據(jù)集的有效性,首先,基于標準異常檢測數(shù)據(jù)集(見表1前3行)[23]對改進的孤立森林算法進行測試,并與經(jīng)典的孤立森林算法、SCiForest、ReMa-iForest進行對比;其次,分別采用這幾種方法對催化裂化裝置排污數(shù)據(jù)進行異常識別,并對其結(jié)果進行分析。
本文采用的催化裂化裝置排污數(shù)據(jù)集為我國某石油煉化企業(yè)350萬噸/年重油催化裂化裝置在2015年2月至2018年6月監(jiān)測的氮氧化物濃度值??赡茉斐僧惓?shù)據(jù)的因素主要包括[24]:(1)系統(tǒng)誤差:主要是由監(jiān)測儀器設(shè)備自身存在的問題或者監(jiān)測環(huán)境變化引起;(2)系統(tǒng)故障:監(jiān)控平臺故障、通訊設(shè)備故障、現(xiàn)場儀器故障等原因;(3)人為造假:數(shù)據(jù)監(jiān)測、收集等人員出于某種目的根據(jù)數(shù)據(jù)規(guī)律修改數(shù)據(jù);(4)污染源異常變動:由企業(yè)的生產(chǎn)過程發(fā)生改變或者污染物治理設(shè)施故障引起。
表1 數(shù)據(jù)集特征Tab.1 Features of data sets
一般而言,異常數(shù)據(jù)檢測結(jié)果主要分為正常數(shù)據(jù)和異常數(shù)據(jù),然而,由于需要采用模型進行預(yù)測,因此將預(yù)測結(jié)果分為真正類(TP,True Positive)、真異類(TN,True Negative)、假正類(FP,False Positive)、假異類(FN,Fulse Negative),總數(shù)據(jù)量為4者之和。模型評價主要考慮有效性與執(zhí)行效率兩個方面。模型有效性是對模型準確度的檢測,是衡量模型最重要的指標,通過計算模型的ROC(Receiver Operating Characteristic)曲線與AUC(Area Under Curve)值進行分析判斷。在ROC 曲線中,橫、縱坐標分別為假正比例
(7)
和真正比例
(8)
其中,VTPR為預(yù)測結(jié)果中正類數(shù)據(jù)的準確率,即真正類占所有正類的比;VFPR為預(yù)測結(jié)果中正類數(shù)據(jù)的錯誤率,即假正類占所有異類的比。由式(7)—(8)可以看出,VTPR越高VFPR越低,則模型性能越優(yōu)秀。體現(xiàn)在ROC曲線上,則是曲線越陡峭、越靠近圖片的左上方,模型效果越好。
SAUC的含義是ROC曲線下的面積,其值域為[0.0,1.0],模型的SAUC越接近1,則說明該模型的性能越好。
(9)
式中:na為真異類的個數(shù);nn為真正類的個數(shù);S為降序排列所有檢測值的異常分數(shù)值中真異類的排序數(shù)值總和。
評價算法的執(zhí)行效率首先要分析各個算法時間復(fù)雜度的理論值,然后在同一軟硬件配置環(huán)境下執(zhí)行算法,根據(jù)運行時間對算法的執(zhí)行效率進行定量評價。
首先采用標準數(shù)據(jù)集Shuttle、Satellite與Annthyroid,對改進的孤立森林算法、孤立森林算法、SCiForest和ReMa-iFoest進行有效性分析。不同算法在不同標準數(shù)據(jù)集上的ROC曲線如圖3所示。從圖3可以看出,4種算法均能較好地識別標準數(shù)據(jù)集中的異常數(shù)據(jù),但經(jīng)改進的孤立森林算法的ROC曲線更靠近圖的左上方,在4種算法中效果最好,這是由于本文改進的孤立森林算法結(jié)合分裂準則與相對質(zhì)量方法,使其結(jié)果更優(yōu)。
采用AUC值定量評價模型效果,從而直觀地表示模型的優(yōu)劣。模型在標準數(shù)據(jù)集上計算的AUC值見表2(前3行)。由表2可知,本文所提出的改進的孤立森林算法在3個標準數(shù)據(jù)集上的異常檢測準確度均高于其他3種算法,這主要是因為改進的算法在樹模型的建立中引入了最優(yōu)超平面,一方面能夠考慮數(shù)據(jù)點的多維屬性,提高了樹模型的精度;另一方面最優(yōu)的超平面能夠最大程度地將一組數(shù)據(jù)點分割成兩組離散度最小的數(shù)據(jù)集,將掩蓋在正常數(shù)據(jù)下的局部離群數(shù)據(jù)有效地孤立出來。在數(shù)據(jù)點遍歷孤立樹的過程中,采用相對質(zhì)量的算法計算異常分數(shù),利用了異常點少而特殊的特點,在數(shù)據(jù)中過早被孤立出來的數(shù)據(jù)則擁有越小的相對質(zhì)量。利用相對質(zhì)量來計算異常分數(shù),能夠更直觀地找到隱藏在全局正常數(shù)據(jù)中的異常數(shù)據(jù)點。
綜合分析表1、表2可以看出,對于不存在局部異常數(shù)據(jù)的Shuttle數(shù)據(jù)集來說,4種算法在該數(shù)據(jù)上的表現(xiàn)都能達到0.99以上,這是由于孤立森林算法在處理大數(shù)據(jù)集上表現(xiàn)優(yōu)秀,其建立的樹模型能夠快速、準確地對數(shù)據(jù)點進行分類。然而,對于另外3種數(shù)據(jù)集,孤立森林算法自身的缺陷就暴露出來。由于算法在前期的樹模型構(gòu)建過程中用到的子樣本是通過對原始樣本集隨機采樣而來,并且在異常分數(shù)檢測過程中,根據(jù)路徑來計算異常程度,這兩者都導(dǎo)致在異常檢測時,局部數(shù)據(jù)中表現(xiàn)異常的數(shù)據(jù)被放到全局來觀測而很可能被誤判為正常。對于數(shù)據(jù)中存在局部異常數(shù)據(jù)點但數(shù)據(jù)屬性較少的數(shù)據(jù)集Satellite來說,改進的孤立森林算法的AUC值略高于其他3種算法。對于數(shù)據(jù)中存在局部異常數(shù)據(jù)點但數(shù)據(jù)屬性較多的數(shù)據(jù)集Annthyroid來說,改進的孤立森林算法的AUC值明顯高于其他算法,這是由于改進的孤立森林算法能夠在檢測局部異常數(shù)據(jù)點的同時考慮數(shù)據(jù)點的多種屬性,提高了模型的檢測精度。
圖3 不同算法在不同數(shù)據(jù)集上的ROC曲線Fig.3 ROC curves of different algorithms on different data sets
表2 不同算法在不同數(shù)據(jù)集上的AUC值Tab.2 AUC values of different algorithms on different data sets
采用程序的運行時間評價改進的孤立森林算法、孤立森林算法、SCiForest及ReMa-iForest的執(zhí)行效率。不同的算法在不同數(shù)據(jù)集上的運行時間見表3。
表3 不同算法在不同數(shù)據(jù)集的運行時間Tab.3 Time consumption of different algorithms on different data sets單位:s
從表3可以看出,ReMa-iForest 算法的運行時間明顯低于改進的孤立森林算法、孤立森林算法及SCiForest。這是由于ReMa-iForest 沒有通過計算葉子節(jié)點與根結(jié)點的平均距離來計算異常分數(shù),而是根據(jù)數(shù)據(jù)所在的葉子節(jié)點的相對質(zhì)量數(shù)來計算。同時,ReMa-iForest 樹模型建立過程中,葉子節(jié)點數(shù)小于5 即可結(jié)束樹的建立,這樣既減少了樹模型的高度也減少了遍歷樹所用的時間。而SCiForest的運行時間較其他3種算法來說都偏長,這是由于SCiForest 不僅在分裂節(jié)點添加了隨機超平面,還需要對隨機超平面進行判斷選出最優(yōu)超平面,同時在數(shù)據(jù)點遍歷過程中,數(shù)據(jù)點需要先映射到超平面上再進行判斷,這一做法雖然有效提高了模型的精度,但卻降低了模型的執(zhí)行效率。本文提出的改進孤立森林算法綜合了SCiForest與ReMa-iForest的優(yōu)點,中和了二者的缺點,因此其計算時間介于兩者之間,既兼顧了算法的異常識別精度,又平衡了算法的執(zhí)行效率。
經(jīng)過理論分析可知,孤立森林算法在訓(xùn)練過程中訓(xùn)練t棵樹的時間復(fù)雜度為O(t(n+φ)log2(ψ)),測試階段測試n個數(shù)據(jù)點的時間復(fù)雜度為O(ntlog2(φ));SCiForest算法在訓(xùn)練過程中的時間復(fù)雜度為O(tτφ(qφ+log2(φ)+φ),測試階段的時間復(fù)雜度為O(qnφt);ReMa-iForest算法在訓(xùn)練過程中的時間復(fù)雜度為O(t(n+φ)log2(φ)),測試階段的時間復(fù)雜度為O(ntlog2(φ));改進的孤立森林算法在訓(xùn)練過程中的時間復(fù)雜度為O(tτφ(qφ+log2(φ)+φ)),測試階段的時間復(fù)雜度為O(ntlog2(φ))。從時間復(fù)雜度上來看,從小到大排序為:ReMa-iForest、孤立森林、改進的孤立森林、SCiForest算法。
經(jīng)過有效性分析與算法執(zhí)行效率分析之后,本文采用改進的孤立森林算法、孤立森林算法、SCiForest及ReMa-iForest對催化裂化裝置排污數(shù)據(jù)集進行了異常值檢測。數(shù)據(jù)測試集共包含500個數(shù)據(jù)樣本,30個異常數(shù)據(jù)樣本,470個正常數(shù)據(jù)樣本;模型閾值設(shè)置為0.12。4種算法在催化裂化裝置排污數(shù)據(jù)集上的ROC曲線見圖3(d),AUC值見表2(第4行)。由圖3(d)可以看出,4種算法在催化裂化裝置排污數(shù)據(jù)集上表現(xiàn)較好,ROC曲線均位于圖的左上角,仔細觀察可以發(fā)現(xiàn)改進的孤立森林方法的ROC曲線更加陡峭,結(jié)合表2中的AUC值可以看出,改進的孤立森林算法的識別效果在4種算法中表現(xiàn)最優(yōu)。改進的孤立森林算法在催化裂化裝置排污數(shù)據(jù)集上檢測出異常數(shù)據(jù)31個,其中真異數(shù)據(jù)29個,假異數(shù)據(jù)2個,異常數(shù)據(jù)識別效果如圖4所示。圖4(a)為模型的識別效果,即模型在數(shù)據(jù)集中檢測出的異常數(shù)據(jù)與真正異常數(shù)據(jù)的分布關(guān)系。圖4(b)為異常檢測模型的檢測效果,即模型檢測出的異常數(shù)據(jù)中真異值與假異值的分布關(guān)系。經(jīng)計算可知,模型在排污數(shù)據(jù)測試集上的異常數(shù)據(jù)識別率為96.66%(即模型檢測的真異數(shù)據(jù)占總體異常數(shù)據(jù)的比),異常數(shù)據(jù)檢測準確率為93.54%(即模型檢測的異常數(shù)據(jù)中真異數(shù)據(jù)的占比)。
圖4 催化裂化裝置排污數(shù)據(jù)異常識別效果Fig.4 Detection results of anomaly data in pollution emission data of FCCU
數(shù)據(jù)異常識別是數(shù)據(jù)分析中不可或缺的重要環(huán)節(jié)。本文對孤立森林算法進行了深入研究,結(jié)合了分裂準則與相對質(zhì)量對孤立森林算法進行了改進。采用標準數(shù)據(jù)集(Shuttle、Satellite、Annthyroid)對算法的異常識別效果進行了有效性分析,并與常見的異常數(shù)據(jù)識別算法(經(jīng)典的孤立森林方法、SCiForest、ReMa-iForest)進行了對比。采用改進的孤立森林算法對催化裂化裝置外排污染數(shù)據(jù)集進行了異常識別,對算法的有效性與執(zhí)行效率進行了分析,結(jié)果表明,無論在標準數(shù)據(jù)集還是催化裂化裝置排污數(shù)據(jù)集,改進的孤立森林算法均能在提高模型精確度的同時提高算法的執(zhí)行效率。本研究工作將為催化裂化裝置外排污染數(shù)據(jù)的異常識別方法提供有益參考,為后續(xù)的數(shù)據(jù)分析與處理提供數(shù)據(jù)支撐,為促進煉化企業(yè)污染物外排穩(wěn)定達標提供數(shù)據(jù)保障。