翁新龍,焦云強(qiáng),歐陽福生,王建平,邸雪梅
(1.華東理工大學(xué)化工學(xué)院石油加工研究所,上海 200237;2.石化盈科信息技術(shù)有限責(zé)任公司)
在石化企業(yè)中,循環(huán)冷卻水系統(tǒng)的腐蝕、結(jié)垢等問題嚴(yán)重影響生產(chǎn)裝置的正常運(yùn)行,造成經(jīng)濟(jì)損失和水資源浪費(fèi)[1]。針對(duì)冷卻水系統(tǒng)腐蝕與結(jié)垢問題的處理,主要是根據(jù)經(jīng)驗(yàn)通過向循環(huán)冷卻水系統(tǒng)中投加阻垢緩蝕劑、殺菌劑等藥劑來控制腐蝕和結(jié)垢。然而,該方法目前還不能根據(jù)水質(zhì)指標(biāo)的變化動(dòng)態(tài)地調(diào)整藥劑用量,一方面可能導(dǎo)致藥劑浪費(fèi),另一方面無法實(shí)時(shí)應(yīng)對(duì)水質(zhì)異常變化。判斷循環(huán)冷卻水系統(tǒng)腐蝕、結(jié)垢趨勢(shì)的主要方法有掛片失重法與監(jiān)測(cè)測(cè)試法[2]。其中,掛片失重法的采樣周期較長,一般需要1個(gè)月以上;監(jiān)測(cè)測(cè)試法以采用探頭監(jiān)測(cè)為主,受水質(zhì)影響其探頭極易損壞,維修成本高昂。因此,通過上述方法均較難獲得足夠判斷系統(tǒng)腐蝕、結(jié)垢趨勢(shì)的有效數(shù)據(jù)。為了提高數(shù)據(jù)利用水平、準(zhǔn)確判斷循環(huán)冷卻水系統(tǒng)的腐蝕、結(jié)垢狀況,亟待建立一套低成本、快速響應(yīng)的循環(huán)水腐蝕、結(jié)垢預(yù)測(cè)模型。
某石化企業(yè)對(duì)循環(huán)冷卻水系統(tǒng)腐蝕、結(jié)垢判斷完全依賴現(xiàn)場(chǎng)操作經(jīng)驗(yàn),王鐵強(qiáng)等[3]為克服這一弊端,運(yùn)用Matlab建立了預(yù)測(cè)該系統(tǒng)循環(huán)冷卻水水質(zhì)的NARX神經(jīng)網(wǎng)絡(luò)模型。機(jī)器學(xué)習(xí)算法的數(shù)據(jù)處理能力強(qiáng),是建立數(shù)據(jù)驅(qū)動(dòng)模型必不可少的工具。喻西崇等[4]采用Cvda-84規(guī)范、BP神經(jīng)網(wǎng)絡(luò)、改進(jìn)的Rumelhart方法和MBP神經(jīng)網(wǎng)絡(luò)4種不同方法分別對(duì)注水管道腐蝕速率進(jìn)行了預(yù)測(cè)。曹生現(xiàn)等[5]基于粒子群算法(PSO)的小波神經(jīng)網(wǎng)絡(luò)(WNN)建立了換熱器污垢熱阻和腐蝕速率的在線預(yù)測(cè)模型。李榮等[6]針對(duì)動(dòng)態(tài)水質(zhì)的預(yù)測(cè),提出了一種基于遺傳算法改進(jìn)的網(wǎng)絡(luò)模型方法。李超等[2]基于軟測(cè)量技術(shù)以及腐蝕結(jié)垢研究,設(shè)計(jì)研發(fā)了一套循環(huán)水腐蝕結(jié)垢在線預(yù)測(cè)系統(tǒng)。
然而,以上模型建模變量的選取多是依據(jù)操作經(jīng)驗(yàn),缺少理論依據(jù);而且,其預(yù)測(cè)結(jié)果的平均相對(duì)誤差(MAPE)均在10%以上、甚至高達(dá)20%以上,預(yù)測(cè)效果欠佳。模型建模變量的選取與模型預(yù)測(cè)的準(zhǔn)確性密切相關(guān),為了提高模型預(yù)測(cè)的準(zhǔn)確性和魯棒性,本研究基于某石化企業(yè)循環(huán)水系統(tǒng)的大量基礎(chǔ)水質(zhì)數(shù)據(jù),在有效監(jiān)控關(guān)鍵指標(biāo)的基礎(chǔ)上,采用最大互信息系數(shù)(MIC)[7]、Pearson相關(guān)系數(shù)[8]法在14個(gè)水質(zhì)指標(biāo)中尋找具有代表性和獨(dú)立性的參數(shù)作為建模變量,通過BP神經(jīng)網(wǎng)絡(luò)、KNN回歸和極端梯度提升(XGBoost)等機(jī)器學(xué)習(xí)算法建立循環(huán)水系統(tǒng)黏附速率和腐蝕速率的預(yù)測(cè)模型,對(duì)循環(huán)水系統(tǒng)可能出現(xiàn)的異常情況進(jìn)行預(yù)測(cè)預(yù)警。
從某石化企業(yè)實(shí)驗(yàn)室信息管理系統(tǒng)(LIMS)中采集了2020年1月至2022年12月的24個(gè)月循環(huán)冷卻水水質(zhì)指標(biāo),共計(jì)1 015組數(shù)據(jù)。受現(xiàn)場(chǎng)因素的影響,取得的原始水質(zhì)分析數(shù)據(jù)往往存在各種問題,需要進(jìn)行預(yù)處理,剔除噪聲大、存在較大偏差的數(shù)據(jù),并根據(jù)工作經(jīng)驗(yàn)刪除部分不符合實(shí)際情況的數(shù)據(jù);同時(shí),結(jié)合LIMS系統(tǒng)歷史樣本的分布區(qū)間及其水質(zhì)標(biāo)準(zhǔn),運(yùn)用箱線圖[9-10]檢測(cè)各水質(zhì)指標(biāo)的異常值(設(shè)定異常值范圍在箱線圖內(nèi)限之外),對(duì)出現(xiàn)無效值、缺失值或離群值過多的變量予以刪除或進(jìn)行異常值替換。
經(jīng)過數(shù)據(jù)預(yù)處理,保留了899組數(shù)據(jù)樣本以及14個(gè)水質(zhì)性質(zhì)指標(biāo):鈣含量、化學(xué)耗氧量(COD)、氯含量、總磷含量、游離氯濃度、正磷含量、鋅離子濃度、濁度、總堿度、氨氮含量、pH、電導(dǎo)率、腐蝕速率(FSSL)和黏附速率(NFSL)。
其中,FSSL指循環(huán)水管道金屬表層的年平均腐蝕厚度[6],表征循環(huán)冷卻水對(duì)管道的腐蝕速率,其計(jì)算見式(1),單位為mm/a。
(1)
式中:G為試件腐蝕后減少的質(zhì)量,g;A為試驗(yàn)管內(nèi)表面面積,cm2;S為試樣腐蝕面積,cm2;D為金屬密度,g/cm3。
NFSL指循環(huán)水管道內(nèi)部單位面積年平均沉積污垢的增長量[6],其計(jì)算見式(2),單位為mg/(cm2·a)。
(2)
式中:G1為試驗(yàn)管試驗(yàn)后的質(zhì)量,mg;G2為試驗(yàn)管試驗(yàn)去除污垢后質(zhì)量,mg;T為試驗(yàn)時(shí)間,d。
此外,按照機(jī)器學(xué)習(xí)方法建模的要求,對(duì)所有變量數(shù)據(jù)進(jìn)行歸一化處理[11],降低不同變量數(shù)據(jù)因數(shù)量級(jí)的差異而影響預(yù)測(cè)結(jié)果的準(zhǔn)確性。歸一化處理后的數(shù)據(jù)樣本作為預(yù)測(cè)模型的輸入數(shù)據(jù),以保證機(jī)器學(xué)習(xí)算法的速度和精度。
1.2.1最大互信息系數(shù)
經(jīng)過數(shù)據(jù)預(yù)處理后,保留了14個(gè)水質(zhì)指標(biāo)變量。由于仍存在部分輸入變量與目標(biāo)變量間相關(guān)性很低、變量間獨(dú)立性差、存在冗余變量等情況,因此,還需對(duì)保留的水質(zhì)指標(biāo)進(jìn)行選擇。特征變量選擇是指從已知特征中選取隱含信息量較大的特征以減少數(shù)據(jù)集維度的方法,其能有效提高模型的效率。采用最大互信息系數(shù)衡量14個(gè)水質(zhì)指標(biāo)與預(yù)測(cè)目標(biāo)變量間的相關(guān)性強(qiáng)弱,進(jìn)而找到具有代表性的特征變量。將保留的14個(gè)水質(zhì)指標(biāo)的數(shù)據(jù)樣本經(jīng)過歸一化后,以FSSL和NFSL為目標(biāo)變量,分別計(jì)算其他12個(gè)水質(zhì)指標(biāo)與目標(biāo)變量間的MIC值,結(jié)果見表1。
表1 各水質(zhì)指標(biāo)與FSSL和NFSL之間的MIC值
為了使模型具有說服力,應(yīng)保留大部分有效變量;而為了提高模型模擬效率,需要精簡建模變量。綜合分析發(fā)現(xiàn),當(dāng)MIC在0.3以上時(shí),相關(guān)指標(biāo)之間具有較高的相關(guān)性[7]。因此,針對(duì)FSSL預(yù)測(cè)建模,需要精簡掉MIC小于0.3的指標(biāo),但由于要保留更多的有效變量,將MIC值接近0.3的氯含量和鋅離子濃度2個(gè)指標(biāo)保留,去掉總堿度、電導(dǎo)率和濁度3個(gè)指標(biāo),最終留下鈣含量、COD、氯含量、總磷含量、游離氯濃度、正磷含量、鋅離子濃度、氨氮含量、pH總共9個(gè)指標(biāo)。同理,針對(duì)NFSL預(yù)測(cè)建模,去掉COD、濁度和pH 3個(gè)指標(biāo),最后留下鈣含量、氯含量、總磷含量、游離氯濃度、正磷含量、鋅離子濃度、氨氮含量、總堿度和電導(dǎo)率總共9個(gè)指標(biāo)。
1.2.2Pearson相關(guān)性分析
為了解決輸入變量之間的多重共線性問題,篩選出獨(dú)立性較強(qiáng)的建模變量,利用Python平臺(tái)通過Pearson相關(guān)系數(shù)(r)法對(duì)上述保留輸入變量間的相關(guān)性進(jìn)行分析,結(jié)果見圖1。研究表明,當(dāng)r絕對(duì)值大于0.6時(shí),變量間線性相關(guān)性顯著,只保留其一即可[8]。由圖1可知:對(duì)于目標(biāo)變量FSSL預(yù)測(cè)模型,各輸入變量間的r絕對(duì)值均小于0.6,故保留所有輸入變量;而對(duì)于目標(biāo)變量NFSL預(yù)測(cè)模型,r絕對(duì)值大于0.6的輸入變量只有電導(dǎo)率,故將其剔除。
圖1 FSSL與NFSL預(yù)測(cè)模型輸入變量間的Pearson相關(guān)性分析
綜合MIC和r的分析結(jié)果,最終確定針對(duì)目標(biāo)變量FSSL預(yù)測(cè)模型的輸入變量共9個(gè),分別為鈣含量、COD、氯含量、總磷含量、游離氯濃度、正磷含量、鋅離子濃度、氨氮含量、pH;針對(duì)目標(biāo)變量NFSL預(yù)測(cè)模型的輸入變量共8個(gè),分別為鈣含量、氯含量、總磷含量、游離氯濃度、正磷含量、鋅離子濃度、氨氮含量、總堿度。
分別采用BP神經(jīng)網(wǎng)絡(luò)、KNN回歸和XGBoost 3種機(jī)器學(xué)習(xí)算法,建立的循環(huán)水系統(tǒng)以FSSL和NFSL為目標(biāo)變量的預(yù)測(cè)模型。將預(yù)處理后的899組數(shù)據(jù)樣本按照4∶1的比例隨機(jī)劃分成訓(xùn)練集和測(cè)試集,用于所建模型的訓(xùn)練和測(cè)試,用于模型評(píng)價(jià)的指標(biāo)有均方誤差(MSE)、擬合決定系數(shù)(R2)和MAPE。依據(jù)客戶對(duì)循環(huán)水系統(tǒng)腐蝕和結(jié)垢程度的預(yù)警要求,其FSSL和NFSL的預(yù)警限值分別設(shè)定為0.7 mm/a和10.8 mg/(cm2·a)。899組數(shù)據(jù)樣本中,FSSL和NFSL超出預(yù)警限值的數(shù)據(jù)樣本分別有95組和39組。
BP人工神經(jīng)網(wǎng)絡(luò)是最常用、最成熟的神經(jīng)網(wǎng)絡(luò)之一[12]。其包含輸入層、隱含層和輸出層,其中隱含層可以有多層。其計(jì)算主要分兩個(gè)階段:一是信號(hào)的前向傳播;二是誤差的反向傳遞[13]。通常具有單隱含層的網(wǎng)絡(luò)可以映射出所有的連續(xù)函數(shù),只有映射函數(shù)不連續(xù)時(shí)才會(huì)考慮設(shè)計(jì)多個(gè)隱含層[14]。
本研究采用3層結(jié)構(gòu)BP神經(jīng)網(wǎng)絡(luò)建立循環(huán)水系統(tǒng)FSSL和NFSL的預(yù)測(cè)模型。激活函數(shù)采用ReLU函數(shù)[15]。建立神經(jīng)網(wǎng)絡(luò)模型的關(guān)鍵是確定隱含層神經(jīng)元數(shù),隱含層神經(jīng)元數(shù)計(jì)算見式(3)。
(3)
式中:H為隱含層神經(jīng)元數(shù);m為輸入層神經(jīng)元數(shù);n為輸出層神經(jīng)元數(shù);L為1~10區(qū)間內(nèi)的一個(gè)可調(diào)常數(shù)。
對(duì)于FSSL和NFSL預(yù)測(cè)模型,由式(3)得到隱藏層神經(jīng)元數(shù)為4~13。因此,分別建立隱含層神經(jīng)元數(shù)為4~13的BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,將數(shù)據(jù)導(dǎo)入模型中,在相同的初始權(quán)值和參數(shù)(激活函數(shù)為ReLU函數(shù),迭代次數(shù)為1 000,損失函數(shù)為MSE,優(yōu)化方法采用動(dòng)量法,學(xué)習(xí)率設(shè)定為0.1)下進(jìn)行訓(xùn)練,并比較每次計(jì)算結(jié)果的MSE和R2,結(jié)果見圖2。從圖2可知:對(duì)于FSSL模型,隱含層神經(jīng)元數(shù)為8~12時(shí)對(duì)應(yīng)的MSE最小,但其相差不大;而隱含層神經(jīng)元數(shù)為10時(shí),訓(xùn)練結(jié)果的R2最大。同理可知,NFSL預(yù)測(cè)模型的最佳隱含層神經(jīng)元數(shù)為7。因此,基于BP神經(jīng)網(wǎng)絡(luò)方法建立的FSSL和NFSL預(yù)測(cè)模型的結(jié)構(gòu)分別為9-10-1和8-7-1。
圖2 隱含層神經(jīng)元數(shù)與預(yù)測(cè)模型MSE和R2的關(guān)系
圖3為基于BP神經(jīng)網(wǎng)絡(luò)的FSSL和NFSL預(yù)測(cè)模型在測(cè)試集數(shù)據(jù)的擬合結(jié)果,圖中綠色線為預(yù)警限值。從圖3可以看出,兩預(yù)測(cè)模型預(yù)測(cè)值與實(shí)際值的擬合效果較好。
圖3 BP神經(jīng)網(wǎng)絡(luò)模型對(duì)測(cè)試集的FSSL以及NFSL的預(yù)測(cè)結(jié)果
KNN回歸算法[16]是一種有監(jiān)督的學(xué)習(xí)算法,具有簡單易實(shí)現(xiàn)、實(shí)時(shí)性好、計(jì)算效率高等優(yōu)點(diǎn)?;跀?shù)值相似的KNN回歸算法依據(jù)近鄰狀態(tài)歐式距離最小進(jìn)行回歸預(yù)測(cè)[17],其選取數(shù)值上最為近似的k個(gè)近鄰樣本,將這些樣本的加權(quán)平均值當(dāng)作預(yù)測(cè)結(jié)果。該算法主要包括以下3個(gè)步驟:
(1)最佳k值的選取
不同的k值對(duì)模型預(yù)測(cè)的準(zhǔn)確性有較大的影響。若k值偏小,則可能會(huì)造成模型過擬合;反之,則可能造成模型欠擬合。為了選取最佳k值,在不同的k值下構(gòu)建KNN水質(zhì)預(yù)測(cè)模型,模型MSE最小時(shí)對(duì)應(yīng)的k值即為最佳k值,結(jié)果見圖4。
圖4 FSSL和NFSL模型的MSE與k的變化關(guān)系
由圖4可見:FSSL預(yù)測(cè)模型的最佳近鄰樣本數(shù)為7;NFSL預(yù)測(cè)模型的最佳近鄰樣本數(shù)為3或5,但比較發(fā)現(xiàn),k=3時(shí)的模型R2=0.846,而k=5下的模型R2=0.812,前者擬合效果更好,故NFSL預(yù)測(cè)模型的最佳近鄰數(shù)為3。
(2)相似性度量方法選取
在樣本數(shù)據(jù)有限的情況下,k近鄰樣本的選取結(jié)果和距離度量方式有直接關(guān)系。一般來說,選擇歐式距離作為相似性判定指標(biāo)可以滿足要求,見式(4)。
(4)
式中:Ui為數(shù)值相似預(yù)測(cè)方法的第i個(gè)樣本的狀態(tài)向量;uj(i)為Ui的第j個(gè)元素值;V為數(shù)值相似預(yù)測(cè)的待預(yù)測(cè)時(shí)間點(diǎn)的狀態(tài)向量;vj為V的第j個(gè)元素值。
(3)預(yù)測(cè)值計(jì)算
基于KNN回歸方法,利用最佳k值分別構(gòu)建FSSL和NFSL的預(yù)測(cè)模型,模型對(duì)測(cè)試集數(shù)據(jù)樣本的預(yù)測(cè)值與實(shí)際值對(duì)比結(jié)果見圖5,圖中綠色線為預(yù)警限值。從圖5可見,兩個(gè)預(yù)測(cè)模型預(yù)測(cè)值與實(shí)際值的擬合效果均較好。
圖5 KNN模型對(duì)測(cè)試集的FSSL與NFSL的預(yù)測(cè)結(jié)果
XGBoost是基于回歸樹的提升算法[18]。為了得到預(yù)測(cè)性能更佳的模型,需要對(duì)相關(guān)參數(shù)進(jìn)行尋優(yōu)和選擇。
(1)損失函數(shù)的選擇
XGBoost建模常用的損失函數(shù)L包括對(duì)數(shù)損失函數(shù)和平方損失函數(shù)兩種[19]。對(duì)數(shù)損失函數(shù)用于分類任務(wù),而平方損失函數(shù)用于回歸任務(wù)。本文建立的模型為回歸預(yù)測(cè)模型,故建模損失函數(shù)選擇平方損失函數(shù)。
(2)回歸樹個(gè)數(shù)的選擇
回歸樹個(gè)數(shù)(J)代表XGBoost模型的復(fù)雜程度,J過大,則模型會(huì)復(fù)雜化,易導(dǎo)致模型過擬合;J過小,則模型簡單,易導(dǎo)致模型擬合不足。圖6展示了針對(duì)目標(biāo)變量FSSL構(gòu)建的XGBoost模型的R2與J的變化關(guān)系。從圖6可以看出:當(dāng)J增加到80時(shí),R2達(dá)到最大;當(dāng)J繼續(xù)增大時(shí),R2不再增大。因此,XGBoost模型回歸樹數(shù)量優(yōu)選80個(gè)。
圖6 R2隨J的變化關(guān)系
(3)回歸樹的最大深度和子節(jié)點(diǎn)的最小分裂閾值的選擇
回歸樹的最大深度(Ψ)用于調(diào)節(jié)單個(gè)回歸樹節(jié)點(diǎn)分裂的深度,Ψ值越大,模型越傾向于學(xué)習(xí)更局部的樣本,越容易出現(xiàn)過擬合。子節(jié)點(diǎn)的最小分裂閾值(Ω)用來控制子節(jié)點(diǎn)分裂。若子節(jié)點(diǎn)的權(quán)重小于Ω,則其停止分裂。Ω較大時(shí),可以防止模型僅限于學(xué)習(xí)局部特殊樣本。
Ψ和Ω之間會(huì)相互影響,對(duì)其進(jìn)行網(wǎng)格搜索法尋優(yōu),結(jié)果見圖7。由圖7可知,當(dāng)Ψ為7、Ω為3時(shí),針對(duì)目標(biāo)變量FSSL模型的R2最大,故Ψ和Ω分別選擇7和3。
圖7 R2隨Ψ和Ω的變化關(guān)系
(4)正則化系數(shù)的選擇
合理設(shè)定正則化項(xiàng),可以避免模型過擬合。γ為回歸樹上的葉子節(jié)點(diǎn)數(shù)目的L1正則化系數(shù),λ為葉子權(quán)重的L2正則化系數(shù),對(duì)其采用網(wǎng)格搜索法尋優(yōu),結(jié)果見圖8。由圖8可知,當(dāng)γ為0、λ為1時(shí),針對(duì)目標(biāo)變量FSSL模型的R2達(dá)到最大值,故γ和λ最優(yōu)值分別為0和1。
圖8 R2隨γ和λ的變化關(guān)系
同理,對(duì)NFSL的XGBoost模型重要參數(shù)進(jìn)行尋優(yōu),XGBoost模型主要參數(shù)尋優(yōu)結(jié)果見表2。
按照表2尋優(yōu)參數(shù)分別建立FSSL和NFSL的XGBoost預(yù)測(cè)模型,其對(duì)測(cè)試集數(shù)據(jù)樣本的預(yù)測(cè)效果見圖9,圖中綠色線為預(yù)警限值。從圖9可以看出,兩個(gè)預(yù)測(cè)模型預(yù)測(cè)值與實(shí)際值的擬合效果較好。
圖9 針對(duì)FSSL與NFSL的XGBoost模型對(duì)測(cè)試集數(shù)據(jù)樣本的預(yù)測(cè)結(jié)果
綜合3種模型的預(yù)測(cè)精準(zhǔn)性的分析結(jié)果見表3。從表3可以看出,3種模型的預(yù)測(cè)值與實(shí)際值擬合效果較好,其MAPE均在9%以下,性能均優(yōu)于文獻(xiàn)[1-7,14]中的模型,其中基于XGBoost方法所建模型的MAPE最小,均在5%以下,R2最大,均在0.9以上,因而表現(xiàn)出最佳的擬合效果和泛化能力。
表3 3種模型預(yù)測(cè)精準(zhǔn)性評(píng)價(jià)結(jié)果對(duì)比
將圖3、圖5和圖9中3種FSSL和NFSL預(yù)測(cè)模型對(duì)測(cè)試集數(shù)據(jù)樣本預(yù)測(cè)值超出預(yù)警值的個(gè)數(shù)(X)與樣本實(shí)際值超過預(yù)警值的個(gè)數(shù)(Y)進(jìn)行結(jié)合,可以計(jì)算出3種FSSL和NFSL預(yù)測(cè)模型各自的預(yù)警準(zhǔn)確率(Z);進(jìn)而,也分別計(jì)算了模型對(duì)訓(xùn)練集數(shù)據(jù)樣本的預(yù)警效果(對(duì)應(yīng)的X,Y,Z),詳見表4和表5。從表4可以看出,XGBoost模型預(yù)警準(zhǔn)確率最高,其對(duì)目標(biāo)變量FSSL的訓(xùn)練集和測(cè)試集預(yù)警準(zhǔn)確率均在90%以上,而對(duì)NFSL的預(yù)警準(zhǔn)確率達(dá)100%。這表明,采用XGBoost方法建立的循環(huán)冷卻水系統(tǒng)FSSL和NFSL預(yù)測(cè)模型,可以為該系統(tǒng)的腐蝕、結(jié)垢預(yù)警提供重要指導(dǎo)。
表4 3種預(yù)測(cè)模型對(duì)FSSL的預(yù)警效果
(1)基于LIMS系統(tǒng)采集的包含24個(gè)月水質(zhì)化驗(yàn)指標(biāo)的1 015組數(shù)據(jù),運(yùn)用箱線圖等方法進(jìn)行了數(shù)據(jù)預(yù)處理,得到保留14個(gè)水質(zhì)指標(biāo)的899組有效數(shù)據(jù)樣本。
(2)采用最大互信息系數(shù)和Pearson相關(guān)系數(shù)法,從14個(gè)水質(zhì)指標(biāo)中進(jìn)行特征變量選擇,針對(duì)以FSSL和NFSL為目標(biāo)變量預(yù)測(cè)模型,分別篩選出9個(gè)和8個(gè)輸入變量,為模型的建立奠定了基礎(chǔ)。
(3)分別采用BP神經(jīng)網(wǎng)絡(luò)、KNN回歸和XGBoost機(jī)器學(xué)習(xí)算法建立了FSSL和NFSL預(yù)測(cè)模型,經(jīng)驗(yàn)證,3種模型均具有較好的擬合效果和泛化能力,其對(duì)FSSL的預(yù)警準(zhǔn)確率分別為83.3%,82.6%,91.7%,對(duì)NFSL的預(yù)警準(zhǔn)確率分別為87.5%,85.7%,100%。3種模型中,基于XGBoost方法所建模型的性能最佳,可為石化企業(yè)循環(huán)冷卻水系統(tǒng)的良好運(yùn)行提供及時(shí)、有效的指導(dǎo)。