唐振浩 吳笑妍 曹生現(xiàn)
摘要:針對(duì)電站鍋爐效率難以準(zhǔn)確測(cè)定問(wèn)題,依據(jù)機(jī)器學(xué)習(xí)理論,采用數(shù)據(jù)驅(qū)動(dòng)建模方法建立鍋爐效率預(yù)測(cè)模型。分類回歸樹(shù)(CART)算法通過(guò)數(shù)據(jù)分析選取對(duì)鍋爐效率影響顯著的相關(guān)變量。然后,K最近鄰(KNN)分類器對(duì)相關(guān)變量的樣本進(jìn)行分類,區(qū)分不同工況生產(chǎn)數(shù)據(jù)。根據(jù)不同工況數(shù)據(jù),設(shè)計(jì)了一種基于差分進(jìn)化算法(DE)的最小二乘支持向量機(jī)(LSSVM)建立數(shù)據(jù)驅(qū)動(dòng)模型(DDMMF)。DE動(dòng)態(tài)優(yōu)化15SVM的參數(shù)以提高模型精度。最后,對(duì)預(yù)測(cè)模型進(jìn)行動(dòng)態(tài)修正進(jìn)一步提高預(yù)測(cè)精度?;趯?shí)際生產(chǎn)數(shù)據(jù)的實(shí)驗(yàn)結(jié)果表明,該模型能夠準(zhǔn)確預(yù)測(cè)鍋爐燃燒效率,滿足鍋爐燃燒過(guò)程控制和優(yōu)化的需求。
關(guān)鍵詞:特征選取;K最近鄰分類器;數(shù)據(jù)驅(qū)動(dòng)模型;模型修正;鍋爐燃燒效率
DOI:10.15938/j.jhust.2020.02.001
中圖分類號(hào):TT274;TM621;TM31文獻(xiàn)標(biāo)志碼:A文章編號(hào):1007-2683(2020)02-0001-07
0 引言
燃煤鍋爐在實(shí)際運(yùn)行過(guò)程中的鍋爐效率低于設(shè)計(jì)值,不僅降低生產(chǎn)效率,而且影響鍋爐的安全運(yùn)行。鍋爐生產(chǎn)過(guò)程具有多參數(shù)、多工況、非線性等特點(diǎn),難以準(zhǔn)確建立鍋爐效率預(yù)測(cè)模型。因此,本文對(duì)鍋爐燃燒效率建模方法進(jìn)行研究。
已有的鍋爐燃燒效率建模方法可以簡(jiǎn)單概括為3類:機(jī)理、統(tǒng)計(jì)以及數(shù)據(jù)驅(qū)動(dòng)方法。機(jī)理方法、統(tǒng)計(jì)方法在一定程度上不適合直接應(yīng)用到鍋爐效率的控制與優(yōu)化過(guò)程中。因此,數(shù)學(xué)驅(qū)動(dòng)方法被應(yīng)用于鍋爐效率預(yù)測(cè)中。LSSVM算法具有計(jì)算效率高、需要樣本少等優(yōu)點(diǎn),其參數(shù)對(duì)其建模精度具有顯著影響,因此,本文采用差分進(jìn)化(DE)算法優(yōu)化LSSVM的參數(shù)提高模型預(yù)測(cè)精度。為了進(jìn)一步提高預(yù)測(cè)模型的精度,本文設(shè)計(jì)一種動(dòng)態(tài)誤差校正策略在線修正預(yù)測(cè)結(jié)果,取得良好效果。
在DE-LSSVM建模過(guò)程,由于輸入?yún)?shù)多,導(dǎo)致建模過(guò)程的規(guī)模和復(fù)雜性較大。解決這一問(wèn)題的主要方法是在建模之前對(duì)輸入變量進(jìn)行選取。由Breiman等提出的分類回歸樹(shù)(CART)方法可以獲取影響鍋爐效率重要因素,克服了其他特征選取方法的不足。另外,考慮到鍋爐生產(chǎn)過(guò)程受電網(wǎng)負(fù)荷影響,存在多工況運(yùn)行的情況,本文采用KNN方法,對(duì)生產(chǎn)數(shù)據(jù)進(jìn)行聚類分析,區(qū)分不同工況下生產(chǎn)數(shù)據(jù),分別進(jìn)行建模,提高鍋爐效率預(yù)測(cè)精度。
在本文中,采用CART算法通過(guò)數(shù)據(jù)分析選取影響鍋爐燃燒效率的重要變量。并采用KNN分類器對(duì)樣本數(shù)據(jù)進(jìn)行分類,區(qū)分不同工況下的生產(chǎn)數(shù)據(jù)。在此基礎(chǔ)上,設(shè)計(jì)了一種基于DE-LSSVM建立數(shù)據(jù)驅(qū)動(dòng)模型。最后,本文對(duì)預(yù)測(cè)模型進(jìn)行動(dòng)態(tài)修正進(jìn)一步提高預(yù)測(cè)精度。采用實(shí)際生產(chǎn)數(shù)據(jù)的實(shí)驗(yàn)結(jié)果表明,與多層感知機(jī)(MLP)、BP神經(jīng)網(wǎng)絡(luò)(BPNN)、差異進(jìn)化算法優(yōu)化的最小二乘支持向量機(jī)(DE-LSSVM)方法相比,本文提出的算法具有較好的泛化能力和預(yù)測(cè)精度。
1 基礎(chǔ)算法
1.1最小二乘支持向量機(jī)
LSSVM是在標(biāo)準(zhǔn)SVM基礎(chǔ)上,由Sukens等提出。相較于SVM,LSSVM求解問(wèn)題的速度以及收斂精度有很大的提高。假設(shè)給定一個(gè)N個(gè)樣本的訓(xùn)練集合{(xk,yk)|k=1,2,…,N},其中xk∈R表示第k個(gè)樣本輸入量;yk∈R表示第k個(gè)樣本輸出。由參考文可得到LSSVM非線性預(yù)測(cè)模型:
已有研究表明徑向基核函數(shù)(RBF)具有較強(qiáng)的泛化能力,因此本文選取RBF作為L(zhǎng)SSVM的內(nèi)核函數(shù),其表達(dá)為:
其中:x為新輸入樣本;xk為核函數(shù)中心;δ2是內(nèi)核參數(shù)。
1.2 差分進(jìn)化算法
差分進(jìn)化(Differential Evolution,DE)是RStorn和K。Price在1995年所提出的。該算法基本原理是通過(guò)群體內(nèi)個(gè)體間的合作與競(jìng)爭(zhēng)產(chǎn)生的群體智能指導(dǎo)優(yōu)化搜索。在典型的DE算法中,每一代的種群演化是由變異,交叉和選擇3個(gè)主要步驟組成,如式(3-5)所示:
2 鍋爐燃燒效率建模
在數(shù)據(jù)準(zhǔn)備階段中,本文首先采用CART從眾多變量中選取對(duì)鍋爐燃燒效率顯著相關(guān)的特征(2.1節(jié));然后KNN分類器將新的數(shù)據(jù)進(jìn)行工況分類(2.2節(jié)),將分成兩類的工況數(shù)據(jù)分別采用DE動(dòng)態(tài)優(yōu)化的LSSVM混合建模(2.3節(jié));并且在此基礎(chǔ)上進(jìn)行模型修正(2.4節(jié)),提高預(yù)測(cè)精度。
2.1 特征選取
CART是基于基尼系數(shù)gini實(shí)現(xiàn),采用gini系數(shù)衡量數(shù)據(jù)集的劃分效果,將數(shù)據(jù)集依照評(píng)分標(biāo)準(zhǔn)進(jìn)行分類。假設(shè)數(shù)據(jù)集T中的因變量存在n個(gè)類別,則數(shù)據(jù)集T的基尼系數(shù)如公式如(6)所示:
其中,T代表當(dāng)前樣本集;n為類別數(shù);Pi為數(shù)據(jù)集樣本不同類別的概率。
對(duì)于變量應(yīng)在式(7)基礎(chǔ)上,計(jì)算每個(gè)類別的加權(quán)和,如式(9)所示:
其中:N為訓(xùn)練樣本集個(gè)數(shù);N1為第一類別樣本個(gè)數(shù);N2為第二類別樣本個(gè)數(shù);T為數(shù)據(jù)集;T1是第一數(shù)據(jù)集;T2是第二數(shù)據(jù)集。
當(dāng)數(shù)據(jù)集樣本不同類別概率的平方p2很小時(shí),說(shuō)明按照gs(T)最小原則得到的分類條件和類別是獨(dú)立,此時(shí)節(jié)點(diǎn)停止分裂。則變量重要性得分(Dr)與數(shù)據(jù)集樣本不同類別概率Pj關(guān)系,如公式(8)所示:
其中:n為類別數(shù);pj為數(shù)據(jù)集樣本不同類別的概率。
2.2 工況分類
KNN分類器主要由k值選取、距離度量方式和分類決策規(guī)則三要素組成。首先,KNN通過(guò)交叉驗(yàn)證對(duì)固定的樣本數(shù)據(jù)進(jìn)行k值選取。其次針對(duì)不同工況進(jìn)行距離測(cè)量函數(shù),與文類似,本文采用歐式距離計(jì)算工況相似度。Sim(d1,d2)表示兩組實(shí)際生產(chǎn)數(shù)據(jù)的相似度,如公式(9)所示。最后分類器依據(jù)工況分類將樣本數(shù)據(jù)分成兩類,并采用多數(shù)表決法將新數(shù)據(jù)進(jìn)行歸類,即KNN分類器通過(guò)訓(xùn)練集里的樣本數(shù)據(jù)將新的樣本數(shù)據(jù)進(jìn)行歸類,并使用相應(yīng)的模型進(jìn)行預(yù)測(cè)。
其中:W1i和W2i表示為2個(gè)n維向量的實(shí)際生產(chǎn)數(shù)據(jù)值;d1和d2為n維向量中相應(yīng)特征項(xiàng)的權(quán)重。
2.3 數(shù)學(xué)驅(qū)動(dòng)建模
本文采用DE來(lái)優(yōu)化選取LSSVM中的核函數(shù)δ。以及懲罰因子C。在DE-LSSVM算法中,LS-SVM根據(jù)DE粒子信息和建模數(shù)據(jù)構(gòu)建預(yù)測(cè)模型;DE算法根據(jù)LSSVM建立模型計(jì)算粒子適應(yīng)度函數(shù)值,通過(guò)不斷迭代獲取最優(yōu)參數(shù)組合。根據(jù)采用2.2方法進(jìn)行分類之后的數(shù)據(jù)分別進(jìn)行建模,建模過(guò)程如圖1所示。
具體流程如下所示:
Step l:初始化DE參數(shù),種群規(guī)模Np;最大迭代數(shù)Gm;縮放因子λ;并初始化代數(shù)G;將個(gè)體最優(yōu)解pij設(shè)置為初始個(gè)體值;將全局最優(yōu)解Pgi設(shè)置為第一代最優(yōu)個(gè)體值;
Step 2:根據(jù)個(gè)體信息,采用歸一化后的訓(xùn)練樣本構(gòu)建LSSVM模型,并計(jì)算各個(gè)個(gè)體的適應(yīng)度值。其適應(yīng)度值如(10)所示
其中:N表示測(cè)試樣本的數(shù)量;Yi為預(yù)期鍋爐燃燒效率;Yi是預(yù)測(cè)鍋爐燃燒效率;
Step 3:判斷是否達(dá)到最大迭代數(shù),如果是,則停止算法,獲取最優(yōu)參數(shù)C,λ2,并輸出預(yù)測(cè)模型;否則,繼續(xù)執(zhí)行步驟4;
Step 4:對(duì)個(gè)體變異、交叉、選擇操作,產(chǎn)生新的個(gè)體,迭代數(shù)C=G+1;執(zhí)行步驟2.
2.4 模型修正
模型在建模過(guò)程中會(huì)存在系統(tǒng)性偏差,使得預(yù)測(cè)值低于設(shè)計(jì)值。為了減少系統(tǒng)誤差對(duì)預(yù)測(cè)精度的影響,本文對(duì)混合LSSVM模型采用了模型修正,使得預(yù)測(cè)精度更加準(zhǔn)確,模型修正公式如(11)所示:其中:Yt是t時(shí)刻的模型校正值;Yt是t時(shí)刻的預(yù)測(cè)值;ω是0和1之間的常數(shù);△t是上一時(shí)刻的預(yù)測(cè)值與實(shí)際值的誤差值。Yt-1是t-1時(shí)刻的預(yù)測(cè)值;Yt-1是t-1時(shí)刻的實(shí)際值。
3 實(shí)驗(yàn)結(jié)果及分析
為了驗(yàn)證本文所提出算法的有效性,本節(jié)采用實(shí)際生產(chǎn)數(shù)據(jù)進(jìn)行相關(guān)實(shí)驗(yàn),驗(yàn)證本文提出的特征選取策略和工況分類策略的有效性;并且與MLP、BP神經(jīng)網(wǎng)絡(luò)等算法進(jìn)行比較,最后,對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。本實(shí)驗(yàn)仿真數(shù)據(jù)基于某電廠廠級(jí)監(jiān)控信息系統(tǒng)(SIS),每隔1min提取一組數(shù)據(jù),共收集35個(gè)變量(其中模型初始輸入變量34個(gè),輸出變量1個(gè)),640組實(shí)驗(yàn)數(shù)據(jù)(其中440組用來(lái)訓(xùn)練模型,其余的200組作為模型測(cè)試樣本)。樣本數(shù)據(jù)全部采用極差歸一化映射到[0,1],極差歸一化公式為其中:yj為按照時(shí)間序列排列的元素絕對(duì)值;yR是極差歸一化后的映射值。
本文全部實(shí)驗(yàn)在配備i5雙核Core(2.50GHz)處理器、內(nèi)存2.0GB以及Windows764位操作系統(tǒng)的PC上進(jìn)行,采有MA7LAB 2014a編程實(shí)現(xiàn)。
3.1 特征選取實(shí)驗(yàn)結(jié)果
本文采用CART方法以主蒸汽壓力、給水量以及總風(fēng)量等變量判斷輸入特征。根據(jù)式(8)求解的鍋爐燃燒效率相關(guān)重要性值得分,如圖2所示。最終選取15個(gè)特征變量,具體選取的輸入特征變量如表1所示。
3.2 評(píng)價(jià)指標(biāo)
本文使用建模誤差的統(tǒng)計(jì)量對(duì)建模結(jié)果進(jìn)行比較和評(píng)價(jià),如均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)、平均相對(duì)誤差(MRE)以及相關(guān)指數(shù)(R2)。RMSE是觀測(cè)值與真值偏差的平方,能夠很好地反映出測(cè)量的精密度,當(dāng)RMSE值越小,測(cè)量數(shù)據(jù)偏離真實(shí)值的程度越小,精密度越高。MAE是所有單個(gè)觀測(cè)值與算術(shù)平均值的偏差的平均絕對(duì)值,能夠比較準(zhǔn)確的反映預(yù)測(cè)誤差的大小,當(dāng)MAE越小,預(yù)測(cè)誤差越小,預(yù)測(cè)精度越高。MRE是絕對(duì)誤差與測(cè)量值或多次測(cè)量的平均值的比值的平均值,它能更好地反映測(cè)量的可信程度,當(dāng)值越小,預(yù)測(cè)可信度越高。R2表示預(yù)測(cè)值和原始值之間的匹配程度。當(dāng)R2越接近1,預(yù)測(cè)性能越準(zhǔn)確。
性能評(píng)判準(zhǔn)則的計(jì)算公式如式(13)-(16)所示:
3.3 工況分類實(shí)驗(yàn)結(jié)果
考慮到鍋爐生產(chǎn)過(guò)程存在多工況運(yùn)行的情況,導(dǎo)致單一模型難以準(zhǔn)確預(yù)測(cè)鍋爐燃燒效率,本文在CAR了算法篩選出相關(guān)變量后采用KNN方法,對(duì)生產(chǎn)數(shù)據(jù)進(jìn)行工況分成2類,區(qū)分不同工況下生產(chǎn)數(shù)據(jù),分別進(jìn)行建模,提高鍋爐效率預(yù)測(cè)精度,如圖3所示。圖3中(a)(b)分別為第一類的測(cè)試樣本和第二類測(cè)試樣本經(jīng)DE-LSSVM建模后所得的預(yù)測(cè)與實(shí)際對(duì)比圖。
從圖3可以看出該模型測(cè)試樣本中的實(shí)際值曲線與預(yù)測(cè)值曲線預(yù)測(cè)趨勢(shì)在允許誤差5%以內(nèi),這說(shuō)明模型預(yù)測(cè)精度高。將新的樣本數(shù)據(jù)采用歐式距離計(jì)算每一類質(zhì)心的距離,判斷新的樣本數(shù)據(jù)歸屬后,采用其相應(yīng)的模型進(jìn)行預(yù)測(cè),運(yùn)行后的相關(guān)性能如表2所示。從表2可以得出,采用KNN分類器作為樣本選取工具的相似系數(shù)較源模型提高了30%,運(yùn)行后得到的MRE減少31%。實(shí)驗(yàn)結(jié)果表明KNN算法的應(yīng)用提高了鍋爐效率建模的精度和計(jì)算效率。
3.4 與其他常用算法性能比較
本文提出的DDMMF算法預(yù)測(cè)結(jié)果的相關(guān)指數(shù)為0.986,而沒(méi)對(duì)模型修正KDLSSVM模型相關(guān)指數(shù)是O。946.采用MLP模型和BPNN模型,與DE-LSSVM模型與本文所提出的模型進(jìn)行預(yù)測(cè)性能比較。各個(gè)模型的對(duì)比結(jié)果如表2和圖4所示。從圖4可以看出,本文所提出DDMMF算法在預(yù)測(cè)鍋爐燃燒效率時(shí),預(yù)測(cè)值曲線幾乎與實(shí)際值重合,表明模型能夠較好地預(yù)測(cè)鍋爐燃燒效率,從表2可看出,MLP模型在對(duì)測(cè)試樣本進(jìn)行建模預(yù)測(cè)時(shí),RMSE較DDMMF模型降低了5.979,但模型的相關(guān)指數(shù)僅為0.754.BPNN模型在預(yù)測(cè)鍋爐燃燒效率時(shí),MRE、MAE以及RMSE都較所提出的DDMMF的性能指標(biāo)小,但該模型的相關(guān)指數(shù)較本文所提出的DDMMF降低了1.4%。增加工況分類KDLSSVM建模方法在對(duì)測(cè)試樣本進(jìn)行建模預(yù)測(cè)時(shí),MRE、MAE、RMSE分別較未工況分類的DE-LSSVM建模方法降低了21%、29%、10%,但相關(guān)指數(shù)較DDMMF降低了4%,而本文所提出的DDMMF除BPNN模型,對(duì)測(cè)試樣本的性能指標(biāo)都較其他所提及的模型小,且模型的相關(guān)指數(shù)達(dá)到了0.986,因此該模型較其他建模模型有著更好的擬合與預(yù)測(cè)能力。
為了進(jìn)一步對(duì)比各個(gè)模型的建模精度,繪制各個(gè)算法按預(yù)測(cè)誤差絕對(duì)值的箱型圖,如圖5所示。從圖5中明顯地看出所提出的DDMMF預(yù)測(cè)誤差較為集中在零點(diǎn)附近,較其他幾個(gè)建模模型相比,具有更好的預(yù)測(cè)精度。
綜上所述,本文對(duì)鍋爐效率建模過(guò)程的參數(shù)選取、樣本預(yù)處理、數(shù)據(jù)驅(qū)動(dòng)建模和模型校正4個(gè)環(huán)節(jié)進(jìn)行研究,設(shè)計(jì)了一個(gè)完整的鍋爐效率建模算法框架,并且各個(gè)環(huán)節(jié)對(duì)提高算法的整體計(jì)算效率和計(jì)算精度都有幫助作用。這一設(shè)計(jì)思路和方法也可以推廣到其他建模過(guò)程當(dāng)中。
4 結(jié)論
本文提出一種帶有特征選取的多工況數(shù)據(jù)驅(qū)動(dòng)建模方法(DDMMF)建立鍋爐效率預(yù)測(cè)模型。本算法以現(xiàn)場(chǎng)生產(chǎn)數(shù)據(jù)為基礎(chǔ),采用CART方法對(duì)輸入變量進(jìn)行特征選取,并通過(guò)KNN算法對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行工況分類,然后設(shè)計(jì)基于DE動(dòng)態(tài)優(yōu)化的LSSVM算法進(jìn)行建模,最后構(gòu)造自適應(yīng)模型修正算法進(jìn)行提高模型精度。與常用建模算法相比具有泛化性能強(qiáng)、預(yù)測(cè)精度高、計(jì)算效率快等優(yōu)點(diǎn)。此外,基于實(shí)際生產(chǎn)數(shù)據(jù)的實(shí)驗(yàn)結(jié)果表明,該算法更好的滿足實(shí)際生產(chǎn)過(guò)程的需要。下一步的研究將從算法在其他預(yù)測(cè)問(wèn)題上的推廣和算法改進(jìn)兩個(gè)方面開(kāi)展。