石 琳,劉文慧,曹富軍,王晉建
(1.內(nèi)蒙古科技大學(xué)理學(xué)院,內(nèi)蒙古 包頭 014010; 2.內(nèi)蒙古科技大學(xué)信息與工程學(xué)院,內(nèi)蒙古 包頭 014010)
煤氣利用率是反應(yīng)高爐煉鐵的能耗和順行的重要指標(biāo)之一。生產(chǎn)人員通過分析煤氣利用率的變化來調(diào)節(jié)高爐生產(chǎn),實現(xiàn)爐況的穩(wěn)定和低能耗。高爐冶煉過程是一個非線性、大滯后、強耦合的黑箱反應(yīng),涉及復(fù)雜的化學(xué)和物理反應(yīng)。近年來隨著人工智能技術(shù)、大數(shù)據(jù)技術(shù)、傳感器技術(shù)和計算機算力的發(fā)展,可以采集大量的高爐煉鐵過程的煤氣利用率數(shù)據(jù),利用機器學(xué)習(xí)技術(shù)對采集信息分析和建模,為工作人員調(diào)節(jié)高爐生產(chǎn)提供強有力的決策依據(jù)。
在高爐煤氣量相關(guān)的研究中,科研工作者開展了多種方法和多方位的分析預(yù)測。劉穎[1]提出改進的高斯過程回聲網(wǎng)絡(luò)對高爐煤氣發(fā)生量進行預(yù)測,李志剛[2]結(jié)合自回歸和LSTM對高爐煤氣產(chǎn)生量建模,結(jié)果表明建立的模型貼近實際生產(chǎn)。隨著神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展,孫雪瑩等[3-6]提出神經(jīng)網(wǎng)絡(luò)以及其變形模型結(jié)合啟發(fā)式優(yōu)化算法對高爐煤氣的消耗量、受入量、利用率進行預(yù)測,取得一定精度的預(yù)測結(jié)果。張琦等[7-9]用改進的支持向量機對煤氣消耗量進行預(yù)測取得一定的準(zhǔn)確率。徐化巖[10-11]等將信號分解技術(shù)結(jié)合SVM和BP技術(shù)引入高爐煤氣的預(yù)測,提高了預(yù)測精度。
前述的高爐煤氣建模主要從兩個層面出發(fā):第一將高爐煤氣短期數(shù)據(jù)當(dāng)作時間序列,利用自回歸模型等統(tǒng)計學(xué)知識建模;第二利用神經(jīng)網(wǎng)絡(luò)和支持向量機結(jié)合尋優(yōu)算法對高爐煤氣數(shù)據(jù)預(yù)測。但是高爐冶煉過程是一個非線性、大滯后、強耦合的黑箱反應(yīng),先前的方法不能兼顧煤氣流利用率數(shù)據(jù)的時序性和非線性建模能力。本文在現(xiàn)有研究的基礎(chǔ)上,提出基于CEEMDAN-SVM-LSTM的組合模型對煤氣利用率時間序列建模。首先,CEEMDAN技術(shù)可以把一個復(fù)雜的信號分解為若干模態(tài)分量,本文采用此技術(shù)對高爐煤氣利用率時間序列進行多尺度分解,達(dá)到解耦的作用。其次,LSTM具有從時間序列學(xué)習(xí)到歷史信息的能力以及非線性建模能力,本文利用LSTM模型對分解的高頻模態(tài)進行建模,進而學(xué)習(xí)煤氣利用率滯后的信息,然后用高斯核函數(shù)的支持向量機學(xué)習(xí)分解的低頻信息。最后將建立的低頻模態(tài)和高頻模態(tài)模型進行組合,得到煤氣利用率預(yù)測模型。
經(jīng)驗?zāi)B(tài)分解(EMD)是美國航天局黃鄂等人針對信號的非線性和非平穩(wěn)性提出的一種新的信號分解技術(shù),是一種自適應(yīng)的時空分析方法,最后實現(xiàn)信號的平穩(wěn)化處理。EMD將信號分解成若干個本征模態(tài)函數(shù)(IMF)與一個趨勢項(Res)之和,如公式(1)。本征模態(tài)函數(shù)代表信號的不同時間尺度特征信息,趨勢項代表信號的發(fā)展趨勢。
式中:x(t)——原始信號;
cj——第j個IMF分量;
Res(t)——信號的殘差量。
EMD將信號分解的主要步驟有:
1)找到原始信號數(shù)據(jù)x(t)的極大值點,然后把極大值點用三次樣條插值法進行擬合,求出原始數(shù)據(jù)上包絡(luò)線e+(t)。再將原始信號時間序列x(t)的極小值點,同樣用三次樣條插值法求出下包絡(luò)線e-(t)。最后計算上包絡(luò)線和下包絡(luò)線的平均包絡(luò)線m1(t),如下式所示:
2)將x(t)減去m1(t)得到一個移除高頻信號的信號數(shù)據(jù),如下式所示:
IMF要滿足以下條件,即:
其中 ε的一般取值為[0.2 0.3]。
EMD可以將非平穩(wěn)信號平穩(wěn)化處理,分解出多時間尺度的平穩(wěn)信號。但是在實際應(yīng)用中,信號分解時會出現(xiàn)不同時間尺度的分量混疊問題。針對EMD分解過程存在的問題,CEEMDAN在EMD分解基礎(chǔ)上加入均值為0方差為1的高斯白噪聲。最后有效解決了分解過程的模態(tài)混疊問題。
長短時間記憶人工神經(jīng)網(wǎng)絡(luò)(LSTM)是在循環(huán)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)改進,具有長短時間序列建模能力的人工神經(jīng)網(wǎng)絡(luò)[12-15]。不同于其他神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如圖1所示,LSTM利用輸入門、遺忘門和輸出門這三個結(jié)構(gòu)門起到對記憶單元的狀態(tài)控制,優(yōu)化RNN的梯度消失和梯度爆炸,可以解決長時間依賴的時序問題。遺忘門決定對上一隱藏狀態(tài)選擇遺忘信息的多少,保留關(guān)鍵信息。由于具有選擇性遺忘特點,LSTM在一定程度克服梯度消失。遺忘的程度由當(dāng)前輸入和先前的隱藏信息決定。輸入門由歷史單元狀態(tài)和當(dāng)前時刻輸入組合,控制歷史信息保留當(dāng)前狀態(tài)的程度。輸出門控制細(xì)胞哪些信息輸出。
圖1 LSTM結(jié)構(gòu)圖
支持向量機最早由Vapnik等人在統(tǒng)計學(xué)發(fā)展過程提出,支持向量機最初是用來解決線性不可分的問題,用在分類和回歸問題。在核心算法核函數(shù)的提出后,將非線性問題創(chuàng)造性轉(zhuǎn)化為線性問題。因此改進的SVM具有強大的非線性模型逼近能力,由于將非線性問題轉(zhuǎn)化到線性問題的求解,廣泛用在科學(xué)技術(shù)領(lǐng)域。
輸入樣本為{(xi,yi),i=1,2···n},其中n代表樣本數(shù)量,xi∈Rd是第i個樣本,d指樣本的特征維度,yi代表第i個樣本的輸出。SVM采用的回歸線性函數(shù),盡可能逼近目標(biāo)輸出。
以 Φ(x)表示將輸入空間映射到高維特征空間的非線性函數(shù)。w為權(quán)重向量,b為閾值,w和b決定不同的模型。SVM模型建立之后,用極小化算法求解最優(yōu)模型,確定回歸函數(shù):
其中c是懲罰因子對樣本的懲罰程度,影響模型的過擬合和擬合問題;ε是對回歸函數(shù)擬合樣本的誤差范圍限制,ζ和 ζ*為松弛變量。
求解回歸模型的最優(yōu)參數(shù),根據(jù)公式(11)-(14)引入拉格朗日因子 αi和,利用對偶理論轉(zhuǎn)化為對偶優(yōu)化問題,最后得回歸函數(shù),如公式(15)所示。其中K(x,x)為核函數(shù)。
離散傅里葉變換是經(jīng)典的信號分析技術(shù),廣泛用在信號處理、數(shù)據(jù)濾波和計算機視覺等領(lǐng)域。采集的煤氣利用率時間序列存在周期性噪聲,本文采取快速傅里葉變換去除明顯的周期信號的干擾??焖俑道锶~變換是在離散傅里葉(DFT)變換的基礎(chǔ)上進行改進的算法。FFT可以對原始時域信號做頻譜分析,從頻域的視角對信息展開分析。FFT簡化了DFT的分解,提高信息處理的快速性,被廣泛應(yīng)用在各個領(lǐng)域。設(shè)采集的有限信號序列為x(n),其第N點DFT變換為:
DFT變換的頻域信息可以通過逆變換還原時域信號,對應(yīng)的逆變換為:
FFT算法是在DFT的基礎(chǔ)上進行改進的,通過將DFT矩陣分解稀疏因子的乘積快速時域和頻域之間轉(zhuǎn)換。最后將計算復(fù)雜度降到O(NlgN)。對于長度為N的序列x(n),令N=2M:
根據(jù)DFT變換公式,得出:
其中k=0 ,···,N-1。一個長度為N的信號序列,經(jīng)過FFT時域處理減少了經(jīng)典傅里葉變換運算次數(shù),極大提高傅里變換的運算速度。
為了更準(zhǔn)確預(yù)測煤氣利用率,本文建立了CEEMDAN-SVM-LSTM模型對煤氣流進行組合預(yù)測,流程圖如圖2所示。
本文選取某高爐煤氣利用率數(shù)據(jù)為樣本,用70%數(shù)據(jù)集作為訓(xùn)練模型,30%數(shù)據(jù)集合為測試模型。高爐煉鐵是在高溫高壓的密閉環(huán)境下運行,因此采集的數(shù)據(jù)不可避免有一定的離群點,首先利用箱形圖對數(shù)據(jù)進行離群點替換,替換后的值為離群點前后5個數(shù)據(jù)的平均值。圖3為煤氣流利用率時間序列的箱形圖。
圖3 煤氣利用率箱形圖
除了離群點的干擾,傳感器在高溫高壓環(huán)境下測量的相關(guān)數(shù)據(jù)隨機噪聲不可避免,通過分析原始煤氣利用率規(guī)律可知,數(shù)據(jù)存在一定周期的噪聲。因此本文先用均值濾波對數(shù)據(jù)濾除隨機噪聲,再采用快速傅里葉變換(FFT)將時域煤氣流數(shù)據(jù)信息轉(zhuǎn)換到頻域信息,去除了一定頻率的周期噪聲,F(xiàn)FT濾除周期噪聲后的結(jié)果如圖4所示。
圖4 FFT濾波后的煤氣利用率
針對高爐生產(chǎn)布料過程中控制變量間的相互影響,以及當(dāng)前布料周期對后續(xù)周期的作用,先利用CEEMDAN方法對煤氣利用率進行分解,實現(xiàn)信號解耦的目的。從圖5可以看出,煤氣流利用率被分解出6個基本模態(tài)和1個趨勢項的不同尺度信號。從圖5趨勢項信號(Res)可以看出煤氣利用率短期呈現(xiàn)下降趨勢,與原始信號的發(fā)展趨勢保持一致性。
圖5 煤氣利用率CEEMDAN分解圖
針對高爐運行受到歷史爐況影響,布料操作變量和爐況運行之間復(fù)雜的非線性關(guān)系,本文選取具有時間記憶的LSTM網(wǎng)絡(luò)和SVM對分解信號建立模型。LSTM選取4層隱藏層,每層設(shè)置128神經(jīng)元,選取當(dāng)前時刻的前8個煤氣利用率數(shù)據(jù)作為輸入,預(yù)測下一時刻數(shù)據(jù)。將各個分量預(yù)測模型相加,得到了基于CEEMDAN-SVM-LSTM組合預(yù)測模型,并與單一的SVM預(yù)測模型、LSTM預(yù)測模型進行了比較,如圖6所示。顯然組合模型更加貼近實際的生產(chǎn)數(shù)據(jù)。
為了定量分析各個模型預(yù)測結(jié)果,本文用平均絕對百分比誤差(mean absolute percentage error,MAPE),平均絕對誤差(mean absolute error,MAE),均方根誤差(root mean square error,RMSE),均方誤差(mean square error,MSE)對模型進行評價,如公式(21)-(24)所示,模型評價指標(biāo)見表1,組合模型各項指標(biāo)誤差最小,說明預(yù)測效果最好。
表1 各個模型評價指標(biāo)
針對高爐煉鐵的復(fù)雜過程和采集煤氣利用率時間序列帶有周期噪聲的特點,傳統(tǒng)模型對煤氣利用率預(yù)測較難。本文采取去噪-解耦-組合的模式建立煤氣利用率預(yù)測模型。主要包括:1)利用FFT去除周期噪聲,去噪后的數(shù)據(jù)更真實反映煤氣利用率的發(fā)展過程。2)利用CEEMDAN對煤氣利用率進行解耦,分解不同頻率IMF分量和一個趨勢項。其中分量代表煤氣利用率不同周期的發(fā)展過程,趨勢項代表短期煤氣利用率的大小。3)利用SVM對趨勢項Res建模和具有長短時間記憶的LSTM對本征模態(tài)IMF建模,最后實現(xiàn)煤氣利用率的組合預(yù)測。從 MAE、MAPE、RMSE和 MSE模型指標(biāo)表明CEEMDAN-SVM-LSTM組合模型預(yù)測比單一的SVM和LSTM建立的煤氣利用率模型更加準(zhǔn)確,為高爐煉鐵合理布料和優(yōu)化運行提供理論支持。