朱振宇,侯 磊,徐 磊
(中國石油大學(xué)(北京)機(jī)械與儲運工程學(xué)院,北京102249)
我國原油管道年均電耗占管道年運行成本的一半以上,運行電耗直接體現(xiàn)了管道輸送的管理水平和經(jīng)濟(jì)效益。以某年輸量為1000萬噸的原油管道為例,當(dāng)節(jié)流壓力增加1MPa時,管道系統(tǒng)年耗電量會增加300×10kW·h。有必要對長輸原油管道進(jìn)行運行電耗預(yù)測,掌握能耗變化趨勢,以便適時調(diào)整運行方案與采取相應(yīng)節(jié)能措施。
原油管道傳統(tǒng)能耗預(yù)測方法主要包括工藝計算法和統(tǒng)計預(yù)測法。曾春雷等在考慮管道輸量、耗能設(shè)備運行特性等因素變化的基礎(chǔ)上,使用工藝計算法建立原油電耗預(yù)測模型,但管道電耗受多種因素共同影響,關(guān)鍵參數(shù)常常獲取不及時且不充分,使得該方法預(yù)測效果不理想。而統(tǒng)計預(yù)測法則立足于真實歷史數(shù)據(jù)進(jìn)行預(yù)測,例如隋富娟等利用某輸油管道5年數(shù)據(jù),建立了三元非等間距的GM(1,1)模型,但該模型是一種近似模型,實際應(yīng)用時往往達(dá)不到預(yù)期精度。目前,人工智能高速發(fā)展,機(jī)器學(xué)習(xí)方法也被應(yīng)用于管道能耗預(yù)測領(lǐng)域。Zeng等利用神經(jīng)網(wǎng)絡(luò)建模對管道耗電量進(jìn)行預(yù)測,分析表明模型具有良好的預(yù)測能力,但神經(jīng)網(wǎng)絡(luò)方法通常適用于數(shù)據(jù)樣本較多的情況,在樣本較少時,往往容易出現(xiàn)“過擬合”現(xiàn)象。在管道運行過程中,由于數(shù)據(jù)獲取成本過高、企業(yè)重視數(shù)據(jù)安全等原因,往往導(dǎo)致難以獲得足夠多的樣本來進(jìn)行研究。而基于結(jié)構(gòu)風(fēng)險最小化原則的支持向量機(jī)方法,已被證明能夠較好地運用到小樣本預(yù)測問題,并保證較高的預(yù)測精度。例如,Meng等利用改進(jìn)的經(jīng)驗?zāi)B(tài)分解支持向量機(jī)模型(M-EMDSVM)對渭河月流量進(jìn)行預(yù)測,在強非平穩(wěn)流情況下相比于其它模型準(zhǔn)確度要更高;Olatomiwa等比較了SVM、人工神經(jīng)網(wǎng)絡(luò)(ANN)與遺傳規(guī)劃(GP)幾種模型預(yù)測太陽輻射強度的差異,結(jié)果表明SVM的預(yù)測精度更高,能夠作為預(yù)測全球水平太陽輻射的一種有效方法。
機(jī)器學(xué)習(xí)的預(yù)測精度依賴于超參數(shù)的選取,合適的超參數(shù)選取才能夠提高模型的預(yù)測精度。對于支持向量機(jī)預(yù)測結(jié)果影響較大的主要是懲罰系數(shù)C和核參數(shù)γ。當(dāng)C過大或過小時,分別會出現(xiàn)過擬合或欠擬合現(xiàn)象;γ作為高斯核函數(shù)的幅寬,影響每個支持向量的作用范圍,選取不當(dāng)會降低模型的預(yù)測能力。過去確定超參數(shù)時一般依賴于操作人員的經(jīng)驗,效率低下且模型極易陷入“過擬合”。為此學(xué)者們進(jìn)行了大量研究,提出將支持向量機(jī)與優(yōu)化算法相結(jié)合的混合模型。其中,粒子群算法(PSO)相較于其它優(yōu)化算法具有可調(diào)參數(shù)少、收斂快的優(yōu)點,已被廣泛應(yīng)用于多種預(yù)測領(lǐng)域中。但粒子群算法在搜尋過程后期容易陷入局部最優(yōu),從而難以求得最優(yōu)解。此外,由于管道運行特性,在實際運行數(shù)據(jù)中常含有部分噪聲和波動,且數(shù)據(jù)間含有較強的非線性聯(lián)系,這都將為預(yù)測工作帶來極大困難。
針對上述兩種問題,本文通過引入CEEMDAN方法將輸入?yún)?shù)分解為多個具有平穩(wěn)性的模態(tài)分量,用以去噪和提高預(yù)測精度;利用改進(jìn)后的粒子群算法對SVM模型的超參數(shù)進(jìn)行優(yōu)化,避免陷入局部最優(yōu)。建立CEEMDAN-IPSO-SVM混合模型對國內(nèi)3條管道進(jìn)行電耗預(yù)測,并將結(jié)果與其它方法進(jìn)行對比,結(jié)果證明混合模型具有更高的預(yù)測精度。
選擇特征參數(shù)的目的是為機(jī)器學(xué)習(xí)方法識別有用和非冗余的特征子集,輸入特征參數(shù)的合理選擇直接決定了模型的預(yù)測性能。因此,有必要對管道運行過程中影響電耗的相關(guān)因素進(jìn)行詳細(xì)分析,選擇合適的參數(shù)作為預(yù)測模型的輸入特征。
長輸原油管道涉及的參數(shù)主要包括原油物性參數(shù)、環(huán)境參數(shù)、管道參數(shù)和運行參數(shù),部分參數(shù)的詳細(xì)分類如表1所示。其中,原油物性參數(shù)隨管道溫度變化而變化,在實際運輸過程中很難實時獲取。環(huán)境參數(shù)主要影響管道的散熱過程,但保溫結(jié)構(gòu)的存在能夠有效地減緩環(huán)境溫度變化引起的散熱過程。管道參數(shù)基本可以視為固定值,作為輸入?yún)?shù)的意義不大。對于管道運行參數(shù),輸量對電耗的影響最大。泵的揚程和效率會隨著輸量的波動而產(chǎn)生變化,進(jìn)而影響管道運行電耗,而且現(xiàn)場工作人員能夠依據(jù)下月、季輸送計劃提前獲知油品輸量,從而實現(xiàn)電耗的提前預(yù)測?;谏鲜龇治觯x擇月輸量作為預(yù)測模型的輸入?yún)?shù)。
表1 原油管道參數(shù)分類
提出的原油管道電耗預(yù)測混合模型由分解模塊、參數(shù)優(yōu)化模塊和主體預(yù)測模塊3部分組成。分解模塊CEEMDAN用于將非平穩(wěn)、非線性數(shù)據(jù)分解為若干相對平穩(wěn)的序列,降低預(yù)測難度;參數(shù)優(yōu)化模塊IPSO用于優(yōu)選模型超參數(shù),尋求全局最優(yōu)值;主體預(yù)測模塊SVM與上述兩部分結(jié)合,用于最終的預(yù)測工作。
目前,已有研究通過添加原始數(shù)據(jù)前置分解環(huán)節(jié)構(gòu)建組合預(yù)測模型來進(jìn)行能耗預(yù)測,相比于單一預(yù)測模型該方法能夠獲得更高的預(yù)測精度。
分解方法通常包括小波分解、經(jīng)驗?zāi)B(tài)分解(EMD)和集成經(jīng)驗?zāi)B(tài)分解(EEMD)等方法。EMD分解解決了小波分解需要人為選擇小波基函數(shù)與分解層數(shù)的問題,但容易出現(xiàn)模態(tài)混疊問題。EEMD分解通過添加輔助噪聲克服了EMD模態(tài)混疊問題,但其分解效率低且噪聲難以完全消除。而CEEMDAN分解在每一階段添加自適應(yīng)高斯白噪聲,通過計算唯一余量信號得到各個模態(tài)分解,分解過程完整,能有效解決上述問題。
定義(·)為經(jīng)分解得到的第個模態(tài)分量,()為原始序列,()為第次加入的滿足標(biāo)準(zhǔn)正太分布的高斯白噪聲,CEEMDAN算法具體實現(xiàn)步驟如下:
1)在CEEMDAN算法中利用對信號()+()進(jìn)行次重復(fù)分解,用于控制附加噪聲與原始信號的信噪比,由此計算得到第一個模態(tài)分量
(1)
2)當(dāng)=1時,計算第一個余量信號()
(2)
3)利用算法對信號1()+11(())進(jìn)行次重復(fù)分解,直到得到第一個模態(tài)分量為止。由此得到第二個模態(tài)分量
(3)
4)對剩余階段,按照步驟3)計算過程運算得到第+1個模態(tài)分量
(4)
(5)
5)重復(fù)步驟4),直到最終余量信號滿足分解的終止條件為止,得到個模態(tài)分量。原始信號可表示為
(6)
式中,()為最終殘余信號。
粒子群算法作為常用優(yōu)化算法之一,最早由Kennedy提出。相比于遺傳算法(GA)、果蠅算法(FOA)等其它優(yōu)化算法,PSO具有參數(shù)少、收斂快的優(yōu)點。該算法通過模擬鳥群的社會行為,實現(xiàn)多維空間的目標(biāo)尋優(yōu)。圖1描述了粒子群算法的優(yōu)化參數(shù)過程。在該算法中,種群由粒子組成,每個粒子的特征包括一個位置向量和一個速度向量,利用個體極值和全局極值來更新位置和速度。每個粒子根據(jù)如下公式來更新自己的速度和位置
(+1)=()+()[()-()]+
()[()-()]
(7)
(+1)=()+(+1)
(8)
式中,為迭代次數(shù);為慣性權(quán)重;、稱為學(xué)習(xí)因子;()和()是[0,1]區(qū)間的隨機(jī)數(shù);()和()分別表示粒子在第次迭代的速度和位置;()和()分別表示粒子在第次迭代的個體極值的位置和全局極值的位置。
圖1 粒子群算法優(yōu)化參數(shù)流程圖
但PSO后期容易出現(xiàn)陷入局部最優(yōu)值、早熟收斂現(xiàn)象。針對這一缺陷,學(xué)者們對其做出各類改進(jìn)。Shi等人引入慣性權(quán)重λ有利于提高算法的性能,但控制參數(shù)一般具有問題依賴性,固定權(quán)值不能適用于所有問題。λ較大時全局搜索能力強,較小時局部搜索能力強。通過考慮λ對粒子群算法搜索能力的影響,使λ呈正弦變化,粒子先在自身附近作局部尋優(yōu),接著進(jìn)行全局尋優(yōu),最后使最優(yōu)粒子進(jìn)行局部搜索,有助于算法跳出局部最優(yōu),收斂性強。具體實現(xiàn)公式如下
()=+06sin(π)
(9)
式中,為最小慣性權(quán)重;為最大迭代次數(shù)。
支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)已被廣泛應(yīng)用于多個領(lǐng)域的能耗預(yù)測。兩者最大的區(qū)別在于支持向量機(jī)能夠有效地避免過擬合問題,在數(shù)據(jù)較少的情況下仍然保持較好的預(yù)測效果。
支持向量機(jī)的基礎(chǔ)是通過非線性逼近或映射將數(shù)據(jù)集映射到高維特征空間(超平面)中,劃分超平面通過如下方程來描述
()=()+
(10)
式中,是輸入訓(xùn)練向量,()是輸出訓(xùn)練向量,是常數(shù)偏差,是權(quán)重系數(shù)向量,()是非線性映射函數(shù)。
支持向量機(jī)的間隔可以表示為
(11)
為尋求最大間隔劃分超平面,需使得最大,即滿足
(()+)≥1,=1,2,…,
(12)
故僅需最大化‖‖,等價于最小化‖‖,因此將模型轉(zhuǎn)化為
(13)
為解決提出的優(yōu)化問題,引入松弛變量和,目標(biāo)函數(shù)如下
(14)
(15)
式中,為懲罰系數(shù),利用它可以平衡最大間隔與松弛變量。
通過引入拉格朗日乘子將上述優(yōu)化問題轉(zhuǎn)化為其對偶問題
(16)
核函數(shù)通常包括線性核函數(shù)、多項式核函數(shù)和高斯()核函數(shù),因大多數(shù)情況下高斯核函數(shù)性能表現(xiàn)良好,故本文選用高斯核函數(shù),可表示為
(17)
式中,為高斯核函數(shù)參數(shù)。
圖2 支持向量機(jī)結(jié)構(gòu)圖
a) 數(shù)據(jù)準(zhǔn)備與預(yù)處理。對管道電耗數(shù)據(jù)進(jìn)行檢查和缺失修補,去除明顯錯誤的數(shù)據(jù)。
b) 數(shù)據(jù)分解。將輸入變量利用CEEMDAN方法進(jìn)行分解,得到個本征模態(tài)函數(shù)和1個趨勢項分量,=1,2,…,。
c) 數(shù)據(jù)集劃分和歸一化。由于本研究使用的初始樣本數(shù)量較少,為了避免隨機(jī)抽樣帶來的抽樣誤差,采用分層抽樣來劃分訓(xùn)練集和測試集,使得劃分的樣本與初始數(shù)據(jù)的分布規(guī)律較為接近。因為輸入值的大小存在較大差異,因此對輸入值進(jìn)行歸一化,歸一化范圍通常為0~1,具體如下
(18)
式中,′是歸一化后的結(jié)果,和分別是輸入數(shù)據(jù)的最大值和最小值,是初始值。
d) 參數(shù)優(yōu)化。利用IPSO算法對SVM的懲罰系數(shù)C和核參數(shù)γ進(jìn)行優(yōu)化,使預(yù)測模型獲得最佳預(yù)測性能。
e) 電耗預(yù)測與誤差分析。將測試集數(shù)據(jù)輸入到訓(xùn)練好的IPSO-SVM模型中,求得最終的電耗預(yù)測結(jié)果,并對結(jié)果進(jìn)行誤差分析。
提出的CEEMDAN-IPSO-SVM混合模型主要實現(xiàn)兩種功能,一是通過CEEMDAN將含噪聲的輸入數(shù)據(jù)進(jìn)行去噪,二是利用IPSO算法對超參數(shù)進(jìn)行動態(tài)調(diào)整,實現(xiàn)其自適應(yīng)優(yōu)化,提高SVM模型的預(yù)測精度?;贑EEMDAN-IPSO-SVM混合模型的電耗預(yù)測過程如圖3所示。
圖3 管道運行電耗預(yù)測流程圖
為了評估所提出預(yù)測模型的準(zhǔn)確性,采用平均絕對誤差(MAE)、平均絕對百分誤差(MAPE)、相對誤差(RE)和決定系數(shù)(R)作為性能指標(biāo)來評估各模型的預(yù)測能力。各評價指標(biāo)公式如下
(19)
(20)
(21)
(22)
為了保證混合模型的可靠性,選取國內(nèi)3條原油管道進(jìn)行實驗。管道1位于山東,年設(shè)計輸量為1800萬噸,全長157公里,設(shè)有熱泵站和泵站各兩座;管道2起始山東,南至江蘇,全長651公里,管徑為720mm,設(shè)有6座熱泵站;管道3起始河北,北至北京,年設(shè)計輸油量為750萬噸。
對所選3條管道,使用CEEMDAN方法將輸入?yún)?shù)分解為若干不同尺度的固有模態(tài)函數(shù)(IMFs)分量,以測試集為0.3的比例劃分?jǐn)?shù)據(jù)集,得到的訓(xùn)練集數(shù)據(jù)量分別為42、42和33組,測試集數(shù)量分別為18、18和15組,將歸一化后的訓(xùn)練集和測試集數(shù)據(jù)分別帶入IPSO-SVM模型進(jìn)行訓(xùn)練和預(yù)測。在IPSO對SVM參數(shù)進(jìn)行優(yōu)化過程中,設(shè)定IPSO的搜索范圍:C∈[1,1000],γ∈ [0.01,10],IPSO的迭代次數(shù)K=100,粒子群數(shù)目M=100,粒子維度n=2。
圖4和圖5分別表示不同預(yù)測模型在3組實驗中的MAE和MAPE值,由圖可見,相比于PSO、GA、FOA幾種優(yōu)化算法,經(jīng)IPSO優(yōu)化后模型的MAE和MAPE更低,預(yù)測精度更高,說明IPSO算法能夠有效克服PSO算法容易陷入局部最優(yōu)的缺陷,獲得更準(zhǔn)確的預(yù)測效果,證明了IPSO的優(yōu)越性。此外,3條管道的電耗預(yù)測結(jié)果有一定差異,例如IPSO-SVM模型在3組實驗中的MAE值分別為50.5835×10kW·h、120.7112×10kW·h和19.6646×10kW·h,這是由于管道數(shù)據(jù)質(zhì)量不同造成的,說明數(shù)據(jù)質(zhì)量對預(yù)測效果具有一定影響,但該算法依然保持最優(yōu)的預(yù)測結(jié)果,亦證明該優(yōu)化算法適用性較廣。
圖4 不同管道MAE值比較
圖5 不同管道MAPE值比較
為了進(jìn)一步驗證CEEMDAN分解的有效性,將經(jīng)過CEEMDAN分解處理過的數(shù)據(jù)分別使用SVM和IPSO-SVM模型進(jìn)行預(yù)測。通過比較SVM與CEEMDAN-SVM模型、IPSO-SVM與CEEMDAN-IPSO-SVM模型的結(jié)果,證明添加CEEMDAN分解能夠顯著提高原模型的預(yù)測性能。
表2 不同管道預(yù)測結(jié)果比較
圖6 管道1相對誤差離散圖
圖7 管道2相對誤差離散圖
圖6-8分別表示了3組實驗測試集的相對誤差,相對誤差的基準(zhǔn)設(shè)置為[-5%,5%],通過對比不同模型真實值與預(yù)測值之間的偏離程度,能夠直觀評價模型的預(yù)測性能。對于管道1,SVM、IPSO-SVM、CEEMDAN-SVM和CEEMDAN-IPSO-SVM等4種模型預(yù)測相對誤差的離散點在參考范圍內(nèi)的點數(shù)分別為8、9、9和11個;對于管道2,4種模型預(yù)測相對誤差的離散點在參考范圍內(nèi)的點數(shù)分別為10、11、12和13個;對于管道3,4種模型預(yù)測相對誤差的離散點在參考范圍內(nèi)的點數(shù)分別為8、10、9和11個。由此可知,CEEMDAN-IPSO-SVM模型在3組實驗中一致最優(yōu),說明其總體預(yù)測效果更接近于真實值。
圖8 管道3相對誤差離散圖
圖9-11為混合模型的最終預(yù)測結(jié)果,分析可得預(yù)測結(jié)果與實際數(shù)據(jù)擬合度較高,相對誤差大部分在8%以內(nèi),說明CEEMDAN-IPSO-SVM混合模型能夠有效地挖掘原油管道非平穩(wěn)運行數(shù)據(jù)之間的潛在規(guī)律,達(dá)到較高的預(yù)測精度。
圖9 管道1混合模型預(yù)測結(jié)果
圖10 管道2混合模型預(yù)測結(jié)果
圖11 管道3混合模型預(yù)測結(jié)果
通過改進(jìn)權(quán)重的方法解決了粒子群算法早熟的問題,使用IPSO優(yōu)化后的模型預(yù)測結(jié)果均優(yōu)于其它優(yōu)化算法,證明IPSO算法具有更佳的全局尋優(yōu)能力。同時針對管道電耗數(shù)據(jù)非線性、非平穩(wěn)的特點,引入CEEMDAN分解,通過對比添加CEEMDAN分解前后模型預(yù)測效果的差異,證明了CEEMDAN方法對提高模型預(yù)測精度的有效性。在此基礎(chǔ)上基于機(jī)器學(xué)習(xí)理論與數(shù)據(jù)處理技術(shù),建立了小樣本情況下原油管道電耗中期預(yù)測的CEEMDAN-IPSO-SVM混合模型,與其它模型的對比實驗表明,該混合模型預(yù)測精度最高,預(yù)測結(jié)果與真實值最為接近。