劉 行 王秋晨 文韻豪 王 藝 巴璽立
1. 中國石油大學(xué)(北京)油氣管道輸送安全國家工程實驗室·石油工程教育部重點實驗室·城市油氣輸配技術(shù)北京市重點實驗室, 北京 102200;2. 中國石油天然氣股份有限公司規(guī)劃總院, 北京 100080
天然氣處理廠是氣田開發(fā)的重要地面生產(chǎn)設(shè)施[1-2],天然氣處理廠連續(xù)、平穩(wěn)、安全的運行直接關(guān)系到天然氣的安全穩(wěn)定供應(yīng)[3],以及用戶的生產(chǎn)和生活需要。天然氣處理廠負(fù)荷率是一個關(guān)鍵性指標(biāo),它是指天然氣處理廠的實際產(chǎn)能與設(shè)計產(chǎn)能之比。天然氣處理廠負(fù)荷率的高低受原料氣的質(zhì)量、流量、設(shè)備運行狀況、氣體處理工藝流程、生產(chǎn)計劃和管理等因素影響,直接關(guān)系天然氣處理廠的生產(chǎn)效率和經(jīng)濟(jì)性。因此,有必要對天然氣處理廠負(fù)荷率進(jìn)行準(zhǔn)確預(yù)測,以指導(dǎo)生產(chǎn)計劃。
目前,較多學(xué)者使用時間序列預(yù)測模型對能源相關(guān)的數(shù)據(jù)進(jìn)行了預(yù)測。梁倩雯[4]選用自回歸積分滑動平均(Autoregressive Integrated Moving Average,ARIMA)、Prophet和長短期記憶(Long Short-Term Memory,LSTM)三種模型對管輸下游不同用戶群體的天然氣平均負(fù)荷進(jìn)行了預(yù)測,認(rèn)為LSTM模型表現(xiàn)最好。Zheng Jianqin等人[5]采用粒子群算法對LSTM模型進(jìn)行優(yōu)化,與LSTM、ANN(Artificial Neural Network)、XGBoost(eXtreme Gradient Boosting)模型進(jìn)行誤差對比,突出優(yōu)化模型的準(zhǔn)確性,高效預(yù)測了太陽能發(fā)電量。Ning Yanrui等人[6]使用ARIMA、LSTM、Prophet三種模型和傳統(tǒng)油品產(chǎn)量預(yù)測模型進(jìn)行了產(chǎn)油量預(yù)測,預(yù)測誤差顯示ARIMA模型對于短期預(yù)測較為突出,Prophet模型整體的預(yù)測效果最好。田文才等人[7]提出一種小波變換分解的麻雀搜索算法(Sparrow Search Algorithm,SSA)-LSTM優(yōu)化模型,用于預(yù)測華北某市燃?xì)忾T站的天然氣負(fù)荷,提高了預(yù)測精度。Fan Dongyan等人[8]集成了線性和非線性時間序列預(yù)測模型的優(yōu)勢,提出了一種ARIMA-LSTM-DP(Daily Production)的混合模型,對于油井產(chǎn)量預(yù)測表現(xiàn)較好。目前的研究大多基于傳統(tǒng)預(yù)測模型進(jìn)行開展,對于時間序列預(yù)測模型的改進(jìn)和優(yōu)化還可以繼續(xù)進(jìn)行。
現(xiàn)有研究較少對天然氣處理廠負(fù)荷率進(jìn)行預(yù)測,尚未形成通用的負(fù)荷率預(yù)測模型。天然氣處理廠負(fù)荷率按照數(shù)據(jù)類型可分為平穩(wěn)型和波動型。選取波動型負(fù)荷率和平穩(wěn)型負(fù)荷率數(shù)據(jù)進(jìn)行研究,提出基于貝葉斯優(yōu)化(Bayesian Optimization,BO)-LSTM模型實現(xiàn)對天然氣處理廠負(fù)荷率預(yù)測,極大地提高模型的計算效率和預(yù)測精度。同時,對比傳統(tǒng)機(jī)器學(xué)習(xí)模型檢驗優(yōu)化模型的優(yōu)越性,天然氣處理廠負(fù)荷率預(yù)測模型可為制定合理生產(chǎn)計劃提供數(shù)據(jù)支撐,滿足市場需求和避免天然氣資源浪費。
LSTM是一種特殊結(jié)構(gòu)的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),主要為解決傳統(tǒng)RNN可能遇到的梯度消失和爆炸問題[9-10]。由于具有反饋連接,可以處理長期的數(shù)據(jù)序列,避免了一般RNN的長期依賴問題。LSTM內(nèi)部由3個門實現(xiàn)控制傳輸,分別是遺忘門、輸入門和輸出門,結(jié)構(gòu)見圖1。圖1中:g為隱藏層的輸入狀態(tài);c為狀態(tài)單元;h為隱藏層的輸出狀態(tài);W為對應(yīng)門的權(quán)重。
圖1 LSTM原理結(jié)構(gòu)示意圖
遺忘門決定信息是否通過神經(jīng)元傳遞,輸入門決定新信息是否存儲在神經(jīng)元中,輸出門決定信息是否作為當(dāng)前狀態(tài)的輸出。模塊中每個門由乘法運算和Sigmoid函數(shù)組成,Sigmoid函數(shù)控制通過門的信息,數(shù)值范圍為0~1。Sigmoid函數(shù)的輸出值和“tanh”層的候選值相乘作為神經(jīng)元狀態(tài)值。
貝葉斯優(yōu)化算法是一種全局優(yōu)化方法,可以利用較少的迭代步數(shù)和已知數(shù)據(jù)去獲取最優(yōu)解,可用于調(diào)節(jié)機(jī)器學(xué)習(xí)算法的超參數(shù)。貝葉斯優(yōu)化算法的核心由兩部分構(gòu)成:一是通過高斯過程回歸建立目標(biāo)函數(shù)的數(shù)學(xué)模型,即計算每點處函數(shù)值的均值和方差[11];二是根據(jù)后驗概率分布構(gòu)造采集函數(shù)[12-13],用于決定本次迭代時的最優(yōu)采樣點。
由貝葉斯定理可知[14-15]:
后驗分布=先驗分布+觀察數(shù)據(jù)
(1)
(2)
f(x)=GP(m(x),C(x,x′))
(3)
采集函數(shù)根據(jù)后驗分布構(gòu)造,用于選擇下一個采樣點,即
(4)
貝葉斯優(yōu)化超參數(shù)流程:
3)經(jīng)過一定的迭代次數(shù)后,即可獲得全局最優(yōu)值。
在進(jìn)行基本LSTM模型訓(xùn)練時,以典型天然氣處理廠負(fù)荷率的歷史數(shù)據(jù)作為輸入,將當(dāng)前時刻的天然氣處理廠負(fù)荷率作為預(yù)測目標(biāo)。網(wǎng)絡(luò)層中超參數(shù)的設(shè)置對模型的預(yù)測性能有很大影響,由于超參數(shù)大部分通過手動調(diào)整,需反復(fù)試驗才能獲取較好的模型。因此,本文提出一種基于貝葉斯優(yōu)化的超參數(shù)優(yōu)化方法,實現(xiàn)自動選擇超參數(shù),提高模型的泛化能力,貝葉斯優(yōu)化流程見圖2。本研究主要是對LSTM網(wǎng)絡(luò)的結(jié)構(gòu)、隱藏層層數(shù)、隱藏層神經(jīng)元個數(shù)、初始學(xué)習(xí)率和正則化系數(shù)進(jìn)行貝葉斯優(yōu)化,超參數(shù)范圍設(shè)置見表1。
表1 LSTM網(wǎng)絡(luò)超參數(shù)選擇表
圖2 貝葉斯優(yōu)化流程圖
BO-LSTM模型預(yù)測天然氣處理廠負(fù)荷率流程見圖3,基本步驟如下。
圖3 BO-LSTM模型預(yù)測天然氣處理廠負(fù)荷率流程圖
2)數(shù)據(jù)歸一化處理,并構(gòu)建模型數(shù)據(jù)的訓(xùn)練集和測試集。
3)貝葉斯優(yōu)化算法調(diào)節(jié)LSTM網(wǎng)絡(luò)超參數(shù)。
4)利用優(yōu)化后的BO-LSTM模型進(jìn)行天然氣處理廠負(fù)荷率預(yù)測。
5)在測試集上對預(yù)測結(jié)果進(jìn)行誤差評估,檢驗?zāi)P偷臏?zhǔn)確度。
6)結(jié)束。
數(shù)據(jù)預(yù)處理部分包括數(shù)據(jù)收集、數(shù)據(jù)清洗、數(shù)據(jù)集劃分、數(shù)據(jù)歸一化等過程。本研究的天然氣處理負(fù)荷率數(shù)據(jù)來源于某油氣田處理廠的各季度報表,數(shù)據(jù)分訓(xùn)練集和測試集兩部分。為了加快算法的收斂速度提高預(yù)測精度,需要對歷史數(shù)據(jù)進(jìn)行歸一化處理。采用最大—最小標(biāo)準(zhǔn)化方法處理,將數(shù)據(jù)值映射到[0,1]。歸一化表達(dá)式如下:
(5)
(6)
(7)
(8)
本研究選取國內(nèi)某油氣田天然氣處理廠(包含處理廠A、B、C、D)歷史負(fù)荷率數(shù)據(jù),樣本數(shù)據(jù)記錄了2017年6月1日至2022年2月28日的數(shù)據(jù)。剔除無效數(shù)據(jù)后,處理廠A、B、C、D的實際數(shù)據(jù)分別為1 734 d、1 711 d、1 711 d、1 670 d,原始數(shù)據(jù)見圖4。數(shù)據(jù)集按照起伏情況分為波動型(處理廠A、B)和平穩(wěn)型(處理廠C、D)。另外,按天然氣處理廠負(fù)荷率高低劃分為中低型(處理廠A、C)和中高型(處理廠B、D)。所選天然氣處理廠數(shù)據(jù)覆蓋面廣,可用于檢驗?zāi)P偷倪m應(yīng)性。
圖4 天然氣處理廠負(fù)荷率原始數(shù)據(jù)圖
由圖4可知,僅處理廠B出現(xiàn)極少天數(shù)滿負(fù)荷運行,天然氣處理廠負(fù)荷率受天然氣日處理量和檢修天數(shù)直接影響,具有一定的時間序列特征。處理廠A、B受檢修天數(shù)影響較大,天然氣處理廠負(fù)荷率呈現(xiàn)明顯的周期性波動;處理廠C、D的天然氣日處理量變化較小,天然氣處理廠負(fù)荷率總體呈平穩(wěn)趨勢。
為了驗證BO-LSTM模型的優(yōu)劣,本研究選用反向傳播神經(jīng)網(wǎng)絡(luò)(Back-propagation Neural Network,BPNN)、支持向量機(jī)(Support Vector Machine,SVM)、ARIMA、LSTM這4種傳統(tǒng)時間序列預(yù)測模型作對比。BPNN模型是基于誤差逆向傳播算法的多層前饋神經(jīng)網(wǎng)絡(luò),初始權(quán)值或閾值容易導(dǎo)致訓(xùn)練結(jié)果陷入局部最優(yōu)值[17-18]。SVM模型可用于回歸預(yù)測、分類預(yù)測,核心思想是在預(yù)測值與實際值的誤差平方和最小的情況下找到一個最大間隔平面[19]。ARIMA(p,d,q)模型是常用的隨機(jī)時序模型,將非平穩(wěn)序列轉(zhuǎn)為平穩(wěn)序列,然后僅對目標(biāo)參數(shù)的滯后值與隨機(jī)誤差項的現(xiàn)值和滯后值進(jìn)行回歸[20-21]。雙向的(Bi-directional,Bi)LSTM模型是將LSTM網(wǎng)絡(luò)分為向前和向后兩個方向,綜合考慮序列的歷史和未來的數(shù)據(jù),從而提高準(zhǔn)確度。ARIMA模型的關(guān)鍵參數(shù):p為自回歸階數(shù),q為滑動平均指數(shù),d為時間序列化為平穩(wěn)時所需的差分次數(shù)。BPNN模型的神經(jīng)元數(shù)目為50,學(xué)習(xí)率設(shè)置為0.5。SVM模型的懲罰系數(shù)取5.0,核函數(shù)選擇常用的徑向基函數(shù)(Radial Basis Function,RBF),RBF的gamma值取1.0。ARIMA模型的超參數(shù)由數(shù)據(jù)平穩(wěn)性、赤池信息準(zhǔn)則和貝葉斯信息準(zhǔn)則確定[6,22]。LSTM模型隱含層層數(shù)為1,神經(jīng)元數(shù)目為50,初始學(xué)習(xí)率為0.5,L2正則化系數(shù)為1×10-4。
對比模型統(tǒng)一設(shè)置條件:時間序列模型的延時步長設(shè)置為30,最大迭代步數(shù)均為200。為防止模型過擬合,采用數(shù)據(jù)集的后10%數(shù)據(jù)作為測試集。初始的1組延時步長數(shù)據(jù)不做預(yù)測,故處理廠A、B、C、D的測試集樣本數(shù)分別為144、142、143、137。通過貝葉斯優(yōu)化算法尋找LSTM模型的超參數(shù),經(jīng)過多次迭代尋優(yōu),確定最優(yōu)超參數(shù)值,BO-LSTM模型超參數(shù)的最優(yōu)值見表2。
表2 BO-LSTM網(wǎng)絡(luò)超參數(shù)表
a)預(yù)測結(jié)果
a)預(yù)測結(jié)果
a)預(yù)測結(jié)果
a)預(yù)測結(jié)果
由圖5~8可知,ARIMA和SVM模型的預(yù)測結(jié)果有明顯偏差,其余模型均與實際值的歷史走向相似。SVM模型的預(yù)測結(jié)果波動幅度較大,與Du Jian等人[23]給出的SVM模型善于捕捉數(shù)據(jù)的波動性相吻合。BPNN模型對歷史數(shù)據(jù)的擬合效果較好,但對于有波動負(fù)荷率的預(yù)測效果不如LSTM模型,這是由于LSTM模型內(nèi)部存在控制儲存結(jié)構(gòu)的模塊,能較好地捕捉長期趨勢的特征。另外,BO-LSTM模型的預(yù)測樣本集中在殘差最小[-5,5]范圍內(nèi),說明測試樣本的預(yù)測結(jié)果均接近實際值,且對于平穩(wěn)型處理廠的優(yōu)勢最為明顯。LSTM模型經(jīng)貝葉斯優(yōu)化后,彌補(bǔ)了參數(shù)造成預(yù)測波動的缺陷,減少了殘差值較高的樣本數(shù),預(yù)測數(shù)據(jù)明顯更貼近實際值。
表3 不同模型的預(yù)測誤差表
a)MAE結(jié)果對比
通過對波動型和平穩(wěn)型天然氣處理廠負(fù)荷率預(yù)測結(jié)果比較,可以得出BO-LSTM模型的預(yù)測精度和穩(wěn)定性相較于傳統(tǒng)時間序列預(yù)測模型具有顯著提升,通用性較高。圖10給出了天然氣處理廠負(fù)荷率預(yù)測模型的預(yù)測結(jié)果,所有樣本的預(yù)測數(shù)據(jù)與實際數(shù)據(jù)基本吻合,說明本研究的BO-LSTM模型能較好地捕捉因檢修天數(shù)和日處理量等主要因素引起的時間特征,預(yù)測效果顯著。
a)波動型
本文對天然氣處理廠負(fù)荷率預(yù)測開展研究,由于歷史數(shù)據(jù)周期性較弱、數(shù)據(jù)量大,有一定的波動幅度,預(yù)測難度較高,現(xiàn)有研究未提出較好的預(yù)測模型。因此,本文基于數(shù)據(jù)的時間序列特性建立了BO-LSTM模型。為驗證模型的準(zhǔn)確性和通用性,選擇了波動型(處理廠A、B)和平穩(wěn)型(處理廠C、D)的天然氣處理廠負(fù)荷率,并對比ARIMA、BPNN、SVM、LSTM和BiLSTM等傳統(tǒng)預(yù)測模型以檢驗?zāi)P偷膬?yōu)劣。
1)ARIMA、BPNN、SVM、LSTM、BiLSTM和BO-LSTM模型均可用于天然氣處理廠負(fù)荷率預(yù)測。其中,預(yù)測效果最好的模型為BO-LSTM和LSTM。針對不同類型天然氣處理廠,BO-LSTM模型能較好捕捉時間特征,天然氣處理廠負(fù)荷率的預(yù)測精度最高,穩(wěn)定性最強(qiáng),處理廠A的MAE值和RMSE值分別為0.561和1.961,處理廠B的MAE值和RMSE值分別為3.242和10.316,處理廠C的MAE值和RMSE值分別為0.762和0.908,處理廠D的MAE值和RMSE值分別為0.643和1.373。與傳統(tǒng)LSTM模型相比,預(yù)測誤差MAE值和RMSE值最大可提升57.8%和30.1%。
2)本研究的BO-LSTM模型能夠?qū)崿F(xiàn)對天然氣處理廠負(fù)荷率的實時預(yù)測和監(jiān)控,可為天然氣處理廠生產(chǎn)運行和決策提供技術(shù)支持。
3)傳統(tǒng)LSTM模型的預(yù)測準(zhǔn)確性和穩(wěn)定性高于ARIMA、BPNN和SVM模型。因此,在LSTM模型基礎(chǔ)上結(jié)合物理機(jī)理作進(jìn)一步優(yōu)化可實現(xiàn)更加準(zhǔn)確的預(yù)測模型,未來可應(yīng)用于電廠、水廠負(fù)荷率預(yù)測等領(lǐng)域。