李 雨,侯 磊,徐 磊,白小眾,劉金海,孫 欣,谷文淵
(1.中國(guó)石油大學(xué)(北京)石油工程教育部重點(diǎn)實(shí)驗(yàn)室,北京 102200; 2.中國(guó)石油天然氣集團(tuán)公司油氣儲(chǔ)運(yùn)重點(diǎn)實(shí)驗(yàn)室,北京 102200; 3.國(guó)家管網(wǎng)集團(tuán)北方管道有限責(zé)任公司錦州輸油氣分公司,遼寧 錦州 121000)
自上世紀(jì)起,我國(guó)學(xué)者開(kāi)始進(jìn)行輸油管道運(yùn)行電耗的相關(guān)研究并分析影響管道電耗的重要因素。管道周轉(zhuǎn)量、進(jìn)出站壓力、進(jìn)出站溫度和土壤溫度等特征都被認(rèn)為是影響管道電耗的重要因素[1-5]。由于每條管線運(yùn)行工況不同,不同因素影響管道電耗的程度亦不同。有的僅利用日輸量便可比較準(zhǔn)確地預(yù)測(cè)管道運(yùn)行電耗[6],也有的需要同時(shí)考慮多個(gè)特征才能實(shí)現(xiàn)管道電耗的準(zhǔn)確預(yù)測(cè)[7]。針對(duì)第二種情況,不但需要生成一些設(shè)備無(wú)法直接測(cè)量的特征,以擴(kuò)大待選特征范圍,還需要利用合理的算法來(lái)確定更適合被用來(lái)預(yù)測(cè)管道電耗的特征。為確定一個(gè)能夠最精確預(yù)測(cè)管道電耗的小特征集合,需要對(duì)全部待選特征進(jìn)行相關(guān)性分析。進(jìn)行相關(guān)性分析的方法有皮爾遜系數(shù)法[8]和互信息法[9-10]。但是皮爾遜系數(shù)在評(píng)價(jià)兩個(gè)正態(tài)分布特征之間的線性關(guān)系時(shí)才會(huì)有很好的效果,而對(duì)非線性關(guān)系不敏感[11]?;バ畔㈦m然沒(méi)有上述問(wèn)題,但需要計(jì)算特征的概率密度函數(shù)[12-13]。管道運(yùn)行特征間非線性強(qiáng),且多為離散數(shù)據(jù),不宜計(jì)算概率密度函數(shù),直接使用上述兩種方法效果不好,需要進(jìn)行改進(jìn)。Kraskov[14]提出基于K近鄰的互信息估計(jì)方法,一定程度上解決了互信息過(guò)度依賴特征分布規(guī)律的缺陷。K近鄰互信息估計(jì)不需要計(jì)算概率密度函數(shù),只需要計(jì)算不同特征之間的歐氏距離便能估算出兩個(gè)特征之間的互信息值。本研究利用原油管道輸送相關(guān)公式擴(kuò)充原始數(shù)據(jù)集,將K近鄰互信息估計(jì)和BPNN結(jié)合,提出一種原油管道電耗預(yù)測(cè)模型,并利用某原油管道三年運(yùn)行數(shù)據(jù)驗(yàn)證該模型預(yù)測(cè)效果。
全部數(shù)據(jù)由原始數(shù)據(jù)和生成數(shù)據(jù)兩部分組成,共包括管道運(yùn)行、油品物性、環(huán)境狀況、設(shè)備工況四個(gè)方面。其中擴(kuò)充數(shù)據(jù)由原始數(shù)據(jù)通過(guò)管道輸送理論公式計(jì)算得來(lái)。
該類(lèi)數(shù)據(jù)源于某段原油管道2016年至2019年運(yùn)行報(bào)表,共911組數(shù)據(jù)。每組數(shù)據(jù)包括日輸量、出站壓力、出站溫度以及地溫等21個(gè)特征。該段管道尺寸為φ508×7.1,全長(zhǎng)為55.2 km,年設(shè)計(jì)輸量為107t,設(shè)計(jì)壓力為5 MPa,中間無(wú)其他站場(chǎng)。
原始數(shù)據(jù)并未覆蓋可能與管道電耗相關(guān)的全部特征,因此需要對(duì)原始數(shù)據(jù)進(jìn)行擴(kuò)充。同時(shí),新生成的強(qiáng)相關(guān)性特征也可以被認(rèn)為是學(xué)習(xí)任務(wù)的中間概念,這種中間概念越多,往往越有利于建立精確的管道電耗預(yù)測(cè)模型[15]。利用已有管道輸送理論公式計(jì)算出多個(gè)與原油輸送相關(guān)的特征,如表征流體流動(dòng)情況的雷諾數(shù)Re、衡量換熱情況的傳熱系數(shù)K、蘇霍夫溫降公式中的參數(shù)a以及進(jìn)出站壓差等特征。在式(1)、(2)中分別列出雷諾數(shù)Re和蘇霍夫溫降公式中參數(shù)a的計(jì)算公式
Re=ρvd/μ
(1)
(2)
式中ρ——油品密度/kg·m-3;
v——油品流速/m·s-1;
d——管道內(nèi)徑/m;
μ——油品動(dòng)力黏度/Pa·s;
K——傳熱系數(shù)/W·(m2·℃)-1;
D——管道外徑/m;
G——管道輸送油品的質(zhì)量流量/t·d-1;
C——油品熱容/J·(kg·℃)-1。
共得到31個(gè)特征見(jiàn)表1。按照訓(xùn)練集和測(cè)試集比例為4∶1對(duì)911組數(shù)據(jù)進(jìn)行劃分,得到訓(xùn)練集數(shù)據(jù)728個(gè),測(cè)試集數(shù)據(jù)183個(gè)。
表1 31個(gè)特征名稱表
引入K近鄰互信息估計(jì)(K-EMI)[14]計(jì)算特征間的相關(guān)性。K-EMI在評(píng)價(jià)復(fù)雜非線性關(guān)系時(shí)有較好的效果,并且不需要計(jì)算離散數(shù)據(jù)的概率密度。
管道運(yùn)行數(shù)據(jù)集共含911組數(shù)據(jù),每組數(shù)據(jù)擁有31個(gè)特征。數(shù)據(jù)集用D={X1,X2,X3,……,X31}來(lái)代表,Xi={xi1,xi2,xi3,……,xi911}。令管道電耗為特征Y,則每個(gè)特征Xi和管道電耗Y張成一組向量空間。設(shè)Zij為特征Xi和Y空間中的第j個(gè)點(diǎn),則有Zij=(xij,Y)。某點(diǎn)Z和其他點(diǎn)Z′之間的距離d的計(jì)算公式為[15]
d=||Z-Z′||=max{||x-x′||,||Y-Y′||}
(3)
其中,||Y-Y′||和||x-x′||是同階范數(shù)。手動(dòng)確定K值后,點(diǎn)Zij到其最近的第K個(gè)點(diǎn)的歐式距離記作ε(i,j)/2,投影到X和Y的子平面上的距離分別為εx(i,j)/2和εy(i,j)/2。根據(jù)式(3),有ε(i,j)=max(εx(i,j),εy(i,j))。統(tǒng)計(jì)出在X和Y方向上到Z點(diǎn)歐氏距離小于ε(i,j)/2的點(diǎn)的個(gè)數(shù),分別記為nx和ny。圖1展示處于特征空間X和Y中的點(diǎn)如何確定nx和ny。其中深色點(diǎn)有nx=5,ny=4。
圖1 K近鄰互信息估計(jì)示意圖
利用式(4)和式(5)計(jì)算特征Xi和Y之間的互信息
I(i)(Xi,Y)=ψ(K)-<ψ(nx+1)+
ψ(ny+1)>+ψ(N)
(4)
(5)
ψ是伽瑪函數(shù),滿足ψ(x+1)=ψ(x)+1/x,ψ(1)=-0.577 216。特征間K-EMI結(jié)果的集合可表示為I={I(1)(X1,Y),I(2)(X2,Y),……,I(31)(X31,Y)}。K-EMI值越高,表示相關(guān)性越強(qiáng)。
BPNN能夠以任意精度逼近某一非線性函數(shù),被廣泛應(yīng)用于建立預(yù)測(cè)模型。BPNN拓?fù)浣Y(jié)構(gòu)如圖2所示,其中輸入層和隱含層可包含多個(gè)神經(jīng)元,不同層的神經(jīng)元間利用權(quán)值W連接激活函數(shù)h為relu函數(shù)。神經(jīng)網(wǎng)絡(luò)通過(guò)修正權(quán)值來(lái)使模型平均均方誤差(MSE)達(dá)到最小,達(dá)到提高模型預(yù)測(cè)精度的目的。本研究將不同特征作為BPNN輸入,將電耗作為輸出,建立單隱含層的電耗預(yù)測(cè)模型。
圖2 單隱含層神經(jīng)網(wǎng)絡(luò)示意圖
為評(píng)價(jià)模型訓(xùn)練速度和預(yù)測(cè)精度,本研究采用建模時(shí)間作為評(píng)價(jià)模型訓(xùn)練速度的指標(biāo),采用均方根誤差(RMSE)、決定系數(shù)(R2)、平均絕對(duì)誤差(MAE)和平均絕對(duì)百分比誤差(MAPE)作為衡量模型精度的指標(biāo),其計(jì)算公式如下
(6)
(7)
(8)
(9)
采用Windows10系統(tǒng),處理工具為Spyder軟件,BPNN基于Keras第三方庫(kù)建立。
第一步利用原油加熱輸送和等溫輸送相關(guān)公式橫向拓展數(shù)據(jù)集;第二步利用K-EMI選出與電耗相關(guān)性強(qiáng)的特征;第三步將選出的不同特征喂入BPNN以建立原油管道電耗預(yù)測(cè)模型;第四步利用3.3提到的四個(gè)誤差指標(biāo)驗(yàn)證神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)精度。圖3展示了構(gòu)建原油管道電耗預(yù)測(cè)模型的完整過(guò)程。
圖3 方法概覽
K-EMI的計(jì)算需要提前設(shè)定K值,當(dāng)K值不同時(shí),計(jì)算結(jié)果略有差異。本研究計(jì)算不同K值時(shí)模型的K-EMI結(jié)果以作對(duì)比,結(jié)果如表2所示。
觀察表2能夠發(fā)現(xiàn),K取不同值時(shí),特征T1~T6的K-EMI數(shù)值排位靠前且名次固定。選取T1~T6作為模型的備選輸入特征。
表2 不同K值時(shí)的K-EMI結(jié)果
為更直觀地展示每個(gè)特征和管道電耗的分布規(guī)律,將縱坐標(biāo)設(shè)為管道電耗,橫坐標(biāo)分別為不同特征,繪制特征T1~T8與電耗分布關(guān)系圖,如圖4所示,其中各點(diǎn)為數(shù)據(jù)實(shí)際位置分布,曲線為拋物線擬合結(jié)果。
圖4 電耗與部分特征分布關(guān)系圖
分析表2和圖4發(fā)現(xiàn):進(jìn)出站壓差、進(jìn)出站溫差和雷諾數(shù)等生成特征與管道電耗存在明顯的非線性關(guān)系,說(shuō)明在預(yù)測(cè)前先擴(kuò)充數(shù)據(jù)集有利于找到更多與管道電耗存在強(qiáng)相關(guān)性的特征;衡量流動(dòng)狀況的雷諾數(shù)與運(yùn)行電耗的相關(guān)性很強(qiáng),衡量傳熱能力的傳熱系數(shù)卻未出現(xiàn)在圖表中,說(shuō)明在很大程度上決定該管道電耗水平的是原油流動(dòng)狀況,而對(duì)流換熱過(guò)程對(duì)管道電耗水平不起決定作用;壓差與管道電耗的相關(guān)性強(qiáng)于進(jìn)站壓力、出站壓力等壓力參數(shù),證明在輸油過(guò)程中管道電耗主要用來(lái)通過(guò)離心泵給油品增加壓頭,增大外輸壓力;溫度特征和油品運(yùn)動(dòng)黏度都未表現(xiàn)出與電耗的強(qiáng)相關(guān)性,這是由于溫度特征不能直接影響管道電耗,只能通過(guò)改變油品黏度間接影響管道電耗。油品的運(yùn)動(dòng)黏度本身波動(dòng)范圍小且存在其他因素干擾,不能決定管道運(yùn)行電耗,因此這些特征與電耗的相關(guān)性都很弱。
綜上所述,通過(guò)相關(guān)性分析不但能夠確定與電耗相關(guān)的特征,還能通過(guò)分析不同特征間相關(guān)性差異解釋輸油管道運(yùn)行電耗變化。
共建立9個(gè)BPNN模型,將K-EMI計(jì)算出的前1~6個(gè)與電耗相關(guān)性最強(qiáng)的特征作為輸入得到1#~6#模型;將全部特征作為模型輸入得到7#模型;將互信息計(jì)算出的前5個(gè)特征作為輸入得到8#模型,將皮爾遜系數(shù)計(jì)算出的前5個(gè)特征作為輸入得到9#模型。對(duì)比模型1#~7#以確定用來(lái)建模的最優(yōu)特征數(shù)量,對(duì)比模型5#、8#和9#以分析不同相關(guān)性分析方法提取相同數(shù)量特征的效果。三種相關(guān)性分析方法提取出的特征集合如表3所示。
表3 不同相關(guān)性分析方法提取的特征集合
神經(jīng)網(wǎng)絡(luò)模型參數(shù)、30次重復(fù)實(shí)驗(yàn)的平均誤差和平均訓(xùn)練時(shí)間如表4所示。根據(jù)模型的均方根誤差(RMSE)、決定系數(shù)(R2)、平均絕對(duì)誤差(MAE)和平均相對(duì)百分比誤差(MAPE)結(jié)果繪制圖5所示誤差分布圖。
表4 模型參數(shù)、平均誤差值與平均訓(xùn)練時(shí)間
圖5 模型誤差分布圖
分析1#~7#模型能夠發(fā)現(xiàn),模型預(yù)測(cè)誤差隨輸入特征的增加呈現(xiàn)先降低后略微升高的特點(diǎn),5#模型預(yù)測(cè)誤差最小。說(shuō)明利用K-EMI計(jì)算得到的5個(gè)特征已經(jīng)包含了能夠精確反映管道電耗變化的信息,其余特征多屬于噪聲特征,不利于提高模型預(yù)測(cè)效果。對(duì)比5#、8#和9#模型能夠發(fā)現(xiàn),提取5個(gè)特征時(shí),通過(guò)K-EMI選出的特征能夠建立更準(zhǔn)確的電耗預(yù)測(cè)模型,這證明使用K-EMI計(jì)算該管線中不同特征與電耗相關(guān)性的效果優(yōu)于使用互信息和皮爾遜系數(shù)計(jì)算的效果。7#模型比5#模型的隱含層神經(jīng)元數(shù)量增加了10個(gè),平均訓(xùn)練時(shí)間也增長(zhǎng)了22.49%,這是由于輸入特征數(shù)量增加,BP神經(jīng)網(wǎng)絡(luò)隱含層需要加入更多的神經(jīng)元以學(xué)習(xí)不同特征間的規(guī)律,因此增加了模型訓(xùn)練時(shí)間。
對(duì)比基于不同輸入特征建立的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的預(yù)測(cè)效果能夠得到以下結(jié)論:
(1)在相關(guān)性分析前先利用相關(guān)公式對(duì)原始數(shù)據(jù)進(jìn)行擴(kuò)充能得到更多與電耗相關(guān)性強(qiáng)的特征。
(2)K-EMI能有效評(píng)價(jià)不同特征與電耗的相關(guān)性,且效果明顯好于互信息和皮爾遜系數(shù)的效果。
(3)5#預(yù)測(cè)模型具有最高的預(yù)測(cè)精度和較短的模型訓(xùn)練時(shí)間,證明本研究提出方法建立的BPNN模型能夠很好地預(yù)測(cè)管道電耗。