張 繼 慶
(石油開發(fā)中心有限公司,山東 東營 257000)
石油開發(fā)中心有限公司已基本完成了“四化”建設(shè)。按照數(shù)字化生產(chǎn)現(xiàn)場目前的業(yè)務(wù)需求,通過系統(tǒng)建設(shè),實現(xiàn)了生產(chǎn)參數(shù)的實時采集與存儲,為工況的智能診斷提供了數(shù)據(jù)基礎(chǔ)。本文利用數(shù)據(jù)挖掘、歸一化處理和構(gòu)建BP神經(jīng)網(wǎng)絡(luò)的方法來實現(xiàn),油氣生產(chǎn)信息化條件下的工況智能診斷。
數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)庫知識發(fā)現(xiàn)的一個步驟,數(shù)據(jù)挖掘是指通過特定的算法搜索海量數(shù)據(jù)中所隱藏信息的過程。數(shù)據(jù)挖掘通過數(shù)據(jù)庫技術(shù)、統(tǒng)計分析技術(shù)、情報分析技術(shù)、機器學(xué)習(xí)技術(shù)等諸多方法來實現(xiàn)目標(biāo)[1,2]。
在油氣生產(chǎn)中大量生產(chǎn)參數(shù)存在相關(guān)性,但這些相關(guān)關(guān)系相對隱蔽,通過經(jīng)驗或常規(guī)相關(guān)性分析難以發(fā)現(xiàn),因而需要借助數(shù)據(jù)挖掘技術(shù)進行進一步分析。
關(guān)聯(lián)分析就是發(fā)現(xiàn)海量數(shù)據(jù)的數(shù)據(jù)關(guān)聯(lián)性或相關(guān)性,生產(chǎn)參數(shù)根據(jù)采集頻率分類,可分為日數(shù)據(jù)、半小時數(shù)據(jù)和分鐘數(shù)據(jù),見表1。
表1 生產(chǎn)參數(shù)表
但并非所有數(shù)據(jù)都與工況變化存在關(guān)聯(lián),因而需要對這些參數(shù)進行數(shù)據(jù)挖掘,在數(shù)據(jù)挖掘之前需要進行關(guān)聯(lián)分析,對數(shù)據(jù)進行分類處理。
本文根據(jù)經(jīng)驗,總結(jié)了與工況存在關(guān)聯(lián)性的參數(shù)如表2所示。
表2 工況相關(guān)生產(chǎn)參數(shù)表
由于最大載荷、最小載荷、功圖面積都在示功圖中體現(xiàn),下文數(shù)據(jù)挖掘中不單獨分析。
參數(shù)與工況的改變是同時發(fā)生的,研究的依據(jù)是進行輔助參數(shù)的與工況之間相關(guān)性的分析并通過參數(shù)變化趨勢與工況的變化來判斷工況與參數(shù)之間的關(guān)聯(lián)性。首先通過對數(shù)據(jù)庫油井對應(yīng)工況的標(biāo)記,獲得油井在某一時刻、某一天的工況類型,如正常、供液不足、油稠緩下、出砂的標(biāo)記。第二,比對不同參數(shù)在工況變化時的變化情況,通過對線性數(shù)據(jù)的變化進行歸一化處理,得到參數(shù)變化的幅度指標(biāo),并判斷參數(shù)變化與工況之間是否存在聯(lián)系[3]。
在t時刻或t日期前的T時間內(nèi)該參數(shù)存在最大值M1與最小值M2,工況變化前后的參數(shù)值為m1(后)和m2(前),M1與M2的差值為ΔM,m1和m2的值為Δm,Δm/ΔM為變化的幅度指標(biāo)A,本文將A大于0.3或小于-0.3認(rèn)為是有效關(guān)聯(lián)變化。
變化分類設(shè)置三種:基本不變、上升、降低(見表3)。
表3 指標(biāo)A分類標(biāo)準(zhǔn)表
參數(shù)在采集與存儲過程中由于頻度的不同,與工況的相關(guān)性也需要區(qū)別分析,本文分別對日數(shù)據(jù)、半小時數(shù)據(jù)及分鐘級數(shù)據(jù)進行相關(guān)性分析。
其中,日數(shù)據(jù)取泵徑、日產(chǎn)油量、日產(chǎn)液量、含水率、日耗電量、桿徑、沉沒度,對于日度數(shù)據(jù),T取15 d,即15個數(shù)據(jù)點。將選取的石油開發(fā)中心336口抽油機井2年的歷史數(shù)據(jù)進行運算分析可以得到正常工況與異常工況對比,占比最多的參數(shù)變化情況[4,5]。半小時數(shù)據(jù)是與功圖相關(guān)的數(shù)據(jù),半小時數(shù)據(jù)取平衡率、上行電流、下行電流、上行功率、下行功率,其中T取7.5 h,即15個數(shù)據(jù)點。分鐘級數(shù)據(jù)取溫度、回壓,T取15 min,即15個數(shù)據(jù)點。
通過對上述分析可以看出,平衡率、上行功率、下行功率三個參數(shù)與工況的相關(guān)性弱于上行電流、下行電流與工況的相關(guān)性,進一步分析可得到參數(shù)與工況的關(guān)聯(lián)關(guān)系,見表4。
所得關(guān)聯(lián)關(guān)系即可用于與傳統(tǒng)經(jīng)驗進行對比,并補充完善到傳統(tǒng)知識體系中去,同時總結(jié)出的強相關(guān)參數(shù)可以作為智能工況診斷的訓(xùn)練參數(shù)。
本文就基于大數(shù)據(jù)進行參數(shù)模擬及預(yù)測,通常情況下需要油氣生產(chǎn)系統(tǒng)參數(shù)的數(shù)學(xué)模型作為優(yōu)化的函數(shù)基礎(chǔ),由于部分關(guān)聯(lián)數(shù)據(jù)之間存在非線性關(guān)系,故選擇使用大數(shù)據(jù)訓(xùn)練BP神經(jīng)網(wǎng)絡(luò),并使用BP仿真模型代替數(shù)學(xué)模型[6]。
表4 強相關(guān)參數(shù)變化與工況對比表
人工神經(jīng)網(wǎng)絡(luò)是人類在對自身大腦研究的基礎(chǔ)上,使用計算機技術(shù)對自身大腦神經(jīng)結(jié)構(gòu)和運行方式的模擬。基于此方法構(gòu)造出大量以神經(jīng)元為單位且相互連接的非線性網(wǎng)絡(luò),此網(wǎng)絡(luò)具有極強的仿真模擬功能,目前在仿真模擬方面較為可靠的網(wǎng)絡(luò)是BP網(wǎng)絡(luò)。
BP神經(jīng)網(wǎng)絡(luò)意為前反饋型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),由輸入輸出層以及隱層構(gòu)成[7],其中具有一個隱層的BP神經(jīng)網(wǎng)絡(luò)應(yīng)用最多,神經(jīng)網(wǎng)絡(luò)中的同一層之間的神經(jīng)元之間不連接而層與層之間的神經(jīng)元相互連接,如圖1所示。網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練過程可劃分成正向傳播和反向傳播過程兩個部分,經(jīng)過正向和反向傳播過程多次反復(fù)傳播直至誤差函數(shù)達到最小值或者計算次數(shù)達到設(shè)定的最大次數(shù)為止,這樣經(jīng)過反復(fù)訓(xùn)練過的神經(jīng)網(wǎng)絡(luò)就成為具有特定功能的網(wǎng)絡(luò)模型[8]。
通過數(shù)據(jù)挖掘確定6個與工況強相關(guān)的參數(shù),并與示功圖一同用于工況診斷模型的訓(xùn)練中。首先進行數(shù)據(jù)歸一化處理,將功圖數(shù)據(jù)200個點進行橫縱坐標(biāo)的分解,分別獲取最大值和最小值,最小值加最大值為上限值,0為下限值。所有數(shù)值除以上限值并乘以100,得到歸一化數(shù)值l和f,歸一化數(shù)值在歸一化坐標(biāo)中重新形成新的閉合曲線O。
在歸一化坐標(biāo)系中等距設(shè)立441個坐標(biāo)點,并以(0,0)—(20,20)分別命名,通過程序比對,計算出各等距坐標(biāo)點的被覆蓋情況,位于新的閉合曲線O內(nèi)部的坐標(biāo)點賦值N為1,新的閉合曲線O外部的坐標(biāo)點賦值N為0。此時功圖歸一化完成。
通過歸一化處理,分屬兩井的兩個在原坐標(biāo)中不相重合的同一工況的示功圖基本覆蓋了相同的坐標(biāo)點。相同類型的工況功圖所覆蓋的等距坐標(biāo)點具有良好的相似性(見圖2~圖5)。
在本文的工況診斷模型中,油井工況類型X,其主要關(guān)聯(lián)因素有功圖覆蓋點數(shù)據(jù)N、油井產(chǎn)液量Q、耗電量E、上行電流IS、下行電流IX、溫度T、回壓Ph。將選取的石油開發(fā)中心336口抽油機井2年的歷史數(shù)據(jù)中的5萬組數(shù)據(jù)對工況診斷神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,經(jīng)過正向和反向傳播過程多次反復(fù)傳播,直至誤差函數(shù)達到最小值或者計算次數(shù)達到設(shè)定的最大次數(shù)為止。經(jīng)過多次訓(xùn)練,選取收斂效果好且誤差較小的網(wǎng)絡(luò),作為工況模擬網(wǎng)絡(luò)模型(見圖6)。
在BP模型建成之后,選取3 000組未參與訓(xùn)練的數(shù)據(jù)來檢驗神經(jīng)網(wǎng)絡(luò)的精度,結(jié)果顯示通過BP模型診斷的總體正確率為96.6%,其他各項正確率均在90%以上,只有結(jié)蠟診斷正確率為73.3%,其他各項工況預(yù)測均在90%以上,見表5。而結(jié)蠟診斷正確率低的原因在于結(jié)蠟現(xiàn)象的外部表現(xiàn)較為隱蔽,傳統(tǒng)判斷方式是難以判斷的。綜上所述,工況診斷BP模型誤差較小,可用于實際生產(chǎn)中輔助決策。
表5 工況診斷BP模型精度分析表
本文通過數(shù)據(jù)挖掘方法對影響工況的諸多參數(shù)進行分析,確定與工況有強相關(guān)關(guān)聯(lián)的生產(chǎn)參數(shù),并對示功圖進行了歸一化處理。將示功圖數(shù)據(jù)與強相關(guān)參數(shù)數(shù)據(jù)用于訓(xùn)練工況診斷BP神經(jīng)網(wǎng)絡(luò),得到了工況診斷BP神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)的診斷正確率達到96.6%,工況診斷誤差較小,可用于實際生產(chǎn)中輔助決策。