王 通,段澤文,張文喜
(1.沈陽工業(yè)大學 電氣工程學院,沈陽 110870;2.盤錦遼河油田遼南集團有限公司 遼南公司,遼寧 盤錦 124114)
隨著油田生產信息化的快速發(fā)展,根據(jù)不同工況信息,進行油井生產故障診斷分析和動態(tài)調整采油方式,對于油井設備的安全運行和提高采油效率都有重要的現(xiàn)實意義[1-2].因此,油井工況的智能識別成為數(shù)字化油田建設的一個重要環(huán)節(jié)[3].
近年來,利用生產參數(shù)進行工況識別的方法在不同的生產行業(yè)領域取得了良好的發(fā)展[4-5].文獻[6]采用模糊C-均值聚類算法和變量相關性分析的方法對火電機組重要參數(shù)運行的歷史數(shù)據(jù)進行了分析,實現(xiàn)不同工況的劃分.文獻[7]采用加權的K均值算法對水泥生產線控制參數(shù)進行聚類分析,完成工況檢索,使生產系統(tǒng)實時處于最優(yōu)的運行狀態(tài).傳統(tǒng)工況識別算法多采用單一時刻樣本的空間距離度量進行相似性聚類,但在油田生產過程中,由于存在生產波動和異常等現(xiàn)象,單一時刻樣本并不能對當前工況特性進行準確描述,現(xiàn)場生產人員采用一段時間生產數(shù)據(jù)特性作為當前工況的判斷依據(jù)[8].文獻[9]提出一種全自動的多模態(tài)過程離線模態(tài)識別方法.對窗口數(shù)據(jù)進行均值處理,雖簡化了計算,但淹沒了不同窗口的數(shù)據(jù)多樣性.文獻[10]提出一種基于多工況識別的過程監(jiān)測方法,采用窗口切割技術和窗口平均值相似度計算來完成不同工況的分析.采用傳統(tǒng)基于樣本距離的計算方法并不適用于空間樣本數(shù)據(jù)相似性的度量.因此,本文提出采用基于窗口樣本相似因子分析方法,以一定寬度的窗口樣本數(shù)據(jù)特征來表征當前的工況特性,減小由于單一時刻樣本數(shù)據(jù)在描述工況特性時的不準確性以及異常數(shù)據(jù)對同一工況數(shù)據(jù)聚類效果的影響.利用窗口樣本的相似因子計算來代替?zhèn)鹘y(tǒng)樣本的距離計算,采用改進的K-means聚類算法根據(jù)不同工況樣本數(shù)據(jù)的特性對生產參數(shù)進行聚類分析,完成多工況的識別過程.
選取的特征參數(shù)應盡可能表征不同工況下的所有生產特征,準確反映相應的生產狀況,是準確進行工況識別的關鍵.特征參數(shù)的選取應遵循以下原則:1)區(qū)分性,在不同工況類型下這些特征參數(shù)的差異很大;2)聚類性,在同一工況類型下這些特征參數(shù)的差異較小;3)獨立性,各個特征參數(shù)是獨立的,彼此之間沒有關聯(lián)性;4)方便易測.
對于生產特征參數(shù)的選取,結合現(xiàn)場生產資料,通過大量數(shù)據(jù)分析后選取日產液量Q,日產氣量V,油壓Fo,井口溫度T,泵效η和電流I等6個生產工作參數(shù)作為特征參數(shù),全面涵蓋了油田生產中油井的抽油能力和油層供液能力的相關參數(shù)信息,具體描述如表1所示.
為減小傳感器采樣數(shù)據(jù)的誤差影響,對油田生產參數(shù)的采樣數(shù)據(jù)作相應的均值處理,以一個采樣周期內所有采樣數(shù)據(jù)點的均值作為該時刻的樣本數(shù)據(jù)值,降低異常數(shù)據(jù)的干擾.
表1 選取的生產特征參數(shù)Tab.1 Selected production characteristic parameters
油田生產是一個多工況運行的復雜生產過程,包括多個穩(wěn)態(tài)工況以及不同穩(wěn)態(tài)工況之間的過渡過程.通常在生產運行穩(wěn)定時,各生產參數(shù)的數(shù)據(jù)變化不大,數(shù)據(jù)特性基本一致.當采油方式發(fā)生改變或出現(xiàn)生產波動時,傳統(tǒng)工況聚類方法不能有效表征不同工況特性,應對異常數(shù)據(jù)對工況聚類的影響,最終導致聚類效果不理想,造成部分工況發(fā)生誤判的情況.因此,本文首先對歷史生產數(shù)據(jù)進行窗口切割,以窗口樣本數(shù)據(jù)的整體特征來表征當前生產工況特性,減少波動數(shù)據(jù)和異常數(shù)據(jù)對工況特性的影響;然后采用窗口樣本相似因子分析來合理表征不同工況的樣本數(shù)據(jù)特性;最后采用改進的K-means聚類算法對不同窗口數(shù)據(jù)進行聚類分析,完成不同工況的識別過程.
采集油田生產參數(shù)的歷史數(shù)據(jù),將其記為數(shù)據(jù)集X∈Rn×m,n為樣本數(shù)據(jù)個數(shù),m為生產參數(shù)變量個數(shù).選取長度為H的窗口,對生產參數(shù)的歷史數(shù)據(jù)X∈Rn×m沿采樣時間軸方向進行等距切割,將n個樣本數(shù)據(jù)分割為K個窗口數(shù)據(jù)子集,即
n=HK+d (0≤d (1) 將K個窗口數(shù)據(jù)按連續(xù)采樣的時間間隔進行排序,記為Xi∈RH×m(i=1,2,…,K),Xi為第i個時刻的窗口數(shù)據(jù)子集. 對于窗口長度H的選取,要根據(jù)實際過程選取恰當?shù)那懈顚挾?H越大,對噪聲、異常數(shù)據(jù)的冗余能力和抗干擾能力越強,但會使得工況數(shù)據(jù)點的劃分準確性下降,造成部分樣本分類錯誤;H越小,會使各工況數(shù)據(jù)點劃分更準確,但噪聲和奇異點等隨機擾動的影響便會增大,數(shù)據(jù)特性容易被掩蓋,使得數(shù)據(jù)聚類的復雜度升高. 設兩個M維的線性空間向量u和v,定義空間歐式距離d2(u,v)為 (2) 傳統(tǒng)基于樣本空間距離的相似性計算,在樣本復雜度上升時,空間距離不能有效對樣本進行區(qū)分.本文采用PCA相關的相似因子分析來進行數(shù)據(jù)相似性判斷,設采集的樣本數(shù)據(jù)X為 X=[X1,X2,…,XK]T(Xi∈RH×m) 對Xi進行PCA分解可得 (3) 式中:t1,t2,…,tk為得分向量;p1,p2,…,pk為載荷向量;E為數(shù)據(jù)的殘差空間.取前p個主元進行后續(xù)相似因子運算. 設數(shù)據(jù)集Xl、Xh∈RH×m均由H個樣本m個變量組成,取每個數(shù)據(jù)集矩陣的PCA模型中前p個特征向量作為主元向量. (4) PCA相似因子分析可用于衡量兩個多元數(shù)據(jù)集間的相似性,通過計算兩個主元模型負載向量之間的角度大小以及引入不同主元向量對應的特征值λ,來反映各主元所含方差信息量的不同,區(qū)分不同數(shù)據(jù)集之間的相似性,并在許多數(shù)據(jù)分析應用場合取得了良好的效果. 采用窗口樣本相似因子分析計算替代傳統(tǒng)的距離計算方法,能更好地衡量樣本數(shù)據(jù)之間的相似關系.改進聚類算法對于聚類中心和類別的選取,能夠有效防止出現(xiàn)局部最優(yōu)的情形,提升整體的聚類效果.算法的具體步驟流程如圖1所示. 算法輸入為切割后的K個窗口數(shù)據(jù)子集X1,X2,…,XK,以及不同聚類中心之間的最小相似性閾值θ.算法的輸出為目標類數(shù)量C,代表不同的穩(wěn)態(tài)工況.從K個聚類單元中均勻抽取C0個單元作為初始聚類中心Wi(i=1,2,…,C0),保證能夠選取到合適的聚類中心,一般C0的取值為K/3~ K/2.當算法在兩次迭代運算后對應聚類中心相似性因子的差值小于算法收斂條件閾值ε時,即算法終止.ε的取值是根據(jù)算法在多次迭代后以不同聚類中心間相似因子的差值范圍作為參考,采用交叉驗證的方式來進行選取. 圖1 改進的K-means算法流程圖Fig.1 Flow chart of improved K-means algorithm 實驗采用遼河油田某采油平臺在2017年3月20日至5月20日的實際生產監(jiān)測記錄進行研究,驗證本文方法的有效性.選取抽油機井生產記錄中的油壓、日產液量、日產氣量、井口溫度、泵效和電流等6個生產參數(shù)作為過程監(jiān)測變量,根據(jù)生產數(shù)據(jù)特性的變化來反映油井生產工況的改變. 圖2 基于窗口分析的工況識別流程圖Fig.2 Flow chart of condition recognition based on window analysis 根據(jù)采油平臺生產監(jiān)測記錄顯示T=60 d,以生產參數(shù)變量中最小的采樣頻率為基準進行參數(shù)數(shù)據(jù)的采樣,每天采樣次數(shù)為12次,采樣數(shù)據(jù)為720個.根據(jù)生產記錄顯示,在日期T=1~16 d內地面一直發(fā)生滲水現(xiàn)象,油井運行記為穩(wěn)態(tài)工況A;在T=17 d時,地面滲水停止,油井進入過渡過程AB;在T=20 d時,過渡過程結束,油井恢復正常生產運行,進入到下一個穩(wěn)態(tài)工況B.在T=45 d時,抽油機井發(fā)生游漏現(xiàn)象,進入過渡過程BC;在T=49 d時,過渡過程結束,油井進入下一個穩(wěn)態(tài)工況C.在T=60 d時,油井依然運行在游漏狀態(tài)下.設置兩個聚類中心的最小相似性閾值為θ=0.225,算法收斂條件閾值ε=0.15.實驗研究包含了油井的3個工況變化過程,具體如表2所示. 表2 生產記錄過程Tab.2 Production record procedure 實驗過程中生產參數(shù)隨工況的變化而改變,變化曲線如圖3所示,橫軸代表采樣點,縱軸為各生產參數(shù)數(shù)值. 圖3 特征參數(shù)變化曲線Fig.3 Changing curve of characteristic parameters 采用生產參數(shù)特征進行工況識別,當H=1時,即表示不考慮生產波動和過渡過程中異常數(shù)據(jù)對整體數(shù)據(jù)的影響,采用傳統(tǒng)K-means聚類算法進行聚類分析.聚類單元為720個,初始聚類中心C0和聚類類別通過類簇指標下降最快原則進行選取,然后根據(jù)不同的聚類結果以生產時間為橫軸進行工況類別的順序劃分,最終工況的識別結果如圖4所示. 圖4 傳統(tǒng)K-means算法聚類結果(H=1)Fig.4 Clustering results by traditional K-means algorithm (H=1) 由圖4可知,由于在聚類分析時未考慮生產波動干擾或過渡過程的異常數(shù)據(jù)對整個工況聚類結果的影響,使得即使在同一穩(wěn)態(tài)工況內數(shù)據(jù)特性相近時,仍然出現(xiàn)了多次工況類型波動發(fā)生工況誤判的情況,得出錯誤的結論. 由于油田生產是一個慢時變的過程,結合生產參數(shù)采樣頻率,通過對選取不同切割窗口長度H進行實驗對比分析,結果表明,6 h內的生產數(shù)據(jù)能夠及時準確地反映實際的生產工況變化情況.當H=6時,樣本數(shù)據(jù)被分割為120個窗口,計算每個窗口的均值向量,利用改進的K-means算法進行聚類分析.聚類單元為120個,初始聚類中心C0為50個,然后根據(jù)不同的聚類結果進行工況劃分,最終工況的識別結果如圖5所示. 圖5 基于窗口分析的K-means算法聚類結果(H=6)Fig.5 Clustering results by K-means algorithm based on window analysis (H=6) 通過對比圖4、5可知,在同一穩(wěn)態(tài)工況中,由于生產波動異常數(shù)據(jù)帶來的工況誤判情況明顯得到了改善,不同穩(wěn)態(tài)工況之間過渡過程的工況類型波動也變得清晰了,工況復雜性也被大大降低.實驗結果表明,采用窗口樣本相似因子分析能夠有效去除由于生產波動數(shù)據(jù)和過渡過程數(shù)據(jù)對正常生產數(shù)據(jù)聚類造成的影響,提高油田生產工況的識別精度,為油田生產后續(xù)相關措施的制定提供了有效的前提保障. 針對傳統(tǒng)工況識別方法容易受到生產波動和過渡過程中異常數(shù)據(jù)的影響,發(fā)生部分工況誤判的情況,本文提出基于窗口樣本相似因子分析的改進K-means聚類算法,以窗口樣本數(shù)據(jù)的整體特性來表征當前生產工況特點,減小波動數(shù)據(jù)或干擾的異常數(shù)據(jù)對工況聚類效果的影響.采用窗口樣本相似因子計算代替?zhèn)鹘y(tǒng)的距離計算,利用改進的K-means聚類算法對不同工況數(shù)據(jù)進行聚類分析,完成多工況的識別過程.實驗采用遼河油田某油井的實際生產參數(shù)進行研究,結果表明,該方法能夠有效地減小異常數(shù)據(jù)對聚類效果的影響,提高了工況識別的準確性,為油田的安全生產運行提供了保障.2.2 相似性因子分析
2.3 改進的K-means聚類算法
3 算法實現(xiàn)過程
4 實驗分析
5 結 論