王 通, 羅真?zhèn)?/p>
(沈陽工業(yè)大學(xué) 電氣工程學(xué)院, 沈陽 110870)
在油田生產(chǎn)過程中,技術(shù)人員通常根據(jù)井下泵的工作狀態(tài)判斷生產(chǎn)工況,進(jìn)而調(diào)整采油工藝措施,提高采油效率,保障油田安全運(yùn)行[1].
抽油井井下泵的工作狀態(tài)可以通過泵功圖直接反映[2-3],油田通過泵功圖分析井下工況的方法主要有灰色關(guān)聯(lián)度分析法[4]及傅里葉描述子的圖形相似性分析法[5].上述方法通過圖形相似性比較來判斷油井工況,但在油田生產(chǎn)過程中,存在示功圖采集不準(zhǔn)確、生產(chǎn)波動等現(xiàn)象.李春生等[6-7]利用支持向量機(jī)對提取的泵功圖特征向量建立了工況識別模型;李訓(xùn)銘等[8-10]利用灰度矩陣提取特征向量,并用神經(jīng)網(wǎng)絡(luò)建立工況識別模型.支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等算法在工況識別中易將不平衡數(shù)據(jù)中小類作為噪聲,并且將其丟棄.針對以上工況識別過程中所面臨的參考功圖選取不準(zhǔn)確,數(shù)據(jù)集不平衡等問題,本文提出了結(jié)合SMOTE算法的改進(jìn)隨機(jī)森林算法進(jìn)行抽油井泵的工況識別,從而提高采油效率,更好推進(jìn)油井工況識別的數(shù)字化、智能化.
油井工況識別首先需要把地面采集的懸點(diǎn)示功圖轉(zhuǎn)換為泵功圖.根據(jù)Gibbs模型,將抽油桿視為一根井下傳導(dǎo)線,建立一維帶阻尼的波動方程[11]為
(1)
式中:u(t)為地面示功圖懸點(diǎn)位移函數(shù);a為應(yīng)力波在抽油桿柱中的傳播速度;c為阻尼系數(shù).
利用邊界條件,最終可得抽油桿柱任意深度的載荷和位移隨時間的變化方程,即可以求出泵功圖,對應(yīng)此模型解的傅里葉級數(shù)形式為
(2)
式中:σ0、ν0、On、Qn均為傅里葉系數(shù);Er為抽油桿的彈性模量;Ar為抽油桿的截面積.
轉(zhuǎn)換后的泵功圖包含豐富的有桿抽油系統(tǒng)工作狀態(tài)信息.當(dāng)井下設(shè)備工況變化時,泵功圖會跟著發(fā)生圖形變化,顯示出某一工況相應(yīng)的圖形特征,是正確、迅速識別工況的重要基礎(chǔ).常見的工況有以下幾種:泵工作正常、供液不足、氣體影響、出砂影響、游動閥漏、固定閥漏、油井結(jié)蠟、上碰泵、下碰泵.
不同工況的對稱度、波動程度、示功圖的四角曲率變化等各不相同,通過網(wǎng)格化對泵功圖灰度矩陣特征提取可以反映圖形的幾何特征,從而達(dá)到工況識別的效果.
泵功圖特征向量的選擇對井下工況識別準(zhǔn)確性有直接的影響.泵功圖特征參數(shù)提取主要有傅里葉描述子、面積法、差分曲線法、矩特征向量和灰度矩陣的泵功圖特征提取算法[12].本文采用識別率高的灰度矩陣特征提取方法,其特征參數(shù)少,識別率高,主要步驟如下:
1) 將泵功圖數(shù)據(jù)進(jìn)行無量綱歸一尺度處理,消除泵功圖量綱對數(shù)據(jù)的影響.
2) 泵功圖網(wǎng)格化.將歸一化后的泵功圖放到一個2∶1的矩形網(wǎng)格中,使泵功圖的四邊與網(wǎng)格矩形的四邊相切.
3) 邊緣灰度賦值.在泵功圖經(jīng)過輪廓曲線的網(wǎng)格灰度值均賦值為“1”,其余網(wǎng)格賦值為“0”,形成了一個以“1”和“0”組成的矩陣.
4) 灰度矩陣生成.在邊界內(nèi)部逐步加1,外部逐步減1,最終獲得網(wǎng)格化的泵功圖灰度矩陣.
5) 求解灰度矩陣特征值.灰度矩陣特征值的提取是在泵功圖灰度矩陣上計(jì)算灰度均值、灰度方差、灰度偏度、灰度峰值、灰度能量和灰度熵,表示了泵功圖灰度矩陣的數(shù)據(jù)統(tǒng)計(jì)特征,從而反映圖形的形狀特質(zhì)[13].泵功圖的灰度矩陣各特征值提取表達(dá)式為:
(3)
式中:b為泵功圖的灰度級數(shù);B(b)為某一灰度b的元素個數(shù);p(b)為灰度級的概率.
② 灰度方差σ2表達(dá)式為
(4)
③ 灰度偏度D表達(dá)式為
(5)
④ 灰度峰值P表達(dá)式為
(6)
⑤ 灰度能量E表達(dá)式為
(7)
⑥ 灰度熵T表達(dá)式為
(8)
利用以上表達(dá)式計(jì)算訓(xùn)練樣本和測試樣本的灰度特征值數(shù)據(jù),各種工況的參考灰度特征向量值如表1所示.
表1 參考工況灰度特征向量值Tab.1 Values of gray-level feature vector under reference conditions
通過灰度矩陣特征提取泵功圖的六個數(shù)理統(tǒng)計(jì)特征值,可以有效反映各種工況泵功圖的幾何形狀,用于隨機(jī)森林的有桿抽油系統(tǒng)井下工況識別.
在采油過程中,油井各種工況出現(xiàn)次數(shù)是不均衡的.對于這種現(xiàn)象,大多數(shù)分類算法不能對小類做出有效識別,導(dǎo)致分類效果很差.SMOTE是由Chawla等人提出的一種向上采樣方法,目的是解決小類中樣本數(shù)量過少的問題.SMOTE通過合成新的小類樣本來減輕類別的不平衡,其主要思想是在相距較近的小類樣本之間進(jìn)行線性插值,從而生成新的小類樣本,計(jì)算表達(dá)式為
Snew=S+rand(Si-S) (i=1,2,…,n)
(9)
式中:Snew為新插值的樣本;S為原始樣本數(shù)據(jù);rand為0~1的隨機(jī)數(shù);Si為原始樣本數(shù)據(jù)的最鄰近k個樣本中隨機(jī)選取的n個樣本.
SMOTE算法對油田示功圖不平衡數(shù)據(jù)處理時,首先獲取工況的測試數(shù)據(jù)集S最近的k個鄰樣本,再從中隨機(jī)選擇n個,通過與原數(shù)據(jù)集邊界值對比,獲取符合要求的新樣本Snew,算法流程圖如圖1所示.
隨機(jī)森林算法[14]使用有放回的Bootstrap采樣生成多個訓(xùn)練樣本集,每個樣本都訓(xùn)練成一個決策樹,而未被采樣的訓(xùn)練樣本將用來估計(jì)分類器的泛化能力.利用隨機(jī)森林來實(shí)現(xiàn)油井工況識別,可以提高模型泛化性.
圖1 SMOTE流程圖Fig.1 Flow chart of SMOTE
DA-RF工況識別步驟如下:
1) 隨機(jī)選取各工況的部分灰度矩陣特征值作為訓(xùn)練數(shù)據(jù)集,其它數(shù)據(jù)為測試集.訓(xùn)練集數(shù)據(jù)與測試集數(shù)據(jù)比例控制為2∶1.
2) 初始化隨機(jī)森林參數(shù)(nTree,mtry)和蜻蜓算法參數(shù),包括:相鄰半徑、慣性權(quán)重、分離度、對齊度、內(nèi)聚度、食物因子和避敵因子.
3) 將識別準(zhǔn)確率作為適應(yīng)度函數(shù),通過DA算法對隨機(jī)森林參數(shù)nTree和mtry尋優(yōu).
4) 利用Bootstrap方法對灰度特征值進(jìn)行重采樣,產(chǎn)生R個訓(xùn)練集.
5) 利用每個訓(xùn)練集生成對應(yīng)的決策樹,并且在每個非葉子節(jié)點(diǎn)選擇屬性前,以分裂屬性集中的屬性大小mtry對該節(jié)點(diǎn)進(jìn)行分裂.
6) 每棵樹都完整成長,不進(jìn)行修枝.
7) 對于測試集樣本,利用每個決策樹進(jìn)行測試,最終得到對應(yīng)的工況類別數(shù)據(jù)集.
8) 采用投票的方法,得到投票選擇眾數(shù),即將決策樹中輸出最多的工況作為測試集樣本所屬的工況.
本文將SMOTE、DA算法結(jié)合隨機(jī)森林算法用來識別井下工況.首先將采集到的地面示功圖轉(zhuǎn)換為泵功圖,在泵功圖的基礎(chǔ)上,采用灰色矩陣特征值提取算法提取泵功圖的六個灰度特征值;然后在選取的訓(xùn)練集數(shù)據(jù)R上用SMOTE算法計(jì)算得到新的數(shù)據(jù)集Rnew,利用得到的數(shù)據(jù)集創(chuàng)建隨機(jī)森林,在隨機(jī)森林參數(shù)優(yōu)化基礎(chǔ)上,選取蜻蜓算法得到最優(yōu)參數(shù)nTree和mtry;最后將測試集代入得到最優(yōu)的決策樹森林,完成油井的井下泵的工況識別.具體的SMOTE-DA-RF算法流程圖如圖2所示.
圖2 基于SMOTE-DA-RF的油井工況識別流程圖Fig.2 Identification flow chart of oil well operating condition based on SMOTE-DA-RF algorithm
本文選取遼河油田某廠的376組示功圖數(shù)據(jù)進(jìn)行SMOTE-DA-RF算法的建模與測試實(shí)驗(yàn)仿真.
將每類工況的原始數(shù)據(jù)集E分為訓(xùn)練集R和測試集G,訓(xùn)練集數(shù)據(jù)與測試集數(shù)據(jù)比例大致為2∶1.通過SMOTE算法將訓(xùn)練集R轉(zhuǎn)換為新的訓(xùn)練集Rnew,實(shí)驗(yàn)中各種工況數(shù)據(jù)組數(shù)如表2所示.
表2 實(shí)驗(yàn)數(shù)據(jù)集Tab.2 Experimental data sets
利用DA對隨機(jī)森林的參數(shù)進(jìn)行尋優(yōu),將DA的初始參數(shù)設(shè)置為在[0.4,0.9]之間的自適應(yīng)線性遞減參數(shù)值.隨機(jī)森林(nTree,mtry)初始值設(shè)置為(100,12),nTree的范圍為[1,500],mtry的范圍為[1,100].
根據(jù)DA算法得到的隨機(jī)森林最佳參數(shù)nTree為287,mtry為31,建立隨機(jī)森林決策樹,對測試集數(shù)據(jù)G進(jìn)行仿真測試,得到最終的工況識別結(jié)果.為驗(yàn)證本文方法的有效性,采用灰色關(guān)聯(lián)度方法GRA、支持向量機(jī)算法SVM、隨機(jī)森林算法RF進(jìn)行對比.測試集工況識別結(jié)果分別如圖3所示.
圖3 測試集工況識別結(jié)果Fig.3 Identification results of test set for working condition
從圖3可以看出,灰色關(guān)聯(lián)度工況分析法的準(zhǔn)確性依賴于示功圖的灰度特征向量,容易誤判.通過與其它機(jī)器學(xué)習(xí)法比較,SMOTE-DA-RF算法的識別正確率較高,特別是在小類工況上,識別效果進(jìn)一步加強(qiáng).該改進(jìn)算法可以提高工況識別準(zhǔn)確率,為油田后續(xù)生產(chǎn)措施的指定提供了參考,具有一定的工程應(yīng)用價(jià)值.
本文建立了基于SMOTE-DA-RF算法的有桿抽油系統(tǒng)井下工況識別模型,采用SMOTE算法平衡少類數(shù)據(jù),提高了基于示功圖的油井識別泛化性能;利用DA算法選擇隨機(jī)森林最優(yōu)參數(shù),進(jìn)一步提高了工況識別性能;通過隨機(jī)森林算法簡化運(yùn)算,提高了井下泵工況識別的準(zhǔn)確率,避免了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)效率緩慢的問題,解決了灰色關(guān)聯(lián)度分析法泵功圖相似工況識別不準(zhǔn)確和依賴參考灰度矩陣的問題.