宋宣毅,劉月田,馬 晶,王俊強(qiáng),孔祥明,任興南
(中國石油大學(xué)(北京)油氣資源與探測國家重點(diǎn)實(shí)驗(yàn)室,北京 102249)
油井的初期產(chǎn)能預(yù)測是油田開發(fā)的重要環(huán)節(jié),可為油藏的開發(fā)動態(tài)分析和調(diào)整提供依據(jù),也常用于對新鉆井的經(jīng)濟(jì)效益進(jìn)行評估。關(guān)于產(chǎn)能預(yù)測模型,①根據(jù)油藏流體的滲流機(jī)理建立數(shù)學(xué)模型[1-5],其滲流微分方程組建立過程較為復(fù)雜,求解時需要多種假設(shè)條件,適用條件嚴(yán)格。②利用地質(zhì)資料,建立地質(zhì)模型,使用已有的開發(fā)資料進(jìn)行歷史擬合,然后用油藏數(shù)值模擬的方法預(yù)測目標(biāo)井位的產(chǎn)能[6],但是地質(zhì)模型和數(shù)值模型的建立需要較高的時間成本和計(jì)算成本[7]。另外現(xiàn)場上也常采用經(jīng)驗(yàn)和類比的方法,其誤差較大。
在油田開發(fā)過程中,積累了大量關(guān)于油藏的地質(zhì)數(shù)據(jù)、生產(chǎn)數(shù)據(jù)和工程數(shù)據(jù)等,這些數(shù)據(jù)對于深度認(rèn)識油藏具有極其重要的作用,機(jī)器學(xué)習(xí)算法可以幫助人們從這些已有的數(shù)據(jù)中挖掘出需要的信息。潘有軍等[8]使用多元線性回歸方法建立了火山巖壓裂水平井的產(chǎn)能模型,但多因素對產(chǎn)能的影響規(guī)律,線性模型的表征仍不夠完善。田冷等[9]使用改進(jìn)的BP 神經(jīng)網(wǎng)絡(luò)建立了長慶氣田的產(chǎn)能預(yù)測模型,該模型只有較大的樣本容量才能建立一個高精度的神經(jīng)網(wǎng)絡(luò)模型,而且容易產(chǎn)生過擬合現(xiàn)象。支持向量機(jī)(SVM)是以統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ)的新的機(jī)器學(xué)習(xí)算法,其建模過程簡單,耗時較少,能夠很好地解決小樣本、高維數(shù)的問題,而且可以表征多個特征與目標(biāo)之間的非線性關(guān)系,預(yù)測結(jié)果也更加準(zhǔn)確。王威[10]使用支持向量機(jī)方法對致密油藏的產(chǎn)能進(jìn)行了研究,趙傳峰等[11]使用支持向量機(jī)方法,采用不同的核函數(shù)對調(diào)剖后的增油量進(jìn)行了預(yù)測,發(fā)現(xiàn)其精度比BP 神經(jīng)網(wǎng)絡(luò)預(yù)測精度高出很多。張志英等[12]在油藏數(shù)值模擬的基礎(chǔ)上,基于支持向量機(jī)形成了水平井的產(chǎn)能預(yù)測方法。
支持向量機(jī)的關(guān)鍵參數(shù),懲罰因子、松弛因子等對模型的精確度、穩(wěn)定性及泛化性能有較大的影響,這些參數(shù)的優(yōu)化對能否形成一個高性能的模型型至關(guān)重要。目前用于支持向量回歸機(jī)參數(shù)選擇的方法主要有3 種:①利用經(jīng)驗(yàn)對參數(shù)進(jìn)行選擇,這對使用者和樣本有較大的依賴性;②網(wǎng)格搜索尋優(yōu),它的不足之處在于步長的選擇,步長小,計(jì)算量大、時間長,步長大,容易錯失全局最優(yōu)解;③利用優(yōu)化算法對參數(shù)進(jìn)行優(yōu)選?;依撬惴ň哂辛己玫淖越M織學(xué)習(xí)性,而且參數(shù)簡單、全局搜索能力強(qiáng)、收斂速度快、易于實(shí)現(xiàn)。因此,采用灰狼算法對支持向量機(jī)進(jìn)行優(yōu)化[13],以特低滲油藏為例,建立油井的產(chǎn)能預(yù)測模型,以期提高產(chǎn)能預(yù)測的效率和精度。
影響油藏初期產(chǎn)能的因素首先是地質(zhì)因素,包括孔隙度、滲透率、含油飽和度、油層有效厚度和射孔段有效厚度等。其次是工程因素。對于特低滲透油藏來說,必須通過壓裂產(chǎn)生高滲條帶,形成基質(zhì)孔隙與井筒的流動通道,從而建立產(chǎn)能,這里選用壓裂加砂量、加砂強(qiáng)度和泵效來分析工程因素對初產(chǎn)的影響。最后是開發(fā)因素,包括能量保持狀況以及井網(wǎng)井距等因素,能量的保持狀況用動液面的高度來表征,動液面越高,地層能量保持越好,動液面越低,地層能量保持程度越低;井網(wǎng)井距用油井的初始飽和度來表示,初始含水飽和度越高,表示注采井網(wǎng)的井距越小,初始含水飽和度越低,表示注采井網(wǎng)的井距越大?;谀程氐蜐B油田34 口生產(chǎn)井,選取上面提到的10 個特征參數(shù)作為分析產(chǎn)能的影響因素,建立產(chǎn)能預(yù)測模型的基礎(chǔ)數(shù)據(jù),如表1 所列。
首先利用皮爾遜相關(guān)性分析各個因素之間的相關(guān)關(guān)系。皮爾遜相關(guān)關(guān)系是用來量度2 個變量之間的線性相關(guān)性。相關(guān)系數(shù)從-1(負(fù)相關(guān))到1(正相關(guān))之間變化,相關(guān)系數(shù)為0 時意味著這2 個變量之間沒有相關(guān)關(guān)系。計(jì)算方法[15]為
式中:ρX,Y為參數(shù)X和參數(shù)Y之間的相關(guān)系數(shù);cov為協(xié)方差;σ是標(biāo)準(zhǔn)差。
利用皮爾遜相關(guān)關(guān)系,計(jì)算了各參數(shù)之間,以及各參數(shù)與初產(chǎn)之間的相關(guān)系數(shù),結(jié)果如圖1 所示??梢钥闯觯谔氐蜐B油藏中,滲透率和孔隙度有較強(qiáng)的線性相關(guān)關(guān)系,孔隙度越大,滲透率越大。油層有效厚度、射孔段厚度以及壓裂加砂量有一定相關(guān)性,油層厚度越大,射孔段厚度越大,相應(yīng)的壓裂加砂量也越大。另外,根據(jù)各個因素與初產(chǎn)的相關(guān)系數(shù)可以看出,射孔段厚度、壓裂加砂量以及油層的有效厚度與初產(chǎn)的相關(guān)性較強(qiáng)。
表1 某特低滲油藏單井產(chǎn)能影響因素及對應(yīng)初產(chǎn)[14]Table 1 Initial productivity and influencing factors of an ultra-low permeability reservoir
圖1 初期產(chǎn)能影響因素相關(guān)關(guān)系矩陣Fig.1 Correlation matrix of influencing factors of initial productivity
皮爾遜相關(guān)系數(shù)只能簡單分析單因素對產(chǎn)能的線性影響關(guān)系,在油藏開發(fā)過程中,產(chǎn)能是在多個因素共同作用下的非線性結(jié)果。為了明確各個地質(zhì)參數(shù)、工程參數(shù)和開發(fā)參數(shù)對初期產(chǎn)能的非線性影響程度,使用隨機(jī)森林方法確定初期產(chǎn)能的主控因素。隨機(jī)森林是一種集成機(jī)器學(xué)習(xí)方法,利用隨機(jī)采樣技術(shù)和節(jié)點(diǎn)隨機(jī)分裂技術(shù)構(gòu)造多棵決策樹,通過投票得到最終結(jié)果,其用于特征排序時主要有2 種方法,一種是對每個特征按照Gini 不純度進(jìn)行排序,另一種是測量每種特征對模型準(zhǔn)確率的影響,這里使用后一種方法[16]。
隨機(jī)森林建模時隨機(jī)采樣未被抽到的數(shù)據(jù)稱為袋外數(shù)據(jù)集,這些數(shù)據(jù)沒有參與訓(xùn)練集模型的擬合,可以用來檢驗(yàn)?zāi)P偷姆夯芰ΑT趯δP瓦M(jìn)行重要性排序時,使用相應(yīng)的袋外數(shù)據(jù)計(jì)算它的袋外誤差r1,然后袋外數(shù)據(jù)中的某個特征的順序被隨機(jī)變換,再次計(jì)算袋外誤差r2,假設(shè)隨機(jī)森林有N棵樹,那么某個特征的重要性I為
根據(jù)上述原理,計(jì)算得到該特低滲油藏每個特征對初產(chǎn)的重要性如表2 所列。
表2 產(chǎn)能影響因素重要性排序Table 2 Importance order of influencing factors of productivity by Random Forest
利用隨機(jī)森林方法對產(chǎn)能影響因素重要性的排序結(jié)果表明,特低滲透油藏初期產(chǎn)能的5 個主控因素為壓裂加砂量、射孔段厚度、初始含水飽和度、油層有效厚度以及加砂強(qiáng)度,其重要性指標(biāo)I均大于0.20。因此,在開發(fā)特低滲透油藏時,新井井位應(yīng)選在油層有效厚度大的區(qū)域,完井時增大射孔段厚度,壓裂施工時增大加砂量,提高加砂強(qiáng)度,從而提高初期產(chǎn)能。另外,開發(fā)因素中油井初始含水飽和度對初產(chǎn)的影響因素較大,其表征的是井網(wǎng)井距的影響。因此,在特低滲透油藏開發(fā)中,合理的井網(wǎng)井距對產(chǎn)能的提高和保持也有著重要的作用。
根據(jù)文獻(xiàn)[7]報道,支持向量機(jī)算法最初是Vladimie 等提出的,它是一種用來分析數(shù)據(jù)和模式識別的有監(jiān)督學(xué)習(xí)方法,可以對數(shù)據(jù)進(jìn)行分類和回歸分析。這里所用到的是支持向量回歸機(jī),其原理如圖2 所示,旨在尋找一個最優(yōu)的超平面,使得所有樣本離該最優(yōu)超平面的距離最小。
圖2 支持向量機(jī)原理示意圖Fig.2 Schematic diagram of support vector machine
超平面可用式(3)表示,最優(yōu)的回歸超平面為所對應(yīng)的凸二次規(guī)劃問題,如(式4)所示[18]:
式中:c為懲罰參數(shù),其取值反映了對式中2 個部分重要性的權(quán)衡;ξi和為松弛變量,以降低對超平面的要求;ε為不敏感參數(shù),定義了不敏感帶的寬度;Φ(xi)為映射函數(shù)。
為了使式(4)容易求解,使用拉格朗日函數(shù)將目標(biāo)函數(shù)轉(zhuǎn)化為其對偶形式:
式中:αi和為拉格朗日乘子向量;K(xi,xj)為核函數(shù),可以將高維空間的內(nèi)積運(yùn)算轉(zhuǎn)換為低維空間的核函數(shù)運(yùn)算。利用分塊算法、Osuna、序列最小優(yōu)化算法、或者增量學(xué)習(xí)法求得αi后,最優(yōu)超平面回歸函數(shù)可由式(6)確定
3.2.1 算法概述
灰狼優(yōu)化算法是通過模擬狼群的等級制度和捕食策略,以迭代的方式不斷尋找最優(yōu)值的一種群優(yōu)化算法[19]。狼的生活習(xí)性以群居為主,每個群體中有7~12 只狼,具有較為嚴(yán)格的等級制度,如圖3 所示。
α是狼群中管理能力最強(qiáng)的,被奉為頭狼,因此所有狼都聽從它的指揮,其主要負(fù)責(zé)決策狼群的捕獵、駐地和休息時間等。β是α的顧問,幫助α制定決策及安排其他活動,也是狼群中秩序的維持者。當(dāng)α去世或者年齡增大,β也是最好的α候選人。排在第3 層的是δ狼,聽從α和β的指示,并指揮ω,它們主要負(fù)責(zé)偵查、放哨、捕獵、看護(hù)等事務(wù)。年老的α和β也都會降級為δ。ω等級最低,必須服從其他等級狼的指揮和調(diào)度,也負(fù)責(zé)照顧幼狼,其數(shù)量可以平衡種群的內(nèi)部關(guān)系。捕食活動由α帶領(lǐng),首先狼群以團(tuán)隊(duì)形式對獵物進(jìn)行跟蹤、追趕、靠近,然后從各個方向包圍并恐嚇獵物直到獵物停止運(yùn)動,最后攻擊獵物。
圖3 狼群等級層次機(jī)制Fig.3 Hierarchy mechanism of grey wolf
3.2.2 數(shù)學(xué)模型
捕食過程中,狼群與獵物的距離D可用式(7)表示,狼群根據(jù)獵物位置和與獵物的距離更新其位置,用式(8)表示[20]:
式中:X為狼的位置向量;Xp為獵物的位置向量;t為當(dāng)前迭代步;A和C均為系數(shù)向量,通過調(diào)整這2個向量,狼可以到達(dá)獵物周圍的不同位置,其計(jì)算方法可用式(9)—(10)表示:
式中:a在迭代過程中,從2 到0 線性減小;r1和r2為[0,1]之間的隨機(jī)向量。
假定α,β和δ對獵物的潛在逃竄位置有較好的洞察能力,整個捕食過程由α,β和δ主導(dǎo),而且α狼的位置是最優(yōu)的,其次是β,最后是δ。首先根據(jù)式(11)確定α,β和δ到獵物的距離,再根據(jù)式(12)移動到下一步的位置,ω則根據(jù)這3 頭位置最好的狼來更新自己的位置。根據(jù)上述方法,不斷迭代,直到滿足終止條件,便可得到優(yōu)化目標(biāo)的最優(yōu)解、次優(yōu)解等。
初期產(chǎn)能預(yù)測模型建立流程如圖4 所示,首先將收集到的數(shù)據(jù)進(jìn)行歸一化處理,將其中80%作為訓(xùn)練集,20%作為測試集,然后使用訓(xùn)練集建立基于支持向量機(jī)的產(chǎn)能預(yù)測模型。整個過程使用MATLAB2016 b 編程實(shí)現(xiàn),支持向量機(jī)調(diào)用LIBSVM工具箱進(jìn)行設(shè)計(jì),選取徑向基函數(shù)作為核函數(shù),決定支持向量機(jī)性能的2 個關(guān)鍵參數(shù),懲罰參數(shù)c和核函數(shù)參數(shù)g使用上述灰狼算進(jìn)行優(yōu)化,直至滿足迭代終止條件。最后使用測試集對模型的準(zhǔn)確性進(jìn)行評估。
圖4 GWO-SVM 產(chǎn)能預(yù)測模型建模流程Fig.4 Workflow of GWO-SVM prediction model
利用統(tǒng)計(jì)的某特低滲油藏34 口生產(chǎn)井的初期產(chǎn)量以及影響初期產(chǎn)量的10 種因素作為樣本庫,其中27 口井?dāng)?shù)據(jù)作為訓(xùn)練集,7 口井作為測試集,使用網(wǎng)格搜索尋優(yōu)的支持向量機(jī)(GRID-SVM)和灰狼算法優(yōu)化的支持向量機(jī)(GWO-SVM)建立初期產(chǎn)能的預(yù)測模型,其中灰狼算法優(yōu)化得到的支持向量機(jī)參數(shù)分別為c=52.40,g=0.01。
多元線性回歸模型[14],網(wǎng)格尋優(yōu)的支持向量機(jī)模型(GRID-SVM)和灰狼算法優(yōu)化的支持向量機(jī)模型(GWO-SVM)的預(yù)測結(jié)果如表3 所列,從表中可以看出,灰狼算法優(yōu)化的支持向量機(jī)建立的產(chǎn)能預(yù)測模型比多元線性回歸預(yù)測結(jié)果和網(wǎng)格尋優(yōu)的支持向量機(jī)預(yù)測結(jié)果誤差小得多,且均在12%以下。多元線性回歸和網(wǎng)格尋優(yōu)的支持向量機(jī)對油井初期產(chǎn)能預(yù)測結(jié)果的誤差較大,對P43-841 井預(yù)測結(jié)果的相對誤差甚至超過了40%。3 種方法的產(chǎn)能預(yù)測結(jié)果對比如圖5 所示,可以清楚地看到,灰狼算法優(yōu)化的支持向量機(jī)產(chǎn)能模型預(yù)測結(jié)果更準(zhǔn)確。
表3 不同方法單井初期產(chǎn)能預(yù)測結(jié)果Table 3 Prediction results of different forecast models
圖5 不同方法單井初期產(chǎn)能預(yù)測結(jié)果Fig.5 Prediction results of initial productivity by different forecast model
另外,在編程計(jì)算過程中發(fā)現(xiàn),GWO-SVM 比GRID-SVM 更加高效。當(dāng)GRID-SVM 擴(kuò)大網(wǎng)格搜索范圍或減小搜索步長時,計(jì)算所需要的時間會超過幾個小時。相反,GWO-SVM 往往在幾十秒之內(nèi)便能得到結(jié)果,而且精度較高。
(1)油藏初期產(chǎn)能的影響因素包括地質(zhì)、工程、開發(fā)方面的10 種因素。皮爾遜相關(guān)性分析表明:射孔段厚度、壓裂加砂量和油層有效厚度均與初期產(chǎn)能有較強(qiáng)的線性相關(guān)性。
(2)用隨機(jī)森林方法表征特低滲油藏初期產(chǎn)能影響因素與初產(chǎn)之間的非線性關(guān)系,確定的初產(chǎn)主控因素為壓裂加砂量、射孔段厚度、初始含水飽和度、油層有效厚度和加砂強(qiáng)度。
(3)基于灰狼算法優(yōu)化的支持向量機(jī)產(chǎn)能預(yù)測模型,對測試集7 口井的預(yù)測結(jié)果誤差均小于12%,平均預(yù)測結(jié)果誤差為5%,比多元線性回歸和網(wǎng)格搜索優(yōu)化的支持向量機(jī)預(yù)測結(jié)果準(zhǔn)確度提高10%以上。該模型也可以推廣到其他類型的油氣藏初期產(chǎn)能預(yù)測。