牛慶威 張如玉 白雨昊 穆有德 王宇辰 吳 傲
(中國石油大學(xué)(華東)計算機科學(xué)與技術(shù)學(xué)院 青島 266580)
伴隨著測井技術(shù)的飛躍發(fā)展,低阻油層的勘探開發(fā)引起了廣泛重視[1~2]。低阻油層是指電阻率小于或接近于周圍圍巖電阻率,與水層電阻率相當,含油飽和度一般小于50%的油層[3]。由于這種油層的測井相應(yīng)特征與水層差別不大,往往會被誤認為是水層[4~5]。尤其在勘探階段,低阻油層識別困難,導(dǎo)致了大量油氣資源被遺漏。因此,深入開展低阻油識別評價研究及技術(shù)推廣,已成為油田上增儲上產(chǎn)的有效途徑[6~8]。
大量的勘探開發(fā)實踐、理論及科研表明了測井對儲層特性響應(yīng)具有非線性關(guān)系,從非線性測井響應(yīng)中提取地層的儲層特性日益成為測井分析家面對的前沿課題[9~10]。
傳統(tǒng)的識別方法運用交會圖版、核磁共振烴檢測、雙水重疊等技術(shù)[11~13],多依賴于經(jīng)驗以及公式推導(dǎo),區(qū)分低阻油層的能力較弱。本文從測井數(shù)據(jù)出發(fā),提取低阻層不同測井曲線的數(shù)理特征,應(yīng)用機器學(xué)習(xí)算法,學(xué)習(xí)數(shù)據(jù)中包含的有益信息,構(gòu)建低阻油層識別模型。通過決策樹[14]篩選出區(qū)分低阻油層和水層的重要特征。將篩選出的重要特征作為梯度提升決策樹[15]模型的輸入,來構(gòu)建低阻油層識別模型。通過該方法,可以有效提高低阻油層識別的準確率,避免了人工識別所伴隨的主觀性以及片面性。
以低阻層測井數(shù)據(jù)作為數(shù)據(jù)分析樣本,首先對數(shù)據(jù)進行缺失值填充,異常值修正、重復(fù)值剔除等工作,提高數(shù)據(jù)質(zhì)量。然后對各類測井曲線進行數(shù)理特征提取,將提取后的特征根據(jù)重要性程度進行篩選,選出對低組油層、水層判別程度較高的特征,作為分類模型的輸入特征。低阻油層識別模型構(gòu)建流程如圖1所示。
圖1 低阻油層識別模型構(gòu)建流程
選取測井曲線AC(聲波時差)、CAL(井徑)、CNL(中子)、DEN(密度)、GR(自然伽馬)、SP(自然電位)、RA04(0.4m 電阻率)、RA25(0.25m 電阻率)作為初始樣本集,并對數(shù)據(jù)進行預(yù)處理,填補缺失值以及修正異常值等。
基于以上測井數(shù)據(jù),提取各個曲線的數(shù)理特征,包括平方和、標準差、方差、連續(xù)小波變換系數(shù)、近似熵、傅里葉變換系數(shù)等。
由于每一個特征的分類能力對于要構(gòu)建的模型來說是未知的。因此,需要從所有提取的特征中,篩選出有益于模型學(xué)習(xí)的重要特征。并且在大部分應(yīng)用場景中,維度過多還會造成訓(xùn)練效率低下、過擬合等問題。如果只選擇所有特征中的部分重要特征構(gòu)建模型,那么可以大大提高模型訓(xùn)練的效率,增強模型的泛化能力,同時還可以增加模型的可解釋性。
決策樹是一種樹形結(jié)構(gòu),以實例為基礎(chǔ)進行歸納學(xué)習(xí)非線性模型。其基本思想是自頂向下,以基尼系數(shù)為度量構(gòu)建一顆度量標準下降最快的樹,每個樹節(jié)點代表一個屬性的測試,直到葉子節(jié)點處只剩下同一類別的樣本?;嵯禂?shù)計算公式如下所示:
其中K表示有類別數(shù)量,pk表示第k類的概率。
對于二類分類問題,若樣本屬于正類的概率為p,則基尼指數(shù)為
對于給定的樣本集合D,其基尼指數(shù)定義為
其中是Ck是D中屬于第k類的樣本子集。
如果樣本集合D被某個特征A 是否取某個值分成兩個樣本集合D1和D2,則在特征A 的條件下,集合D的基尼指數(shù)定義為
基尼系數(shù)越小,集合的純度就越高,所選特征就越好。
將決策樹模型篩選出的重要特征作為模型的輸入特征,以每個低阻層測井數(shù)據(jù)對應(yīng)的油層和水層作為標簽,構(gòu)建基于梯度提升決策樹的低阻油層識別模型。
GBDT 通過線性累加的方式,進行多輪迭代,每一輪在上一輪弱分類器殘差計算結(jié)果的基礎(chǔ)上,產(chǎn)生一個新的CART 回歸樹[16],通過不斷地減小訓(xùn)練過程產(chǎn)生的殘差方式,對數(shù)據(jù)進行分類。每一個弱分類器,要盡可能地保持低方差、高偏差的狀態(tài)。低方差保證模型不會過擬合,高偏差保證模型的精度。為了使損失函數(shù)盡可能快地減小,則選用損失函數(shù)的負梯度作為殘差的近似值,來擬合CART回歸樹。GBDT模型的定義如下:
其中f0(x)為初始弱學(xué)習(xí)器,M為樹的個數(shù),J為回歸樹的葉子節(jié)點的個數(shù),cmj是Rmj的平方損失最小值。
選取**地區(qū)的測井數(shù)據(jù)作為低阻油層識別的數(shù)據(jù)樣本。首先修正數(shù)據(jù)中因測量異常造成的錯誤值,剔除重復(fù)錄入的數(shù)據(jù)。對于一些字段缺失率較高的小層,因無法獲取到有效信息,則會將該小層從數(shù)據(jù)樣本中剔除。經(jīng)數(shù)據(jù)預(yù)處理過后,分析樣本中共計374口井,3666個小層。其中已核實小層151 個,未核實小層3515 個,總計200810 條測井數(shù)據(jù)記錄。
通過Python編程語言,編寫平方和、方差、近似熵、傅里葉變換系數(shù)、連續(xù)小波變換系數(shù)等函數(shù),將聲波時差、井徑、中子、密度等測井曲線數(shù)據(jù)輸入到各個函數(shù)中,計算相應(yīng)的特征值,共計得到1916 個特征。部分特征如表1所示。
表1 部分測井曲線數(shù)理特征
將提取的低阻層測井曲線特征與該層的標簽值(油層、水層)輸入到?jīng)Q策樹模型中,進行訓(xùn)練,并輸出分類能力最高的前11個特征,如圖2所示。
圖2 重要程度最高的11個特征
這11 個重要特征中,包含全部類別的測井參數(shù),但是涉及的每一種測井曲線的數(shù)理特征,則不盡相同。數(shù)理特征包括傅里葉變換系數(shù)、小波變換系數(shù)、方差、偏度等。說明從不同的數(shù)理角度出發(fā),對不同測井曲線提取特征,并進行篩選,是一個不可或缺的過程。利用圖2中的11個特征,對低阻油層和水層進行分類預(yù)測,能夠有效保證模型分類的準確率。
基于已核實的低阻層小層數(shù)據(jù),以篩選的重要特征作為梯度提升決策樹模型的輸入數(shù)據(jù)集,并將該數(shù)據(jù)集進行劃分,其中70%為訓(xùn)練集,30%為測試集。并采用網(wǎng)格調(diào)參的方式,選擇不同排列組合的GBDT 模型參數(shù)(學(xué)習(xí)率、損失函數(shù)、弱學(xué)習(xí)器的最大迭代次數(shù)等),對模型進行訓(xùn)練優(yōu)化,最終得到在測試集上準確率93%的低阻油層識別模型。模型在測試集上的混淆矩陣如圖3所示。
圖3 測試集混淆矩陣圖
應(yīng)用該模型對該地區(qū)未核實的3515 個低阻小層預(yù)測分類,部分預(yù)測結(jié)果如表2所示。
表2 低阻油層模型預(yù)測結(jié)果
根據(jù)預(yù)測出的低阻油層,并結(jié)合井況以及實際開采條件等因素,選取了G*-**-*井的1569.2~1571.3 小層、G*-**-*的1466.8~1468 小層進行補開驗證,開采結(jié)果均為低阻油層,且初期日產(chǎn)油11.2t,油藏效果顯著。
本文針對目前低阻油層的開發(fā)現(xiàn)狀,從測井數(shù)據(jù)出發(fā),提出了一種基于梯度提升決策樹(GBDT)的低阻油層識別方法。該方法通過從不同的測井曲線(聲波時差、井徑、中子、密度、自然伽馬等)中提取數(shù)理特征,這些特征能夠不同程度的從各個數(shù)理角度代表測井曲線。通過決策樹算法篩選出與低阻油層和低阻水層相關(guān)性較強的特征,再利用重要特征的數(shù)據(jù),訓(xùn)練GBDT 模型,最后得到一個識別低阻油層準確率較高的模型。利用該識別模型,可以為油田低阻油藏的開發(fā)工作減少成本,提高開采效率。
應(yīng)用本文構(gòu)建的低阻油層識別模型對**地區(qū)3515個低阻層進行識別,總計獲得91個潛力層,經(jīng)多名石油專家分析討論,模型的識別準確率達90%。并選取兩個潛力層,進行現(xiàn)場實施開采,開采結(jié)果均為低阻油層,避免了因判別錯誤造成的經(jīng)濟損失。
隨著油田低阻層開發(fā)的不斷進行,單純依靠測井數(shù)據(jù)也會變得難以推進,因此,后續(xù)將對小層數(shù)據(jù)、錄井數(shù)據(jù)等進行分析,在模型中融入小層、錄井等特征,進一步提高低阻油層識別模型的準確率,為油田的低阻油層開采工作提供支持。