王惠君,趙桂萍,2?,李良,張威,齊榮,劉珺
(1 中國科學(xué)院大學(xué)地球與行星科學(xué)學(xué)院,北京 100049; 2 中國科學(xué)院計算地球動力學(xué)重點實驗室,北京 100049; 3 中國石油化工有限公司華北分公司,鄭州 450006; 4 中石化華北石油工程有限公司測井分公司,鄭州 450006)
烴源巖控制著油氣的分布,其質(zhì)量決定油氣的勘探潛力。其中總有機碳含量(TOC)是烴源巖生烴潛力評價最重要的參數(shù)之一。然而由于取芯少、地球化學(xué)分析成本高,難以進行系統(tǒng)的研究。
考慮到測井信息的易獲得性和連續(xù)性,許多研究學(xué)者在利用測井信息預(yù)測烴源巖TOC含量方面做了很多探索性工作,形成了包括ΔlogR方法[1-6]和神經(jīng)網(wǎng)絡(luò)法[7-15]等預(yù)測烴源巖TOC的方法。Passey等[1]通過大量數(shù)據(jù)分析,根據(jù)聲波時差、電阻率、密度、中子測井組合,研究出ΔlogR方法,在泥頁巖的TOC含量評價中得到廣泛應(yīng)用,但是該模型計算精度較低。朱光有等[6]利用改進的ΔlogR方法得到TOC含量,雖然預(yù)測精度有所提高,但改進方法中不同井的回歸系數(shù)差距較大導(dǎo)致外推能力較差。由于測井?dāng)?shù)據(jù)與TOC之間復(fù)雜的非線性關(guān)系,越來越多的學(xué)者開始關(guān)注人工神經(jīng)網(wǎng)絡(luò)(artificial neural network, ANN)在TOC含量預(yù)測中的應(yīng)用。郭龍等[8]采用圖版分類-模糊排隊-BP神經(jīng)網(wǎng)絡(luò)計算TOC含量,表明該方法效果較好;Mahmoud等[12]利用模糊邏輯評價了烴源巖的TOC含量;Bolandi等[13]利用BP神經(jīng)網(wǎng)絡(luò)結(jié)合聲波、電阻率、密度等測井預(yù)測泥巖TOC含量,精度達(dá)到94.5%。其中BP神經(jīng)網(wǎng)絡(luò)在TOC含量預(yù)測方面應(yīng)用最為廣泛,但是BP神經(jīng)網(wǎng)絡(luò)在求解非線性問題時,容易在初始化過程中因連接權(quán)值和閾值不穩(wěn)定導(dǎo)致局部收斂,產(chǎn)生過擬合,極大地降低預(yù)測精度。
深度學(xué)習(xí)是機器學(xué)習(xí)中的一個新方向,可以從小樣本中學(xué)習(xí)數(shù)據(jù)的本質(zhì)特征。其模型主要包括卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network CNN)、深度信念網(wǎng)絡(luò)(deep belief networks, DBN)和自動編碼器(stacked auto-encoders, SAE)。近年來,卷積神經(jīng)網(wǎng)絡(luò)在圖片分類[16]、行為識別[17]、語音識別[18]、自然語言處理[19]、人工駕駛[20]等領(lǐng)域有重要的應(yīng)用。在地質(zhì)上,卷積神經(jīng)網(wǎng)絡(luò)主要應(yīng)用在巖石圖像[21-22]、儲層預(yù)測[23]、海底地形分類[24]、遙感影像分類[25]等方面,然而在烴源巖評價領(lǐng)域的應(yīng)用研究很少,因此提出應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)模型預(yù)測TOC含量的方法。
本文以鄂爾多斯盆地杭錦旗地區(qū)泥質(zhì)烴源巖TOC為研究對象,通過ΔlogR、BP神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)3種模型訓(xùn)練和測試數(shù)據(jù)的決定系數(shù)(R2)和均方誤差(MSE),來表明新方法卷積神經(jīng)網(wǎng)絡(luò)高的預(yù)測精度和好的泛化能力。最終利用卷積神經(jīng)網(wǎng)絡(luò)模型對該區(qū)上古生界山西組、太原組108口鉆井泥質(zhì)烴源巖的TOC進行計算,結(jié)合該區(qū)的沉積相,做出TOC平面展布圖,為研究區(qū)泥質(zhì)烴源巖生烴潛力評價奠定基礎(chǔ)。
鄂爾多斯盆地是位于華北板塊北緣的多旋回的克拉通盆地(圖1(a))[26],面積為37 km×104 km[27]。它分為6個構(gòu)造單元,分別是伊盟隆起、伊陜斜坡、天環(huán)坳陷、西緣沖斷帶、晉西褶皺帶、渭北隆起(圖1(b))[27]。杭錦旗地區(qū)位于伊盟隆起、伊陜斜坡2個構(gòu)造單元之上,面積為9 825 km2[28]。研究區(qū)分為6個區(qū)帶,即公卡汗、新召、浩饒召、十里加汗、阿鎮(zhèn)、什股壕,氣藏主要分布在十里加汗和什股壕地區(qū)(圖1(c))[28]。區(qū)內(nèi)有3條由西向東展布的斷層,分別是泊爾江海子斷裂、三眼井?dāng)嗔押蜑跆m吉林廟斷裂[26]。該區(qū)在晚古生代前,處于剝蝕隆起狀態(tài),早二疊世開始接受沉積,沉積了石炭系太原組、二疊系山西組、下石盒子組、上石盒子組及石千峰組。從勘探實踐看,上石炭統(tǒng)太原組、下二疊統(tǒng)山西組發(fā)育三角洲平原沼澤的煤系烴源巖,中二疊統(tǒng)下石盒子組河流—三角洲砂體為主要儲層,上二疊統(tǒng)上石盒子組、石千峰組厚層泥巖是區(qū)域蓋層[26]。
(a)為鄂爾多斯盆地地理位置圖;(b)為杭錦旗地區(qū)地理位置圖;(c)為杭錦旗地區(qū)構(gòu)造單元圖。圖1 研究區(qū)位置圖(據(jù)文獻(xiàn)[26-28]修改)Fig.1 Location of the study area (modified from Refs. [26-28])
已有研究表明,對有機質(zhì)敏感的測井曲線主要有自然伽馬(GR)、電阻率(RT)、聲波時差(AC)、密度(DEN)、中子(CNL)等曲線。一般情況下,有機質(zhì)含量越高的地層測井曲線異常越明顯,據(jù)此可識別烴源巖,估算烴源巖的TOC含量。研究樣品是杭錦旗地區(qū)山西組、太原組的泥巖,緊鄰煤層和碳質(zhì)泥巖,主要形成在三角洲平原的河漫沼澤中,樣品集中在斷裂帶以南,具體分布位置見圖1(c)。對樣品進行TOC測試,同時讀取相應(yīng)深度的聲波時差、電阻率、密度、中子、自然伽馬等測井?dāng)?shù)據(jù),做出TOC與測井曲線的交匯圖(圖2)。
由于有機質(zhì)的高聲波傳播時間(大約524.9 μs/m)[29],聲波測井值會隨著TOC的增大而增大。聲波時差測井值與TOC含量成正相關(guān)(圖2(a))。有機質(zhì)中含富氫的顯微組分,導(dǎo)致中子測井值高,中子測井值與TOC含量成正相關(guān)(圖2(b))。由于有機質(zhì)的密度(1.1~1.4 g/cm3)小于石英(2.65 g/cm3)和黏土(2.77 g/cm3)[29],密度測井值會隨著TOC的增大而減小,因此密度測井值與TOC成負(fù)相關(guān)(圖2(c))。
一般情況下,湖相或海相泥質(zhì)烴源巖粒度小、比表面積大,往往吸附更多放射性元素鈾,導(dǎo)致自然伽馬測井值較高。而該區(qū)泥質(zhì)烴源巖TOC與自然伽馬呈負(fù)相關(guān)(圖2(d)),可能是因為該區(qū)泥質(zhì)烴源巖屬于煤系烴源巖,隨著有機碳的富集,腐殖質(zhì)含量降低,吸附的放射性元素降低,導(dǎo)致自然伽馬降低[30]。
有機質(zhì)的電阻率較大(105~109 Ω·m)[29],電阻率測井值會隨著TOC的增大而增大,電阻率測井值與TOC成正相關(guān)(圖2(e))。該區(qū)有兩個樣品為電阻率的高值異常,可能是由于不易導(dǎo)電的烴類導(dǎo)致電阻率進一步增大[7]。為了降低異常值的影響,本文對電阻率取對數(shù),發(fā)現(xiàn)電阻率的對數(shù)與TOC呈弱的正相關(guān)(圖2(f))。
圖2 測井參數(shù)與實測TOC相關(guān)性分析圖Fig.2 Correlation analysis between the logging parameters and measured TOC
ΔlogR是由Passey等[1]于1990年提出的計算TOC的實用方法,該方法將對數(shù)坐標(biāo)下的電阻率曲線和算術(shù)坐標(biāo)下的孔隙度測井曲線(通常是聲波時差曲線)進行疊合。這兩條曲線在水飽和的貧有機質(zhì)巖石上相互平行并被確定為基線,而在富有機質(zhì)的烴源巖上相互分離,確定為ΔlogR。在富含油氣的儲集巖中,可通過借用自然伽馬曲線及自然電位曲線辨別和排除儲集層段。未成熟的烴源巖中,兩條曲線之間的距離主要由聲波時差曲線響應(yīng)造成,成熟烴源巖中,因為有液態(tài)烴,兩條曲線之間的距離由聲波時差和電阻率共同作用構(gòu)成基于聲波和電阻率計算ΔlogR的公式為
(1)
式中:ΔlogR為兩條曲線間的距離;R為測井儀實測電阻率(Ω·m);Rbaseline為基線對應(yīng)的電阻率(Ω·m);Δt為實測的聲波時差(μs/ft);Δtbaseline為基線對應(yīng)的聲波時差(μs/ft);0.02為疊合系數(shù),即對數(shù)坐標(biāo)下的一個電阻率單位與算術(shù)坐標(biāo)下一個聲波時差周期50 μs/ft的比值。ΔlogR與有機碳呈線性相關(guān),并且是成熟度的函數(shù),經(jīng)驗公式為
TOC=ΔlogR×10(1.5374-0.944Ro),
(2)
式中:TOC為計算的有機碳含量;Ro是鏡質(zhì)體反射率。
BP神經(jīng)網(wǎng)絡(luò)是由許多具有特定功能的神經(jīng)元相互連接組成的網(wǎng)絡(luò),一般由輸入層、隱藏層、輸出層組成。在本文中,輸入層為伽馬(GR)、中子(CNL)、聲波時差(AC)、電阻率(logRT)、密度(DEN),輸出層為TOC含量預(yù)測值。其基本原理是在樣本數(shù)據(jù)的基礎(chǔ)上,利用誤差反向傳播訓(xùn)練數(shù)據(jù),從而建成網(wǎng)絡(luò)[14-15, 23]。訓(xùn)練分為兩種:正向訓(xùn)練和反向訓(xùn)練。正向訓(xùn)練是將數(shù)據(jù)輸入,經(jīng)過隱藏層,到達(dá)輸出層,反向訓(xùn)練是計算輸出結(jié)果與實際值的誤差,如果誤差不在允許范圍則反向傳播,通過調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),使誤差在允許的范圍內(nèi)。網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。計算過程如下:
圖3 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.3 Schematic of BP neural network structure
1)利用高斯初始化方法對訓(xùn)練數(shù)據(jù)進行歸一化:
(3)
(4)
(5)
2)由BP神經(jīng)網(wǎng)絡(luò)計算TOC值的公式如下
(6)
式中:W0,N是輸入層到隱藏層的權(quán)值;W1是隱藏層到輸出層的權(quán)值;N=5;b0是第一層全連接層的偏置;b1是第二層全連接層的偏置。
3.3.1 CNN原理
CNN是深度學(xué)習(xí)領(lǐng)域中的一種端到端的學(xué)習(xí)模型,是傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)的改進。它與BP神經(jīng)網(wǎng)絡(luò)的區(qū)別是BP網(wǎng)絡(luò)每層的全部神經(jīng)元與下一層每個神經(jīng)元是全連接,而CNN則通過全局滑動、局部連接、權(quán)值共享的方式連接相鄰兩層,使得網(wǎng)絡(luò)結(jié)構(gòu)更簡單、適應(yīng)性更強。一個完整的CNN包括輸入層、卷積層、池化層、全連接層和輸出層,其中最重要的是卷積層和池化層。
1)卷積層:又叫特征提取層,用于提取特征并減少噪聲的影響。該層的每個神經(jīng)元接受上一層中一組局部區(qū)域的神經(jīng)元的輸入,這些神經(jīng)元稱為卷積核,對應(yīng)的局部區(qū)域稱為局部感受野。通過引進局部感受野,卷積核能夠提取到不同類型的特征,而這些特征相互結(jié)合形成更高層次的特征??偟膩碚f,卷積神經(jīng)網(wǎng)絡(luò)就是在每一個卷積層中構(gòu)建一定數(shù)量的卷積核,采用權(quán)值共享的策略,每一個卷積核在這一層的特征圖上從左向右從上向下,以一定步長滑動,在每個滑動位置進行卷積操作,從而提取豐富特征的一種網(wǎng)絡(luò)。卷積操作如圖4所示。
淺灰色部分是卷積核與圖像重疊的區(qū)域,深灰色區(qū)域是卷積核與相應(yīng)圖片區(qū)域卷積運算的結(jié)果。圖4 卷積操作的示意圖Fig. 4 Schematic of the convolution operation
卷積操作公式如下
(7)
式中:Bi,Ai分別表示第i個位置的卷積核和局部感受野;zi表示卷積核在第i個位置的輸出。
2)池化層:又叫采樣層或特征映射層,主要用來提取二次特征[23]。池化操作是對卷積的特征圖進行降采樣,從而降低網(wǎng)絡(luò)規(guī)模。常用的池化方式包括:最大池化、平均池化。最大池化是在池化區(qū)域中選擇最大值作為代表值,平均池化是在池化域中選擇平均值作為代表值。最大池化容易忽略其他影響因素較大的值,而且容易受到噪音信息的干擾;平均池化考慮所有信息,可以降低噪音的干擾[31-32]。
以平均池化為例,公式如下
(8)
式中:W為pooling核寬度;H為pooling核高度;xl-1是l-1層的特征圖;xl是第l層的特征圖;i,j表示第l層特征圖的坐標(biāo);m,n表示第l-1層特征圖的坐標(biāo)。
3.3.2 CNN網(wǎng)絡(luò)結(jié)構(gòu)
考慮到測井曲線不同于圖片,其特征不容易用CNN表達(dá)。而且輸入的參數(shù)較少,池化所引起的減小特征分辨率的優(yōu)點也相對較小。因此,在本文中,采用一維卷積,經(jīng)過大量的實驗,選取中間層特征圖個數(shù)分別為5、10、15。網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
圖5 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.5 Schematic of convolutional neural network structure
實驗選擇PyTorch深度學(xué)習(xí)框架實現(xiàn)。本文中設(shè)計的卷積神經(jīng)網(wǎng)絡(luò)主要6層。第1層是輸入層,有5個神經(jīng)元,每個神經(jīng)元對應(yīng)輸入為AC、logRT、DEN、CNL、GR。第2層是隱藏層1,實際上它是輸入神經(jīng)元與5個大小為2×1的卷積核作卷積后,獲得的5個4×1的特征圖。第3層是隱藏層2,類似于隱藏層1,不同的是這一層具有10個特征圖,它是上一層的5個特征圖與10個大小為5×2×1的卷積核作卷積的輸出所形成的10個3×1的特征圖。第4層是隱藏層3,這一層具有15個特征圖,它是上一層的10個特征圖與15個大小為10×2×1的卷積核作卷積的輸出所形成的15個2×1的特征圖。第5層是全連接層,第6層是輸出層,只有一個神經(jīng)元,輸出參數(shù)為TOC含量預(yù)測值。CNN的訓(xùn)練分為兩個階段:向前傳播和向后傳播。向前傳播是將數(shù)據(jù)輸入,經(jīng)過隱藏層到達(dá)輸出層;而向后傳播是通過計算輸出值與實際值的差異,按照最小誤差的方法調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù),直到誤差在允許范圍內(nèi)。
具體實驗步驟如下:
1)將訓(xùn)練數(shù)據(jù)和測井?dāng)?shù)據(jù)的每種屬性用高斯初始化方法進行歸一化,見式(3)~式(5)。
2)用3個卷積層在輸入維度為5的數(shù)據(jù)上進行1維卷積提取特征:
Y0=Relu(W0⊙X+b0),
(9)
Y1=Relu(W1⊙Y0+b1),
(10)
Y2=Relu(W2⊙Y1+b1),
(11)
式中:Y0,Y1,Y2代表第1,第2和第3層的輸出結(jié)果;W0∈R5×1×2,W1∈R10×5×2,W2∈R15×10×2分別代表第1、第2和第3卷積層的參數(shù);Relu表示線性整流函數(shù);bi表示卷積操作中的偏置;⊙表示之前所述的卷積操作。通過這個式子,就可以從i-1層的特征圖得到第i層的特征圖。
3)根據(jù)3.3.1節(jié)所述,本文利用平均池化預(yù)測TOC:
TOC=Relu(W3Averpool(Y2)+b2),
(12)
式中:Averpool表示平均池化;W3代表輸出層的參數(shù),Relu是激活函數(shù)。
4)得到輸出以后,使用決定系數(shù)(R2),最小均方誤差(MSE)對網(wǎng)絡(luò)的性能進行評估:
(13)
(14)
利用前述的烴源巖TOC測井評價方法,將標(biāo)準(zhǔn)化后的聲波時差、電阻率、密度、伽馬、中子測井?dāng)?shù)據(jù)和TOC實測含量分別作為BP神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的輸入層和輸出層,隨機選取20個數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),6個數(shù)據(jù)作為測試數(shù)據(jù),用于檢驗?zāi)P偷姆夯芰Α?/p>
實驗結(jié)果表明,CNN模型具有更高的R2和更小的MSE。訓(xùn)練數(shù)據(jù)中CNN、BP、ΔlogR的R2分別是87%,81%和21%(圖6(a))。測試數(shù)據(jù)中CNN、BP、ΔlogR的R2分別是85%,66%和19%(圖6(b)),MSE分別是0.79,1.88和4.75。依據(jù)杭錦旗地區(qū)實測泥質(zhì)烴源巖TOC值對計算的烴源巖TOC值進行標(biāo)定(表1)。
圖6 不同模型預(yù)測TOC與實測TOC的關(guān)系圖Fig.6 Relationships between the measured TOC values and the calculated TOC values using different models
以錦10井、錦21井為例(圖7),ΔlogR模型計算得到的TOC與實測TOC值整體吻合度不高。這可能是因為該地區(qū)的電阻率變化較大,沒有綜合考慮中子、密度等重要的巖層物性參數(shù),而且對于Ro大于1.5的層段此方法不適用[1]。BP神經(jīng)網(wǎng)絡(luò)雖然能建立TOC與測井參數(shù)之間的復(fù)雜函數(shù)關(guān)系,但初始化過程中因連接權(quán)值和閾值不穩(wěn)定容易陷入局部最優(yōu),降低預(yù)測精度。相比于BP,CNN特有的局部連接、降采樣、權(quán)值共享的特點降低了網(wǎng)絡(luò)結(jié)構(gòu),使得模型預(yù)測精度更高、適應(yīng)性更強。實驗結(jié)果表明CNN預(yù)測烴源巖TOC含量具有較高的可靠性,可進一步為資源潛力評價提供依據(jù)。
根據(jù)卷積神經(jīng)網(wǎng)絡(luò)模型,選取杭錦旗地區(qū)108口鉆井的太原組和山1段較厚泥巖層段中的測井值相對最大值點作為該井的代表值,對杭錦旗地區(qū)上古生界山1段和太原組泥質(zhì)烴源巖TOC的平面分布進行預(yù)測,根據(jù)有機碳恢復(fù)系數(shù)[33],恢復(fù)出原始TOC,最后將TOC等值線圖和沉積相分布圖疊合(圖8)。
杭錦旗地區(qū)山1段和太原組主要發(fā)育三角洲平原沉積,進一步可劃分為沼澤和分流河道,有機質(zhì)主要來源于沼澤沉積,分布受沉積特征控制。圖8表明研究區(qū)的東南部和中部的沼澤沉積微相的TOC值較高,分流河道沉積微相TOC值較低。
圖8(a)是太原組泥質(zhì)烴源巖TOC平面展布圖,由圖中可以看出研究區(qū)中部錦7井TOC較高,達(dá)5%;相應(yīng)地,在沉積相分布上,沼澤環(huán)境有利于有機質(zhì)的富集和保存,與TOC高值區(qū)對應(yīng),而分流河道由于水動力較大,有機質(zhì)堆積較少,TOC普遍較低。圖8(b)是山1段泥質(zhì)烴源巖TOC平面展布圖,由圖中可以看出東南部錦6井、錦7井、錦21井,中部錦9井為TOC高值區(qū),達(dá)3%;在沉積相分布上,沼澤環(huán)境與TOC高值區(qū)對應(yīng),分流河道與TOC低值區(qū)對應(yīng)。總的來說,通過CNN方法預(yù)測的TOC平面分布與沉積微相分布在整體上具有良好的匹配關(guān)系。
表1 不同模型計算值與實測值對比表Table 1 Comparison of the measured TOC values with the calculated TOC values using different models
圖7 不同模型計算結(jié)果圖Fig.7 Calculation results using different models
圖8 TOC等值線與沉積微相結(jié)合圖Fig.8 TOC contour and sedimentary microfacies combination diagrams
但是本文也存在一定問題,由于杭錦旗地區(qū)取芯少,實測TOC數(shù)據(jù)較少,一定程度上降低了CNN的可信度,未來需要更多的實驗數(shù)據(jù)來驗證該方法的有效性。
1)本文將深度學(xué)習(xí)領(lǐng)域中的卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在烴源巖TOC預(yù)測中,卷積神經(jīng)網(wǎng)絡(luò)特有的權(quán)值共享、局部感知和降采樣的特點使其相對于ΔlogR、BP神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)更簡單、預(yù)測精度更高、適應(yīng)性更強,表明卷積神經(jīng)網(wǎng)絡(luò)預(yù)測烴源巖TOC含量具有較高的可靠性,進一步為資源量評價提供依據(jù)。
2)利用CNN對杭錦旗地區(qū)山1段和太原組泥質(zhì)烴源巖TOC的平面分布進行預(yù)測,發(fā)現(xiàn)研究區(qū)的東南部和中部的沼澤沉積微相的TOC值較高,分流河道沉積微相TOC值較低。預(yù)測結(jié)果與沉積微相在整體上具有良好的匹配關(guān)系。
中國科學(xué)院大學(xué)學(xué)報2020年1期