等領(lǐng)域的學(xué)習(xí)和研究工何 健 文曉濤 聶文亮 李雷豪 楊吉鑫
(①成都理工大學(xué)地球物理學(xué)院,四川成都 610059; ②成都理工大學(xué)油氣藏地質(zhì)及開發(fā)工程國(guó)家重點(diǎn)實(shí)驗(yàn)室,四川成都 610059; ③重慶三峽學(xué)院電子與信息工程學(xué)院,重慶萬(wàn)州 404000)
裂縫型油氣藏在碳酸鹽巖、碎屑巖以及火山巖中廣泛存在[1]。一般情況下,裂縫型油氣藏都具有孔隙度低、裂縫帶分布復(fù)雜及非均質(zhì)性強(qiáng)等特點(diǎn)[2]。因此尋找裂縫型油氣藏的關(guān)鍵在于確定致密巖層內(nèi)的裂縫密度及分布范圍。傳統(tǒng)的巖心觀測(cè)法雖然能準(zhǔn)確地識(shí)別出裂縫發(fā)育帶的位置等信息,但因巖心有限且僅能反映井眼附近區(qū)域,因此很難用該方法進(jìn)行三維空間的裂縫帶識(shí)別[3]。為此,越來(lái)越多的學(xué)者開始研究如何從地震波的響應(yīng)特征中尋找裂縫帶的分布及方位等信息。由于地震波傳播到縫隙密度明顯增大、并有一定延伸范圍的巖體時(shí),傳播速度會(huì)明顯降低,振幅、頻率和相位等動(dòng)力學(xué)特征也會(huì)發(fā)生明顯變化[4]。所以各種基于地震資料的裂縫帶刻畫方法層出不窮,比如螞蟻體追蹤[5-6]、體曲率分析[7-8]、相干體分析[2,9]和品質(zhì)因子Q值屬性[10-11]等。這些方法雖然各有所長(zhǎng),但單獨(dú)使用時(shí),結(jié)果常常存在不確定性及多解性[6]。因此,如何綜合利用多種地震屬性與井中裂縫發(fā)育狀況之間的非線性對(duì)應(yīng)關(guān)系是裂縫帶預(yù)測(cè)中的一個(gè)難題。
很多學(xué)者已經(jīng)證明機(jī)器學(xué)習(xí)算法能高效、準(zhǔn)確地實(shí)現(xiàn)多屬性的融合分類,是完成多屬性分析的一種重要方法,其中最具代表性的機(jī)器學(xué)習(xí)算法有神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和隨機(jī)森林(Random Forest)等。這些算法在水文氣象學(xué)、醫(yī)學(xué)和金融學(xué)等領(lǐng)域均有著廣泛的應(yīng)用[12-15]。近年來(lái),機(jī)器學(xué)習(xí)算法應(yīng)用于許多新的領(lǐng)域: 如Chen等[16]在制造領(lǐng)域中利用人工神經(jīng)網(wǎng)絡(luò)集成方法估計(jì)模擬任務(wù)所需時(shí)間; 李文秀等[17]應(yīng)用近似支持向量機(jī)算法判別AVO類型; Asim等[18]在地學(xué)領(lǐng)域中應(yīng)用隨機(jī)森林算法預(yù)測(cè)地震活動(dòng)情況; 宋建國(guó)等[19]應(yīng)用隨機(jī)森林算法預(yù)測(cè)儲(chǔ)層。考慮到這些機(jī)器學(xué)習(xí)算法中隨機(jī)森林算法具有泛化誤差小、抗干擾能力強(qiáng)、不易產(chǎn)生過(guò)擬合等特點(diǎn)[20],因此本文引入該算法對(duì)裂縫帶進(jìn)行綜合預(yù)測(cè)。
首先從疊后地震資料出發(fā),計(jì)算四種刻畫裂縫帶的地震屬性數(shù)據(jù)體;然后從井旁道的各種地震屬性中按照巖心中裂縫帶的發(fā)育程度提取特征參數(shù),建立地震屬性與裂縫發(fā)育信息之間的對(duì)應(yīng)關(guān)系;最后應(yīng)用隨機(jī)森林算法對(duì)裂縫帶進(jìn)行綜合預(yù)測(cè),從而減少單屬性的多解性,實(shí)現(xiàn)對(duì)研究區(qū)裂縫帶的自動(dòng)識(shí)別。
隨機(jī)森林算法是Breiman在Bagging算法之后提出的另一種組合預(yù)測(cè)算法[21-22],它以決策樹為基礎(chǔ),通過(guò)隨機(jī)重復(fù)采樣技術(shù)(Bootstrap技術(shù)[23])和節(jié)點(diǎn)隨機(jī)分裂技術(shù)組建多棵決策樹,最后組合大量決策樹的預(yù)測(cè)結(jié)果并將其作為一個(gè)整體輸出。通過(guò)多棵決策樹進(jìn)行集成學(xué)習(xí),有效地克服了單棵決策樹容易出現(xiàn)過(guò)擬合、分類精度較低等問(wèn)題,并且有效地降低了學(xué)習(xí)系統(tǒng)的泛化誤差。
隨機(jī)森林算法是基于多棵決策樹進(jìn)行回歸預(yù)測(cè)和分類預(yù)測(cè)的貪婪算法。它在每個(gè)內(nèi)部節(jié)點(diǎn)中選擇一個(gè)最優(yōu)的屬性(或最優(yōu)值)進(jìn)行分裂,分裂后的每個(gè)分支都有一個(gè)屬性值與之相對(duì)應(yīng),樣本的所屬類別以沿此路徑的每個(gè)葉節(jié)點(diǎn)為代表,如此遞歸構(gòu)建決策樹直到達(dá)到終止條件。根據(jù)Bootstrap方法隨機(jī)地構(gòu)建了一系列“自由生長(zhǎng)”的決策樹分類器{h(X,θk),k=1,2,…,K},{θk,k=1,2,…,K}為隨機(jī)向量(通常服從獨(dú)立分布),K表示森林中用于分類的決策樹的數(shù)量。在自變量X給定的情況下,每棵決策樹分類器依次參與判斷,最后選取頻次最高的類作為最后的最優(yōu)分類結(jié)果。
隨機(jī)森林的建模和預(yù)測(cè)機(jī)制是本文集成學(xué)習(xí)模型的思想來(lái)源,目的是獲得較高和穩(wěn)定的準(zhǔn)確率。
為了提高裂縫發(fā)育帶的預(yù)測(cè)精度,本文主要通過(guò)隨機(jī)重復(fù)采樣和隨機(jī)特征選取兩個(gè)隨機(jī)性構(gòu)造不同的隨機(jī)森林決策樹,主要步驟如下。
(1)首先基于井旁道地震數(shù)據(jù)制作原始訓(xùn)練數(shù)據(jù)集,用Bootstrap重復(fù)采樣方法有放回地隨機(jī)抽取K個(gè)訓(xùn)練數(shù)據(jù)子集,這些子集的容量均與原始訓(xùn)練 數(shù)據(jù)集一樣,并由此構(gòu)建K棵用于分類的決策樹模型。
(2)在生成每棵用于回歸預(yù)測(cè)和分類預(yù)測(cè)的決策樹模型的過(guò)程中,每個(gè)節(jié)點(diǎn)隨機(jī)選取一部分輸入變量的可能分割,再?gòu)闹羞x取最優(yōu)的分割進(jìn)行分裂。這樣可以降低隨機(jī)森林中用于回歸預(yù)測(cè)與分類預(yù)測(cè)的決策樹之間的相關(guān)強(qiáng)度,提升集成系統(tǒng)的多樣性和分類能力。
(3)森林中每棵用于判別裂縫帶發(fā)育狀況的決策樹最大限度地生長(zhǎng),不做任何剪裁。
(4)集成多棵用于判別裂縫帶發(fā)育信息的決策樹構(gòu)建隨機(jī)森林分類器,然后利用該集成分類器對(duì)包含各種地震屬性的大尺度地震數(shù)據(jù)進(jìn)行分類,并統(tǒng)計(jì)森林中所有決策樹的預(yù)測(cè)結(jié)果,選擇在各棵決策樹的分類結(jié)果中出現(xiàn)頻次最高的作為最終的分類結(jié)果。
利用川東北YL地區(qū)兩組(17井和171井)測(cè)井?dāng)?shù)據(jù)驗(yàn)證隨機(jī)森林分類算法的分類效果。分別在17井和171井油氣儲(chǔ)層裂縫發(fā)育、較發(fā)育和欠發(fā)育段選取聲波時(shí)差(AC)、補(bǔ)償中子(CNL)、密度(DEN)、自然伽馬(GR)、深側(cè)向電阻率(RD)、淺側(cè)向電阻率(RS)和無(wú)鈾伽馬(KTH)等七種測(cè)井參數(shù)作為訓(xùn)練數(shù)據(jù)集(表1)和預(yù)測(cè)數(shù)據(jù)集。
表1 鉆井裂縫識(shí)別訓(xùn)練數(shù)據(jù)集(部分)
實(shí)驗(yàn)流程如圖1所示。
圖1 模型預(yù)測(cè)流程示意圖
為了度量實(shí)驗(yàn)?zāi)P偷姆诸愋阅?,選擇正確率評(píng)估隨機(jī)森林算法的分類效果。正確率即為分類正確的樣本數(shù)與樣本總數(shù)的比值。
按照排列組合的方式,選取含有1,2,…,7種測(cè)井參數(shù)(以下簡(jiǎn)稱屬性)數(shù)據(jù)作為預(yù)測(cè)數(shù)據(jù)集。可用n維向量Xi=([xi]1,[xi]2,…,[xi]n),i=1,2,…,1409,n=1,2,…,7 表示預(yù)測(cè)數(shù)據(jù)集,然后引入隨機(jī)森林算法對(duì)這些預(yù)測(cè)數(shù)據(jù)集進(jìn)行分類預(yù)測(cè),分類結(jié)果見(jiàn)表2。
表2 模型評(píng)價(jià)結(jié)果
來(lái)自于裂縫欠發(fā)育帶和裂縫發(fā)育帶上的各個(gè)屬性在數(shù)值上均有交集,因此僅使用單個(gè)屬性進(jìn)行分類預(yù)測(cè),準(zhǔn)確率較低。由表2可見(jiàn),當(dāng)選擇兩種屬性進(jìn)行分類預(yù)測(cè)時(shí)的準(zhǔn)確率相比一種屬性顯著增長(zhǎng)。當(dāng)所選屬性增至4種后,再增加分類預(yù)測(cè)中預(yù)測(cè)數(shù)據(jù)集的屬性種類,分類預(yù)測(cè)的正確率上升較為緩慢。如果分類預(yù)測(cè)所選屬性種類太多,就會(huì)增加模型的復(fù)雜性并降低運(yùn)算速度。從分類預(yù)測(cè)結(jié)果看,該測(cè)井?dāng)?shù)據(jù)制作的預(yù)測(cè)數(shù)據(jù)集使用4種屬性進(jìn)行分類預(yù)測(cè)時(shí)正確率達(dá)到95.03%,滿足分類預(yù)測(cè)對(duì)正確率的要求。
將包含密度、自然伽馬、深側(cè)向電阻率和無(wú)鈾伽馬4種屬性參數(shù)的預(yù)測(cè)數(shù)據(jù)集引入隨機(jī)森林算法,其中前三種屬性參數(shù)交會(huì)圖如圖2所示。得益于多種屬性的參與,圖中黑色虛線框內(nèi)一部分原本互相混合的部分也能正確地進(jìn)行分類。這說(shuō)明隨機(jī)森林算法的分類效果能夠滿足工程應(yīng)用的要求。
圖2 模型測(cè)試結(jié)果DEN、RD和GR交會(huì)圖
與測(cè)井?dāng)?shù)據(jù)相比,地震數(shù)據(jù)屬于大尺度數(shù)據(jù),這樣的數(shù)據(jù)雖然很難識(shí)別單條裂縫,但對(duì)于大量裂縫組成的具有一定規(guī)模的裂縫發(fā)育帶可能具有一定的識(shí)別能力。下面以YL地區(qū)須家河組須四段為例,檢驗(yàn)隨機(jī)森林算法對(duì)裂縫帶的識(shí)別能力。
YL地區(qū)主要目的層須四段具有“大面積含氣、局部富集高產(chǎn)”的特點(diǎn)。該區(qū)六口井中,17井、171井和173井為高產(chǎn)井, 172井、175井和176井為干井。單井日產(chǎn)量及測(cè)試段裂縫地震相類型見(jiàn)表3。其中,第1類裂縫地震相對(duì)應(yīng)通過(guò)大規(guī)模斷裂所形成的裂縫通道; 第2類對(duì)應(yīng)通過(guò)較大規(guī)模斷裂所形成的裂縫系統(tǒng); 第3類對(duì)應(yīng)具有微斷裂的裂縫系統(tǒng); 第4類對(duì)應(yīng)細(xì)微裂縫; 第5類對(duì)應(yīng)基質(zhì)。
表3 單井日產(chǎn)量表
螞蟻體、體曲率和相干體屬性都可以在不同程度上反映斷層及裂縫帶信息,品質(zhì)因子Q值在一定地震地質(zhì)條件下也可表示儲(chǔ)層內(nèi)孔隙和裂縫發(fā)育特征。因此,將螞蟻體、體曲率、相干體屬性和品質(zhì)因子Q值引入隨機(jī)森林算法進(jìn)行裂縫帶的識(shí)別。
圖3 YL地區(qū)須四段不同屬性裂縫發(fā)育預(yù)測(cè)結(jié)果
首先提取該工區(qū)內(nèi)六口井井旁道地震屬性并組成訓(xùn)練數(shù)據(jù)集;然后根據(jù)巖心裂縫的發(fā)育程度,將訓(xùn)練數(shù)據(jù)集分為裂縫發(fā)育、較發(fā)育以及欠發(fā)育等三類。
各種常規(guī)屬性對(duì)于裂縫帶的識(shí)別各有所長(zhǎng)(圖3),但也都存在不足。螞蟻體追蹤算法通過(guò)檢索地震數(shù)據(jù)不連續(xù)性完成斷裂的追蹤和識(shí)別。但由于它對(duì)地震資料品質(zhì)要求較高,因此導(dǎo)致預(yù)測(cè)結(jié)果(圖3a)顯示17井位于裂縫欠發(fā)育地區(qū),而在該層不產(chǎn)氣的172井和176井是否位于裂縫發(fā)育帶上很難區(qū)分。體曲率屬性中不僅顯示裂縫信息,也凸顯地層的起伏,因此較難區(qū)分裂縫發(fā)育信息。相干體屬性通常只能用于定性分析,用于裂縫檢測(cè)時(shí)尺度過(guò)大,因此常存在較大誤差,所以其預(yù)測(cè)結(jié)果(圖3c)中175井及其附近區(qū)域的裂縫發(fā)育狀況不太準(zhǔn)確。品質(zhì)因子Q值的大小雖然能反映裂縫發(fā)育情況,但它的求解同時(shí)也會(huì)受到儲(chǔ)層含流體因素等的影響,導(dǎo)致了175井所處區(qū)域的裂縫預(yù)測(cè)結(jié)果出現(xiàn)了誤差。因此,單屬性預(yù)測(cè)結(jié)果反映裂縫特征存在不足,具有較強(qiáng)的多解性。
針對(duì)上述問(wèn)題,首先利用隨機(jī)森林算法從訓(xùn)練數(shù)據(jù)集中隨機(jī)選取2/3的訓(xùn)練數(shù)據(jù)用于構(gòu)建600棵分類決策樹。這些決策樹通過(guò)對(duì)各屬性的特征與巖心裂縫發(fā)育信息進(jìn)行學(xué)習(xí),有效地將兩者結(jié)合起來(lái),使得預(yù)測(cè)結(jié)果更有說(shuō)服力。由隨機(jī)森林算法預(yù)測(cè)的結(jié)果(圖3e)不僅能較為清晰地反映該地區(qū)須四段的大斷裂,同時(shí)還準(zhǔn)確地預(yù)測(cè)出了17井、171井和173井3口高產(chǎn)井及其附近區(qū)域的裂縫發(fā)育情況。預(yù)測(cè)結(jié)果顯示3口高產(chǎn)井位于裂縫發(fā)育帶上,172井、175井和176井位于裂縫欠發(fā)育地區(qū)。這與鉆探結(jié)果吻合,說(shuō)明利用隨機(jī)森林算法進(jìn)行裂縫帶的綜合預(yù)測(cè)能更準(zhǔn)確地反映實(shí)際的裂縫發(fā)育情況。
本文將隨機(jī)森林算法引入儲(chǔ)層裂縫帶預(yù)測(cè)中,得出以下結(jié)論。
(1)隨機(jī)森林算法對(duì)裂縫帶進(jìn)行預(yù)測(cè)時(shí),用于裂縫預(yù)測(cè)的屬性種類越多,其預(yù)測(cè)的準(zhǔn)確率越高; 但屬性種類達(dá)到一定數(shù)量后,準(zhǔn)確率上升較緩慢。因此,對(duì)裂縫帶進(jìn)行綜合預(yù)測(cè)時(shí)可根據(jù)需要選擇合適的地震屬性數(shù)量。
(2)隨機(jī)森林算法將巖心裂縫發(fā)育信息與多種地震屬性之間的非線性關(guān)系用于裂縫帶的預(yù)測(cè),克服了一些地震屬性僅能在某些特定區(qū)域內(nèi)取得一定效果的不足;同時(shí)也減弱了單屬性帶來(lái)的多解性問(wèn)題。因此,其預(yù)測(cè)結(jié)果更加準(zhǔn)確可靠,并具有較強(qiáng)的普適應(yīng)用價(jià)值。
從川東北YL地區(qū)裂縫帶的預(yù)測(cè)結(jié)果可以看出隨機(jī)森林算法預(yù)測(cè)的準(zhǔn)確性與可靠性均高于常規(guī)的單屬性,證明了該算法在裂縫帶預(yù)測(cè)中的適用性,同時(shí)也可將其推廣到其他類似地區(qū)。