鄒琪 何月順 楊希 章權(quán)
摘要:巖性識(shí)別不論是在地層評(píng)價(jià),還是在油藏描述、鉆井監(jiān)控等地質(zhì)勘察工作中有著重要的作用。針對(duì)傳統(tǒng)基于測(cè)井響應(yīng)方程的測(cè)井巖性識(shí)別方法效率低并且信息冗余等問(wèn)題,本文提出了一種基于Stacking集成學(xué)習(xí)的測(cè)井巖性識(shí)別方法。該方法建立了一種以樸素貝葉斯、隨機(jī)森林、支持向量機(jī)三種模型作為初級(jí)訓(xùn)練器,邏輯回歸模型作為次級(jí)訓(xùn)練器的融合模型。該融合模型提高了測(cè)井巖性識(shí)別效率,實(shí)現(xiàn)了測(cè)井?dāng)?shù)據(jù)自動(dòng)化處理,提高了地質(zhì)勘察人員的工作效率。文中以鄂爾多斯盆地的鉆孔測(cè)井?dāng)?shù)據(jù)為訓(xùn)練樣本,通過(guò)與其他機(jī)器學(xué)習(xí)模型的結(jié)果比較,該模型的預(yù)測(cè)結(jié)果與實(shí)際結(jié)果相比具有較好的一致性,識(shí)別率優(yōu)于其他學(xué)習(xí)模型。
關(guān)鍵詞: 巖性識(shí)別; 集成學(xué)習(xí); 融合模型; Stacking
【Abstract】 Lithology identification plays an important role in geological surveys such as stratigraphic evaluation, reservoir description and drilling monitoring. Aiming at the low efficiency and information redundancy of traditional logging lithology identification methods based on logging response equation, this paper proposes a logging lithology identification method based on Stacking in ensemble learning.This method establishes a fusion model with Naive Bayes, Random Forest, Support Vector Machine and Logistic Regression.Three machine learning models,Naive Bayes, Random Forest and Support Vector Machine are used as a primary training device to separately train the data,and then Logistic Regression model is used as a secondary learning device to predict.The fusion model improves the logging lithology identification efficiency, realizes automatic processing of logging data, and improves the working efficiency of geological survey personnel. In this paper, the borehole logging data of the Ordos Basin is used as the training sample.Compared with the results of other machine learning models, the prediction results of the model are better than the actual results, and the recognition rate is better than other learning models.
【Key words】 ?lithology identification; ensemble learning; fusion model; Stacking
0 引 言
地層巖性是指巖石顏色、成分、結(jié)構(gòu)、特殊礦物等特征的總和,巖性識(shí)別是通過(guò)一些特定的方法來(lái)判定和區(qū)別巖性的過(guò)程。目前,測(cè)井巖性識(shí)別方法主要可以分為基于測(cè)井曲線響應(yīng)特征的定性解釋方法[1]、基于測(cè)井響應(yīng)方程的定量解釋方法[2]、圖版法[3]和基于機(jī)器學(xué)習(xí)的智能化方法[4-8]。定性解釋方法和圖版法的實(shí)施主要依賴于人員的實(shí)踐經(jīng)驗(yàn)和剖面的復(fù)雜度,人為因素影響較大;定量解釋方法相比于定性解釋方法可靠性更高,但其受限于地層礦物成分?jǐn)?shù)量,對(duì)復(fù)雜巖性儲(chǔ)層的適用性較差[2];基于機(jī)器學(xué)習(xí)的巖石識(shí)別方法主要有聚類分析法、支持向量機(jī)方法和決策樹(shù)方法。聚類分析法對(duì)訓(xùn)練樣本的要求為趨于無(wú)窮大,才會(huì)取得良好的效果,所以對(duì)于小樣本來(lái)說(shuō),該方法在識(shí)別中并不實(shí)用。支持向量機(jī)方法能較為準(zhǔn)確地識(shí)別過(guò)渡巖性,且在實(shí)際巖性識(shí)別中有較好的效果,決策樹(shù)方法是一種符號(hào)學(xué)習(xí)方法,易于直觀理解,但上述機(jī)器學(xué)習(xí)方法都是單一學(xué)習(xí)方法,不能對(duì)錯(cuò)誤樣本進(jìn)行再學(xué)習(xí)。
本文提出一種基于Stacking集成學(xué)習(xí)方法的測(cè)井巖性識(shí)別模型,該模型融合隨機(jī)森林、支持向量機(jī)、樸素貝葉斯三種機(jī)器學(xué)習(xí)方法,并對(duì)鄂爾多斯盆地地層進(jìn)行巖性識(shí)別,結(jié)果表明,該模型在識(shí)別準(zhǔn)確率上與其他模型相比有明顯提升。
1 巖性識(shí)別現(xiàn)狀
巖性識(shí)別技術(shù)自20世紀(jì)90年代引入國(guó)內(nèi),其方法包括重磁、地震、遙感、測(cè)井、地球化學(xué)、電磁、手標(biāo)本及薄片分析。巖石物性是指巖石三相組成部分的相對(duì)比例關(guān)系不同所表現(xiàn)的物理狀態(tài),同時(shí)也代表著巖石的力學(xué)、熱學(xué)、電學(xué)、聲學(xué)、放射學(xué)等特性參數(shù)和物理量。區(qū)分和識(shí)別巖性的主要步驟就在于巖石物性的研究,密度、電導(dǎo)率、磁化率、波阻抗等在地質(zhì)勘察工作中是經(jīng)常用的巖石物性。測(cè)井資料往往存在著大量的地層巖性信息,這些信息是巖性識(shí)別的基本信息[9]。因此,在眾多巖性識(shí)別方法中,測(cè)井巖性識(shí)別方法是目前比較成熟的一種方法。
劉昊等人[10]針對(duì)實(shí)際儲(chǔ)層非均勻性,利用K-means聚類算法和DBSACN聚類算法對(duì)某盆地具有十維特征量的測(cè)井?dāng)?shù)據(jù)建立了巖性識(shí)別模型,提高了分類識(shí)別的準(zhǔn)確度,識(shí)別效果更加接近儲(chǔ)層的真實(shí)特性。陳華等人[11]采用最小二乘支持向量機(jī)對(duì)孔隙度、滲透率和飽和度進(jìn)行了預(yù)測(cè),取得了良好的預(yù)測(cè)效果。胡劍策[12]將最小二乘支持向量機(jī)和主成分分析方法引入油氣儲(chǔ)層的識(shí)別和預(yù)測(cè),提出了一種基于主成分分析的最小二乘支持向量機(jī)的預(yù)測(cè)模型,該模型的性能優(yōu)于一些其他模型。溫志平等人[13]針對(duì)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)巖性識(shí)別模型存在收斂速度慢、難以選擇合適的網(wǎng)絡(luò)拓?fù)浜蛯W(xué)習(xí)參數(shù)問(wèn)題,提出一種采用遞階遺傳染色體編碼方式并將具有非線性的Sigmoid函數(shù)引入到遺傳操作算子的自適應(yīng)遞階遺傳優(yōu)化神經(jīng)網(wǎng)絡(luò)模型,從而減少了遺傳算法陷入早熟的幾率。江凱等人[14]以錄井資料和測(cè)井資料為基礎(chǔ),優(yōu)選自然伽馬、自然電位、沖洗帶電阻率、侵入帶電阻率、原狀地層電阻率、密度、補(bǔ)償中子、聲波時(shí)差8個(gè)測(cè)井屬性,使用Boosting Tree算法建立了巖性識(shí)別模型,并使用該模型對(duì)瑪北油田巖石進(jìn)行識(shí)別,正確率優(yōu)于決策樹(shù)、支持向量機(jī)等傳統(tǒng)機(jī)器學(xué)習(xí)方法。楊笑等人[15]為提高長(zhǎng)嶺氣田火山巖巖性識(shí)別的準(zhǔn)確率,采用決策樹(shù)、支持向量機(jī)、邏輯回歸、AdaBoost-決策樹(shù)、AdaBoost-支持向量機(jī)和AdaBoost-邏輯回歸6種算法對(duì)酸性火山巖巖性識(shí)別進(jìn)行分類和識(shí)別,通過(guò)交叉驗(yàn)證進(jìn)行參數(shù)優(yōu)化及模型評(píng)價(jià),對(duì)比不同算法發(fā)現(xiàn)AdaBoost-決策樹(shù)算法的準(zhǔn)確率最高。
目前基于集成學(xué)習(xí)的方法在巖性識(shí)別上的應(yīng)用并不廣泛,大部分研究學(xué)者還是在單一機(jī)器學(xué)習(xí)模型之上進(jìn)行研究和改進(jìn)的。集成學(xué)習(xí)中的Stacking思想首先訓(xùn)練出多個(gè)不同的模型,然后再以之前訓(xùn)練的各個(gè)模型的輸出作為輸入來(lái)新訓(xùn)練一個(gè)新的模型,換句話說(shuō),Stacking算法根據(jù)模型的輸出是允許改其他分類器的參數(shù)甚至結(jié)構(gòu)的。
2 集成學(xué)習(xí)
集成學(xué)習(xí)是通過(guò)多個(gè)基分類器組合來(lái)完成學(xué)習(xí)任務(wù)并提高準(zhǔn)確率的一種技術(shù)[16-17]。通過(guò)集成學(xué)習(xí),集成學(xué)習(xí)器能獲得比單一學(xué)習(xí)器更優(yōu)越的泛化性能,其原理是使用一定量的樣本來(lái)訓(xùn)練多個(gè)弱學(xué)習(xí)器,再采用“少數(shù)服從多數(shù)”的投票法來(lái)選擇分類結(jié)果[18]。這樣即使一些學(xué)習(xí)器有錯(cuò)誤時(shí),也能通過(guò)多數(shù)學(xué)習(xí)器來(lái)糾正。集成學(xué)習(xí)一般可以分為用于減少方差的Bagging、用于減少偏差的Boosting和用于提升預(yù)測(cè)結(jié)果的Stacking三大類。
本文所采用的是用于提升預(yù)測(cè)結(jié)果的Stacking方法,其通過(guò)一個(gè)元分類器或元回歸器來(lái)整合多個(gè)分類模型或回歸模型。Stacking的工作流程如下:
(1)將訓(xùn)練樣本分為N份訓(xùn)練集和1份測(cè)試集來(lái)進(jìn)行N折交叉驗(yàn)證。
(2)用初級(jí)分類器對(duì)N-1份訓(xùn)練集進(jìn)行訓(xùn)練,訓(xùn)練之后的模型再對(duì)剩下的1份驗(yàn)證集進(jìn)行預(yù)測(cè)生成數(shù)據(jù)集ai(i<=N),此模型同時(shí)對(duì)測(cè)試集進(jìn)行預(yù)測(cè)產(chǎn)生數(shù)據(jù)集bj(j<=N)。
(3)重復(fù)步驟(2)N次,產(chǎn)生a1,a2,...,aN和b1,b2,...,bN,將a1,a2,...,aN拼湊起來(lái),記為Ai(i≤N),并對(duì)b1,b2,...,bN這部分?jǐn)?shù)據(jù)相加取平均值,記為Bj(j≤N)。
(4)對(duì)每一個(gè)初級(jí)分類器進(jìn)行步驟(2)和步驟(3)操作,得到新的訓(xùn)練集A1,A2,...,AN和新的測(cè)試集B1,B2,...,BN。
(5)讓次級(jí)分類器對(duì)從步驟(4)中得到的訓(xùn)練集和測(cè)試集分別進(jìn)行訓(xùn)練和預(yù)測(cè),得到最后的預(yù)測(cè)結(jié)果。
3 模型的構(gòu)建
本文選取了隨機(jī)森林、支持向量機(jī)、樸素貝葉斯三種機(jī)器學(xué)習(xí)模型為初級(jí)訓(xùn)練器,以邏輯回歸模型為次級(jí)訓(xùn)練器來(lái)進(jìn)行樣本的學(xué)習(xí)訓(xùn)練。文中采用了3折交叉驗(yàn)證方法,將訓(xùn)練集等分為3份,其中2份用來(lái)訓(xùn)練學(xué)習(xí),剩下1份進(jìn)行驗(yàn)證。文中使用隨機(jī)森林、支持向量機(jī)、樸素貝葉斯模型依次對(duì)訓(xùn)練集中的樣本進(jìn)行3折交叉驗(yàn)證訓(xùn)練后對(duì)測(cè)試集進(jìn)預(yù)測(cè),得出新的訓(xùn)練集和測(cè)試集,然后使用邏輯回歸模型對(duì)新的訓(xùn)練集學(xué)習(xí)訓(xùn)練,最后將訓(xùn)練后的模型對(duì)測(cè)試集進(jìn)行預(yù)測(cè),具體流程如圖1所示。
4 應(yīng)用實(shí)例
4.1 樣本構(gòu)建
本文選取鄂爾多斯盆地的鉆孔測(cè)井?dāng)?shù)據(jù)來(lái)驗(yàn)證本文提出的融合模型的準(zhǔn)確率。收集盆地中的1 729個(gè)樣本,其中包含泥巖、泥質(zhì)粉砂巖、砂質(zhì)泥巖三大類,這三類的樣本比例分別為59%,11.6%,29.4%,見(jiàn)表1。本文提取了自然伽馬(GR)、陣列感應(yīng)電阻率(AT10、AT20、AT30、AT60、AT90)、縱橫波方式單極縱波時(shí)差(DT4P)、光電吸收截面指數(shù)(PEFL)、巖性密度(RHOM)和自然電位(SP)這幾條測(cè)井曲線作為分類參數(shù),并將全部樣本中的1 210個(gè)樣本作為訓(xùn)練集用于訓(xùn)練巖性識(shí)別模型,519個(gè)樣本作為測(cè)試集來(lái)檢驗(yàn)融合模型的巖性識(shí)別效果,同時(shí)將其結(jié)果與使用樸素貝葉斯、隨機(jī)森林、支持向量機(jī)的識(shí)別結(jié)果進(jìn)行對(duì)比。
4.2 結(jié)果分析
樣本的每個(gè)特征屬性來(lái)源于不同的測(cè)量方法,量綱有所不同,因此,本文采用Sklearn庫(kù)中的StandardScaler類來(lái)進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化和歸一化操作。本文實(shí)驗(yàn)是在Python3.7下使用Sklearn和Pandas等庫(kù)進(jìn)行實(shí)現(xiàn)的,IDE為PyCharm professional edition。硬件環(huán)境為Intel(R)Core(TM)i5-3230M CPU@2.60 GHz、8 GBRAM設(shè)備。本文采用3折交叉驗(yàn)證方法依次對(duì)樸素貝葉斯、隨機(jī)森林、支持向量機(jī)三種巖性識(shí)別模型進(jìn)行訓(xùn)練,并對(duì)本文提出的融合模型訓(xùn)練,不同模型的交叉驗(yàn)證準(zhǔn)確率見(jiàn)表2。對(duì)訓(xùn)練后的模型在測(cè)試集上進(jìn)行預(yù)測(cè),不同模型的巖性預(yù)測(cè)結(jié)果見(jiàn)表3,最后對(duì)不同模型進(jìn)行評(píng)估檢驗(yàn),結(jié)果見(jiàn)表4。
表2給出了不同模型在驗(yàn)證集上的準(zhǔn)確率,可以看出本文提出的融合模型在驗(yàn)證集上的準(zhǔn)確率基本穩(wěn)定在0.85左右,準(zhǔn)確率高于其他三種模型,證明該模型具有較強(qiáng)的穩(wěn)定性。從表3中可以看出,本文提出的融合模型在泥巖識(shí)別的準(zhǔn)確率到達(dá)了0.892,高于樸素貝葉斯的0.706和隨機(jī)森林的0.844,略低于支持向量機(jī)的0.897。在泥質(zhì)粉砂巖這種小樣本的識(shí)別上,融合模型的準(zhǔn)確率達(dá)到了0.907,精確率遠(yuǎn)高于其他3種模型。對(duì)于砂質(zhì)泥巖的識(shí)別準(zhǔn)確率來(lái)說(shuō),融合模型的0.865高于樸素貝葉斯的0.447和支持向量機(jī)的0.801,稍微低于隨機(jī)森林的0.866。對(duì)于不同類別的巖性來(lái)說(shuō),融合模型的準(zhǔn)確率基本維持在0.886左右,表明了融合模型有著較好的泛化能力,其準(zhǔn)確率更是高于隨機(jī)森林、支持向量機(jī)、樸素貝葉斯三種模型的準(zhǔn)確率。
表4比較了不同模型的評(píng)價(jià)指標(biāo),本文提出的融合模型與隨機(jī)森林、支持向量機(jī)、樸素貝葉斯比較得出泥巖、泥質(zhì)粉砂巖、砂質(zhì)泥巖最佳分類F1值分別為0.916、0.845、0.838,這些最佳F1值均來(lái)自融合模型,并且可以看出融合模型的平均F1值高于樸素貝葉斯30%左右,高于隨機(jī)森林10%左右,高于支持向量機(jī)6%,分類效果顯著提升。
5 結(jié)束語(yǔ)
本文主要研究了以地質(zhì)大數(shù)據(jù)為背景下的基于集成學(xué)習(xí)中Stacking思想的測(cè)井巖性識(shí)別方法。首先介紹了巖性識(shí)別的相關(guān)方法,其中有傳統(tǒng)的基于礦物物性的測(cè)井巖性識(shí)別方法,也有基于機(jī)器學(xué)習(xí)的一些識(shí)別方法,比如支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等。接著詳細(xì)敘述了隨機(jī)森林、支持向量機(jī)、樸素貝葉斯和集成學(xué)習(xí)等相關(guān)機(jī)器學(xué)習(xí)知識(shí),并提出了一種基于集成學(xué)習(xí)中Stacking思想的融合模型,該模型融合了隨機(jī)森林、支持向量機(jī)和樸素貝葉斯三種機(jī)器學(xué)習(xí)模型。最后通過(guò)實(shí)驗(yàn),將本文提出的融合模型與隨機(jī)森林、支持向量機(jī)和樸素貝葉斯三種機(jī)器學(xué)習(xí)模型的巖性識(shí)別結(jié)果作對(duì)比,結(jié)果表明融合模型的巖性識(shí)別準(zhǔn)確率高于其他三種模型,并且有著較強(qiáng)的泛化能力和穩(wěn)定性。
本文提出的模型雖然在巖性識(shí)別率上優(yōu)于其他三種基本機(jī)器學(xué)習(xí)模型,但沒(méi)有去嘗試融合多種優(yōu)化過(guò)后的機(jī)器學(xué)習(xí)算法,這也為其他研究者提供了一個(gè)參考。
參考文獻(xiàn)
[1] 葉濤,韋阿娟,鄧輝,等. 基于常規(guī)測(cè)井資料的火山巖巖性識(shí)別方法研宄一以渤海海域中生界為例[J]. 地球物理學(xué)進(jìn)展,2017,32(4):1842.
[2]洪有密. 測(cè)井原理與綜合解釋[M]. 北京:中國(guó)石油大學(xué)出版社,2008.
[3]黃布宙,潘保芝. 松遼盆地北部深層火成巖測(cè)井響應(yīng)特征及巖性劃分[J]. 石油物探,2001,40(3):42.
[4]SEBTOSHEIKH M A, MOTAFAKKERFARD R, RIAHI M A,et al.Support vector machine method, a new technique for lithology prediction in an Iranian heterogeneous carbonate reservoir using petrophysical well logs[J].Carbonates and Evaporites, 2015,30(1):59.
[5]石廣仁. 支持向量機(jī)在多地質(zhì)因素分析中的應(yīng)用[J]. 石油學(xué)報(bào),2008,29(2):195.
[6]KONAT A A,PAN Heping,F(xiàn)ANG Sinan,et al. Capability of self-organizing map neural network in geophysical log data classification: Case study from the CCSD-MH[J]. Journal of Applied Geophysics,2015,118:37.
[7]SILVA A A,NETO I A L,MISSGIA R M,et al.Artificial neural networks to support petrographic classification of carbonate-siliciclastic rocks using well logs and textural information[J]. Journal of Applied Geophysics,2015,117:118.
[8]李洪奇,郭海峰,郭海敏,等.復(fù)雜儲(chǔ)層測(cè)井評(píng)價(jià)數(shù)據(jù)挖掘方法研究[J]. 石油學(xué)報(bào),2009,30(4):542.
[9]付光明,嚴(yán)加永,張昆,等. 巖性識(shí)別技術(shù)現(xiàn)狀與進(jìn)展[J]. 地球物理學(xué)進(jìn)展,2017,32(1):26.
[10]劉昊,朱丹丹,陳冬,等. 基于聚類算法的巖性預(yù)分類方法研究[C]//2018 IPPTC國(guó)際石油石化技術(shù)會(huì)議論文集. 北京:西安華線網(wǎng)絡(luò)信息服務(wù)有限公司,2018:387.
[11]陳華,鄧少貴,范宜仁. 基于LS-SVM的測(cè)井物性參數(shù)的預(yù)測(cè)方法[J]. 計(jì)算機(jī)工程與應(yīng)用,2007,43(23):208.
[12]胡劍策. 基于PCA的LS-SVM預(yù)測(cè)模型應(yīng)用[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用,2012,21(6):167.
[13]溫志平,方江雄,劉軍,等. 自適應(yīng)遞階遺傳神經(jīng)網(wǎng)絡(luò)測(cè)井巖性識(shí)別方法研究[J]. 東華理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,40(4):368.
[14]江凱,王守東,胡永靜,等. 基于Boosting Tree算法的測(cè)井巖性識(shí)別模型[J]. 測(cè)井技術(shù),2018,42(4):395.
[15]楊笑,王志章,周子勇,等. 基于參數(shù)優(yōu)化AdaBoost算法的酸性火山巖巖性分類[J]. 石油學(xué)報(bào),2019,40(4):457.
[16]楊草原,劉大有,楊博,等. 聚類集成方法研究[J]. 計(jì)算機(jī)科學(xué),2011,38(2):166.
[17]張莉婷. 基于集成學(xué)習(xí)的工業(yè)產(chǎn)品質(zhì)量控制方法研究[D]. 廣州:華南理工大學(xué),2018.
[18]XUE Di,LI Jingmei,WU Weifei,et al. Homology analysis of malware based on ensemble learning and multifeatures[J]. PloS one,2019,14(8):e0211373.