石祥超 王宇鳴 劉越豪 陳雁
1. 油氣藏地質(zhì)及開(kāi)發(fā)工程國(guó)家重點(diǎn)實(shí)驗(yàn)室·西南石油大學(xué);2. 西南石油大學(xué)計(jì)算機(jī)科學(xué)學(xué)院
油氣公司在科研、生產(chǎn)、管理、經(jīng)營(yíng)活動(dòng)中積累了海量的結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù),其數(shù)據(jù)總量仍在不斷持續(xù)攀升,充分挖掘這些數(shù)據(jù)的價(jià)值是非常重要和十分迫切的,尤其是在低油價(jià)時(shí)期。據(jù)統(tǒng)計(jì),非常規(guī)油氣鉆井作業(yè)產(chǎn)生的數(shù)據(jù)非常龐大,每英尺鉆井產(chǎn)生的數(shù)據(jù)量就能達(dá)到1MB,每打一口井產(chǎn)生的數(shù)據(jù)量能達(dá)到1~15 TB,如何挖掘和利用鉆完井大數(shù)據(jù)蘊(yùn)含的價(jià)值,為鉆完井提供優(yōu)質(zhì)方案,將是未來(lái)很長(zhǎng)一段時(shí)間面臨的科學(xué)技術(shù)問(wèn)題。
隨著鉆井?dāng)?shù)據(jù)信息采集技術(shù)的迅速發(fā)展,鉆井過(guò)程中產(chǎn)生的數(shù)據(jù)體量龐大,機(jī)器學(xué)習(xí)能夠精準(zhǔn)地對(duì)海量鉆井?dāng)?shù)據(jù)進(jìn)行分析,從中發(fā)現(xiàn)一定的規(guī)律,為高效率鉆井提供結(jié)構(gòu)化的信息和指導(dǎo),目前許多新的機(jī)器學(xué)習(xí)方法都被應(yīng)用于鉆頭優(yōu)選、鉆頭性能評(píng)價(jià)、機(jī)械鉆速的預(yù)測(cè)與優(yōu)化、鉆井過(guò)程中的事故預(yù)測(cè)與解決方法、鉆井液的優(yōu)選、綜合系統(tǒng)的構(gòu)建等方面。準(zhǔn)確預(yù)測(cè)并優(yōu)化機(jī)械鉆速是縮短鉆井周期、節(jié)省鉆井成本的良好方法,將人工智能方法與鉆井結(jié)合是目前的研究趨勢(shì)[1]。筆者總結(jié)分析了人工智能方法預(yù)測(cè)機(jī)械鉆速的研究進(jìn)展,指出了目前研究存在的一些問(wèn)題,主要針對(duì)相關(guān)性分析、數(shù)據(jù)選取及對(duì)訓(xùn)練和預(yù)測(cè)結(jié)果的影響開(kāi)展了研究。
鉆井機(jī)械鉆速(ROP)預(yù)測(cè)是進(jìn)行鉆井優(yōu)化、鉆井投資測(cè)算等工作的重要技術(shù)內(nèi)容,目前建立的傳統(tǒng)機(jī)械鉆速方程有幾十種之多[2],但影響機(jī)械鉆速的因素繁多,關(guān)系復(fù)雜,目前為止尚未建立令人信服、普遍適用的數(shù)學(xué)模型,而隨著帶有數(shù)據(jù)驅(qū)動(dòng)特性的人工智能方法在工程領(lǐng)域的應(yīng)用越來(lái)越廣泛,使用人工智能算法預(yù)測(cè)機(jī)械鉆速受到研究學(xué)者的廣泛關(guān)注。Moran等[3]指出基于推測(cè)或假設(shè)出的機(jī)械鉆速在未知區(qū)域估計(jì)鉆井時(shí)間的傳統(tǒng)方法可以被人工神經(jīng)網(wǎng)絡(luò)所取代;Soares等[4]揭示了傳統(tǒng)機(jī)械鉆速模型的局限性,包括Bourgoyne的機(jī)械鉆速模型[5];Jahanbakhshi等[6]將影響機(jī)械鉆速的不同鉆井參數(shù)放入人工神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得出預(yù)測(cè)結(jié)果最高的參數(shù)組合;Hegde等[7]使用了多種人工智能算法對(duì)機(jī)械鉆速進(jìn)行預(yù)測(cè),表示人工智能算法的靈活性可以適用于常規(guī)井與非常規(guī)井的機(jī)械鉆速預(yù)測(cè)。近年來(lái)眾多專(zhuān)家學(xué)者基于人工智能算法預(yù)測(cè)機(jī)械鉆速的研究見(jiàn)表1。
人工智能方法提供了預(yù)測(cè)機(jī)械鉆速的新思路,但影響機(jī)械鉆速的因素繁多,有些因素(如巖石強(qiáng)度、鉆頭磨損)不是很好獲得,這些因素是否要作為輸入?yún)?shù)放入模型,在已有文章中選取的輸入?yún)?shù)是否忽略了某些重要變量也不得而知。為優(yōu)化機(jī)械鉆速,提高鉆井效率,Graham等[22]分析了鉆井效率與機(jī)械鉆速的關(guān)系,表示機(jī)械鉆速不等同于鉆井效率,而應(yīng)被視為影響鉆井效率的幾個(gè)因素之一;Hedge等[23]從單一的機(jī)械鉆速優(yōu)化模型,轉(zhuǎn)為多目標(biāo)的模型,將機(jī)械鉆速、機(jī)械比能、扭矩3種因素交互評(píng)估,從而獲得最佳的鉆井方案。
以上調(diào)研文獻(xiàn)中,大多數(shù)訓(xùn)練模型所用數(shù)據(jù)是基于單井或井段數(shù)據(jù),人工智能模型很好地預(yù)測(cè)了機(jī)械鉆速,且對(duì)數(shù)據(jù)采取K折交叉驗(yàn)證[15,19, 21]找到模型泛化能力最優(yōu)的超參數(shù)組合,或是用其他方法直接優(yōu)化超參數(shù)[8-9,14, 17]以提高預(yù)測(cè)精度。但若僅使用單井或少量數(shù)據(jù)訓(xùn)練模型,會(huì)使模型輸入數(shù)據(jù)不具備代表性,因此模型無(wú)法向其他井或者整個(gè)區(qū)塊進(jìn)行推廣,在預(yù)測(cè)其他井鉆速時(shí)還需重新訓(xùn)練模型,不符合工程需要。
由表1可以看到,使用人工智能方法預(yù)測(cè)機(jī)械鉆速選擇的輸入?yún)?shù)各不相同。研究表明[12,20]可以應(yīng)用相關(guān)性分析找到對(duì)機(jī)械鉆速影響最大的幾個(gè)參數(shù),并使用這些參數(shù)進(jìn)行機(jī)械鉆速的預(yù)測(cè)與優(yōu)化。但在實(shí)際工程中所獲得的鉆井日志,可能并不會(huì)含有某些關(guān)鍵因素(如鉆頭磨損),在對(duì)這些鉆井參數(shù)進(jìn)行相關(guān)性分析過(guò)程中,可能會(huì)由于數(shù)據(jù)問(wèn)題將一些相關(guān)性低的重要因素忽略掉。李謙等[24]分析了基于人工智能方法的鉆速預(yù)測(cè)模型數(shù)據(jù)有效性下限,表明在引入足夠的參數(shù)后,無(wú)論引入?yún)?shù)的相關(guān)性高低,都可取得較高的預(yù)測(cè)精度。筆者將原始鉆井?dāng)?shù)據(jù)進(jìn)行了相關(guān)性分析,發(fā)現(xiàn)有些相關(guān)性分析可能得出錯(cuò)誤的結(jié)論。圖1將某井的輸入?yún)?shù)與機(jī)械鉆速進(jìn)行相關(guān)性分析,發(fā)現(xiàn)鉆壓、轉(zhuǎn)速與鉆速不是想象中的正相關(guān)。這是因?yàn)殡S著鉆井深度的增加,井下的情況越來(lái)越復(fù)雜,雖然增加了鉆壓,但機(jī)械鉆速仍然可能降低。圖2選取了圖1中某井二開(kāi)井段數(shù)據(jù)做了相關(guān)性分析,可以看到全井的相關(guān)性分析與某井段的相關(guān)性分析結(jié)果差距較大。故使用相關(guān)性分析去尋找輸入?yún)?shù)或是刪除某些分析出來(lái)的相關(guān)性低的因素尚需討論。
圖2 某井二開(kāi)井段機(jī)械鉆速影響因素相關(guān)性分析Fig. 2 Correlation analysis of factors affecting penetration rate in the second section of a well
表1 近年人工智能預(yù)測(cè)機(jī)械鉆速方法匯總Table 1 Summary of methos predicting penetration rate with artificial intelligence in recent years
鉆井會(huì)產(chǎn)生大量井?dāng)?shù)據(jù),但在使用人工智能方法進(jìn)行鉆速預(yù)測(cè)與鉆井優(yōu)化時(shí),許多調(diào)研的文獻(xiàn)中僅僅只用一口井或是某一段鉆井?dāng)?shù)據(jù)進(jìn)行嘗試。訓(xùn)練數(shù)據(jù)量的多少會(huì)影響人工智能方法預(yù)測(cè)的精度,從而影響對(duì)人工智能模型的選擇。Korhan等[20]研究表明在訓(xùn)練數(shù)據(jù)有限的情況下,支持向量機(jī)可以更準(zhǔn)確地預(yù)測(cè)機(jī)械鉆速;Yavari等[25]研究表明在數(shù)據(jù)量較大時(shí),自適應(yīng)神經(jīng)模糊推理系統(tǒng)更適合預(yù)測(cè)機(jī)械鉆速。人工智能模型預(yù)測(cè)的準(zhǔn)確度基于輸入數(shù)據(jù),將超出輸入數(shù)據(jù)范圍外的數(shù)據(jù)輸入模型訓(xùn)練將會(huì)得到不確定的結(jié)果,使用單井?dāng)?shù)據(jù)或是某井段數(shù)據(jù)進(jìn)行模型訓(xùn)練和訓(xùn)練是否具有良好的泛化能力值得討論。
為了使預(yù)測(cè)模型具有泛化能力,Hedge等[26]將數(shù)據(jù)集按巖性拆分,基于不同巖性分別建立人工智能模型。該模型可以更加準(zhǔn)確地預(yù)測(cè)對(duì)應(yīng)巖性地層的機(jī)械鉆速。筆者將區(qū)塊數(shù)據(jù)與單井?dāng)?shù)據(jù)分別使用人工智能模型進(jìn)行訓(xùn)練,擴(kuò)大了輸入數(shù)據(jù)的范圍,使得模型在該地層更具泛用性。
筆者收集了四川盆地某開(kāi)發(fā)區(qū)塊的鉆井?dāng)?shù)據(jù),使用隨機(jī)森林(RF)[27]、支持向量機(jī)(SVR)[28]、人工神經(jīng)網(wǎng)絡(luò)(ANN)[29]以及梯度提升樹(shù)(GBDT)[30]等4種算法,分別對(duì)該開(kāi)發(fā)區(qū)塊的單井與區(qū)塊的機(jī)械鉆速進(jìn)行預(yù)測(cè),并且在已有鉆井參數(shù)(鉆壓、轉(zhuǎn)速、泵壓、鉆井液密度、黏度、排量)的基礎(chǔ)上,引入地層參數(shù)(井深、巖性、聲波時(shí)差、自然伽馬)和鉆頭參數(shù)(鉆頭型號(hào)、開(kāi)次)作為輸入?yún)?shù),對(duì)其中非結(jié)構(gòu)化參數(shù)(鉆頭型號(hào)、巖性)進(jìn)行編碼,并與其他參數(shù)一樣進(jìn)行歸一化處理。在下文所有機(jī)械鉆速預(yù)測(cè)模型中,數(shù)據(jù)集將按照訓(xùn)練集80%、驗(yàn)證集20%的方式送入模型訓(xùn)練,并且采用可決系數(shù)R2作為模型精度的評(píng)價(jià)指標(biāo)[19]。
2.2.1 單井?dāng)?shù)據(jù)訓(xùn)練和預(yù)測(cè)結(jié)果
4種人工智能算法對(duì)某單井?dāng)?shù)據(jù)進(jìn)行機(jī)械鉆速預(yù)測(cè)結(jié)果如圖3所示,可以看出,隨機(jī)森林與梯度提升樹(shù)可決系數(shù)可以達(dá)到0.92,支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)的可決系數(shù)分別為0.88,0.90。
圖3 4種人工智能方法對(duì)某單井?dāng)?shù)據(jù)驗(yàn)證集的預(yù)測(cè)結(jié)果Fig. 3 Prediction results of the four artificial intelligence methods on single-well data validation set
2.2.2 區(qū)塊多井?dāng)?shù)據(jù)訓(xùn)練和預(yù)測(cè)結(jié)果
使用4種人工智能算法對(duì)某區(qū)塊進(jìn)行機(jī)械鉆速預(yù)測(cè),區(qū)塊數(shù)據(jù)包括在此區(qū)塊的5口井,數(shù)據(jù)量為15317組。機(jī)械鉆速預(yù)測(cè)結(jié)果如圖4所示,可以看出,隨機(jī)森林可決系數(shù)可以達(dá)到0.88,支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)和梯度提升樹(shù)的可決系數(shù)分別為0.86、0.74、0.85。結(jié)果表明,人工智能方法可以對(duì)單井或是區(qū)塊的機(jī)械鉆速進(jìn)行良好的預(yù)測(cè),且隨機(jī)森林方法對(duì)于機(jī)械鉆速的預(yù)測(cè)更為優(yōu)秀。
圖4 4種人工智能方法對(duì)區(qū)塊數(shù)據(jù)驗(yàn)證集的預(yù)測(cè)結(jié)果Fig. 4 Prediction results of the four artificial intelligence methods on the block data validation set
2.2.3 單井模型與區(qū)塊模型泛化能力對(duì)比
將訓(xùn)練好的單井與區(qū)塊的隨機(jī)森林模型分別保存,將新井?dāng)?shù)據(jù)輸入后,對(duì)比二者模型的泛化能力。圖5為使用單井?dāng)?shù)據(jù)訓(xùn)練出的隨機(jī)森林模型預(yù)測(cè)該區(qū)塊其他單井的結(jié)果,可決系數(shù)分別為0.16、0.13、0.13;圖6為使用區(qū)塊數(shù)據(jù)訓(xùn)練出的隨機(jī)森林模型預(yù)測(cè)該區(qū)塊其他單井的結(jié)果,可決系數(shù)分別為0.91、0.76、0.91。結(jié)果顯示區(qū)塊數(shù)據(jù)訓(xùn)練后的模型在此區(qū)塊對(duì)新井?dāng)?shù)據(jù)具有更好的泛化能力。
圖5 單井?dāng)?shù)據(jù)訓(xùn)練的隨機(jī)森林模型對(duì)該區(qū)塊其他井的預(yù)測(cè)結(jié)果Fig. 5 Prediction results of other wells in this block by the random forest model trained with single-well data
圖6 區(qū)塊數(shù)據(jù)訓(xùn)練的隨機(jī)森林模型對(duì)該區(qū)塊其他井的預(yù)測(cè)結(jié)果Fig. 6 Prediction results of other wells in the block by the random forest model trained with block data
(1)人工智能方法在各個(gè)學(xué)科應(yīng)用廣泛,國(guó)內(nèi)外使用人工智能方法預(yù)測(cè)機(jī)械鉆速已取得良好的成效,但由于訓(xùn)練出的人工智能模型泛化能力低,該方法還未在工程上得到廣泛應(yīng)用。
(2)采用相關(guān)性分析方法分別對(duì)整個(gè)單井?dāng)?shù)據(jù)與該井二開(kāi)數(shù)據(jù)進(jìn)行相關(guān)性分析,發(fā)現(xiàn)參數(shù)之間的相關(guān)性在一口井內(nèi)都有較大差異。故使用相關(guān)性分析去尋找輸入?yún)?shù)或是刪除某些相關(guān)性低的輸入?yún)?shù)尚需討論。
(3)將新井?dāng)?shù)據(jù)作為驗(yàn)證集,測(cè)試單井與區(qū)塊數(shù)據(jù)訓(xùn)練后的隨機(jī)森林模型泛化能力,得到區(qū)塊數(shù)據(jù)訓(xùn)練的模型在此區(qū)塊的泛用性遠(yuǎn)好于單井?dāng)?shù)據(jù)所訓(xùn)練的模型。這表明使用區(qū)塊數(shù)據(jù)訓(xùn)練的模型具有較高的泛化能力,認(rèn)為該模型能夠推廣至整個(gè)區(qū)塊,有利于指導(dǎo)該區(qū)塊的鉆井工程技術(shù)優(yōu)化。