關(guān)鍵詞:大數(shù)據(jù)分析;油源對比;生物標(biāo)志化合物;石臼坨凸起;機(jī)器學(xué)習(xí)
0 引言
油源對比是油氣運(yùn)移示蹤及成藏過程研究的重要基礎(chǔ),對于多源供烴構(gòu)造,油氣來源的厘定,還是準(zhǔn)確計(jì)算油氣資源量的前提[1-3]。目前油源對比主要通過對比原油與烴源巖抽提物中生物標(biāo)志化合物參數(shù)的相似性來實(shí)現(xiàn),常用生物標(biāo)志化合物參數(shù)甾萜烷、類異戊二烯烷烴、芳烴等參數(shù)等,如C27-C28-C29甾烷相對含量、姥鮫烷(Pr) 和植烷(Ph) 比值、伽馬蠟烷/C30藿烷。除生標(biāo)參數(shù)之外,原油與烴源巖抽提物的族組分或單體烴同位素組成,油源中微量元素組成,以及孢粉化石等,也常用于油源對比工作[1,4-5]。由此可見,可用于油源對比的參數(shù)種類繁多,比值類參數(shù)更是可隨意組合而成。但是,由于傳統(tǒng)的油源對比工作是通過人工分析來完成,只能選擇有效的參數(shù)進(jìn)行分析。受地化參數(shù)多解性的影響,僅有個別參數(shù)進(jìn)行人工對比,難以得到可靠的結(jié)論,特別是多源供烴的地區(qū),不同的研究者選用不同的參數(shù),可能會得到不同結(jié)論[6]。
基于大數(shù)據(jù)分析的機(jī)器學(xué)習(xí),是一種基于對數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法,它使用多層網(wǎng)絡(luò),能夠?qū)W習(xí)抽象概念,同時融入自我學(xué)習(xí),逐步抽象出相關(guān)概念,從而形成理解,并最終做出判斷與決策[7-9]。通過構(gòu)建具有一定“深度”的模型,可以讓模型來自動學(xué)習(xí)好的特征表示(從底層特征,到中層特征,再到高層特征),從而最終提升預(yù)測或識別的準(zhǔn)確性[10-11]。由此可見,機(jī)器深度學(xué)習(xí)可以解決目前油源對比中存在的參數(shù)應(yīng)用不全、參數(shù)適用性難以把握等問題。對于已經(jīng)獲得一定數(shù)量分析樣本的含油氣盆地,可以通過機(jī)器深度學(xué)習(xí)的技術(shù),完成油源來源的精確分析。渤海灣盆地石臼坨凸起被秦南、渤中、南堡3個生烴凹陷圍繞,具有多源供烴的地質(zhì)條件[12-14]。近40年的油氣勘探和研究工作,積累了豐富的原油和烴源巖分析資料,是基于數(shù)據(jù)分析開展油源對比的理想地區(qū)。如圖1所示為石臼坨地區(qū)油氣藏與可能供烴凹陷空間關(guān)系。
1 研究思路和方法
為了實(shí)現(xiàn)基于大數(shù)據(jù)學(xué)習(xí)的油源對比,首先需要基于成藏背景分析,綜合各類地化和成藏信息,給出已發(fā)現(xiàn)油氣和潛在烴源巖的親源關(guān)系,為模型訓(xùn)練提供樣本。在此基礎(chǔ)上,構(gòu)建可供訓(xùn)練的樣本集,并在親源關(guān)系的約束下進(jìn)行算法訓(xùn)練與建模。具體包括:數(shù)據(jù)庫建立與數(shù)據(jù)預(yù)處理、特征工程、降維、聚類、深度模型訓(xùn)練等。同時進(jìn)行智能模塊研發(fā)和應(yīng)用,形成油源對比軟件和工具,實(shí)現(xiàn)油源對比的標(biāo)準(zhǔn)化和智能化,提高油源對比的工作效率和準(zhǔn)確性。具體的思路如圖2。
2 已發(fā)現(xiàn)油氣來源分析
石臼坨凸起位于渤海灣盆地海域中西部,為一長期發(fā)育的古隆起,是周邊秦南、渤中、南堡等生烴凹陷油氣的長期運(yùn)移指向區(qū)[15-16]。秦南、渤中、南堡3個生烴凹陷均發(fā)育沙三、沙一、東營組3套烴源巖,因此石臼坨地區(qū)存在9個潛在供烴源巖[17-19]。原油和烴源巖抽提物中的生物標(biāo)志化合物,是來源于生物體的特征化合物,在地質(zhì)演化過程中保留生物信息(碳骨架)的化合物,它們在原油中的含量或相對比值能夠指示母質(zhì)來源、生成環(huán)境及成熟階段等信息,是進(jìn)行油源對比的基礎(chǔ),也是本次進(jìn)行大數(shù)據(jù)分析的特征向量。本次研究共收集整理了1646組原油及烴源巖分析測試數(shù)據(jù),其中烴源巖生物標(biāo)志化合物測試數(shù)據(jù)(包括飽和烴甾萜烷、芳烴兩大類)110組,原油(包括原油和油砂抽提物)生物標(biāo)志化合物測試數(shù)據(jù)162組,其他為有族組分、有機(jī)碳、熱解等(表1) 。其中用于油源對比分析的資料主要是272組生物標(biāo)志化合物分析數(shù)據(jù),有族組分、有機(jī)碳、熱解等數(shù)據(jù)主要用來判別烴源巖的有效性。
利用上述數(shù)據(jù),在烴源巖有效性分析的基礎(chǔ)上,采用地質(zhì)-地球化學(xué)綜合分析的方法,厘定了已發(fā)現(xiàn)油氣的來源及烴源巖貢獻(xiàn)比例。具體工作流程如下:1) 構(gòu)造位置確定供烴凹陷,即根據(jù)已發(fā)現(xiàn)油氣的構(gòu)造位置,確定可能的供烴凹陷。按照這一思路,洼陷與斜坡帶的油氣,均為單凹供烴,而凸起高點(diǎn)的油氣可能為兩凹或三凹供烴。2) 儲集層位判斷供烴層段,即根據(jù)油氣儲集的層段,確定潛在的供烴層段,其中沙河街組油氣為單一烴源巖供烴,而東營組及以上層段儲集的油氣,可能為多層段烴源巖供烴。3) 油源關(guān)系助對比:即下部或直接對接的烴源巖供烴有效,沙三段充注能力最強(qiáng)。
在上述地質(zhì)分析的基礎(chǔ)上,結(jié)合地化參數(shù),完成了石臼坨凸起162個原油/油砂樣品的來源和油源比例,對比結(jié)果(部分)如表2。
以本次厘定親源關(guān)系的烴源巖、原油(含油砂抽提物,下同)樣品為研究對象,通過數(shù)據(jù)集的構(gòu)建與特征分析,完成了地球化學(xué)特征參數(shù)的降維。在此基礎(chǔ)上,利用分類和回歸分析算法,構(gòu)建了多個油源對比模型,并進(jìn)行了優(yōu)選與應(yīng)用。
3 數(shù)據(jù)集的構(gòu)建與特征參數(shù)預(yù)處理
烴源巖抽提物和原油中含有多種生物標(biāo)志化合物,利用它們的含量與比值,可以提取出多個油源對比參數(shù),這些參數(shù)構(gòu)成了烴源巖和原油的特征值,即樣品的特征向量?;诖髷?shù)據(jù)分析的油源對比,需要烴源巖和原油樣品具有相同的特征參數(shù)(向量)。但是,由于分析儀器或樣品本身差異,常常導(dǎo)致某一化合物及與其相關(guān)參數(shù)的缺失,使得樣品之間的特征參數(shù)不一致。因此,首先需要建立數(shù)據(jù)集并對數(shù)據(jù)進(jìn)行預(yù)處理。
3.1 數(shù)據(jù)集的構(gòu)建
本次研究共提取了161個烴源巖抽提物和原油的特征向量,其中飽和烴化合物58個,包括正構(gòu)烷烴、異戊二烯類烷烴、甾萜烷烴;飽和烴比值58個,包括Pr/Ph、Ts/Tm、伽馬蠟烷/C31升藿烷等。芳香烴化合物38 個,包括苯、菲、萘、芴及其系列化合物;芳香烴比值參數(shù)7個,包括MNR、ENR、MP1等。272個烴源巖抽提物與原油中生物標(biāo)志化合物相對含量,均來源于渤海某油田的飽和烴和芳烴的色譜、色質(zhì)分析資料,化合物比值由筆者計(jì)算獲得,涵蓋了目前常用的母質(zhì)來源、生成環(huán)境、成熟階段等油源對比參數(shù)。
為了方便數(shù)據(jù)檢索、分類計(jì)算等,在數(shù)據(jù)集建立時,還保留了樣品的井號、所屬構(gòu)造、采樣層段、樣品類型等信息。
3.2 數(shù)據(jù)預(yù)處理和特征工程
在基于大數(shù)據(jù)分析的機(jī)器學(xué)習(xí)中,數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個上限。油源對比所用數(shù)據(jù),來自烴源巖抽提物和原油樣品的測試分析,在模型訓(xùn)練前需要對測試結(jié)果進(jìn)行分析,并優(yōu)選/構(gòu)建特征向量,即進(jìn)行數(shù)據(jù)預(yù)處理和降維,以便最大限度地從原始數(shù)據(jù)中提取特征以供算法和模型使用。針對樣品分析數(shù)據(jù)的特點(diǎn),本次數(shù)據(jù)預(yù)處理工作,是對數(shù)據(jù)進(jìn)行審核,去除異常值,剔除未檢測到的化合物,以及與之有關(guān)的參數(shù),并對各參數(shù)進(jìn)行標(biāo)準(zhǔn)化處理。除此之外,還開發(fā)了特征向量關(guān)聯(lián)性分析工具,以實(shí)現(xiàn)對樣本庫缺失數(shù)據(jù)進(jìn)行智能算法填充。
從色譜、質(zhì)譜分析資料獲得的161個參數(shù),對油源來源的指示作用不同。為了從中提取最具來源特征的參數(shù),以供后續(xù)算法和模型的使用,需要開展特征工程。在本次研究中,筆者開發(fā)了一種混合了過濾法、嵌入法和包裝法的特征選擇算法,該混合法由6個具體算法組成,先由6個算法分別計(jì)算特征重要性,然后綜合評分,再從高分到低分順序進(jìn)行特征選擇,如圖3所示。
4 數(shù)據(jù)集的構(gòu)建與特征參數(shù)預(yù)處理
4.1 烴源巖智能聚類
油源對比通過比較已發(fā)現(xiàn)油氣與潛在烴源巖的相似性以確定油氣來源。為了準(zhǔn)確厘定一個研究區(qū)已發(fā)現(xiàn)原油的來源,首先需要明確該地區(qū)各潛在烴源巖的特征,即給出烴源巖標(biāo)簽。烴源巖抽提物是原地滯留的原油,可以用來表征烴源巖特征。本次研究采用智能聚類算法處理了110個烴源巖抽提物樣品的特征參數(shù),自動給出烴源巖標(biāo)簽。算法模型公式如下所示:
其中:xi、si 為第i 個參數(shù)(特征),wi、ai 為第i 個特征的權(quán)重。
函數(shù)f (w ) i xi 為不同烴源巖之間的離散程度,該值越大越能表征油源特征。
函數(shù)g (a ) i si 為同一烴源巖不同樣品之間的離散程度,該值越小越能表征油源特征。
4.2 算法與模型訓(xùn)練
利用經(jīng)過預(yù)處理及降維后的數(shù)據(jù),采用分類和回歸的大數(shù)據(jù)分析算法,完成了油源對比算法研究,在KNN、SVM、MLP(神經(jīng)網(wǎng)絡(luò))等眾多分類和回歸算法的實(shí)驗(yàn)基礎(chǔ)上,優(yōu)選出了隨機(jī)森林分類、XGBoost分類,以及隨機(jī)森林回歸、XGBoost回歸等算法。
在模型構(gòu)建過程中,筆者根據(jù)烴源巖抽提物和原油地化參數(shù)的示源意義與樣本數(shù)據(jù)的缺失情況,優(yōu)選生物標(biāo)志化合物等進(jìn)行模型訓(xùn)練與評估,并在模型訓(xùn)練中加入了網(wǎng)格搜索法進(jìn)行模型與參數(shù)的優(yōu)化。在模型的訓(xùn)練和優(yōu)化過程中,可進(jìn)一步得到該優(yōu)化模型的特征選擇結(jié)果,以便地質(zhì)人員對模型預(yù)測結(jié)果進(jìn)行解釋。
本次研究中,優(yōu)選出兩類模型,即隨機(jī)(無限)森林模型和XGBoost模型。從模型的訓(xùn)練結(jié)果看,隨機(jī)(無限)森林模型平均絕對誤差 (MAE)為0.105,Test_MAE為 0.0274,(訓(xùn)練)準(zhǔn)確率為 97.26%,(實(shí)際)準(zhǔn)確率為 72.23%。XGBoost 模型MAE 為 0.1067,Test_MAE為 0.000237283,(訓(xùn)練)準(zhǔn)確率為 99.98%,(實(shí)際)準(zhǔn)確率 69.87%。
4.3 深度模型的應(yīng)用
為驗(yàn)證模型的實(shí)際應(yīng)用效果,利用隨機(jī)森林、XG?Boost等分類和回歸算法模型,對未參與訓(xùn)練的5個原油樣品進(jìn)行了來源分析(樣品來自CFD11-3E-3d 井)。油源分析結(jié)果表明,這5個油源均源自渤中凹陷,其中以沙三段烴源巖供給為主,貢獻(xiàn)比為60.0%-79.7%;次為沙一段烴源巖供給,貢獻(xiàn)比為13.3%~23.3%;東三段烴源巖的貢獻(xiàn)小于10%。該結(jié)果與地質(zhì)-地球化學(xué)分析結(jié)果相一致。
5 結(jié)束語
大數(shù)據(jù)分析油源對比,有效改善了傳統(tǒng)依賴人工經(jīng)驗(yàn)分析的工作模式,大大地減少了人工收集資料和綜合預(yù)測的成本。通過模塊研發(fā)和應(yīng)用,將減少80% 科研數(shù)據(jù)收集時間,油源對比預(yù)測的效率預(yù)計(jì)提高近60%。需要指出的是,由于樣品數(shù)量和分析成本的限制,能夠獲得并用于機(jī)器的數(shù)據(jù)有限。另外,每一個樣品均含有多個特征向量,且受多種地質(zhì)因素的影響,使得它們在示源中的作用發(fā)生改變,從而增加了機(jī)器學(xué)習(xí)的難度。因此,在下一階段研究中可以考慮如何提升樣本的質(zhì)量,樣本的質(zhì)量決定了算法的評估效果。另外,可以將如何提升算法的準(zhǔn)確性作為下一步研究的重點(diǎn)。