李林偉, 彭 崯, 童思友,2??, 王忠成, 尚新民, 趙勝天
(1.中國海洋大學(xué)海底科學(xué)與探測技術(shù)教育部重點實驗室, 山東 青島 266100; 2.青島海洋科學(xué)與技術(shù)試點國家實驗室 海洋礦產(chǎn)資源評價與探測技術(shù)功能實驗室, 山東 青島 266237; 3.中國石化勝利油田物探研究院, 山東 東營 257022)
地震勘探資料初至拾取的準(zhǔn)確性直接影響后續(xù)靜校正、層析成像等處理的精度[1]。在山地、灘淺海等復(fù)雜區(qū)勘探,由于各類噪音發(fā)育,地震資料初至不明顯,高精度的初至拾取受到一定影響?!皩挿轿弧掝l帶、高密度”勘探技術(shù)的發(fā)展使炮、檢密度成倍增加,地震數(shù)據(jù)量可達(dá)PB級別, “大數(shù)據(jù)”時代地震資料初至拾取對效率提出更高要求[2]。人工拾取耗時、耗力,需要具有經(jīng)驗的專業(yè)人士處理,容易引入人為誤差,難以實現(xiàn)工業(yè)化[3]。因此研究高精度、高效率、高自動化的海量數(shù)據(jù)初至拾取方法勢在必行。
迄今為止,國內(nèi)外學(xué)者已經(jīng)提出多種初至波拾取方法,如長短時均值比法(STA/LTA)[4]、相關(guān)法[5]、統(tǒng)計學(xué)方法(Akaike Information Criterion, AIC)[6]、圖像處理法[7]、分形法[8]、神經(jīng)網(wǎng)絡(luò)法[9-11]等。這些方法大多基于地震信號的振幅、能量、頻率或相位的變化以及相鄰道之間的相關(guān)特征確定地震波初至?xí)r間。其通常僅考慮地震信號單一特征,當(dāng)?shù)卣鹦盘柵c背景噪音信號特征差異較大時,拾取精度較高,當(dāng)背景噪音復(fù)雜、信號強度弱或出現(xiàn)空道、廢道時,拾取精度難以滿足后續(xù)處理的需求。
神經(jīng)網(wǎng)絡(luò)是機器學(xué)習(xí)中一種基于對海量數(shù)據(jù)進行表征學(xué)習(xí)的方法,當(dāng)前已經(jīng)成為機器學(xué)習(xí)領(lǐng)域極具競爭力的研究方向,在圖像處理、文本處理和語音識別等方面取得了成功的應(yīng)用[12]。國內(nèi)外專家也將神經(jīng)網(wǎng)絡(luò)成功引入地震資料處理中來,并取得許多成果。BP神經(jīng)網(wǎng)絡(luò)技術(shù)在21世紀(jì)初就應(yīng)用于地震資料的初至拾取以及震相識別[11]。隨著深度學(xué)習(xí)架構(gòu)的發(fā)展,這類方法逐漸被更具活力的卷積神經(jīng)網(wǎng)絡(luò)取代(Convolutional Neural Network, CNN)。Yuan等采用CNN方法實現(xiàn)初至拾取,設(shè)置全連接層將地震記錄分類為初至以及非初至[13]。劉佳楠等引入全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks, FCN),將全連接層替換為反卷積與反池化層將輸出結(jié)果恢復(fù)至輸入數(shù)據(jù)尺寸,實現(xiàn)像素級別的標(biāo)簽劃分[10]。丁建群等采用FCN的改進版本U-NET實現(xiàn)基于圖像訓(xùn)練的初至波拾取[14]。陳德武等結(jié)合U-NET、SegNeT的優(yōu)勢提出混合網(wǎng)絡(luò)U-SegNet地震數(shù)據(jù)初至拾取,并優(yōu)化了樣本制作流程,提高了計算效率[15]。以上這些基于CNN的方法,都將地震記錄作為一種灰度圖像進行處理,并沒有考慮到地震信號是時間序列這一特征。實際上背景噪音具有很強的延續(xù)性,例如陸地環(huán)境干擾,海洋勘探的船干擾、涌浪干擾等,這些時序特征并沒有在神經(jīng)網(wǎng)絡(luò)中得到體現(xiàn)。而循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的出現(xiàn)將時序分析得以實現(xiàn)。
借鑒RNN在語音識別中的成功應(yīng)用[16],本文提出利用RNN的改進方法長短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)進行初至拾取,為實現(xiàn)“高精度、高效率、高自動化”的初至拾取提供一種全新的思路。應(yīng)用本文方法分別在海洋OBC地震資料、西部山地地震資料進行拾取試驗,取得較好的效果,證明了本文方法的應(yīng)用價值。
地震信號實質(zhì)上是一種時間序列,初至拾取與語音識別具有高度相似性,同時地震數(shù)據(jù)也具有空間特征,共炮集數(shù)據(jù)在橫向上具有很強的連續(xù)性。相比于CNN類圖像分割方法,RNN在學(xué)習(xí)空間特征的基礎(chǔ)上,能夠?qū)W習(xí)時間特征,非常適合用于地震數(shù)據(jù)初至拾取。根據(jù)任務(wù)目標(biāo)即輸入輸出的不同,RNN有多種結(jié)構(gòu),包括One to One、One to Many、Many to One、Many to Many等,初至拾取問題可以看作一個二分類問題,在時序上將初至?xí)r刻分為一類,非初至?xí)r刻歸為另一類,Many to One結(jié)構(gòu)符合初至拾取任務(wù)的需求,即輸入為二維地震數(shù)據(jù)矩陣,輸出為標(biāo)簽值0或1。
圖1 RNN的Many to one單隱藏層結(jié)構(gòu)
RNN中典型的Many to one單層結(jié)構(gòu)(見圖1),由輸入層(Input Layer)、隱藏層(Hidden Layer)、輸出層(Output Layer)、各層相應(yīng)的權(quán)重、時間步長(Time Step)等組成。X1,X2,X3,X4…XT是1,2,3,4…T時刻的輸入值,h1,h2,h3,h4…h(huán)T為對應(yīng)的隱藏層狀態(tài),YT是最終輸出結(jié)果,箭頭代表對向量進行一次變換。計算從左向右進行,可以看出隨著Time Step移動,上一時刻的計算結(jié)果隨時間傳入下一時刻的計算,這就是循環(huán)神經(jīng)網(wǎng)絡(luò)的記憶功能。每一時刻的隱藏層hT計算公式(1),U和W是參數(shù)矩陣,b是偏置項參數(shù),f是激活函數(shù)。輸出值是將在最后一個時間點的隱藏層hT變換后輸出,如公式(2),這里使用的矩陣參數(shù)V與偏執(zhí)項參數(shù)c與公式(1)中的不同,此輸出受到整個時間段數(shù)據(jù)的影響。深層RNN結(jié)構(gòu)即是在單層結(jié)構(gòu)的基礎(chǔ)上添加多個隱藏層。
ht=f(U·Xt+W·ht-1+b) 。
(1)
YT=Softmax(V·hT+c) 。
(2)
在式(1)中,RNN前一層的隱藏狀態(tài)經(jīng)過變換和激活函數(shù)得到下一層隱藏狀態(tài),使得反向傳播求導(dǎo)結(jié)果包含所有梯度的連乘,從而導(dǎo)致梯度消失或梯度爆炸,因此RNN處理“長程依賴”問題能力不足,通俗的講就是忘事兒。為了解決這個問題,LSTM應(yīng)運而生。LSTM在隱藏態(tài)計算時,使用加法替換了原本的迭代變換,可以避免梯度消失的問題,能夠?qū)W到長程的規(guī)律。LSTM通過對RNN的隱藏層計算單元的優(yōu)化改造,用細(xì)化的具有不同功能的網(wǎng)絡(luò)結(jié)構(gòu)替代簡單線性結(jié)構(gòu),這樣的網(wǎng)絡(luò)結(jié)構(gòu)可以看作成一個細(xì)胞。與其說LSTM是一種RNN結(jié)構(gòu),倒不如說LSTM是RNN的單元升級組件,因此RNN中可以使用的每一結(jié)構(gòu)都可以無縫切換到LSTM。LSTM的網(wǎng)絡(luò)細(xì)胞結(jié)構(gòu)見圖2,內(nèi)部具有若干神經(jīng)網(wǎng)絡(luò)層分別負(fù)責(zé)不同的功能。
圖2 LSTM 網(wǎng)絡(luò)細(xì)胞結(jié)構(gòu)
LSTM神經(jīng)網(wǎng)絡(luò)的關(guān)鍵是細(xì)胞狀態(tài),其數(shù)據(jù)流向見圖2中頂部的直線所示,用Ct表示。LSTM細(xì)胞狀態(tài)具有刪除或者添加信息的能力,該能力是門(Gate)結(jié)構(gòu)賦予的。門結(jié)構(gòu)由一個Sigmoid神經(jīng)網(wǎng)絡(luò)層和一個點乘運算組成。
計算第一步見圖2中左側(cè)部分I(灰色框標(biāo)識),該部分決定從細(xì)胞狀態(tài)中丟棄哪些信息,稱為遺忘門(Forget Gate)。它查看ht-1和Xt,并為細(xì)胞狀態(tài)中的每個元素輸出0到1之間的值,1代表完全保留,0代表徹底刪除。計算過程如公式(3),(4)。ft為遺忘門的輸出,Wt為當(dāng)前層權(quán)重系數(shù),bt為當(dāng)前層偏置項參數(shù),[ht-1,Xt]為上一層傳過來的隱藏層狀態(tài)與當(dāng)前時刻輸入值的合并矩陣,σ為Sigmoid激活函數(shù)。
ft=σ(Wf·[ht-1,Xt]+bf) 。
(3)
(4)
it=σ(Wi·[ht-1,Xt]+bi)。
(5)
(6)
(7)
完成以上兩個步驟的結(jié)果,就可以實現(xiàn)當(dāng)前時刻細(xì)胞狀態(tài)的更新,如公式(8),Ct為當(dāng)前時間節(jié)點計算所得細(xì)胞狀態(tài),將輸入下一時間節(jié)點來參與運算。
(8)
最后需要確定輸出的部分,見圖2中部分III。公式(9)、(10)中Sigmoid層ot決定輸出細(xì)胞狀態(tài)的哪個部分,再將其乘以tanh規(guī)則化后的當(dāng)前細(xì)胞狀態(tài),就得到輸入下層計算的隱藏層狀態(tài)。
ot=σ(Wo·[ht-1,Xt]+bo)。
(9)
ht=ot·tanh(Ct)。
(10)
LSTM神經(jīng)網(wǎng)絡(luò)地震初至拾取流程包括樣本集制作、LSTM神經(jīng)網(wǎng)絡(luò)模型設(shè)計及訓(xùn)練。
樣本集制作是神經(jīng)網(wǎng)絡(luò)效果好壞的基礎(chǔ),針對地震資料初至拾取任務(wù)的特殊性,本文采用以下幾個步驟制作樣本集。
(1) 原始地震數(shù)據(jù)預(yù)處理,并使用已有軟件拾取若干炮集數(shù)據(jù)的初至,人工調(diào)整未能正常拾取以及偏差較大的初至值,保證初至拾取的準(zhǔn)確性。
(2) 根據(jù)人工拾取的初至截取地震記錄制作樣本,并手工分類標(biāo)注。在地震記錄上以初至點為中心截取51×51的矩形時窗數(shù)據(jù)作為初至類別,標(biāo)簽設(shè)為1,截取初至點前同樣大小的時窗,作為初至前類別,標(biāo)簽設(shè)為0。其中訓(xùn)練樣本與測試樣本的比例為7∶3,初至類樣本與非初至類別樣本比例為1∶1。初至樣本應(yīng)涵蓋全部偏移距范圍的數(shù)據(jù),非初至樣本應(yīng)包含地震數(shù)據(jù)中各類別的背景噪音,以提高模型泛化能力。
(3) 樣本數(shù)據(jù)歸一化處理。對于不同炮,不同接收地形所測得的地震數(shù)據(jù)差別非常大,甚至?xí)嗖顜讉€數(shù)量級。對數(shù)據(jù)進行訓(xùn)練時,保證數(shù)據(jù)相近尺度能夠有效地幫助梯度下降算法更快收斂。本文采取逐道歸一化的方式,先獲得每一道的最大值,然后將每一道的數(shù)據(jù)除以相應(yīng)最大值,將數(shù)據(jù)映射到-1到1之間。歸一化公式如下:
(11)
式中:x*為每一道樣本歸一化的數(shù)據(jù)值;xj為每個時間點的值;xmax為每一道的最大值。
以模擬數(shù)據(jù)為例,模擬地震剖面的地震道數(shù)在100~500不等,基于數(shù)據(jù)增廣的思想加入了均值為0、方差為0.1~0.5的高斯隨機噪音,并人工添加靜校正量模擬復(fù)雜地形資料,制作包含13 525個樣本的樣本集,9 467個樣本作為訓(xùn)練集,4 058個樣本作為測試集。部分初至樣本見圖3。
圖3 模擬數(shù)據(jù)初至樣本
本文基于LSTM基本原理搭建LSTM神經(jīng)網(wǎng)絡(luò)架構(gòu)用于地震數(shù)據(jù)初至拾取,其實質(zhì)上是解決一個二分類問題,因此隱藏層不宜過深,本文方法設(shè)置2層隱藏層,隱藏層狀態(tài)維數(shù)160。最終網(wǎng)絡(luò)輸出為數(shù)據(jù)分類的標(biāo)簽,即1或0。
訓(xùn)練過程一共重復(fù)訓(xùn)練樣本數(shù)據(jù)10次,單次訓(xùn)練采用小批量梯度下降算法,每批次喂入量為64個樣本。訓(xùn)練學(xué)習(xí)率LR設(shè)置為0.001,損失函數(shù)采用二元交叉熵函數(shù)(Binary Cross-Entropy),對于包含n個訓(xùn)練樣本的批次,損失函數(shù)為:
(12)
評價網(wǎng)絡(luò)性能的指標(biāo)為分類的準(zhǔn)確率,即輸入網(wǎng)絡(luò)的測試樣本正確分類的數(shù)量與總數(shù)量的比值:
(13)
以模擬地震資料為例, 9 467個樣本參與訓(xùn)練并對模型進行測試,訓(xùn)練正確率及Loss函數(shù)隨訓(xùn)練進度變化見圖4,經(jīng)過100次訓(xùn)練正確率就能達(dá)到99%及以上,Loss函數(shù)收斂迅速。圖5為模擬數(shù)據(jù)LSTM神經(jīng)網(wǎng)絡(luò)初至波拾取的結(jié)果,模型具有較強的抗噪能力,在背景隨機噪音較強且具有較大靜校正量的情況下,依然能夠準(zhǔn)確的識別初至?xí)r刻。
圖4 訓(xùn)練正確率及Loss函數(shù)
((a)初至拾取結(jié)果剖面; (b)初至拾取結(jié)果。(a) The profile with the first break picking results; (b) The first break picking results.)圖5 含噪模擬剖面拾取試驗(0.45噪音方差)
采用本文方法分別對勝利油田海洋地震勘探資料和西部復(fù)雜地形陸地勘探資料進行初至拾取試驗,取得較為滿意的結(jié)果。每種資料各制作6 960個樣本,按照7∶3比例劃分訓(xùn)練集和測試集,將訓(xùn)練好的模型用于實際地震資料初至拾取。
勝利油田OBC地震勘探資料整體信噪比較高,探區(qū)海底地形平坦,無明顯靜校正量存在,但是存在少量異常道現(xiàn)象,LSTM神經(jīng)網(wǎng)絡(luò)初至拾取結(jié)果見圖6。圖6(a)展示波形初至拾取點與波形吻合度高,曲線平滑,無跳點出現(xiàn),LSTM神經(jīng)網(wǎng)絡(luò)對于信噪比較高的海洋資料拾取效果非常好;圖6(b)異常道部分局部放大,異常道雖然初至信息不清晰,但是本文方法依然能夠利用橫向空間特征正確預(yù)測初至位置,證明方法受數(shù)據(jù)完整度的影響小,穩(wěn)定性高。
((a) 初至拾取結(jié)果剖面; (b)異常道附近拾取結(jié)果。(a) The profile with the first break picking results; (b) The first break picking results near the abnormal traces.)
與目前應(yīng)用廣泛的能量比法拾取初至進行對比,能量比法利用初至前后時窗內(nèi)能量特征的差異來判斷初至?xí)r間,在工業(yè)生產(chǎn)實踐中取得良好的效果,但仍存在復(fù)雜地表條件下拾取精度不高的問題。圖7(a)是本文LSTM神經(jīng)網(wǎng)絡(luò)拾取結(jié)果,圖7(b)是能量比法的拾取結(jié)果。能量比法拾取結(jié)果存在明顯跳點,見圖7(b)中紅圈,并且整體波形不夠平滑,吻合度較低,LSTM神經(jīng)網(wǎng)絡(luò)方法拾取精確度更高,結(jié)果更加可靠。
((a)LSTM神經(jīng)網(wǎng)絡(luò)初至拾取結(jié)果; (b)能量比法拾取結(jié)果。(a) The first break picking results using LSTM network; (b) The first break picking results using commercial software.)
我國西部地區(qū)地形崎嶇、地貌復(fù)雜,野外采集地震資料初至特征復(fù)雜。本文所用勝利油田西部地區(qū)復(fù)雜山地地震資料由可控震源激發(fā),地震勘探資料存在信噪比低、初至不明顯以及靜校正問題嚴(yán)重等特點。采用本文方法流程訓(xùn)練模型并對實際資料進行處理,拾取的結(jié)果見圖8。圖8(a)是實際資料初至拾取結(jié)果,圖8(b)是實際資料局部放大圖,拾取的初至?xí)r刻曲線較為平滑,無跳點出現(xiàn),吻合度較高,抗噪能力強。在初至拾取的基礎(chǔ)上進行初至波層析靜校正處理并形成疊加剖面,靜校正方法采用Fresnel層析靜校正技術(shù),與能量比法拾取初至的成像剖面對比如圖9。相比于使用能量比法初至拾取結(jié)果的層析靜校正疊加剖面(見圖9(a)),使用LSTM神經(jīng)網(wǎng)絡(luò)方法拾取初至的疊加剖面(見圖9(b))高速層頂部起伏更加穩(wěn)定可靠,同相軸連續(xù)性更強,層位信息更豐富,構(gòu)造特征更明顯,本文的LSTM神經(jīng)網(wǎng)絡(luò)初始拾取方法對于復(fù)雜山地資料同樣具有很好的適用性。
((a)初至拾取結(jié)果剖面; (b)紅框位置局部放大剖面。(a) The profile with the first break picking results; (b) Locally enlarge the profile at the red box position.)
((a)使用能量比法拾取初至的疊加剖面; (b)使用本文LSTM神經(jīng)網(wǎng)絡(luò)方法拾取初至的疊加剖面。(a) The stacked profile using the first break picked by commercial software; (b) The stacked profile using the first break picked by LSTM network.)
本文提出了利用LSTM神經(jīng)網(wǎng)絡(luò)來拾取地震勘探資料的初至,這為實現(xiàn)“高精度、高效率、高自動化”的初至拾取提供一種全新的思路。通過模擬資料和實際生產(chǎn)資料拾取試驗,并與目前應(yīng)用廣泛的能量比法拾取結(jié)果進行對比分析,表明LSTM神經(jīng)網(wǎng)絡(luò)對于海洋和陸地資料的拾取精度都很高,并且能夠勝任信噪比不高、數(shù)據(jù)量巨大的地震資料的初至自動拾取工作。通過研究得出以下結(jié)論與認(rèn)識:
(1) 基于LSTM神經(jīng)網(wǎng)絡(luò)建立一套海量數(shù)據(jù)、高精度的人工地震自動初至拾取流程。對原始地震數(shù)據(jù)進行裁剪、標(biāo)簽化和歸一化處理,設(shè)計合適的LSTM網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)進行訓(xùn)練建模,通過模擬資料優(yōu)化并驗證模型的可靠性。
(2) LSTM神經(jīng)網(wǎng)絡(luò)初至拾取適用于各種類型的實際地震資料處理,不但適用于高信噪比的OBC資料,而且對于像勝利油田西部這種強干擾、靜校正問題嚴(yán)重的地震資料的初至拾取的應(yīng)用效果良好,證明其具有很好的抗噪性能和良好的適用性。
(3) LSTM神經(jīng)網(wǎng)絡(luò)能夠提取數(shù)據(jù)的時序特征,貼合地震數(shù)據(jù)是時間序列這一特點。通過成功解決地震信號初至拾取二分類問題,證明了該方法在地震信號處理方面具有良好的應(yīng)用前景。