宋 濤 陳 添 梁欣怡 田 宇 劉世杰 柴曉武
(①中國石油渤海鉆探第一錄井公司;②中國石油渤海鉆探工程技術處;③中國石油長慶油田分公司第一采油廠)
石油天然氣鉆探過程中,確保優(yōu)快安全施工是非常重要的工作。為此,在鉆井施工中,井場部署綜合錄井服務,通過諸多傳感器實時感知鉆井作業(yè)過程中各環(huán)節(jié)的物理量,獲得大量實時鉆井參數(shù)數(shù)據(jù),用于實時反映鉆井作業(yè)的各種工況。通過對鉆井參數(shù)數(shù)據(jù)的實時在線智能分析,可以自動探測到萌芽中的異常,并及時向鉆井操作人員發(fā)出預警信息,為鉆井優(yōu)快安全施工提供有力保障。
綜合錄井儀鉆井參數(shù)記錄系統(tǒng)以一定的頻率采集并記錄相關傳感器測量的數(shù)據(jù)信息,采樣周期通常為1 s 或5 s,因此鉆井參數(shù)數(shù)據(jù)具有時序性和間斷性的特點。鉆井參數(shù)源自鉆井現(xiàn)場各類傳感器的實時記錄,受鉆井現(xiàn)場的復雜性、傳感器的靈敏性等多方面因素影響,各個傳感器所測得的鉆井參數(shù)數(shù)據(jù)會隨著時間的推移而呈現(xiàn)出數(shù)值波動,有時也會產生較多明顯的異常離群數(shù)據(jù)點[1]。這些明顯的異常離群數(shù)據(jù)點在曲線中偏離正常波動趨勢過大,表現(xiàn)為顯著不同于其他數(shù)據(jù)分布的數(shù)據(jù)對象[2],本文稱其為刺峰噪點數(shù)據(jù)。
鉆井異常事故的智能化報警主要依托于對單項或多項鉆井參數(shù)變化趨勢以及各項參數(shù)之間協(xié)同變化趨勢的分析,刺峰噪點數(shù)據(jù)會對參數(shù)曲線上升或下降變化趨勢的分析產生嚴重干擾。若鉆井參數(shù)數(shù)據(jù)中僅有極少噪點數(shù)據(jù),對智能化報警系統(tǒng)的整體準確預警不會有較大影響,但事實上,受鉆井現(xiàn)場的諸多復雜因素影響,這類刺峰噪點數(shù)據(jù)時常產生,數(shù)據(jù)質量問題較為突出,可能導致智能化報警系統(tǒng)錯誤報警,有效識別并剔除這些刺峰噪點數(shù)據(jù),對于鉆井施工過程中智能化報警系統(tǒng)等大數(shù)據(jù)智能診斷具有重要作用。因此,研究并應用新的大數(shù)據(jù)噪點數(shù)據(jù)識別技術具有非常重要的意義。
本文探討的刺峰噪點數(shù)據(jù)是指在各鉆井參數(shù)曲線中出現(xiàn)的明顯向上或向下突變,超出大多數(shù)數(shù)據(jù)波動范圍的尖峰狀數(shù)據(jù)點,且在該類數(shù)據(jù)點的一定鄰近時間內未出現(xiàn)與之相類似的數(shù)據(jù)點,換言之,即為鉆井參數(shù)曲線上與大多數(shù)數(shù)據(jù)都不相鄰的孤立的數(shù)據(jù)點。刺峰噪點數(shù)據(jù)有兩個顯示特征:一是其波動幅度比其他大多數(shù)數(shù)據(jù)的波動幅度都大;二是刺峰噪點數(shù)據(jù)在鄰近一段時間內未頻繁出現(xiàn),數(shù)據(jù)點相對孤立。如圖1 所示,圖中藍色方塊數(shù)據(jù)點即為典型的刺峰噪點數(shù)據(jù)。
圖1 典型的刺峰噪點數(shù)據(jù)
鉆井參數(shù)曲線的散點分布形式多種多樣,同樣鉆井參數(shù)中的噪點數(shù)據(jù)也是多種多樣,導致實際工作中難以準確、全面識別所有噪點數(shù)據(jù)。因此,本文僅致力于解決相對明顯的刺峰噪點數(shù)據(jù),對于其他界定模糊的噪點數(shù)據(jù)則不做深入研究。圖2中所示的藍色方塊數(shù)據(jù)點不能識別為刺峰噪點數(shù)據(jù),原因在于類似數(shù)據(jù)點頻繁出現(xiàn),可能是鉆井現(xiàn)場某種真實信息的客觀反映,若將該類數(shù)據(jù)點直接剔除,可能會增大鉆井參數(shù)數(shù)據(jù)失真的風險。
圖2 鉆井參數(shù)散點圖
異常值或離群點數(shù)據(jù)分析是機器學習領域經常遇到的問題。拉依達法、格魯布斯法、肖維勒法等方法均采用均值或方差以統(tǒng)計學方式識別常規(guī)型異常離群噪點數(shù)據(jù)[2-3];岳峰等[4]使用基于數(shù)據(jù)密度分布的方式有效檢測聚類邊界點數(shù)據(jù);劉帆[5]使用深度學習方法識別并去除圖像中的噪聲。在石油鉆井領域,對鉆井現(xiàn)場的環(huán)境噪聲治理與研究較多,但對鉆井參數(shù)離群噪點數(shù)據(jù)研究很少。本文以鉆井參數(shù)為樣本,借鑒前人的方法經驗[1-13],對基于極值分析的鉆井參數(shù)刺峰噪點數(shù)據(jù)識別方法進行探討研究,以供業(yè)內技術人員參考。
一般來講,對于一組離散樣本數(shù)據(jù)集,在數(shù)據(jù)正常趨勢線附近的離群刺峰噪點數(shù)據(jù)首先是偏離正常趨勢范圍的極值數(shù)據(jù)。因此,基于極值分析的鉆井參數(shù)刺峰噪點數(shù)據(jù)識別方法,首先研究篩選離散數(shù)據(jù)樣本的極值集,然后在極值集的基礎上進行離群噪點識別,并進一步對噪點附近的數(shù)據(jù)進行再識別,剔除正常數(shù)據(jù)點,最后形成噪點數(shù)據(jù)集并標記。
通過鉆井實時數(shù)據(jù)分析發(fā)現(xiàn),若干個連續(xù)時間的采樣點上表現(xiàn)為上升或下降趨勢波動,之后發(fā)生相反趨勢波動,即使是較小幅度的變化也會表現(xiàn)出上升或下降的曲折波動。在連續(xù)的數(shù)據(jù)曲線中,波峰或波谷即為函數(shù)的極大值或極小值。鉆井參數(shù)曲線的波動情況也與之相似,圖3為某井某項鉆井參數(shù)在近1 min內的波動曲線,其中由黑色實線串連在一起的黑色散點為采集的鉆井參數(shù)數(shù)據(jù),紅色圓點為曲線中分段波峰極大值點,綠色圓點為分段波谷極小值點,藍色虛線為極大值與極小值的串連線。該圖中黑色的原始鉆井參數(shù)曲線相對較平緩地上升或下降,波動較小。曲線中的各鉆井參數(shù)極大值點與極小值點是曲線局部波動的上限和下限,并且由較少極值點串連的藍色虛線所反映的曲線趨勢同原始曲線的趨勢相同。由此可見,參數(shù)曲線中鉆井參數(shù)極值點是曲線波動的邊界,參數(shù)曲線可反映變化趨勢,其數(shù)據(jù)分析具有同等價值。
圖3 鉆井參數(shù)波動曲線
通過分析可知,刺峰噪點數(shù)據(jù)的波動幅度常大于正常極值點數(shù)據(jù)的波動幅度,故本文所研究的刺峰噪點數(shù)據(jù)識別以極值點數(shù)據(jù)集為基礎,且對于常規(guī)離散點數(shù)據(jù)而言,滿足公式(1)則為極值點:
式中:ni為某一常規(guī)離散點數(shù)據(jù);ni-1為ni前一個點的數(shù)據(jù);ni+1為ni后一個點的數(shù)據(jù)。
但離散點數(shù)據(jù)還可能存在兩個數(shù)據(jù)點相等的情況。如與圖3 對應的極值數(shù)據(jù)統(tǒng)計(表1)顯示,11:45:09 數(shù)值為9.2,至11:45:10、11:45:11 兩個數(shù)據(jù)點均為9.3;至11:45:14數(shù)值降為9.1后,連續(xù)出現(xiàn)兩個相等的9.0,至11:45:19 出現(xiàn)極小值8.7。對于鉆井參數(shù)曲線中多個連續(xù)相等的數(shù)據(jù)點,本文取最后一個上升或下降的拐點值為極值點,如表1 中11:45:23的8.8為極大值。
表1 極值數(shù)據(jù)統(tǒng)計(對應圖3)
依據(jù)以上分析,極值點集可依據(jù)公式(1)采用計算機編程快速自動判斷識別建立。
刺峰噪點數(shù)據(jù)識別過程首先是識別極值點集,進而識別噪點數(shù)據(jù)。噪點數(shù)據(jù)的識別基于實際的鉆井參數(shù)數(shù)據(jù)極值點來分析,先對噪點的特征進行分析,區(qū)分出特殊情況,為計算機算法提供理論依據(jù),最后列出計算機可編程噪點識別的數(shù)學邏輯算法。
2.2.1 刺峰噪點數(shù)據(jù)特殊情況分析
通過分析大量由于噪點數(shù)據(jù)影響而造成的錯誤處理結果,總結出噪點數(shù)據(jù)的總體特征為:曲線噪點數(shù)據(jù)的波動幅度遠大于大多數(shù)正常極值點數(shù)據(jù)的波動幅度,遠離主擬合趨勢線,且曲線的噪點數(shù)據(jù)波動幅度與曲線數(shù)據(jù)原值呈一定的比例。
但在實際散點曲線中,也存在如圖4 所示的特殊情況,即數(shù)據(jù)波動幅度雖然大,但仍屬于正常數(shù)據(jù)曲線波動。圖4中紅色圓點為曲線中的極值點,從第8 s到第12 s 之間,鉆井參數(shù)數(shù)值由6.66 下降至5.15,其波動幅度比鄰近極值點的波動幅度大出許多,但這種曲線波動屬于因作業(yè)工況調整引起的數(shù)值正常波動,該類波動幅度大的數(shù)據(jù)點不能作為噪點數(shù)據(jù)處理。
圖5給出了另外一種特殊情況,直觀可見:雖然第8 s 的數(shù)據(jù)點值90.41 的波動幅度比兩側數(shù)據(jù)點值90.02 大出許多倍,但從縱軸上看,其波動幅度僅為0.39,處于數(shù)據(jù)原點90.41 變化的1%之內。該類數(shù)據(jù)點相對其附近數(shù)據(jù)點的波動幅度有些異常,但波動幅度與數(shù)據(jù)點原值相比非常小,且當曲線時間窗口拉長后,這類波動并無明顯異常,因此這類相對原值波動極小的數(shù)據(jù)點不應看做噪點數(shù)據(jù)。
圖5 正常數(shù)據(jù)波動幅度圖
2.2.2 刺峰噪點數(shù)據(jù)識別算法
鉆井參數(shù)極值刺峰噪點數(shù)據(jù)識別基本思路為按照專業(yè)技術人員對噪點數(shù)據(jù)的常規(guī)認知算法,通過添加約束條件,將正常數(shù)據(jù)點(含正常極值點)剔除。具體做法是:首先按照公式(1)先識別出極值點,然后將每個極值點假定為極值噪點數(shù)據(jù),設定相關約束條件檢測其是否符合極值噪點數(shù)據(jù)特征,如果符合再將相關約束條件應用于該極值點兩側的非極值點數(shù)據(jù)(范圍限定在檢測極值點到兩側最鄰近的不同類型極值點之間的數(shù)據(jù)點),最后將滿足約束條件的數(shù)據(jù)點標記為噪點數(shù)據(jù)。
圖6 為某井鉆井參數(shù)數(shù)據(jù)極值點曲線,數(shù)據(jù)點i處的時間橫軸x值為xi、鉆井參數(shù)數(shù)值縱軸y值為yi;假定鉆井參數(shù)數(shù)值y變化幅度大的極值點為噪點(noise),噪點與左、右兩側不同類型極值點x、y的差值分別看作微分量dx1、dx2與dy1、dy2;為區(qū)分鉆井參數(shù)曲線整體橫縱軸的波動幅度,記在一定時間段(interval)內鉆井參數(shù)曲線兩兩相鄰不同類型極值點的差值由小到大排序后的橫、縱軸的中位數(shù)分別為dxm、dym。
極值噪點判別約束條件如公式(2)所示,式中α、β、γ、η均為待設定的超參數(shù)。公式(2)中:不等式①是對刺峰噪點數(shù)據(jù)在水平、垂直兩個方向上波動幅度的限制,α是刺峰噪點數(shù)據(jù)與曲線整體在垂直方向上波動幅度的比例關系,β是曲線波動的時間間隔;不等式②是刺峰噪點數(shù)據(jù)特征的形式化表示,γ是刺峰噪點數(shù)據(jù)的波動幅度占鉆井參數(shù)數(shù)值本身的百分比,因此γ的取值比較小,結合實驗可判定,γ取值為1%~5%時較為合理;不等式③是針對圖5 中的特殊情況所做的約束,η是刺峰噪點數(shù)據(jù)左、右兩側的波動比例,刺峰噪點數(shù)據(jù)的特征為左、右兩側的波動幅度近似,η取值2~3為合理范圍。
2.2.3 噪點附近非極值噪點識別算法
非極值噪點數(shù)據(jù)判別以圖7 為例來說明。圖7 中紅色圓點和藍色方塊為曲線中的極值點,綠色和藍色三角表示由最底部極小值到兩側極大值逐漸上升的中間過渡數(shù)值點。通過公式(2)的條件約束,可以識別出藍色方塊極值點為極值刺峰噪點數(shù)據(jù);顯然,刺峰噪點數(shù)據(jù)右側的藍色三角形數(shù)據(jù)點同樣為異常噪點數(shù)據(jù),但接近曲線主趨勢線的綠色三角形數(shù)據(jù)點則不應被歸屬于噪點數(shù)據(jù)。通過大量實驗得出:極值刺峰噪點ni(noise(xi,yi))左、右兩側相同時間窗口范圍(圖7 中虛豎線所限定的區(qū)間)內,最接近刺峰噪點的極值點k(limit(xk,yk)),最具有參考性,取為參考約束點limit,圍繞該點增加約束條件即可較好地劃分出噪點與正常數(shù)據(jù)點。記極值刺峰噪點y值為ynoise,參考約束點的y值為ylimit。公式(3)給出了極值噪點數(shù)據(jù)到鄰近不同類型極值點之間數(shù)據(jù)是否為噪點數(shù)據(jù)的劃分約束條件。
圖7 噪點數(shù)據(jù)波動曲線
Extreme noise neighbor s.t.
公式(3)中?、λ均為待設定的超參數(shù)(?表示噪點數(shù)據(jù)到鄰近約束點距離與曲線整體的波動比例,λ表示檢測數(shù)據(jù)點到約束點距離與被檢測的極值點波動的比例)。除此之外,搜索極值噪點左、右兩側同類型極值limit約束點的時間范圍也是一個超參數(shù),時間窗口越大,參考的范圍越寬,反之則越窄。公式(3)中不等式④是針對極大值噪點的設定,不等式⑤是針對極小值噪點的設定。
通過公式(2)約束條件可以判定極值點是否為噪點數(shù)據(jù),通過公式(3)約束條件可以判斷極值點兩側的非極值點是否為噪點數(shù)據(jù)。為進一步避免錯誤識別,可對已識別的噪點起止點時間間隔再次約束,以避免較長時間的上升或下降。整個鉆井參數(shù)噪點數(shù)據(jù)識別算法流程如圖8所示。
圖8 鉆井參數(shù)噪點數(shù)據(jù)識別算法流程
鉆井參數(shù)噪點數(shù)據(jù)波動幅度與正常數(shù)據(jù)的波動幅度差異懸殊,二者波動幅度的比例關系在噪點數(shù)據(jù)識別中非常重要,這涉及超參數(shù)α、β的設定。通過對曲線中含有刺峰噪點的兩兩相鄰的極值點橫、縱坐標的差值進行分析,顯示出刺峰噪點數(shù)據(jù)y值差值異常大于其他極值點y值差值,x值差值則相對穩(wěn)定。分析大量含刺峰噪點數(shù)據(jù)曲線樣例,結果表明,僅出現(xiàn)個別刺峰狀異常離群噪點的現(xiàn)象較為普遍,如圖9a所示某口井的鉆井參數(shù)曲線。圖9a 藍色方塊數(shù)據(jù)點為噪點數(shù)據(jù),圖9b 為圖9a 的相鄰極值點差值分析結果,藍色、綠色散點分別為相鄰極值點y、x值的差值絕對值排序分布。
圖9 鉆井參數(shù)噪點數(shù)據(jù)波動分析圖
圖9b 顯示極值點y值波動幅度(藍色散點),只有極少噪點數(shù)據(jù)的波動幅度大于2,大部分非噪點數(shù)據(jù)的波動幅度均接近于0,二者的比例關系即為公式(2)中的超參數(shù)α;綠色散點為離散的整數(shù),逐漸地上升并減少,表明各個極值點上升或下降的時間間隔多數(shù)在5 s 以內,連續(xù)8 到10 個數(shù)據(jù)點上升或下降的曲線片斷很少。經多次實驗驗證,α取值8~15 為合理范圍,極值點兩側的總時間間隔β取值10~20 為合理范圍。在運算的最后,依然還會對噪點數(shù)據(jù)的起止時間間隔再次約束,所以β可以適當設置大一些。
通過大量鉆井參數(shù)數(shù)據(jù)案例測試分析,得到刺峰噪點數(shù)據(jù)識別準確率較高的一組超參數(shù),即:α=9、β=16、γ=2%、η=3、?=4、λ=0.2。搜索極值噪點數(shù)據(jù)左、右兩側同類型極值(limit)約束點的時間范圍是25 s,噪點數(shù)據(jù)起止時間間隔約束小于7 s。
為評估刺峰噪點數(shù)據(jù)識別準確率,隨機抽樣30口井某一天24 h 的扭矩、立管壓力、總池體積、入口流量、出口流量共5 種鉆井參數(shù)數(shù)據(jù),將24 h 劃分成5 min為一個時間窗口,把上述超參數(shù)應用于圖8算法中,識別鉆井參數(shù)刺峰噪點;再將識別到含有噪點數(shù)據(jù)的5 min 鉆井參數(shù)數(shù)據(jù)繪制成曲線圖,并標記噪點數(shù)據(jù),然后隨機抽樣200 張噪點數(shù)據(jù)圖片(圖10),請專業(yè)鉆井技術人員評估,準確率達82%以上。
圖10 鉆井參數(shù)噪點數(shù)據(jù)波動分析圖
噪點數(shù)據(jù)的準確性與數(shù)據(jù)的質量有很大關系,不同的鉆井參數(shù)應該有不同的約束條件。從30 口井5種鉆井參數(shù)噪點數(shù)據(jù)召回統(tǒng)計(表2)可以看出,出口流量的噪點數(shù)據(jù)召回量最大,達到1 630 個,也印證了鉆井現(xiàn)場技術人員的普遍經驗認知,即出口流量數(shù)據(jù)質量較差,與井場實際情況相符。
表2 30口井5種鉆井參數(shù)噪點數(shù)據(jù)召回統(tǒng)計
針對鉆井參數(shù)曲線中的噪點數(shù)據(jù)識別問題,本文探討并給出了以極值為基礎的刺峰噪點數(shù)據(jù)識別算法,該算法以刺峰噪點數(shù)據(jù)在曲線中呈現(xiàn)的特征為判斷標準,并給出了可編程的算法數(shù)學公式。通過數(shù)學算法和計算機流程圖,首先建立極值點數(shù)據(jù)集,再識別極值點是否為噪點數(shù)據(jù)并建立約束條件,進一步將約束條件應用于極值點兩側的非極值點,最后整體識別極值點及其兩側的數(shù)據(jù)是否為噪點數(shù)據(jù)。
該算法經過大量現(xiàn)場試驗數(shù)據(jù)驗證和評估,具有很高的準確度。因此,本文提出的基于極值的鉆井參數(shù)刺峰噪點數(shù)據(jù)識別算法可應用于鉆井現(xiàn)場實際數(shù)據(jù)分析匯總,也可應用于類似的工程作業(yè)數(shù)據(jù)分析診斷。