李 龍 管 潔
(東北石油大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院 大慶 163318)
鉆井過(guò)程中,扭矩和鉆壓會(huì)在鉆進(jìn)過(guò)程中出現(xiàn)異常點(diǎn),機(jī)械比能模型[11]容易受到鉆壓、扭矩等敏感因素的影響,因此有必要對(duì)影響機(jī)械比能評(píng)價(jià)的因素中的異常數(shù)據(jù)進(jìn)行檢測(cè),提高數(shù)據(jù)以及評(píng)價(jià)的準(zhǔn)確性。傳統(tǒng)的基于統(tǒng)計(jì)的異常數(shù)據(jù)的挖掘算法大致有3σ準(zhǔn)則、四分位(箱線圖)等。而基于距離的異常數(shù)據(jù)挖掘算法原理較為簡(jiǎn)單,使用方便,在數(shù)據(jù)集分布均勻的情況下,檢測(cè)效果較好。所以本文應(yīng)用基于距離的異常點(diǎn)檢測(cè)算法,對(duì)機(jī)械比能評(píng)價(jià)模型進(jìn)行補(bǔ)充,使得評(píng)價(jià)結(jié)果更加準(zhǔn)確,這對(duì)于儲(chǔ)層物性評(píng)價(jià)具有重要意義。
在統(tǒng)計(jì)學(xué)中,離群值是不屬于特定總體的數(shù)據(jù)點(diǎn),是遠(yuǎn)離其他值的離群值。離群值不同于其他結(jié)構(gòu)良好的數(shù)據(jù)。
隨機(jī)誤差的分布密度為
式中:δ為隨機(jī)誤差;若不考慮系統(tǒng)誤差,則δ=x-μ,是的數(shù)學(xué)期望;μ為X 的數(shù)學(xué)期望;σ為隨機(jī)誤差δ的標(biāo)準(zhǔn)差,也是測(cè)量總體X的標(biāo)準(zhǔn)差。
由分布密度f(wàn)(δ)的定義可知,δ在δ1和δ2之間內(nèi)取值的概率應(yīng)為相應(yīng)區(qū)間上密度函數(shù)的積分,即
對(duì)于給定的誤差界限±δ,即可根據(jù)由概率積分求得值出現(xiàn)在[-δ,+δ]范圍內(nèi)的概率。隨機(jī)誤差在范圍內(nèi)出現(xiàn)在[μ-3δ,μ+3δ]的概 率0.9973,出現(xiàn)在[μ-2δ,μ+2δ]的概率0.9545。
3σ標(biāo)準(zhǔn)是假設(shè)一組測(cè)試數(shù)據(jù)只包含隨機(jī)誤差,計(jì)算并處理得到標(biāo)準(zhǔn)差,并按一定概率確定區(qū)間。認(rèn)為超出該區(qū)間的誤差不屬于隨機(jī)誤差誤差,而屬于粗差,應(yīng)剔除含有該誤差的數(shù)據(jù)。判別處理的原理和方法僅限于正?;蚪普龖B(tài)分布樣本數(shù)據(jù)的處理[18~19]。其前提是測(cè)量數(shù)量足夠大(樣本>10)。當(dāng)測(cè)量次數(shù)較少時(shí),用該準(zhǔn)則消除粗差是不可靠的。
圖1 3σ標(biāo)準(zhǔn)圖
可以認(rèn)為幾乎所有的Y值都集中在(-3,+3)范圍內(nèi),超過(guò)這個(gè)范圍的概率小于0.3%,因此,如果你有任何數(shù)據(jù)點(diǎn)超過(guò)標(biāo)準(zhǔn)差的3 倍,那么這些點(diǎn)很有可能是異常值或離群點(diǎn)。
箱形圖是數(shù)字?jǐn)?shù)據(jù)通過(guò)其四分位數(shù)形成的圖形化描述。這是一個(gè)很簡(jiǎn)單但是很有效的方法來(lái)顯示異常值。想一想上面和下面的觸須就是數(shù)據(jù)的分界線。在上面或下面的任意一任何高于上觸須或低于下觸須的所有數(shù)據(jù)點(diǎn),都可以看作是離群點(diǎn),也可以看作是孤立點(diǎn)。
四分位間距(IQR)的概念被用于構(gòu)建箱形圖。IQR 是統(tǒng)計(jì)學(xué)中的一個(gè)概念,通過(guò)將數(shù)據(jù)集分成四分位來(lái)衡量統(tǒng)計(jì)分散度和數(shù)據(jù)可變性。簡(jiǎn)單來(lái)說(shuō),任何數(shù)據(jù)集或任意一組觀測(cè)值都可以根據(jù)數(shù)據(jù)的值以及它們與整個(gè)數(shù)據(jù)集的比較情況被劃分為四個(gè)確定的間隔。四分位數(shù)會(huì)將數(shù)據(jù)分為三個(gè)點(diǎn)和四個(gè)區(qū)間。
圖2 箱線圖
四分位間距對(duì)定義離群點(diǎn)非常重要。它是第三個(gè)四分位數(shù)和第一個(gè)四分位數(shù)的差(IQR=Q3-Q1)。在這種情況下,離群點(diǎn)被定義為低于箱形圖下觸須(或Q1-1.5·IQR)或高于箱形圖上觸須(或Q3+1.5·IQR)的觀測(cè)值。
Knorr和Ng[1]本文首先采用一種新的算法來(lái)發(fā)現(xiàn)異常值。他們覺(jué)得異化了這些點(diǎn)如下所示:在一個(gè)數(shù)據(jù)集中,有一個(gè)或多個(gè)數(shù)據(jù)點(diǎn)與另一個(gè)或多個(gè)一定的門限D(zhuǎn),本質(zhì)上就是視異常為在D區(qū)域中近乎不存在的鄰近的那一點(diǎn)。
表1 參數(shù)及意義
在數(shù)據(jù)集中,離群點(diǎn)并非在每一個(gè)屬性中都存在,只有在某些屬性中才會(huì)出現(xiàn)離群點(diǎn)。總地來(lái)說(shuō),選擇這些研究?jī)r(jià)值屬性是該領(lǐng)域?qū)<业呢?zé)任。然而,針對(duì)終端操作員缺乏相關(guān)專業(yè)知識(shí),難以從海量數(shù)據(jù)中篩選出對(duì)數(shù)據(jù)穩(wěn)定性有較大影響且有研究?jī)r(jià)值的問(wèn)題,提出了屬性隸屬度概念。它可以反映出每一種屬性的檢測(cè)結(jié)果。即使在沒(méi)有域?qū)<业那闆r下,終端操作員也能根據(jù)每一種屬性的“屬性從屬程度”來(lái)選擇最適合的探測(cè)屬性。
屬性隸屬度:數(shù)據(jù)集中任何數(shù)據(jù)的任何屬性,都有一個(gè)相應(yīng)的數(shù)字μ(ω),也就是這個(gè)屬性的屬性隸屬度,μ(ω)即該屬性的編號(hào),表示為
當(dāng)屬性的μ(omega)值較大時(shí),屬性值波動(dòng)較大,檢測(cè)值較高時(shí),則更容易被檢測(cè)到。μ(omega)值較小時(shí),屬性值波動(dòng)較小,探測(cè)值較低,容易被忽視。
針對(duì)由于數(shù)據(jù)分布不均勻而造成的檢測(cè)準(zhǔn)確率不高的問(wèn)題,對(duì)距離測(cè)量進(jìn)行了改進(jìn),以Minkowski距離作為例子,表示為
其中λk定義為
對(duì)于非均勻性數(shù)據(jù),基于公共距離的離群點(diǎn)檢測(cè)方法往往效果不佳[2~4]。當(dāng)數(shù)據(jù)點(diǎn)分布于稠密和稀疏兩種情況下,由k 個(gè)最近鄰點(diǎn)組成的局部區(qū)域具有區(qū)分性。
根據(jù)傳統(tǒng)的基于距離的離群點(diǎn)檢測(cè)算法,能改變?cè)嫉恼龖B(tài)[18~19]范圍,將頻繁的數(shù)據(jù)點(diǎn)標(biāo)記為離群點(diǎn)[5]。
圖3 顯示了拋物線形狀的非均勻分布數(shù)據(jù)集。假定A 點(diǎn)是s 數(shù)據(jù)集中的一個(gè)異常點(diǎn),B 點(diǎn)是s數(shù)據(jù)集中的一個(gè)正常點(diǎn),如果B 點(diǎn)到K 個(gè)最近鄰的距離之和大于A 點(diǎn)到K 個(gè)最近鄰的距離之和,傳統(tǒng)的基于距離的算法可能會(huì)將B 點(diǎn)視為一個(gè)異常點(diǎn)并將其視為點(diǎn)A為正常量數(shù)據(jù)點(diǎn)[6~7]。
圖3 不均勻分布的散點(diǎn)圖
設(shè)dA(k) 步驟如下所示。 步驟1:假設(shè)該數(shù)據(jù)經(jīng)過(guò)了標(biāo)準(zhǔn)化,則會(huì)對(duì)該數(shù)據(jù)集的第一個(gè)數(shù)據(jù)和dij其它數(shù)據(jù)之間的距離進(jìn)行比較。 步驟2:該數(shù)據(jù)點(diǎn)與K 個(gè)最接近的鄰域(K)的距離的總和由步驟1獲得。 步驟3:計(jì)算K,找出數(shù)據(jù)點(diǎn)與其他數(shù)據(jù)點(diǎn)之間的改進(jìn)距離dMij,kdij。步驟4:循環(huán)步驟1 到步驟3,直到計(jì)算出數(shù)據(jù)集中所有數(shù)據(jù)點(diǎn)的dMij,形成一個(gè)主對(duì)角線元素為0的對(duì)稱矩陣P: 這個(gè)方法是這樣來(lái)描述的:1)在一個(gè)矩陣P中,每一個(gè)元素都代表兩個(gè)點(diǎn)的間距。舉例來(lái)說(shuō),d12M代表了一個(gè)點(diǎn)與一個(gè)點(diǎn)的間距。2)作為對(duì)矩陣P 中第?i行元數(shù)之和進(jìn)行評(píng)估的一個(gè)重要指標(biāo),該指標(biāo)的數(shù)值愈大,則該指標(biāo)的數(shù)值愈大,則該指標(biāo)的數(shù)值愈小,則該指標(biāo)與其它指標(biāo)的距離愈大。那就意味著,這里的情況要比別的地方更加反常。 實(shí)驗(yàn)選取100 組解釋評(píng)論數(shù)據(jù)進(jìn)行離群點(diǎn)監(jiān)測(cè),每條記錄包含5個(gè)屬性(rop,wob,RPM,TORQUE,gwjs)。通過(guò)怎么算每一個(gè)屬性的值,選值最大的兩個(gè)屬性。經(jīng)篩選后的數(shù)據(jù)集如表2 所示。 表2 部分?jǐn)?shù)據(jù)集 在實(shí)驗(yàn)中所用的距離度量為q=2 時(shí)的Minkowski 距離進(jìn)行計(jì)算,即當(dāng)k=30 時(shí),距離和矩陣P為 由矩陣P 可計(jì)算出100個(gè)?值,對(duì)?值進(jìn)行降序排列,設(shè)用戶期望的異常值為4,則可得到四個(gè)異常點(diǎn),如表3所示。 表3 異常點(diǎn)檢測(cè)結(jié)果 表4 機(jī)械比能分級(jí) 表5 實(shí)驗(yàn)結(jié)果 根據(jù)輸出結(jié)果,若數(shù)據(jù)點(diǎn)的距離之和為遞減順序,那么可以將前四條記錄,也就是序號(hào)為6、35、100、61 的數(shù)據(jù)與其他點(diǎn)的距離之和最大,從而判斷為異常數(shù)據(jù)。 數(shù)據(jù)歸一化處理:使用最大最小值歸一化方法[17],公式如下: 按段尋找相應(yīng)的最大值max 和最小值min,則機(jī)械比能[14]的歸一化如下: 1)鉆壓和扭矩做功的機(jī)械比能模型[11]: 式中:WOB 為鉆壓[16],N;Ab 為鉆頭面積[16],m2;T 為扭矩[16],N.m;RPM 為轉(zhuǎn)盤轉(zhuǎn)速,r/min;ROP 為機(jī)械鉆速,m/min;MSE為機(jī)械比能,MPa。 2)地層物性指數(shù)模型: 地層物性指數(shù)[15]位于1 附近,1 為正常壓實(shí)地層,該值小于1,機(jī)械比能基值呈現(xiàn)負(fù)異常,指示物性好的地層,該值越低,地層的物性越好。 3)機(jī)械比能分級(jí)(物性指數(shù)) 在古城10 井、城探1 井等進(jìn)行了應(yīng)用,在基于距離的異常點(diǎn)檢測(cè)算法基礎(chǔ)上,通過(guò)機(jī)械比能基值線,計(jì)算分析得出物性指數(shù)P,根據(jù)P 值的大小來(lái)評(píng)價(jià)儲(chǔ)層物性的好壞,物性指數(shù)越大,說(shuō)明物性越差,越小說(shuō)明物性越好:Ⅰ好儲(chǔ)層:<0.4;Ⅱ較好儲(chǔ)層0.5~0.4;Ⅲ中等儲(chǔ)層0.63~0.5;較差儲(chǔ)層0.7~0.63;無(wú)效儲(chǔ)層φ<P>0.7。儲(chǔ)層物性[12~13]自動(dòng)評(píng)價(jià)準(zhǔn)確率在88.35%以上。 本文所建立的異常點(diǎn)檢測(cè)模型對(duì)儲(chǔ)層物性的評(píng)價(jià)正確率較高,將本模型用于基于機(jī)械比能的儲(chǔ)層的物性自動(dòng)評(píng)價(jià),在誤差允許的范圍內(nèi)可以代替人工。且在古城10 井、城探1 井等進(jìn)行了應(yīng)用,儲(chǔ)層物性自動(dòng)評(píng)價(jià)準(zhǔn)確率在88.35%以上。因此,本模型在儲(chǔ)層物性評(píng)價(jià)方面具有良好的適用性與可行性,具有一定的工程意義和使用價(jià)值。3.3 基于距離的異常點(diǎn)檢測(cè)算法
4 實(shí)驗(yàn)設(shè)計(jì)
5 儲(chǔ)層物性評(píng)價(jià)過(guò)程
5.1 數(shù)據(jù)歸一化
5.2 物性評(píng)價(jià)
5.3 應(yīng)用實(shí)驗(yàn)結(jié)果
6 結(jié)語(yǔ)