基于距離異常點(diǎn)的機(jī)械比能評(píng)價(jià)儲(chǔ)層物性研究?

2023-11-21 06:17:58李龍管潔

計(jì)算機(jī)與數(shù)字工程 2023年8期

李龍管潔

（東北石油大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院大慶 163318）

1 引言

鉆井過(guò)程中，扭矩和鉆壓會(huì)在鉆進(jìn)過(guò)程中出現(xiàn)異常點(diǎn)，機(jī)械比能模型［11］容易受到鉆壓、扭矩等敏感因素的影響，因此有必要對(duì)影響機(jī)械比能評(píng)價(jià)的因素中的異常數(shù)據(jù)進(jìn)行檢測(cè)，提高數(shù)據(jù)以及評(píng)價(jià)的準(zhǔn)確性。傳統(tǒng)的基于統(tǒng)計(jì)的異常數(shù)據(jù)的挖掘算法大致有3σ準(zhǔn)則、四分位（箱線圖）等。而基于距離的異常數(shù)據(jù)挖掘算法原理較為簡(jiǎn)單，使用方便，在數(shù)據(jù)集分布均勻的情況下，檢測(cè)效果較好。所以本文應(yīng)用基于距離的異常點(diǎn)檢測(cè)算法，對(duì)機(jī)械比能評(píng)價(jià)模型進(jìn)行補(bǔ)充，使得評(píng)價(jià)結(jié)果更加準(zhǔn)確，這對(duì)于儲(chǔ)層物性評(píng)價(jià)具有重要意義。

2 傳統(tǒng)基于統(tǒng)計(jì)學(xué)的異常值檢測(cè)方法介紹

在統(tǒng)計(jì)學(xué)中，離群值是不屬于特定總體的數(shù)據(jù)點(diǎn)，是遠(yuǎn)離其他值的離群值。離群值不同于其他結(jié)構(gòu)良好的數(shù)據(jù)。

2.1 3σ準(zhǔn)則

隨機(jī)誤差的分布密度為

式中：δ為隨機(jī)誤差；若不考慮系統(tǒng)誤差，則δ=x-μ，是的數(shù)學(xué)期望；μ為X 的數(shù)學(xué)期望；σ為隨機(jī)誤差δ的標(biāo)準(zhǔn)差，也是測(cè)量總體X的標(biāo)準(zhǔn)差。

由分布密度f(wàn)(δ)的定義可知，δ在δ1和δ2之間內(nèi)取值的概率應(yīng)為相應(yīng)區(qū)間上密度函數(shù)的積分，即

對(duì)于給定的誤差界限±δ，即可根據(jù)由概率積分求得值出現(xiàn)在［-δ，+δ］范圍內(nèi)的概率。隨機(jī)誤差在范圍內(nèi)出現(xiàn)在［μ-3δ，μ+3δ］的概率0.9973，出現(xiàn)在［μ-2δ，μ+2δ］的概率0.9545。

3σ標(biāo)準(zhǔn)是假設(shè)一組測(cè)試數(shù)據(jù)只包含隨機(jī)誤差，計(jì)算并處理得到標(biāo)準(zhǔn)差，并按一定概率確定區(qū)間。認(rèn)為超出該區(qū)間的誤差不屬于隨機(jī)誤差誤差，而屬于粗差，應(yīng)剔除含有該誤差的數(shù)據(jù)。判別處理的原理和方法僅限于正?；蚪普龖B(tài)分布樣本數(shù)據(jù)的處理［18～19］。其前提是測(cè)量數(shù)量足夠大（樣本>10）。當(dāng)測(cè)量次數(shù)較少時(shí)，用該準(zhǔn)則消除粗差是不可靠的。

圖1 3σ標(biāo)準(zhǔn)圖

可以認(rèn)為幾乎所有的Y值都集中在（-3，+3）范圍內(nèi)，超過(guò)這個(gè)范圍的概率小于0.3%，因此，如果你有任何數(shù)據(jù)點(diǎn)超過(guò)標(biāo)準(zhǔn)差的3 倍，那么這些點(diǎn)很有可能是異常值或離群點(diǎn)。

2.2 四分位（箱線圖）

箱形圖是數(shù)字?jǐn)?shù)據(jù)通過(guò)其四分位數(shù)形成的圖形化描述。這是一個(gè)很簡(jiǎn)單但是很有效的方法來(lái)顯示異常值。想一想上面和下面的觸須就是數(shù)據(jù)的分界線。在上面或下面的任意一任何高于上觸須或低于下觸須的所有數(shù)據(jù)點(diǎn)，都可以看作是離群點(diǎn)，也可以看作是孤立點(diǎn)。

四分位間距（IQR）的概念被用于構(gòu)建箱形圖。IQR 是統(tǒng)計(jì)學(xué)中的一個(gè)概念，通過(guò)將數(shù)據(jù)集分成四分位來(lái)衡量統(tǒng)計(jì)分散度和數(shù)據(jù)可變性。簡(jiǎn)單來(lái)說(shuō)，任何數(shù)據(jù)集或任意一組觀測(cè)值都可以根據(jù)數(shù)據(jù)的值以及它們與整個(gè)數(shù)據(jù)集的比較情況被劃分為四個(gè)確定的間隔。四分位數(shù)會(huì)將數(shù)據(jù)分為三個(gè)點(diǎn)和四個(gè)區(qū)間。

圖2 箱線圖

四分位間距對(duì)定義離群點(diǎn)非常重要。它是第三個(gè)四分位數(shù)和第一個(gè)四分位數(shù)的差（IQR=Q3-Q1）。在這種情況下，離群點(diǎn)被定義為低于箱形圖下觸須（或Q1-1.5·IQR）或高于箱形圖上觸須（或Q3+1.5·IQR）的觀測(cè)值。

3 基于距離的異常點(diǎn)檢測(cè)

Knorr和Ng［1］本文首先采用一種新的算法來(lái)發(fā)現(xiàn)異常值。他們覺(jué)得異化了這些點(diǎn)如下所示：在一個(gè)數(shù)據(jù)集中，有一個(gè)或多個(gè)數(shù)據(jù)點(diǎn)與另一個(gè)或多個(gè)一定的門限D(zhuǎn)，本質(zhì)上就是視異常為在D區(qū)域中近乎不存在的鄰近的那一點(diǎn)。

表1 參數(shù)及意義

3.1 檢測(cè)屬性的選取

在數(shù)據(jù)集中，離群點(diǎn)并非在每一個(gè)屬性中都存在，只有在某些屬性中才會(huì)出現(xiàn)離群點(diǎn)。總地來(lái)說(shuō)，選擇這些研究?jī)r(jià)值屬性是該領(lǐng)域?qū)＜业呢?zé)任。然而，針對(duì)終端操作員缺乏相關(guān)專業(yè)知識(shí)，難以從海量數(shù)據(jù)中篩選出對(duì)數(shù)據(jù)穩(wěn)定性有較大影響且有研究?jī)r(jià)值的問(wèn)題，提出了屬性隸屬度概念。它可以反映出每一種屬性的檢測(cè)結(jié)果。即使在沒(méi)有域?qū)＜业那闆r下，終端操作員也能根據(jù)每一種屬性的“屬性從屬程度”來(lái)選擇最適合的探測(cè)屬性。

屬性隸屬度：數(shù)據(jù)集中任何數(shù)據(jù)的任何屬性，都有一個(gè)相應(yīng)的數(shù)字μ（ω），也就是這個(gè)屬性的屬性隸屬度，μ（ω）即該屬性的編號(hào)，表示為

當(dāng)屬性的μ（omega）值較大時(shí)，屬性值波動(dòng)較大，檢測(cè)值較高時(shí)，則更容易被檢測(cè)到。μ（omega）值較小時(shí)，屬性值波動(dòng)較小，探測(cè)值較低，容易被忽視。

3.2 改進(jìn)距離度量

針對(duì)由于數(shù)據(jù)分布不均勻而造成的檢測(cè)準(zhǔn)確率不高的問(wèn)題，對(duì)距離測(cè)量進(jìn)行了改進(jìn)，以Minkowski距離作為例子，表示為

其中λk定義為

對(duì)于非均勻性數(shù)據(jù)，基于公共距離的離群點(diǎn)檢測(cè)方法往往效果不佳［2～4］。當(dāng)數(shù)據(jù)點(diǎn)分布于稠密和稀疏兩種情況下，由k 個(gè)最近鄰點(diǎn)組成的局部區(qū)域具有區(qū)分性。

根據(jù)傳統(tǒng)的基于距離的離群點(diǎn)檢測(cè)算法，能改變?cè)嫉恼龖B(tài)［18～19］范圍，將頻繁的數(shù)據(jù)點(diǎn)標(biāo)記為離群點(diǎn)［5］。

圖3 顯示了拋物線形狀的非均勻分布數(shù)據(jù)集。假定A 點(diǎn)是s 數(shù)據(jù)集中的一個(gè)異常點(diǎn)，B 點(diǎn)是s數(shù)據(jù)集中的一個(gè)正常點(diǎn)，如果B 點(diǎn)到K 個(gè)最近鄰的距離之和大于A 點(diǎn)到K 個(gè)最近鄰的距離之和，傳統(tǒng)的基于距離的算法可能會(huì)將B 點(diǎn)視為一個(gè)異常點(diǎn)并將其視為點(diǎn)A為正常量數(shù)據(jù)點(diǎn)［6～7］。

圖3 不均勻分布的散點(diǎn)圖

設(shè)dA(k)

3.3 基于距離的異常點(diǎn)檢測(cè)算法

步驟如下所示。

步驟1：假設(shè)該數(shù)據(jù)經(jīng)過(guò)了標(biāo)準(zhǔn)化，則會(huì)對(duì)該數(shù)據(jù)集的第一個(gè)數(shù)據(jù)和dij其它數(shù)據(jù)之間的距離進(jìn)行比較。

步驟2：該數(shù)據(jù)點(diǎn)與K 個(gè)最接近的鄰域（K）的距離的總和由步驟1獲得。

步驟3：計(jì)算K，找出數(shù)據(jù)點(diǎn)與其他數(shù)據(jù)點(diǎn)之間的改進(jìn)距離dMij，kdij。步驟4：循環(huán)步驟1 到步驟3，直到計(jì)算出數(shù)據(jù)集中所有數(shù)據(jù)點(diǎn)的dMij，形成一個(gè)主對(duì)角線元素為0的對(duì)稱矩陣P：

這個(gè)方法是這樣來(lái)描述的：1）在一個(gè)矩陣P中，每一個(gè)元素都代表兩個(gè)點(diǎn)的間距。舉例來(lái)說(shuō)，d12M代表了一個(gè)點(diǎn)與一個(gè)點(diǎn)的間距。2）作為對(duì)矩陣P 中第?i行元數(shù)之和進(jìn)行評(píng)估的一個(gè)重要指標(biāo)，該指標(biāo)的數(shù)值愈大，則該指標(biāo)的數(shù)值愈大，則該指標(biāo)的數(shù)值愈小，則該指標(biāo)與其它指標(biāo)的距離愈大。那就意味著，這里的情況要比別的地方更加反常。

4 實(shí)驗(yàn)設(shè)計(jì)

實(shí)驗(yàn)選取100 組解釋評(píng)論數(shù)據(jù)進(jìn)行離群點(diǎn)監(jiān)測(cè)，每條記錄包含5個(gè)屬性（rop，wob，RPM，TORQUE，gwjs）。通過(guò)怎么算每一個(gè)屬性的值，選值最大的兩個(gè)屬性。經(jīng)篩選后的數(shù)據(jù)集如表2 所示。

表2 部分?jǐn)?shù)據(jù)集

在實(shí)驗(yàn)中所用的距離度量為q=2 時(shí)的Minkowski 距離進(jìn)行計(jì)算，即當(dāng)k=30 時(shí)，距離和矩陣P為

由矩陣P 可計(jì)算出100個(gè)?值，對(duì)?值進(jìn)行降序排列，設(shè)用戶期望的異常值為4，則可得到四個(gè)異常點(diǎn)，如表3所示。

表3 異常點(diǎn)檢測(cè)結(jié)果

表4 機(jī)械比能分級(jí)

表5 實(shí)驗(yàn)結(jié)果

根據(jù)輸出結(jié)果，若數(shù)據(jù)點(diǎn)的距離之和為遞減順序，那么可以將前四條記錄，也就是序號(hào)為6、35、100、61 的數(shù)據(jù)與其他點(diǎn)的距離之和最大，從而判斷為異常數(shù)據(jù)。

5 儲(chǔ)層物性評(píng)價(jià)過(guò)程

5.1 數(shù)據(jù)歸一化

數(shù)據(jù)歸一化處理：使用最大最小值歸一化方法［17］，公式如下：

按段尋找相應(yīng)的最大值max 和最小值min，則機(jī)械比能［14］的歸一化如下：

5.2 物性評(píng)價(jià)

1）鉆壓和扭矩做功的機(jī)械比能模型［11］：

式中：WOB 為鉆壓［16］，N；Ab 為鉆頭面積［16］，m2；T 為扭矩［16］，N.m；RPM 為轉(zhuǎn)盤轉(zhuǎn)速，r/min；ROP 為機(jī)械鉆速，m/min；MSE為機(jī)械比能，MPa。

2）地層物性指數(shù)模型：

地層物性指數(shù)［15］位于1 附近，1 為正常壓實(shí)地層，該值小于1，機(jī)械比能基值呈現(xiàn)負(fù)異常，指示物性好的地層，該值越低，地層的物性越好。

3）機(jī)械比能分級(jí)（物性指數(shù)）

5.3 應(yīng)用實(shí)驗(yàn)結(jié)果

在古城10 井、城探1 井等進(jìn)行了應(yīng)用，在基于距離的異常點(diǎn)檢測(cè)算法基礎(chǔ)上，通過(guò)機(jī)械比能基值線，計(jì)算分析得出物性指數(shù)P，根據(jù)P 值的大小來(lái)評(píng)價(jià)儲(chǔ)層物性的好壞，物性指數(shù)越大，說(shuō)明物性越差，越小說(shuō)明物性越好：Ⅰ好儲(chǔ)層：<0.4；Ⅱ較好儲(chǔ)層0.5～0.4；Ⅲ中等儲(chǔ)層0.63～0.5；較差儲(chǔ)層0.7～0.63；無(wú)效儲(chǔ)層φ＜P>0.7。儲(chǔ)層物性［12～13］自動(dòng)評(píng)價(jià)準(zhǔn)確率在88.35%以上。

6 結(jié)語(yǔ)

本文所建立的異常點(diǎn)檢測(cè)模型對(duì)儲(chǔ)層物性的評(píng)價(jià)正確率較高，將本模型用于基于機(jī)械比能的儲(chǔ)層的物性自動(dòng)評(píng)價(jià)，在誤差允許的范圍內(nèi)可以代替人工。且在古城10 井、城探1 井等進(jìn)行了應(yīng)用，儲(chǔ)層物性自動(dòng)評(píng)價(jià)準(zhǔn)確率在88.35%以上。因此，本模型在儲(chǔ)層物性評(píng)價(jià)方面具有良好的適用性與可行性，具有一定的工程意義和使用價(jià)值。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看