• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于距離異常點(diǎn)的機(jī)械比能評(píng)價(jià)儲(chǔ)層物性研究?

      2023-11-21 06:17:58
      關(guān)鍵詞:離群物性儲(chǔ)層

      李 龍 管 潔

      (東北石油大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院 大慶 163318)

      1 引言

      鉆井過(guò)程中,扭矩和鉆壓會(huì)在鉆進(jìn)過(guò)程中出現(xiàn)異常點(diǎn),機(jī)械比能模型[11]容易受到鉆壓、扭矩等敏感因素的影響,因此有必要對(duì)影響機(jī)械比能評(píng)價(jià)的因素中的異常數(shù)據(jù)進(jìn)行檢測(cè),提高數(shù)據(jù)以及評(píng)價(jià)的準(zhǔn)確性。傳統(tǒng)的基于統(tǒng)計(jì)的異常數(shù)據(jù)的挖掘算法大致有3σ準(zhǔn)則、四分位(箱線圖)等。而基于距離的異常數(shù)據(jù)挖掘算法原理較為簡(jiǎn)單,使用方便,在數(shù)據(jù)集分布均勻的情況下,檢測(cè)效果較好。所以本文應(yīng)用基于距離的異常點(diǎn)檢測(cè)算法,對(duì)機(jī)械比能評(píng)價(jià)模型進(jìn)行補(bǔ)充,使得評(píng)價(jià)結(jié)果更加準(zhǔn)確,這對(duì)于儲(chǔ)層物性評(píng)價(jià)具有重要意義。

      2 傳統(tǒng)基于統(tǒng)計(jì)學(xué)的異常值檢測(cè)方法介紹

      在統(tǒng)計(jì)學(xué)中,離群值是不屬于特定總體的數(shù)據(jù)點(diǎn),是遠(yuǎn)離其他值的離群值。離群值不同于其他結(jié)構(gòu)良好的數(shù)據(jù)。

      2.1 3σ準(zhǔn)則

      隨機(jī)誤差的分布密度為

      式中:δ為隨機(jī)誤差;若不考慮系統(tǒng)誤差,則δ=x-μ,是的數(shù)學(xué)期望;μ為X 的數(shù)學(xué)期望;σ為隨機(jī)誤差δ的標(biāo)準(zhǔn)差,也是測(cè)量總體X的標(biāo)準(zhǔn)差。

      由分布密度f(wàn)(δ)的定義可知,δ在δ1和δ2之間內(nèi)取值的概率應(yīng)為相應(yīng)區(qū)間上密度函數(shù)的積分,即

      對(duì)于給定的誤差界限±δ,即可根據(jù)由概率積分求得值出現(xiàn)在[-δ,+δ]范圍內(nèi)的概率。隨機(jī)誤差在范圍內(nèi)出現(xiàn)在[μ-3δ,μ+3δ]的概 率0.9973,出現(xiàn)在[μ-2δ,μ+2δ]的概率0.9545。

      3σ標(biāo)準(zhǔn)是假設(shè)一組測(cè)試數(shù)據(jù)只包含隨機(jī)誤差,計(jì)算并處理得到標(biāo)準(zhǔn)差,并按一定概率確定區(qū)間。認(rèn)為超出該區(qū)間的誤差不屬于隨機(jī)誤差誤差,而屬于粗差,應(yīng)剔除含有該誤差的數(shù)據(jù)。判別處理的原理和方法僅限于正?;蚪普龖B(tài)分布樣本數(shù)據(jù)的處理[18~19]。其前提是測(cè)量數(shù)量足夠大(樣本>10)。當(dāng)測(cè)量次數(shù)較少時(shí),用該準(zhǔn)則消除粗差是不可靠的。

      圖1 3σ標(biāo)準(zhǔn)圖

      可以認(rèn)為幾乎所有的Y值都集中在(-3,+3)范圍內(nèi),超過(guò)這個(gè)范圍的概率小于0.3%,因此,如果你有任何數(shù)據(jù)點(diǎn)超過(guò)標(biāo)準(zhǔn)差的3 倍,那么這些點(diǎn)很有可能是異常值或離群點(diǎn)。

      2.2 四分位(箱線圖)

      箱形圖是數(shù)字?jǐn)?shù)據(jù)通過(guò)其四分位數(shù)形成的圖形化描述。這是一個(gè)很簡(jiǎn)單但是很有效的方法來(lái)顯示異常值。想一想上面和下面的觸須就是數(shù)據(jù)的分界線。在上面或下面的任意一任何高于上觸須或低于下觸須的所有數(shù)據(jù)點(diǎn),都可以看作是離群點(diǎn),也可以看作是孤立點(diǎn)。

      四分位間距(IQR)的概念被用于構(gòu)建箱形圖。IQR 是統(tǒng)計(jì)學(xué)中的一個(gè)概念,通過(guò)將數(shù)據(jù)集分成四分位來(lái)衡量統(tǒng)計(jì)分散度和數(shù)據(jù)可變性。簡(jiǎn)單來(lái)說(shuō),任何數(shù)據(jù)集或任意一組觀測(cè)值都可以根據(jù)數(shù)據(jù)的值以及它們與整個(gè)數(shù)據(jù)集的比較情況被劃分為四個(gè)確定的間隔。四分位數(shù)會(huì)將數(shù)據(jù)分為三個(gè)點(diǎn)和四個(gè)區(qū)間。

      圖2 箱線圖

      四分位間距對(duì)定義離群點(diǎn)非常重要。它是第三個(gè)四分位數(shù)和第一個(gè)四分位數(shù)的差(IQR=Q3-Q1)。在這種情況下,離群點(diǎn)被定義為低于箱形圖下觸須(或Q1-1.5·IQR)或高于箱形圖上觸須(或Q3+1.5·IQR)的觀測(cè)值。

      3 基于距離的異常點(diǎn)檢測(cè)

      Knorr和Ng[1]本文首先采用一種新的算法來(lái)發(fā)現(xiàn)異常值。他們覺(jué)得異化了這些點(diǎn)如下所示:在一個(gè)數(shù)據(jù)集中,有一個(gè)或多個(gè)數(shù)據(jù)點(diǎn)與另一個(gè)或多個(gè)一定的門限D(zhuǎn),本質(zhì)上就是視異常為在D區(qū)域中近乎不存在的鄰近的那一點(diǎn)。

      表1 參數(shù)及意義

      3.1 檢測(cè)屬性的選取

      在數(shù)據(jù)集中,離群點(diǎn)并非在每一個(gè)屬性中都存在,只有在某些屬性中才會(huì)出現(xiàn)離群點(diǎn)。總地來(lái)說(shuō),選擇這些研究?jī)r(jià)值屬性是該領(lǐng)域?qū)<业呢?zé)任。然而,針對(duì)終端操作員缺乏相關(guān)專業(yè)知識(shí),難以從海量數(shù)據(jù)中篩選出對(duì)數(shù)據(jù)穩(wěn)定性有較大影響且有研究?jī)r(jià)值的問(wèn)題,提出了屬性隸屬度概念。它可以反映出每一種屬性的檢測(cè)結(jié)果。即使在沒(méi)有域?qū)<业那闆r下,終端操作員也能根據(jù)每一種屬性的“屬性從屬程度”來(lái)選擇最適合的探測(cè)屬性。

      屬性隸屬度:數(shù)據(jù)集中任何數(shù)據(jù)的任何屬性,都有一個(gè)相應(yīng)的數(shù)字μ(ω),也就是這個(gè)屬性的屬性隸屬度,μ(ω)即該屬性的編號(hào),表示為

      當(dāng)屬性的μ(omega)值較大時(shí),屬性值波動(dòng)較大,檢測(cè)值較高時(shí),則更容易被檢測(cè)到。μ(omega)值較小時(shí),屬性值波動(dòng)較小,探測(cè)值較低,容易被忽視。

      3.2 改進(jìn)距離度量

      針對(duì)由于數(shù)據(jù)分布不均勻而造成的檢測(cè)準(zhǔn)確率不高的問(wèn)題,對(duì)距離測(cè)量進(jìn)行了改進(jìn),以Minkowski距離作為例子,表示為

      其中λk定義為

      對(duì)于非均勻性數(shù)據(jù),基于公共距離的離群點(diǎn)檢測(cè)方法往往效果不佳[2~4]。當(dāng)數(shù)據(jù)點(diǎn)分布于稠密和稀疏兩種情況下,由k 個(gè)最近鄰點(diǎn)組成的局部區(qū)域具有區(qū)分性。

      根據(jù)傳統(tǒng)的基于距離的離群點(diǎn)檢測(cè)算法,能改變?cè)嫉恼龖B(tài)[18~19]范圍,將頻繁的數(shù)據(jù)點(diǎn)標(biāo)記為離群點(diǎn)[5]。

      圖3 顯示了拋物線形狀的非均勻分布數(shù)據(jù)集。假定A 點(diǎn)是s 數(shù)據(jù)集中的一個(gè)異常點(diǎn),B 點(diǎn)是s數(shù)據(jù)集中的一個(gè)正常點(diǎn),如果B 點(diǎn)到K 個(gè)最近鄰的距離之和大于A 點(diǎn)到K 個(gè)最近鄰的距離之和,傳統(tǒng)的基于距離的算法可能會(huì)將B 點(diǎn)視為一個(gè)異常點(diǎn)并將其視為點(diǎn)A為正常量數(shù)據(jù)點(diǎn)[6~7]。

      圖3 不均勻分布的散點(diǎn)圖

      設(shè)dA(k)

      3.3 基于距離的異常點(diǎn)檢測(cè)算法

      步驟如下所示。

      步驟1:假設(shè)該數(shù)據(jù)經(jīng)過(guò)了標(biāo)準(zhǔn)化,則會(huì)對(duì)該數(shù)據(jù)集的第一個(gè)數(shù)據(jù)和dij其它數(shù)據(jù)之間的距離進(jìn)行比較。

      步驟2:該數(shù)據(jù)點(diǎn)與K 個(gè)最接近的鄰域(K)的距離的總和由步驟1獲得。

      步驟3:計(jì)算K,找出數(shù)據(jù)點(diǎn)與其他數(shù)據(jù)點(diǎn)之間的改進(jìn)距離dMij,kdij。步驟4:循環(huán)步驟1 到步驟3,直到計(jì)算出數(shù)據(jù)集中所有數(shù)據(jù)點(diǎn)的dMij,形成一個(gè)主對(duì)角線元素為0的對(duì)稱矩陣P:

      這個(gè)方法是這樣來(lái)描述的:1)在一個(gè)矩陣P中,每一個(gè)元素都代表兩個(gè)點(diǎn)的間距。舉例來(lái)說(shuō),d12M代表了一個(gè)點(diǎn)與一個(gè)點(diǎn)的間距。2)作為對(duì)矩陣P 中第?i行元數(shù)之和進(jìn)行評(píng)估的一個(gè)重要指標(biāo),該指標(biāo)的數(shù)值愈大,則該指標(biāo)的數(shù)值愈大,則該指標(biāo)的數(shù)值愈小,則該指標(biāo)與其它指標(biāo)的距離愈大。那就意味著,這里的情況要比別的地方更加反常。

      4 實(shí)驗(yàn)設(shè)計(jì)

      實(shí)驗(yàn)選取100 組解釋評(píng)論數(shù)據(jù)進(jìn)行離群點(diǎn)監(jiān)測(cè),每條記錄包含5個(gè)屬性(rop,wob,RPM,TORQUE,gwjs)。通過(guò)怎么算每一個(gè)屬性的值,選值最大的兩個(gè)屬性。經(jīng)篩選后的數(shù)據(jù)集如表2 所示。

      表2 部分?jǐn)?shù)據(jù)集

      在實(shí)驗(yàn)中所用的距離度量為q=2 時(shí)的Minkowski 距離進(jìn)行計(jì)算,即當(dāng)k=30 時(shí),距離和矩陣P為

      由矩陣P 可計(jì)算出100個(gè)?值,對(duì)?值進(jìn)行降序排列,設(shè)用戶期望的異常值為4,則可得到四個(gè)異常點(diǎn),如表3所示。

      表3 異常點(diǎn)檢測(cè)結(jié)果

      表4 機(jī)械比能分級(jí)

      表5 實(shí)驗(yàn)結(jié)果

      根據(jù)輸出結(jié)果,若數(shù)據(jù)點(diǎn)的距離之和為遞減順序,那么可以將前四條記錄,也就是序號(hào)為6、35、100、61 的數(shù)據(jù)與其他點(diǎn)的距離之和最大,從而判斷為異常數(shù)據(jù)。

      5 儲(chǔ)層物性評(píng)價(jià)過(guò)程

      5.1 數(shù)據(jù)歸一化

      數(shù)據(jù)歸一化處理:使用最大最小值歸一化方法[17],公式如下:

      按段尋找相應(yīng)的最大值max 和最小值min,則機(jī)械比能[14]的歸一化如下:

      5.2 物性評(píng)價(jià)

      1)鉆壓和扭矩做功的機(jī)械比能模型[11]:

      式中:WOB 為鉆壓[16],N;Ab 為鉆頭面積[16],m2;T 為扭矩[16],N.m;RPM 為轉(zhuǎn)盤轉(zhuǎn)速,r/min;ROP 為機(jī)械鉆速,m/min;MSE為機(jī)械比能,MPa。

      2)地層物性指數(shù)模型:

      地層物性指數(shù)[15]位于1 附近,1 為正常壓實(shí)地層,該值小于1,機(jī)械比能基值呈現(xiàn)負(fù)異常,指示物性好的地層,該值越低,地層的物性越好。

      3)機(jī)械比能分級(jí)(物性指數(shù))

      5.3 應(yīng)用實(shí)驗(yàn)結(jié)果

      在古城10 井、城探1 井等進(jìn)行了應(yīng)用,在基于距離的異常點(diǎn)檢測(cè)算法基礎(chǔ)上,通過(guò)機(jī)械比能基值線,計(jì)算分析得出物性指數(shù)P,根據(jù)P 值的大小來(lái)評(píng)價(jià)儲(chǔ)層物性的好壞,物性指數(shù)越大,說(shuō)明物性越差,越小說(shuō)明物性越好:Ⅰ好儲(chǔ)層:<0.4;Ⅱ較好儲(chǔ)層0.5~0.4;Ⅲ中等儲(chǔ)層0.63~0.5;較差儲(chǔ)層0.7~0.63;無(wú)效儲(chǔ)層φ<P>0.7。儲(chǔ)層物性[12~13]自動(dòng)評(píng)價(jià)準(zhǔn)確率在88.35%以上。

      6 結(jié)語(yǔ)

      本文所建立的異常點(diǎn)檢測(cè)模型對(duì)儲(chǔ)層物性的評(píng)價(jià)正確率較高,將本模型用于基于機(jī)械比能的儲(chǔ)層的物性自動(dòng)評(píng)價(jià),在誤差允許的范圍內(nèi)可以代替人工。且在古城10 井、城探1 井等進(jìn)行了應(yīng)用,儲(chǔ)層物性自動(dòng)評(píng)價(jià)準(zhǔn)確率在88.35%以上。因此,本模型在儲(chǔ)層物性評(píng)價(jià)方面具有良好的適用性與可行性,具有一定的工程意義和使用價(jià)值。

      猜你喜歡
      離群物性儲(chǔ)層
      R1234ze PVTx熱物性模擬計(jì)算
      能源工程(2022年1期)2022-03-29 01:06:26
      輸導(dǎo)層
      ——北美又一種非常規(guī)儲(chǔ)層類型
      中韓天氣預(yù)報(bào)語(yǔ)篇的及物性分析
      LKP狀態(tài)方程在天然氣熱物性參數(shù)計(jì)算的應(yīng)用
      煤氣與熱力(2021年6期)2021-07-28 07:21:30
      基于儲(chǔ)層構(gòu)型研究的儲(chǔ)層平面非均質(zhì)性表征
      低孔低滲儲(chǔ)層物性下限確定方法及其適用性
      離群數(shù)據(jù)挖掘在發(fā)現(xiàn)房產(chǎn)銷售潛在客戶中的應(yīng)用
      離群的小雞
      應(yīng)用相似度測(cè)量的圖離群點(diǎn)檢測(cè)方法
      低滲透儲(chǔ)層核磁共振可動(dòng)流體研究——以姬塬地區(qū)長(zhǎng)6儲(chǔ)層為例
      彭阳县| 潮安县| 大厂| 安吉县| 威信县| 浏阳市| 马尔康县| 新巴尔虎右旗| 长治市| 乌鲁木齐市| 桃江县| 来安县| 乐清市| 仙游县| 中西区| 墨脱县| 惠东县| 托里县| 衡东县| 虹口区| 克拉玛依市| 永仁县| 武平县| 拉孜县| 林口县| 韩城市| 明星| 衡南县| 枝江市| 讷河市| 张家口市| 铜梁县| 嘉鱼县| 周口市| 红河县| 银川市| 南投县| 永吉县| 上林县| 五大连池市| 灌云县|