• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      深海油氣管道數(shù)據(jù)清洗方法設(shè)計

      2022-09-02 03:47:08趙可天唐建華魏紅秋
      中國海洋平臺 2022年4期
      關(guān)鍵詞:離群對象變量

      趙可天, 唐建華, 倪 劍, 魏紅秋, 董 洋

      (1. 中海油能源發(fā)展裝備技術(shù)有限公司, 天津 300452;2. 東北大學(xué) 信息科學(xué)與工程學(xué)院, 遼寧 沈陽 110819)

      0 引 言

      多源數(shù)據(jù)的采集過程中出現(xiàn)臟數(shù)據(jù),對管道的風(fēng)險評價、腐蝕控制、故障預(yù)警和管道完整性管理產(chǎn)生影響,因此采集數(shù)據(jù)準(zhǔn)確性對后期的決策起到關(guān)鍵的作用[1],準(zhǔn)確且可靠性高的數(shù)據(jù)對管道風(fēng)險評價及后期制定管道維修計劃有良好的輔助作用,且可為管道安全運行提供更有利的保障,更有效地解決油氣管道安全的問題。

      國內(nèi)關(guān)于數(shù)據(jù)清洗研究的成果比較少。剛起步時,國內(nèi)對數(shù)據(jù)清洗的研究[2-7]僅局限在改進(jìn)國外已有的英文算法,現(xiàn)在慢慢地提出基于中文數(shù)據(jù)特色的數(shù)據(jù)清洗研究算法。王曰芬等是國內(nèi)比較早進(jìn)入數(shù)據(jù)清洗研究領(lǐng)域的,他們定義數(shù)據(jù)清洗的含義和基本原理,并給出數(shù)據(jù)清洗的評估方法,對后來進(jìn)入數(shù)據(jù)清洗領(lǐng)域的研究人員提供了一個較好的標(biāo)準(zhǔn)。曹建軍等從數(shù)據(jù)質(zhì)量的方向強(qiáng)調(diào)數(shù)據(jù)清洗的重要性,并設(shè)想一個擴(kuò)展性強(qiáng)、松耦合、交互性好的數(shù)據(jù)清洗框架。葉煥悼等把研究重點放在相似重復(fù)記錄的清洗上,對相似重復(fù)記錄的檢測、相似重復(fù)記錄的清除進(jìn)行深入研究,且考慮到知識層面和語義的重要,并把其引入數(shù)據(jù)清洗框架中。周傲英等的研究重心放在數(shù)據(jù)的不確定性,也是數(shù)據(jù)的多義性,提出運行排序、剪枝等技術(shù)開發(fā)新的數(shù)據(jù)清洗算法,并能夠?qū)?shù)據(jù)的后期處理,如數(shù)據(jù)預(yù)處理及融合、數(shù)據(jù)存儲、數(shù)據(jù)查詢等操作提供幫助。

      目前網(wǎng)絡(luò)上產(chǎn)生大量的像HTML文檔、Web數(shù)據(jù)等半結(jié)構(gòu)化數(shù)據(jù),因其具有層次性、動態(tài)可變性等特點,被廣泛地應(yīng)用于信息傳播,同時不斷被使用的數(shù)據(jù)還包括圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的不斷增加[8]會產(chǎn)生大量的臟數(shù)據(jù),對分析問題產(chǎn)生大量的阻礙,由于這些數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)的編碼方式不同[9],清洗方法不能一并使用,因此需要根據(jù)數(shù)據(jù)具有的特點進(jìn)行清洗技術(shù)的研究[10-11]。

      1 管道數(shù)據(jù)清洗技術(shù)

      數(shù)據(jù)清洗主要清洗的臟數(shù)據(jù)包括離群點值、缺失值和不一致數(shù)據(jù)。數(shù)據(jù)清洗用來完成對臟數(shù)據(jù)的清洗工作,形成一個干凈的數(shù)據(jù)集,數(shù)據(jù)清洗流程包括4個步驟,分別為臟數(shù)據(jù)檢測、臟數(shù)據(jù)處理、數(shù)據(jù)質(zhì)量評價和干凈數(shù)據(jù)回溯。根據(jù)管道內(nèi)檢測數(shù)據(jù)分析系統(tǒng)及日常生產(chǎn)監(jiān)測數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)將臟數(shù)據(jù)分為缺失值和異常值,相應(yīng)的清洗方法包括缺失值的清洗方法和離群點檢測清洗方法[10]。

      2 管道數(shù)據(jù)清洗算法設(shè)計與分析

      2.1 基于回歸插補(bǔ)法的缺失數(shù)據(jù)清洗

      (1) 相關(guān)變量選擇

      假設(shè)觀察樣本A=(xij), 其中,i=1,…,n,j=1,…,m,xij表示第j個日常監(jiān)測屬性第i個采集的數(shù)據(jù),其中m個日常監(jiān)測變量屬性為X1,…,Xm,為了消除管道日常監(jiān)測屬性量綱對分析問題的影響,對日常監(jiān)測數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。

      (1)

      式中:xj和sj分別為第j個日常監(jiān)測變量的管道數(shù)據(jù)樣本均值和樣本標(biāo)準(zhǔn)差;Zij為xij進(jìn)行標(biāo)準(zhǔn)化處理后的數(shù)據(jù)。

      將管道日常監(jiān)測數(shù)據(jù)集A分為A1和A2兩部分:A1中所有單元Z1,…,Zm是無缺失值的樣本,A2的所有單元是含有缺失值的樣本,Zk作為目標(biāo)變量。剔除數(shù)據(jù)A2中第i個單元含缺失值的所有變量,剩余記錄記為Z,再進(jìn)行變量選擇。

      利用皮爾森相關(guān)系數(shù)法對相關(guān)變量與目標(biāo)缺失變量之間進(jìn)行相關(guān)性分析。皮爾森系數(shù)介于-1與1之間,其絕對值越趨近于1,證明2個變量之間的線性關(guān)系越強(qiáng),之后根據(jù)相關(guān)性系數(shù)大小對輔助變量進(jìn)行排序。

      (2) 多元線性回歸插補(bǔ)法

      在管道監(jiān)測數(shù)據(jù)中許多都是連續(xù)型數(shù)據(jù),監(jiān)測數(shù)據(jù)指標(biāo)可以歸結(jié)為m個自變量與某個目標(biāo)缺失變量之間的關(guān)系。選擇n個監(jiān)測樣本,每個監(jiān)測樣本為(yi,x1i,x2i,…,xmi),i=1,…,n。

      如果yi與X1i,X2i,…,Xmi之間存在線性關(guān)系,則上述n組數(shù)據(jù)應(yīng)滿足:

      (2)

      式中:εi為測試誤差,相互獨立且服從N(0,δ2)分布,m

      如果εi不存在,那么yi與xmi之間滿足線性關(guān)系:

      yi=b0+b1x1i+b2x2i+…+bmxmi

      (3)

      (4)

      回歸方程的衡量指標(biāo)可采用均方誤差EMS或者決定系數(shù)R2衡量缺失值插補(bǔ)的精度。

      (5)

      (6)

      (3) 缺失值清洗步驟

      步驟1:輸入含有缺失值的管道系統(tǒng)數(shù)據(jù)集。

      步驟2:對管道全生命周期數(shù)據(jù)構(gòu)成的數(shù)據(jù)集進(jìn)行預(yù)處理。在進(jìn)行數(shù)據(jù)插補(bǔ)前將含有缺失值的記錄和完整的記錄進(jìn)行識別處理。

      步驟3:對去除冗余信息后的屬性進(jìn)行相關(guān)性分析,利用皮爾森相關(guān)系數(shù)法找出與缺失值所在屬性相關(guān)性較高的屬性,形成訓(xùn)練樣本集。

      步驟4:進(jìn)行多元線性回歸插補(bǔ),將管道樣本集分為訓(xùn)練樣本集、測試樣本集和缺失插補(bǔ)集,將訓(xùn)練樣本數(shù)據(jù)集放入回歸插補(bǔ)模型中進(jìn)行訓(xùn)練,建立回歸方程,并計算回歸系數(shù)及擬合回歸曲線。

      步驟5:將完整的數(shù)據(jù)集得到的擬合曲線對測試樣本集的數(shù)據(jù)特征進(jìn)行插補(bǔ),并計算衡量插補(bǔ)精度指標(biāo),若EMS<0.001或R2>0.95,則訓(xùn)練模型達(dá)到要求,將數(shù)據(jù)缺失插補(bǔ)集的數(shù)據(jù)輸入訓(xùn)練后的模型中進(jìn)行插補(bǔ),最后將缺失值插補(bǔ)完成。

      圖1為以均方誤差為標(biāo)準(zhǔn)進(jìn)行缺失值清洗的流程圖。

      圖1 缺失值數(shù)據(jù)清洗流程圖

      2.2 基于密度的局部離群點檢測LOF算法

      經(jīng)典的基于密度的局部離群點檢測算法有局部離群因子(Local Outlier Factor,LOF)算法、ELSC算法等。采用LOF算法對離群點進(jìn)行檢測,并將檢測到的異常點用缺失值填充方法進(jìn)行填充,將數(shù)據(jù)集按照數(shù)據(jù)對象與局部離群因子互相對應(yīng)。

      LOF算法是基于密度的離群點檢測方法中一個比較有代表性的算法。該算法會給數(shù)據(jù)集中的每個點計算一個LOF,通過判斷LOF是否接近于1來判定是否是離群因子。若LOF遠(yuǎn)大于1,則認(rèn)為是離群因子;若LOF接近于1,則是正常點。

      給定對象集為D, LOF算法的相關(guān)定義如下:

      (1) 對象o的k距離。對象o的k距離記為distk(o),是o與目標(biāo)對象p∈D之間的距離dist(o,p),另一個對象P滿足:

      ①至少有k個對象o′∈D{o}, 使得dist(o,o′)≤dist(o,p);

      ②k-1個對象o″∈D{o},使得dist(o,o″)

      (2) 對象o的k距離鄰域。o的k距離鄰域包含鄰域內(nèi)到o的距離不大于distk(o)的所有對象,其是一個點的集合:

      Nk(o)={o′|o′∈D,dist(o,o′)≤distk(o)}

      (7)

      利用Nk(o)中的數(shù)據(jù)對象至o的平均距離計算o的局部密度。但若o具有一個距其非常近的鄰域o′,dist(o,o′)會特別小,導(dǎo)致統(tǒng)計距離度量的波動特別高。因此針對此光滑效果,轉(zhuǎn)換成可達(dá)距離。

      (3) 數(shù)據(jù)對象o相對于數(shù)據(jù)對象o′的可達(dá)距離。若dist(o,o′)>distk(o),則從o′至o的可達(dá)距離是dist(o,o′),否則是distk(o),即k是控制光滑效果的用戶指定的參數(shù),k值越大,鄰域內(nèi)包含的對象就越多。

      (4) 對象o的局部可達(dá)密度。

      (8)

      (5) 對象o的局部離群點因子LOF的數(shù)學(xué)表達(dá)式。

      (9)

      對于日常監(jiān)測管道數(shù)據(jù)集D,其中包含n個對象,p∈D。LOF算法的實現(xiàn)步驟如表1所示。

      表1 LOF算法實現(xiàn)步驟

      該算法是一種基于密度的非監(jiān)督算法,適合對不同密度的數(shù)據(jù)進(jìn)行異常檢測,利用局部離群因子對數(shù)據(jù)對象具備離群點的可能性進(jìn)行計算。該算法在全局和局部離群點的檢測過程中都體現(xiàn)出良好的算法性能。

      3 清洗算法仿真結(jié)果分析

      3.1 基于回歸插補(bǔ)法的缺失數(shù)據(jù)清洗結(jié)果分析

      為驗證管道缺失值清洗的準(zhǔn)確性,隨機(jī)從管道日常監(jiān)測系統(tǒng)中抽取一段時間產(chǎn)生的生產(chǎn)數(shù)據(jù),包括90個樣本、7個屬性。

      (1) 利用皮爾森相關(guān)系數(shù)法篩選出與存在缺失值的目標(biāo)變量相關(guān)性高的屬性,如表2所示,從7個屬性變量中可以看出與缺失值目標(biāo)變量腐蝕速率相關(guān)性高的有H2S、CO2、溶解氧。

      將這3個屬性作為輸入輔助變量,圖2(a)為H2S體積分?jǐn)?shù)與腐蝕速率之間的相關(guān)性曲線,圖2(b)為CO2分壓與腐蝕速率之間的相關(guān)性曲線,圖2(c)為溶解氧質(zhì)量濃度與腐蝕速率之間的相關(guān)性曲線。從圖2屬性間的相關(guān)性曲線可以看出,H2S體積分?jǐn)?shù)、CO2分壓、溶解氧質(zhì)量濃度與腐蝕速率呈正相關(guān)。

      表2 相關(guān)系數(shù)

      (2) 模型訓(xùn)練結(jié)果分析

      變量選擇前后模型擬合預(yù)測與真實數(shù)據(jù)曲線對比如圖3所示,圖3(a)為變量選擇前的預(yù)測與真實擬合曲線,圖3(b)為變量選擇后預(yù)測與真實擬合曲線。由圖3可知:測試曲線與預(yù)測曲線基本能夠重合,沒有較大的誤差點。

      圖2 屬性間相關(guān)性曲線

      圖3 變量選擇前后模型擬合曲線對比

      (3) 模型評價指標(biāo)

      表3為變量選擇前后測試精度對比表。

      缺失樣本插補(bǔ)結(jié)果如表4所示。

      表3 變量選擇前后測試精度對比

      表4 缺失樣本插補(bǔ)結(jié)果

      3.2 基于密度的局部離群點檢測LOF算法仿真結(jié)果分析

      采用的數(shù)據(jù)集來源于內(nèi)檢測數(shù)據(jù)分析系統(tǒng),數(shù)據(jù)集包括3 013個樣本、54個屬性。先對數(shù)據(jù)進(jìn)行簡單的數(shù)據(jù)分析,將固定值的屬性過濾,再對無異常點的離散值進(jìn)行處理,通過描述分析方法發(fā)現(xiàn)缺陷列表中長度、寬度的數(shù)據(jù)分布中具有離群點,利用基于密度的局部離群點檢測LOF算法將離群點篩選出來,然后與k-means聚類算法進(jìn)行對比,選擇離群點檢測精度高的算法。本試驗采用的算法檢測的離群點只針對連續(xù)型屬性,目前只在收集到的連續(xù)型數(shù)值中發(fā)現(xiàn)了離群點,主要在通過計算得出的缺陷長度、寬度、深度中發(fā)現(xiàn)了范圍超限的離群點。同時采用里程點、時鐘方位等數(shù)據(jù)定位離群點位置。從3 013個缺陷信息列表中每隔200個缺陷點抽樣1次,共抽取15個樣本,以其中1個樣本中離群點多的221個缺陷點作為示例進(jìn)行離群點分析。以下是對測試數(shù)據(jù)集進(jìn)行試驗的分析結(jié)果,試驗計算出閾值之后設(shè)置不同k值下離群點正檢率、誤檢率、漏檢率等情況進(jìn)行對比。

      先在221個數(shù)據(jù)集、54個屬性中找到連續(xù)值不斷變化的屬性進(jìn)行分析,分析最大值、最小值、平均值和75%分位數(shù)指標(biāo)以分析數(shù)據(jù)分布情況,如表5所示。

      表5 描述性統(tǒng)計指標(biāo)結(jié)果

      由表5可知,缺陷長度和寬度最大值遠(yuǎn)大于75%分位數(shù),分布較為離散,其他指標(biāo)分布較為集中。從內(nèi)檢測數(shù)據(jù)分析系統(tǒng)中將長度、寬度與真實值進(jìn)行對比發(fā)現(xiàn),檢測出的缺陷長度和寬度超過數(shù)據(jù)應(yīng)該存在的范圍,應(yīng)進(jìn)行離群點檢測,去除與實際值不一致的點,以方便后續(xù)的分析。

      (1) 離群點檢測指標(biāo)分析

      圖4為設(shè)置異常值占總樣本比例0.15時設(shè)置不同k值的離群點檢測的精度對比,展示不同k值下樣本離群點的正檢率與誤檢率、漏檢率的精度對比。

      由圖4可知:當(dāng)k=14時,樣本正檢率為0.96,漏檢率最低,與其他k值相比已達(dá)到最佳。由于正檢率和漏檢率是主要目標(biāo),漏檢率為0.16在當(dāng)前研究問題中已足夠,因此選擇k=14時的LOF算法。接下來將k-means聚類與LOF算法參數(shù)k=14時離群點監(jiān)測精確度進(jìn)行對比。

      圖4 不同k值的離群點檢測精度對比

      (2)k-means算法準(zhǔn)確度分析

      圖5為k-means算法檢測到的離群點分布圖。由圖5可知,當(dāng)設(shè)定閾值為1.9時,k-means算法共檢測到21個離群點,其中有17個離群點檢測正確、4個誤檢、6個漏檢。

      圖5 k-means算法檢測離群點分布

      (3) LOF算法準(zhǔn)確度分析

      利用LOF算法中k=14的檢測結(jié)果進(jìn)行分析,離群點分布如圖6所示。

      圖6 LOF算法檢測離群點分布

      由圖6可知:共檢出28個離群點,其中有24個離群點被正確檢測、1個漏檢、4個被誤檢。LOF算法具體檢測結(jié)果精度與k-means算法對比如表6所示。

      表6 LOF與k-means算法檢測精度對比 %

      由表6可知:LOF離群點檢測算法正檢率達(dá)96%,比k-means離群點檢測算法高41.18%;在誤檢率和漏檢率方面LOF離群點檢測算法比k-means算法低,其中漏檢率LOF離群點檢測算法遠(yuǎn)低于k-means算法。因此,LOF檢測算法在檢測離群點上精度較高,可用于管道領(lǐng)域連續(xù)值的離群點檢測。

      4 結(jié) 論

      提出數(shù)據(jù)缺失值插補(bǔ)算法和數(shù)據(jù)離群點檢測算法,主要應(yīng)用數(shù)理統(tǒng)計及數(shù)據(jù)挖掘算法清洗數(shù)據(jù)缺失值及離群點檢測,數(shù)據(jù)中的缺失值形式分為連續(xù)值和離散值,在缺失值插補(bǔ)算法中提出多元線性回歸插補(bǔ)法,對檢測的缺失值進(jìn)行合理化插補(bǔ)。對于管道數(shù)據(jù)中的離群點利用基于密度的局部離群點檢測算法,將檢測出的離群點進(jìn)行仿真測試,并將離群點精度與k-means算法進(jìn)行比較,基于密度的離群點檢測算法得到較高的檢測精度,建立最優(yōu)的檢測模型,為后續(xù)的數(shù)據(jù)分析工作打下良好的基礎(chǔ)。

      猜你喜歡
      離群對象變量
      神秘來電
      睿士(2023年2期)2023-03-02 02:01:09
      抓住不變量解題
      也談分離變量
      攻略對象的心思好難猜
      意林(2018年3期)2018-03-02 15:17:24
      基于熵的快速掃描法的FNEA初始對象的生成方法
      離群數(shù)據(jù)挖掘在發(fā)現(xiàn)房產(chǎn)銷售潛在客戶中的應(yīng)用
      區(qū)間對象族的可鎮(zhèn)定性分析
      SL(3,3n)和SU(3,3n)的第一Cartan不變量
      離群的小雞
      分離變量法:常見的通性通法
      大城县| 如皋市| 维西| 宁陕县| 新竹市| 赤壁市| 黄浦区| 边坝县| 准格尔旗| 泸溪县| 蒙自县| 石家庄市| 宁都县| 台东县| 霍林郭勒市| 文山县| 布尔津县| 星子县| 自治县| 哈巴河县| 岳阳市| 来凤县| 晋江市| 随州市| 奉贤区| 巢湖市| 杨浦区| 福泉市| 香格里拉县| 彰化县| 桓仁| 民勤县| 垫江县| 安溪县| 田阳县| 万全县| 阿巴嘎旗| 阳原县| 安宁市| 新沂市| 上饶县|