• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      采油工程領(lǐng)域的數(shù)據(jù)清洗方法研究

      2023-05-30 16:03:33吳運(yùn)馳馬慶宋波張永峰
      電腦知識(shí)與技術(shù) 2023年3期
      關(guān)鍵詞:數(shù)據(jù)質(zhì)量大數(shù)據(jù)分析

      吳運(yùn)馳 馬慶 宋波 張永峰

      關(guān)鍵詞: 大數(shù)據(jù)分析;油田數(shù)據(jù);數(shù)據(jù)清洗;數(shù)據(jù)質(zhì)量;貝葉斯反演

      中圖分類號(hào):G642 文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1009-3044(2023)03-0086-03

      1 引言

      隨著數(shù)據(jù)存儲(chǔ)設(shè)備飛速進(jìn)步,以及分布式計(jì)算技術(shù)突破性的進(jìn)展,原本只出現(xiàn)學(xué)術(shù)領(lǐng)域中的大數(shù)據(jù)、深度學(xué)習(xí)和人工智能等技術(shù)出現(xiàn)在大眾日常生活的各個(gè)角落。大慶油田在信息化領(lǐng)域深耕多年,善于利用新技術(shù)、新方法提高油田管理水平。將大數(shù)據(jù)技術(shù)與油田數(shù)據(jù)相結(jié)合,指導(dǎo)生產(chǎn),降本增效,可以進(jìn)一步促進(jìn)大慶油田向智能化、智慧化油田方向轉(zhuǎn)型。大數(shù)據(jù)技術(shù)的核心是數(shù)據(jù),數(shù)據(jù)質(zhì)量直接決定了大數(shù)據(jù)分析的效果。

      2 油田數(shù)據(jù)情況

      大慶油田在信息化建設(shè)上已經(jīng)布局多年,基礎(chǔ)設(shè)施建設(shè)較為完善,建立了涵蓋所有數(shù)據(jù)的統(tǒng)建系統(tǒng),實(shí)現(xiàn)每日的生產(chǎn)數(shù)據(jù)實(shí)時(shí)上傳,存儲(chǔ)的數(shù)據(jù)量極大,但這海量的油田數(shù)據(jù),卻不能直接用于大數(shù)據(jù)分析,因?yàn)楫?dāng)前數(shù)據(jù)存在以下問(wèn)題:

      1) 低價(jià)值數(shù)據(jù)。隨著石油不斷產(chǎn)出,地下油層環(huán)境會(huì)不斷變化,多年前的油水井產(chǎn)油產(chǎn)液數(shù)據(jù)、地質(zhì)數(shù)據(jù)對(duì)于現(xiàn)在的產(chǎn)油產(chǎn)液量分析參考價(jià)值較低。

      2) 數(shù)據(jù)存儲(chǔ)位置分散。在油田公司推行統(tǒng)建系統(tǒng)之前,部分二級(jí)單位已經(jīng)進(jìn)行了信息化建設(shè),建立了自己的數(shù)據(jù)庫(kù)系統(tǒng)和軟件系統(tǒng),并已投入日常使用。在推行統(tǒng)建系統(tǒng)后,存在二級(jí)單位繼續(xù)使用原有數(shù)據(jù)庫(kù)的情況,許多數(shù)據(jù)分別存儲(chǔ)在二級(jí)單位自建的數(shù)據(jù)庫(kù)和統(tǒng)建系統(tǒng)中,數(shù)據(jù)獲取難度較大。

      3) 存在缺失值、異常值。隨著大慶油田信息化進(jìn)程的不斷推進(jìn),統(tǒng)建系統(tǒng)中數(shù)據(jù)的完整性、及時(shí)性和準(zhǔn)確性有了極大提升。但油田信息化早期錄入的數(shù)據(jù),由于當(dāng)時(shí)操作環(huán)境的限制,存在部分?jǐn)?shù)據(jù)缺失、數(shù)值異常等問(wèn)題。

      要從這些海量、復(fù)雜的數(shù)據(jù)中提取出有價(jià)值的數(shù)據(jù),提高大數(shù)據(jù)分析的準(zhǔn)確性,關(guān)鍵在于高質(zhì)量的數(shù)據(jù)清洗。

      3 常規(guī)數(shù)據(jù)清洗方法

      針對(duì)這些數(shù)據(jù)量大、格式不一、包含重復(fù)值和缺失值的數(shù)據(jù),常規(guī)的數(shù)據(jù)清洗方法通常包括:

      1) 定期更新。通過(guò)連接目標(biāo)數(shù)據(jù)庫(kù),設(shè)置定時(shí)任務(wù),不斷獲取最新數(shù)據(jù),為之后的數(shù)據(jù)清洗、分析、預(yù)測(cè)提供良好的數(shù)據(jù)支持。

      2) 統(tǒng)一格式。將日期、數(shù)值、全半角、大小寫(xiě)等顯示格式進(jìn)行統(tǒng)一化處理,將原有列名修改為對(duì)應(yīng)的中文名,去除數(shù)據(jù)中的空格。

      3) 清理無(wú)效數(shù)據(jù)。由重復(fù)錄入導(dǎo)致的重復(fù)數(shù)據(jù),明顯超出有意義的范圍的數(shù)據(jù),經(jīng)過(guò)對(duì)比驗(yàn)證后,直接去除。

      4) 缺失值填充。通過(guò)同類數(shù)據(jù)的均值、中位數(shù)或眾數(shù)進(jìn)行填充,關(guān)聯(lián)性弱的缺失數(shù)據(jù)也可假定為0,或從數(shù)據(jù)來(lái)源的相關(guān)材料中提取補(bǔ)充。

      通過(guò)常規(guī)數(shù)據(jù)清洗方法處理的油田數(shù)據(jù),在使用大數(shù)據(jù)方法分析預(yù)測(cè)后,預(yù)測(cè)結(jié)果缺少明顯的規(guī)律,效果較差。通過(guò)對(duì)處理后的數(shù)據(jù)進(jìn)行比對(duì)后發(fā)現(xiàn),由于油田統(tǒng)建系統(tǒng)中包含的業(yè)務(wù)類型復(fù)雜,并包含大量空數(shù)據(jù),常規(guī)的數(shù)據(jù)清洗方法無(wú)法進(jìn)行有效處理,導(dǎo)致最終結(jié)果不佳。

      4 采油工程領(lǐng)域的數(shù)據(jù)清洗方法

      對(duì)于常規(guī)數(shù)據(jù)清洗方法在油田數(shù)據(jù)的處理過(guò)程中遇到的難點(diǎn),通過(guò)對(duì)數(shù)據(jù)范圍,數(shù)據(jù)格式及缺失數(shù)據(jù)的深入研究,設(shè)計(jì)出一套針對(duì)性的處理方案,解決采油工程領(lǐng)域的數(shù)據(jù)清洗問(wèn)題,并在壓裂措施數(shù)據(jù)的處理上進(jìn)行應(yīng)用。

      4.1 確定數(shù)據(jù)范圍

      大慶油田的統(tǒng)建系統(tǒng)中,包含了油田相關(guān)的所有數(shù)據(jù)類型,上千張數(shù)據(jù)表,部分?jǐn)?shù)據(jù)項(xiàng)之間沒(méi)有任何業(yè)務(wù)關(guān)聯(lián),不同數(shù)據(jù)表中的相同名稱的數(shù)據(jù)項(xiàng)還會(huì)起到干擾作用,需要結(jié)合待分析業(yè)務(wù)的業(yè)務(wù)方式,選擇與之相對(duì)應(yīng)的數(shù)據(jù)表。

      在壓裂措施效果數(shù)據(jù)的選擇上,通過(guò)與實(shí)際壓裂業(yè)務(wù)相結(jié)合,選取了地質(zhì)參數(shù)、井史數(shù)據(jù)、層位信息、生產(chǎn)數(shù)據(jù)、增產(chǎn)措施參數(shù)等20余張數(shù)據(jù)表,114項(xiàng)數(shù)據(jù)字段。

      4.2 數(shù)據(jù)表合并

      壓裂措施效果通常以單井?dāng)?shù)據(jù)前后變化進(jìn)行分析,所有相關(guān)數(shù)據(jù)需要通過(guò)井號(hào)串聯(lián)在一起,而地層數(shù)據(jù)、井?dāng)?shù)據(jù)、生產(chǎn)數(shù)據(jù)的維度不同,需要增加和減少維度實(shí)現(xiàn)井號(hào)與相關(guān)數(shù)據(jù)項(xiàng)的一一對(duì)應(yīng)。

      1) 壓裂數(shù)據(jù)處理

      使用“井號(hào)/壓裂日期/施工井段頂深/施工井段底深”產(chǎn)生聯(lián)合索引并分組聚合,對(duì)數(shù)值型數(shù)據(jù)求和處理;

      聯(lián)合索引增加壓裂類型、壓裂液名稱、支撐劑名稱、壓裂液類型、廠名信息,重新分組聚合,對(duì)string類型數(shù)據(jù)進(jìn)行合并處理;將處理后的數(shù)值型數(shù)據(jù)和字符型數(shù)據(jù)進(jìn)行合并操作。

      2) 地層數(shù)據(jù)選取與處理

      通過(guò)井號(hào)將層位數(shù)據(jù)和射孔數(shù)據(jù)合并,計(jì)算合并結(jié)果中“| 砂巖頂深”-“井段頂深”|,差值絕對(duì)值結(jié)果小于等于0.2,采用層位表對(duì)應(yīng)數(shù)據(jù),差值大于0.2,則使用射孔表中的對(duì)應(yīng)數(shù)據(jù)。

      3) 壓裂與地層數(shù)據(jù)合成處理

      將之前處理好的壓裂數(shù)據(jù)與地層數(shù)據(jù)通過(guò)井號(hào)進(jìn)行合并;

      用“井號(hào)”“/ 施工井段頂深”“/ 施工井段底深”生成新數(shù)據(jù)字段“index”;

      將“index”和“有效厚度”兩列數(shù)據(jù)按照“index”進(jìn)行分組加和操作,合成新的有效厚度;

      將滲透率、孔隙度、含油飽和度與有效厚度的乘積,分別與“index”進(jìn)行分組加和,得到的結(jié)果與新生成的有效厚度相除,合成新的滲透率、孔隙度與含油飽和度;

      將上述步驟生成的新表與壓裂數(shù)據(jù)通過(guò)“index”進(jìn)行合并,去除存在空值的行數(shù)據(jù)即完成壓裂地層數(shù)據(jù)合并。

      4) 壓裂地層數(shù)據(jù)與井史數(shù)據(jù)合并

      通過(guò)壓裂地層表中的井號(hào)對(duì)井史生產(chǎn)數(shù)據(jù)進(jìn)行篩選;根據(jù)壓裂地層表中的“壓裂日期”信息,對(duì)已經(jīng)按照井號(hào)篩選出來(lái)的井史數(shù)據(jù)進(jìn)行再次篩選,計(jì)算出7天、180天、360天的各種產(chǎn)量數(shù)據(jù);將計(jì)算出的產(chǎn)量數(shù)據(jù)與壓裂地層表合并,得到最終的壓裂數(shù)據(jù)總表。

      4.3 相關(guān)性分析

      由于數(shù)據(jù)表中存在大量缺失數(shù)據(jù),對(duì)缺失數(shù)據(jù)的處理方法尤為重要,與業(yè)務(wù)關(guān)聯(lián)性高的數(shù)據(jù)要重點(diǎn)處理,關(guān)聯(lián)性不強(qiáng)的數(shù)據(jù)根據(jù)后續(xù)分析結(jié)果再?zèng)Q定是否補(bǔ)全。

      判斷數(shù)據(jù)項(xiàng)的重要性,必須明確待分析的對(duì)象,及分析結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)。壓裂效果是否良好,注重的是壓后產(chǎn)量情況,通過(guò)皮爾遜系數(shù)和協(xié)方差進(jìn)行相關(guān)性分析,將壓后產(chǎn)量數(shù)據(jù)作為目標(biāo)值,將其他數(shù)據(jù)與產(chǎn)量數(shù)據(jù)的相關(guān)性進(jìn)行排序,通過(guò)排序結(jié)果劃分字段的重要程度。

      4.4 缺失值處理

      結(jié)合相關(guān)性分析結(jié)果與缺失值處理策略,制定了三種缺失值填充方法:均值填充、業(yè)務(wù)資料填充、貝葉斯反演填充。

      4.4.1 均值填充

      孔隙度、滲透率、含油飽和度、有效厚度等地層數(shù)據(jù),在相同區(qū)塊,相同層位數(shù)據(jù)基本一致。使用區(qū)塊、層位數(shù)據(jù)進(jìn)行篩選,將相同區(qū)塊、層位的缺失數(shù)據(jù)以已有數(shù)據(jù)的均值進(jìn)行填充。

      4.4.2 業(yè)務(wù)資料填充

      壓裂措施數(shù)據(jù)中壓裂液名稱、壓裂液用量、壓裂類型等缺失數(shù)據(jù),可以通過(guò)壓裂井的設(shè)計(jì)、施工總結(jié)等文檔材料進(jìn)行填充。

      4.4.3 貝葉斯反演填充

      反演是指由結(jié)果出發(fā)去確定參數(shù),解決參數(shù)無(wú)法直接獲取的難題,一個(gè)優(yōu)秀的反演模型,可以通過(guò)產(chǎn)量數(shù)據(jù)推算出地層數(shù)據(jù)及措施數(shù)據(jù)。貝葉斯反演的優(yōu)勢(shì):

      1) 充分利用先驗(yàn)知識(shí),可以用多維概率密度函數(shù)的形式(例如高斯分布)來(lái)描述模型參數(shù)的先驗(yàn)知識(shí)。

      2) 在先驗(yàn)信息的背景上,根據(jù)觀測(cè)數(shù)據(jù),縮小模型參數(shù)的分布范圍,獲得反演問(wèn)題的解的后驗(yàn)概率密度分布。

      3) 后驗(yàn)概率分布揭示了模型參數(shù)值的最可能分布。

      貝葉斯定理:

      P(m):模型參數(shù)的先驗(yàn)概率分布;

      P(d):地質(zhì)條件的先驗(yàn)概率分布,可視作常數(shù);

      P(d | m):給定模型參數(shù)條件下的似然概率;

      σ(m | d):組合先驗(yàn)信息和似然概率得到的模型參數(shù)后驗(yàn)概率;

      反演結(jié)果是否在合理的范圍內(nèi),通過(guò)模型的均值、方差和后驗(yàn)概率分布來(lái)評(píng)價(jià)和預(yù)測(cè)反演結(jié)果,徹底脫離對(duì)人工判定的依賴。

      貝葉斯反演方法的主要流程如下:

      1) 根據(jù)地質(zhì)參數(shù)、措施參數(shù)和生產(chǎn)數(shù)據(jù)的相關(guān)性,確定出反演模型的先驗(yàn)概率分布;

      2) 將參數(shù)的先驗(yàn)概率分布作為約束條件,建立初始模型;

      3) 使用模型進(jìn)行正演模擬,并計(jì)算模擬結(jié)果與觀測(cè)數(shù)據(jù)的能量值及似然函數(shù);

      4) 如果模型結(jié)果符合要求,則保存模型,然后修改模型參數(shù)建立新模型;

      重復(fù)步驟3、4得到更多的模型樣本。

      對(duì)所有反演出的模型樣本進(jìn)行統(tǒng)計(jì)計(jì)算,得到模型的均值、方差和后驗(yàn)概率分布;

      最終得到的均值模型與原始模型的相關(guān)性高,在數(shù)據(jù)有噪聲的情況下仍能給出準(zhǔn)確的結(jié)果。

      通過(guò)上述針對(duì)采油工程領(lǐng)域數(shù)據(jù)的清理方法,將原本位置散亂、缺失值多、格式各異的油田數(shù)據(jù)整理為種類多、相關(guān)性強(qiáng)、數(shù)據(jù)量大的優(yōu)質(zhì)數(shù)據(jù),對(duì)壓裂措施效果進(jìn)行分析預(yù)測(cè)時(shí),較未處理的數(shù)據(jù),分析結(jié)果準(zhǔn)確性有顯著提升。

      5 結(jié)論

      高質(zhì)量的數(shù)據(jù)清洗是利用大數(shù)據(jù)技術(shù)輔助決策者做出正確策略的重要前提。目前國(guó)內(nèi)外現(xiàn)有的數(shù)據(jù)清洗方法往往是應(yīng)對(duì)常見(jiàn)數(shù)據(jù)的通用方法,在對(duì)海量多源異構(gòu)的油田數(shù)據(jù)的處理上,效果不佳。結(jié)合采油工程領(lǐng)域的專業(yè)知識(shí),通過(guò)數(shù)據(jù)范圍選取、數(shù)據(jù)格式整理及缺失數(shù)據(jù)填充,形成了一套針對(duì)采油工程領(lǐng)域的數(shù)據(jù)清洗方法。

      結(jié)果表明,本文方案對(duì)油田數(shù)據(jù)進(jìn)行處理后,對(duì)比普通數(shù)據(jù)清洗方法,在大數(shù)據(jù)分析預(yù)測(cè)中具有明顯優(yōu)勢(shì)。

      猜你喜歡
      數(shù)據(jù)質(zhì)量大數(shù)據(jù)分析
      大數(shù)據(jù)分析對(duì)提高教學(xué)管理質(zhì)量的作用
      亞太教育(2016年36期)2017-01-17 17:26:50
      基于大數(shù)據(jù)分析的電力通信設(shè)備檢修影響業(yè)務(wù)自動(dòng)分析平臺(tái)研究與應(yīng)用
      面向大數(shù)據(jù)遠(yuǎn)程開(kāi)放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
      面向大數(shù)據(jù)分析的信息管理實(shí)踐教學(xué)體系構(gòu)建
      傳媒變局中的人口電視欄目困境與創(chuàng)新
      科技傳播(2016年19期)2016-12-27 14:35:21
      電子商務(wù)平臺(tái)數(shù)據(jù)質(zhì)量控制系統(tǒng)及仿真模型分析
      大數(shù)據(jù)分析的移動(dòng)端在網(wǎng)絡(luò)課堂教學(xué)中的應(yīng)用
      強(qiáng)化統(tǒng)計(jì)執(zhí)法提高數(shù)據(jù)質(zhì)量
      淺析統(tǒng)計(jì)數(shù)據(jù)質(zhì)量
      金融統(tǒng)計(jì)數(shù)據(jù)質(zhì)量管理的國(guó)際借鑒與中國(guó)實(shí)踐
      逊克县| 合肥市| 通许县| 泉州市| 龙山县| 前郭尔| 西乌| 大安市| 都兰县| 白沙| 环江| 阳信县| 永安市| 徐水县| 永善县| 宝鸡市| 襄城县| 安新县| 榆树市| 岳阳县| 天长市| 榕江县| 抚远县| 吐鲁番市| 陕西省| 茂名市| 合肥市| 岑溪市| 竹山县| 遵化市| 永顺县| 大渡口区| 永安市| 舞钢市| 凭祥市| 江源县| 宝清县| 手游| 渑池县| 安宁市| 鹿泉市|