• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于機器學(xué)習(xí)的單井套損預(yù)測方法

      2020-07-29 08:59:54趙艷紅姜漢橋李洪奇劉洪濤韓大偉王英男劉燦超
      關(guān)鍵詞:損井特征參數(shù)單井

      趙艷紅, 姜漢橋, 李洪奇, 劉洪濤, 韓大偉, 王英男, 劉燦超

      (1.中國石油大學(xué)(北京)石油工程學(xué)院,北京 102249; 2.中國石油大學(xué)(北京)石油數(shù)據(jù)挖掘北京市重點實驗室,北京 102249; 3.中國石油大學(xué)(北京)人工智能學(xué)院,北京 102249; 4.中國石油大慶油田第七采油廠,黑龍江大慶 163517)

      套管損壞是地質(zhì)、工程、開發(fā)等因素長期共同作用的結(jié)果[1-6],其中地質(zhì)因素和工程因素是內(nèi)因,開發(fā)因素是外因。套管損壞直接影響油田的正常生產(chǎn),如何確定套損主控因素、建立套損預(yù)測模型、科學(xué)地指導(dǎo)套損井的防控治理具有重要意義。國內(nèi)外學(xué)者將多個領(lǐng)域的技術(shù)相結(jié)合展開大量研究工作,主要分為套損機制研究和機器學(xué)習(xí)方法研究。套損機制研究大多以定性分析為主,從單項技術(shù)或者單因素切入[7-18],相應(yīng)的研究方法有數(shù)值模擬法[19-22]、有限元法[23-24]等。由于影響套管損壞的各個因素之間存在著非線性、不確定性和時變性等特點,使得該方法具有一定的局限性和獨立性。隨著數(shù)據(jù)科學(xué)的發(fā)展,機器學(xué)習(xí)技術(shù)為石油勘探開發(fā)的智能評價提供一種新思路和新方法[25-34]。數(shù)據(jù)是機器學(xué)習(xí)的基礎(chǔ),對模型效果的評估起著重要作用,而石油數(shù)據(jù)的復(fù)雜性使得機器學(xué)習(xí)數(shù)據(jù)集的創(chuàng)建面臨嚴峻挑戰(zhàn)。選擇不同的影響因素,即使采用相同的算法參數(shù),模型應(yīng)用效果也會千差萬別。因此明確業(yè)務(wù)主題、融合多源數(shù)據(jù)、提取特征參數(shù)、構(gòu)建機器學(xué)習(xí)樣本集至關(guān)重要。筆者基于數(shù)據(jù)驅(qū)動的理念,選擇油水井的開發(fā)動態(tài)數(shù)據(jù)生成時間序列集,然后提取特征參數(shù)建立機器學(xué)習(xí)模型,實現(xiàn)單井套損主控因素的分析與預(yù)測。

      1 單井套損評價指標

      套損開發(fā)影響因素包括高壓注水、區(qū)塊壓差、配注完成情況、鉆關(guān)規(guī)律等因素,這些影響因素最終表征在數(shù)據(jù)上。例如油水井的生產(chǎn)數(shù)據(jù)能夠體現(xiàn)生產(chǎn)狀況,測壓數(shù)據(jù)反映不同時期油水井的靜壓、流壓等地層參數(shù)與生產(chǎn)能力,吸水剖面資料可以了解水井各小層的吸入狀況、顯示井下工具以及判斷套管的竄槽,措施數(shù)據(jù)庫記錄為使油水井達到增產(chǎn)增注的目的所采取的各種作業(yè)。在大數(shù)據(jù)時代,這些油水井的動態(tài)分析資料為套損井的智能化分析與預(yù)測提供最基礎(chǔ)的數(shù)據(jù)支撐。套損開發(fā)影響因素與數(shù)據(jù)之間的關(guān)系如表1所示。

      表1 套損開發(fā)影響因素與相關(guān)數(shù)據(jù)

      根據(jù)套損開發(fā)影響因素在不同數(shù)據(jù)對象中的表現(xiàn)特征,設(shè)計注水井和采油井的套損評價指標,如表2所示。注水井指標包括最大允許注水壓力、高壓注水天數(shù)、壓差、注水強度、配注完成百分比等17項,采油井指標包括油壓、產(chǎn)液強度、含水率等12項。

      表2 單井套損開發(fā)指標計算

      2 單井套損樣本構(gòu)建技術(shù)

      基于機器學(xué)習(xí)的應(yīng)用研究一般包括數(shù)據(jù)預(yù)處理、特征工程、模型訓(xùn)練與評估、模型應(yīng)用。樣本是各類機器學(xué)習(xí)算法的輸入,樣本質(zhì)量、大小以及維度對模型的訓(xùn)練結(jié)果有著直接的影響。單井套損樣本構(gòu)建的主要技術(shù)為數(shù)據(jù)預(yù)處理、特征參數(shù)計算及特征降維。

      2.1 數(shù)據(jù)預(yù)處理

      2.1.1 缺失值處理

      油田開發(fā)過程中,由于鉆井、井下作業(yè)、工況等各種原因,某些月份的生產(chǎn)監(jiān)測數(shù)據(jù)(例如油壓、套壓、注水量等)缺失,此時需要進行缺失值的處理。在多元時間序列中,數(shù)據(jù)缺失的情況十分普遍。時間序列缺失值處理方法主要有3大類:第1類是直接刪除法,該方法可能會舍棄數(shù)據(jù)中的一些重要信息;第2類是基于統(tǒng)計學(xué)的填充方法,如均值填充、常用值填充、中值填充,但是此類方法忽略數(shù)據(jù)的時序信息;第3類是基于機器學(xué)習(xí)的填充方法,比較常見的是基于KNN、RNN、EM和矩陣分解的缺失值填充算法[35-37],然而這類方法也很少考慮到兩個相鄰數(shù)據(jù)間的時序信息。在處理缺失值的時候,要具體問題具體分析。特別是石油數(shù)據(jù),每一個數(shù)值都反映當時復(fù)雜的物理意義、地質(zhì)含義或者工程含義,需要在對業(yè)務(wù)和數(shù)據(jù)充分理解的基礎(chǔ)上,采用專業(yè)的方法進行處理。例如在計算指標配注完成百分比的時候,需要提取不同日期的日注水量和日配注水量。日注水量在注水井生產(chǎn)過程中會實時監(jiān)測,數(shù)據(jù)的連續(xù)性比較好。但是日配注水量來源于注水方案的調(diào)整,存在很多缺失值,如圖1(a)所示。由于缺失值的存在,導(dǎo)致對應(yīng)日期的配置完成百分比無法計算。為了確保樣本的完整性,在對油田注水開發(fā)業(yè)務(wù)了解的基礎(chǔ)上,對此類缺失值,可以將時間向前追溯,采用最鄰近時間數(shù)據(jù)進行補齊。處理后的日配注水量與日注水量時間變化曲線如圖1(b)所示。

      圖1 缺失值處理前后日配注水量與日注水量

      2.1.2 平滑

      圖2 注水壓力不同平滑方法擬合

      2.1.3 數(shù)據(jù)差分

      時間序列平滑后,需要通過有效的手段提取序列中蘊含的確定性信息。大量的案例證明差分運算是一種非常簡便、有效的確定性信息提取方法[39],可以避免單個數(shù)據(jù)異常值對整體趨勢的影響(圖3)。

      圖3 注水壓力一階差分時序

      2.2 時間序列特征參數(shù)提取

      在建立的套損開發(fā)指標中,有11個時間序列指標。由于時間序列數(shù)據(jù)維數(shù)高,數(shù)據(jù)量大,直接使用時間序列進行機器學(xué)習(xí)建模會增加模型的復(fù)雜度。通過提取時間序列的基本統(tǒng)計特征和時域特征來實現(xiàn)時間序列的降維處理?;窘y(tǒng)計特征包括均值、中位數(shù)、眾數(shù)、四分位數(shù)、極差、方差、標準差、變異系數(shù)、變化率、幅度和、波峰、波谷以及偏度和峰度。在實際應(yīng)用中,時間序列是由趨勢、周期性、隨機波動通過加法模型或者乘法模型組合而成的序列[40]。

      加法模型公式為

      Yt=Tt+St+It,t=1,2,…,n.

      (1)

      乘法模型公式為

      Yt=TtStIt,t=1,2,…,n.

      在校企共同育人過程中,雙方根據(jù)每門課程的特點,制訂了詳細的授課計劃,由專人負責(zé),除《草坪基礎(chǔ)》、《制圖技術(shù)》等幾門課程是由校內(nèi)老師負責(zé)外,其他課程都是有校內(nèi)教師和合作球場技術(shù)人員共同負責(zé),有些課程直接由企業(yè)技術(shù)人員講授。雙方共同制定每門課程的考核方案,根據(jù)學(xué)生理論課和實踐表現(xiàn)綜合評定最后成績。在企業(yè)學(xué)習(xí)階段,在授課過程中根據(jù)俱樂部工作計劃,制定出上課時間和形式,一般是周一、周二、周三以理論講述為主,周四至周六以實踐操作為主。

      (2)

      式中,Tt表示趨勢,是時間序列在長時期內(nèi)呈現(xiàn)出來的某種持續(xù)上升或持續(xù)下降的變動;St代表序列的周期性變化,是時間序列中呈現(xiàn)出來的圍繞長期趨勢的一種波浪形或振蕩式波動;It代表隨機波動,是由于偶然性因素對時間序列產(chǎn)生的影響。

      對注水壓力進行時間序列的波動趨勢分解,并提取序列的主要成分,如圖4所示。在油田開發(fā)過程中,由于鉆井施工、酸化壓裂等作業(yè)的影響,需要對部分井進行長時間或者短時間關(guān)井。關(guān)井后,油水井各項生產(chǎn)指標為0,此時的隨機波動較大。在進行套損影響因素分析的時候,鉆關(guān)是其中的一個因素,可以通過時間序列特征量化鉆關(guān)指標。

      圖4 注水壓力時間序列分解

      最終提取的時間序列特征項如表3所示。

      表3 時間序列特征項

      2.3 特征參數(shù)相似性分析

      針對每一個時間序列指標,提取波峰、波谷、趨勢、周期等17個特征項,最終一個單井樣本就有上百個特征。事實上并不是特征越多,模型效果就越好。當特征數(shù)量超過一定閾值的時候,模型性能下降,甚至出現(xiàn)維度災(zāi)難現(xiàn)象[41]。一般情況下,訓(xùn)練樣本的數(shù)量是隨著特征維度的增加而呈指數(shù)增長的,否則就會出現(xiàn)過擬合。但是在石油勘探開發(fā)領(lǐng)域能夠得到的樣本數(shù)量一般是有限的。高維數(shù)據(jù)一般包含許多無關(guān)或者冗余特征的觀測值。圖5中給出某斷塊注水井特征參數(shù)的相關(guān)性檢測矩陣圖,對于相關(guān)性較高的特征參數(shù),只保留一個即可。例如油層中深、破裂壓力、最大允許注水壓力、油層頂深的相關(guān)性為1,存在冗余屬性,保留其中一個即可;時間序列的分布參數(shù)四分位數(shù)、眾數(shù)、平均值相關(guān)性大于0.75,保留平均值。

      圖5 特征參數(shù)相關(guān)性檢測矩陣

      根據(jù)相關(guān)性系數(shù),對特征參數(shù)進行分類,如圖6所示,自右向左各個特征逐層進行合并。縱坐標表示特征參數(shù),橫坐標代表該高度特征之間合并的判定值,即一類中的點與其他類中點的平均距離。

      圖6 注水井特征參數(shù)層次聚類

      3 基于機器學(xué)習(xí)的套損分析方法

      機器學(xué)習(xí)算法在大數(shù)據(jù)分析技術(shù)中占據(jù)著重要的地位,涵蓋分類與預(yù)測、聚類方法、關(guān)聯(lián)分析等上百種算法。然而機器學(xué)習(xí)算法的重要理論基礎(chǔ)是經(jīng)典統(tǒng)計學(xué),其主要研究內(nèi)容是樣本數(shù)目趨于無窮大時的漸進理論。由于石油探勘開發(fā)的主要特點,經(jīng)過區(qū)塊、井、層、時間等限制后,用于建模的樣本一般是有限的。隨機森林和支持向量機是常用的小樣本機器學(xué)習(xí)方法,在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢,筆者主要采用這兩種算法建立單井套損預(yù)測模型。

      3.1 樣本生成

      選擇PB4斷塊47口注水井(套損井25口,非套損井22口)進行分析,數(shù)據(jù)范圍涵蓋自投產(chǎn)日期開始,直至2018年12月的所有生產(chǎn)動態(tài)數(shù)據(jù),包括生產(chǎn)數(shù)據(jù)、措施數(shù)據(jù)、測壓數(shù)據(jù)、配水方案數(shù)據(jù)以及吸水剖面數(shù)據(jù)等。其中注水井生產(chǎn)數(shù)據(jù)約25×104條記錄。對原始數(shù)據(jù)進行數(shù)據(jù)預(yù)處理、時間特征參數(shù)提取、特征降維,最終形成單井套損分析樣本集(表4),包括11個指標、85個特征參數(shù)。

      表4 單井套損分析樣本

      3.2 特征重要性評估

      在很多情況下,統(tǒng)計學(xué)習(xí)建模的目的不僅是建立一個準確的預(yù)測模型,一般也希望能夠評估輸入特征對模型預(yù)測的重要性。在輸入特征維度較高的情況下,可以考慮選擇隨機森林算法進行重要性評估。隨機森林特征重要性計算方法包括MDI(mean decrease impurity)重要性和MDA(mean decrease accuracy)重要性2類。MDI方法主要匯總隨機森林各樹各節(jié)點在分割前后的不純度降低作為特征重要性評估。MDA方法對于隨機森林中的各樹,以某特征隨機交換前后該樹的 OOB(out of bagging)準確度估計下降作為該特征的重要性評估,匯總各樹重要性評估得到整個隨機森林的 MDA 重要性評估。采用隨機森林算法分別對套損井、非套損井進行特征重要性評估,如圖7所示。MDA衡量把一個變量的取值變?yōu)殡S機數(shù),隨機森林預(yù)測準確性的降低程度,該值越大表示該變量的重要性越大。Mean Decrease Gini通過基尼(Gini)指數(shù)計算每個變量對分類樹每個節(jié)點上觀測值的異質(zhì)性的影響,從而比較變量的重要性,該值越大表示該變量的重要性越大??梢钥闯龈邏鹤⑺鞌?shù)比例、月平均關(guān)井次數(shù)、注水壓力最大值、月注水量波動幅度對單井套損特別敏感。允差平均值、鄰井套損率、注水強度、趨勢項、配注完成情況對單井套損比較敏感。

      圖7 MDA與MDI特征重要性評估

      Boruta遵循所有相關(guān)的特征選擇方法,可以捕獲結(jié)果變量有關(guān)的所有的特征,而且該方法最大限度地減少隨機森林模型的誤差,最終形成一個最小化最優(yōu)特征子集。采用Boruta算法對單井套損特征重要性進行分析,如圖8所示。通過Boruta算法最終優(yōu)選出13個特征參數(shù)(綠色盒狀圖)。

      圖8 基于Boruta算法的單井套損特征重要性評估

      針對上述特征重要性評估方法,建立4套特征組合方案,如表5所示??梢钥闯龈邏鹤⑺鞌?shù)比例是影響該區(qū)塊注水井套損的最重要因素。

      表5 單井套損分析特征組合方案

      3.3 模型建立與評價

      針對表5特征組合方案,分別采用隨機森林算法和支持向量機算法建立單井預(yù)測模型。為了驗證模型的有效性,采用隨機抽樣方法,按照2∶1比例將樣本劃分為2部分,一部分用于訓(xùn)練,一部分用于測試,如表6所示。

      表6 單井套損預(yù)測訓(xùn)練集與測試集

      3.3.1 基于隨機森林的單井套損預(yù)測模型

      隨機森林是一種分類器集成學(xué)習(xí)算法,利用隨機模擬的思想,構(gòu)建出N棵隨機決策樹(一般N數(shù)量必須足夠大,本研究中設(shè)置為800)形成森林,并綜合森林中各決策樹的預(yù)測結(jié)果做出最終的預(yù)測。具有不依賴任何模型假設(shè)、高維空間自適性、不易發(fā)生過擬合等優(yōu)點?;诓煌奶卣鹘M合訓(xùn)練集,建立相應(yīng)的隨機森林識別模型,然后對測試集中的樣本單元進行預(yù)測,模型的準確率和召回率如表7所示??梢钥闯鲞x擇Boruta特征組合方案時,隨機森林模型的性能較好,準確率約為86.67%,套損井召回率為75%,非套損井召回率達到100%。

      表7 基于隨機森林的不同特征組合單井套損預(yù)測性能參數(shù)

      3.3.2 基于支持向量機的單井套損預(yù)測模型

      支持向量機(support vector machine,SVM)采用結(jié)構(gòu)風(fēng)險最小化的思想,通過非線性變換低維轉(zhuǎn)換為高維,然后計算超平面將數(shù)據(jù)進行分類。基于SVM的不同特征組合單井套損預(yù)測性能參數(shù)如表8所示。由表8可以看出,選擇MDA特征組合方案時,SVM模型的性能較好,準確率約93.3%,套損井召回率87.5%,非套損井召回率達到100%。

      表8 基于SVM的不同特征組合單井套損預(yù)測性能參數(shù)

      4 結(jié)束語

      基于數(shù)據(jù)驅(qū)動的理念,給出機器學(xué)習(xí)技術(shù)在單井套損預(yù)測中的應(yīng)用流程,包括套損評價指標分析、樣本構(gòu)建、特征重要性評估及模型應(yīng)用與評估等。高壓注水是影響研究斷塊注水井套損的主要因素,采用MDA特征組合方案建立的支持向量機模型能夠較好地預(yù)測套損,準確率達到93.3%,為套損井的防控治理提供科學(xué)依據(jù)。隨著數(shù)據(jù)科學(xué)的發(fā)展,融合多源數(shù)據(jù),深入挖掘出數(shù)據(jù)樣品的頻繁項集、具有領(lǐng)域?qū)<抑R的樹狀判別規(guī)則或者模型,輔助業(yè)務(wù)專家判斷巖性、含油性、構(gòu)造、圈閉等具有重要的意義。但是石油數(shù)據(jù)是一個復(fù)雜的系統(tǒng),跨越的時間范圍和空間范圍都很大,即使是一項簡單的業(yè)務(wù)分析,也涉及到地質(zhì)、勘探、測井、開發(fā)等多個學(xué)科,數(shù)據(jù)質(zhì)量、數(shù)據(jù)完整性、數(shù)據(jù)噪聲以及數(shù)據(jù)集的不均衡性等,使得機器學(xué)習(xí)數(shù)據(jù)集的構(gòu)建面臨巨大挑戰(zhàn)。因此石油數(shù)據(jù)建設(shè)將會是石油大數(shù)據(jù)智能化分析的必經(jīng)之路和重中之重。

      猜你喜歡
      損井特征參數(shù)單井
      長慶油田采油十廠打好套損井“預(yù)防針”
      故障診斷中信號特征參數(shù)擇取方法
      齊40塊蒸汽驅(qū)井況惡化原因研究及控制技術(shù)
      基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
      基于遺傳算法的BP神經(jīng)網(wǎng)絡(luò)預(yù)測石油單井產(chǎn)量
      基于PSO-VMD的齒輪特征參數(shù)提取方法研究
      關(guān)于套損井測斜修井技術(shù)的分析
      化工管理(2017年19期)2017-03-07 08:31:36
      論當前地?zé)釂尉辈閳蟾婢幹聘袷揭蠹凹夹g(shù)要點
      統(tǒng)計特征參數(shù)及多分類SVM的局部放電類型識別
      電測與儀表(2015年7期)2015-04-09 11:40:04
      凝析氣藏單井油氣界面預(yù)測方法研究
      富源县| 宁城县| 赣榆县| 襄樊市| 皮山县| 博兴县| 福州市| 中宁县| 新源县| 三明市| 高尔夫| 虎林市| 苍山县| 定远县| 同德县| 大埔县| 治多县| 保定市| 阿巴嘎旗| 光山县| 木里| 松阳县| 东乡| 布尔津县| 和田县| 南木林县| 鹤峰县| 通化县| 始兴县| 新化县| 搜索| 临泽县| 兴国县| 竹北市| 枣阳市| 林西县| 瑞金市| 循化| 淮滨县| 东明县| 九龙城区|