張中慧
(中國石化勝利油田分公司石油工程技術(shù)研究院,山東 東營 257000)
抽油機(jī)井作為油田的核心生產(chǎn)單元,深入分析其免修期的內(nèi)在影響因素和影響規(guī)律至關(guān)重要。這不僅有助于降低作業(yè)工作量,更能有效延長免修期,為油田的穩(wěn)定生產(chǎn)提供有力保障[1,2]。
徐麗萍[3]針對游梁式抽油機(jī)的平衡度問題,提出了電流平衡法和功率平衡法,旨在提升其工作性能,進(jìn)而延長油井壽命。楊凱瀾等[4]在油田現(xiàn)場進(jìn)行了實證研究,對比了多種防蠟、除蠟技術(shù),并從生產(chǎn)管理制度層面提出了改進(jìn)措施,進(jìn)一步提高了井筒治理的有效性,延長了抽油機(jī)井的免修期。劉春杰[5]則關(guān)注清防蠟措施,結(jié)合熱洗和井口加藥等方法,有效地延長了抽油機(jī)井的免修期。F.A.Aliev[6]開發(fā)了一種計算機(jī)模型,該模型能監(jiān)測泵的主要運行參數(shù)和儲層系統(tǒng)的特性,進(jìn)而確定油井-油藏系統(tǒng)中沉積物的主要特征和有桿抽油機(jī)的參數(shù)。而T.A.Aliev[7]則基于傳感器數(shù)據(jù),提出了一種檢測算法,用以觀察采油器械的老化損失情況,及時采取措施延長免修期。
長期以來,研究人員從采油工程理論出發(fā),對油井免修期過短的原因進(jìn)行了深入研究,并提出了一系列延長免修期的措施。這些措施在油田的機(jī)采管理工作中起到了一定的推動作用,但由于免修期影響因素的復(fù)雜性,問題并未得到根本解決。近年來,隨著大數(shù)據(jù)和人工智能技術(shù)的迅猛發(fā)展,取得了大量突破性成果[8]。在油田中,抽油機(jī)井?dāng)?shù)量眾多,長期開發(fā)過程中積累了大量運行數(shù)據(jù)。這些數(shù)據(jù)中蘊(yùn)含著豐富的價值信息。如果能夠利用先進(jìn)的數(shù)據(jù)挖掘技術(shù)對這些數(shù)據(jù)進(jìn)行充分挖掘,從海量的油井歷史數(shù)據(jù)中探索免修期的內(nèi)在因素,并輔助配套工藝措施的決策[9],將有力地支持采油工程的技術(shù)革新。為此,本研究將抽油機(jī)井作為研究對象,廣泛搜集油井免修期相關(guān)數(shù)據(jù),通過數(shù)據(jù)挖掘方法探究影響抽油機(jī)井免修期的各種因素,以期為抽油機(jī)井長壽運行提供支撐。
針對油井設(shè)計任務(wù)需求,結(jié)合專家經(jīng)驗,設(shè)計了面向油井設(shè)計的指標(biāo)體系,并從數(shù)據(jù)庫中搜集各油井?dāng)?shù)據(jù)(表1),形成特征樣本庫,包含抽油機(jī)井34000 余口,涵蓋稠油油藏、低滲透油藏、復(fù)雜斷塊油藏、海上油藏、特殊巖性油藏、中高滲透整裝油藏這6種不同類型的油藏。搜集的數(shù)據(jù)指標(biāo)方面,包括地質(zhì)數(shù)據(jù)、流體數(shù)據(jù)、機(jī)采數(shù)據(jù)、生產(chǎn)數(shù)據(jù)、作業(yè)數(shù)據(jù)等多個維度。
表1 原始數(shù)據(jù)表
為了提升數(shù)據(jù)的可靠性,將指標(biāo)體系中的數(shù)據(jù)進(jìn)行了數(shù)據(jù)清洗。對于缺失數(shù)據(jù),通過填補(bǔ)、插補(bǔ)的方式進(jìn)行了補(bǔ)充。其中包括數(shù)據(jù)異常點監(jiān)測,并結(jié)合專家經(jīng)驗對數(shù)據(jù)進(jìn)行核對和校正,對類別型的數(shù)據(jù)進(jìn)行數(shù)字化處理,對指標(biāo)體系中的廠名等類別數(shù)據(jù)進(jìn)行數(shù)字化,使得任意兩個類別數(shù)據(jù)之間的距離相同;制備得到規(guī)范化的抽油機(jī)井運行大數(shù)據(jù)集。
我們采用孤立森林算法[10]等進(jìn)行數(shù)據(jù)異常點監(jiān)測,孤立森林是一種基于集成學(xué)習(xí)的異常檢測算法,它可以高效地識別出數(shù)據(jù)集中的異常點。其核心思想是將正常點分割成不同的區(qū)域所需要的路徑長度比異常點少,因此可以通過路徑長度來判斷樣本是否為異常點。孤立森林算法通過隨機(jī)選擇特征,然后隨機(jī)選擇特征的分割值,遞歸地生成數(shù)據(jù)集的分區(qū)。和數(shù)據(jù)集中正常的點相比,要隔離的異常值所需的隨機(jī)分區(qū)更少,因此異常值是樹中路徑更短的點,路徑長度是從根節(jié)點經(jīng)過的邊數(shù)。識別出異常數(shù)據(jù)后,結(jié)合專家認(rèn)識對這些數(shù)據(jù)進(jìn)行了核對和校正。
運用孤立森林算法,對區(qū)塊1 的116 口油井免修期數(shù)據(jù)進(jìn)行篩選,識別出10 口免修期異常低井,如圖1 所示。通過識別出免修期異常低的油井,并將其納入免修期異常井樣本庫,共得到1311 個樣本集,從而更好地分析和管理油井的免修期情況。
圖1 區(qū)塊1 異常井篩選
從地質(zhì)、流體、生產(chǎn)、舉升系統(tǒng)、配套工藝等多角度開展參數(shù)分析,選取22 個指標(biāo),應(yīng)用指標(biāo)相關(guān)性統(tǒng)計方法對分析結(jié)果進(jìn)行歸納統(tǒng)計,找出特異參數(shù)與免修期異常之間的相關(guān)程度,明確免修期的主要影響因素。我們利用皮爾遜相關(guān)性與斯皮爾曼相關(guān)性的分析方法對兩者進(jìn)行分析,其中皮爾遜適于正態(tài)分布或近似正態(tài)分布的數(shù)據(jù)[11],斯皮爾曼適于非正態(tài)分布的數(shù)據(jù)[12],皮爾遜相關(guān)系數(shù)僅評估線性關(guān)系,斯皮爾曼相關(guān)系數(shù)用來評估指標(biāo)的單調(diào)關(guān)系。相關(guān)系數(shù)是最常用的統(tǒng)計度量,用一個數(shù)來描述兩個變量之間的相關(guān)聯(lián)的程度。相關(guān)系數(shù)的取值范圍為[-1,1]。負(fù)值表示隨著一個變量值的增大另一個則減小;正值表示隨著一個變量值的增大另一個也跟著增大;0 則表示一個變量的增大減小對另一個的取值沒有影響。
2.1.1 皮爾遜相關(guān)性
通過對皮爾遜相關(guān)性系數(shù)的研究,現(xiàn)將樣本值代入進(jìn)行檢驗,22 種指標(biāo)間的皮爾遜相關(guān)系數(shù)如圖2所示。
圖2 皮爾遜相關(guān)系數(shù)熱力圖
依據(jù)圖2 可以得出以下認(rèn)識:與免修期呈正相關(guān)的指標(biāo)共有15 個,呈負(fù)相關(guān)的指標(biāo)共7 個;與其相關(guān)性強(qiáng)度由大到小排序依次為日液能力、月產(chǎn)水量、年產(chǎn)水量、排量、泵徑、沖次、泵效、泵深、含水、下行最小負(fù)荷、動液面、上行最大負(fù)荷、沖程、年產(chǎn)氣量、月產(chǎn)油量、年產(chǎn)油量、日油能力、套壓、系統(tǒng)效率、原油黏度、原油密度、未動管柱天數(shù)。
2.1.2 斯皮爾曼相關(guān)性
通過對斯皮爾曼秩相關(guān)系數(shù)的研究,將樣本值代入進(jìn)行檢驗,具體22 種指標(biāo)間的斯皮爾曼相關(guān)系數(shù)如圖3 所示。
圖3 斯皮爾曼相關(guān)系數(shù)熱力圖
依據(jù)圖3 可以得出以下認(rèn)識:與免修期呈正相關(guān)的指標(biāo)共有16 個,呈負(fù)相關(guān)的指標(biāo)共6 個;與其相關(guān)性強(qiáng)度由大到小排序依次為日液能力、月產(chǎn)水量、年產(chǎn)水量、排量、泵效、沖次、含水、泵徑、泵深、下行最小負(fù)荷、系統(tǒng)效率、上行最大負(fù)荷、動液面、原油黏度、原油密度、沖程、月產(chǎn)油量、年產(chǎn)氣量、年產(chǎn)油量、套壓、日油能力、未動管柱天數(shù)。
2.1.3 差異分析
根據(jù)皮爾遜相關(guān)系數(shù)研究的結(jié)論,與免修期呈中等相關(guān)及以上的指標(biāo)有6 個,分別是日液能力、月產(chǎn)水量、年產(chǎn)水量、排量、泵徑、沖次。而根據(jù)斯皮爾曼相關(guān)系數(shù)研究的結(jié)論,與免修期呈中等相關(guān)及以上的指標(biāo)有9 個,分別是日液能力、月產(chǎn)水量、年產(chǎn)水量、排量、泵效、沖次、含水、泵徑、泵深。兩種方法產(chǎn)生差異的原因在于皮爾遜相關(guān)系數(shù)更適用于符合線性分布的數(shù)據(jù),對不符合線性關(guān)系或不滿足正態(tài)分布的數(shù)據(jù),皮爾遜相關(guān)系數(shù)難以準(zhǔn)確描述其相關(guān)關(guān)系。而斯皮爾曼相關(guān)系數(shù)是基于秩次進(jìn)行計算,不容易受到異常值的影響,具有更好的魯棒性。綜合來看,日液能力、月產(chǎn)水量、年產(chǎn)水量、排量、泵效、沖次、含水、泵徑、泵深這9 個指標(biāo)對免修期影響較為明顯。
基于皮爾遜算法和斯皮爾曼算法的相關(guān)性分析明確了各參數(shù)與免修期的相關(guān)程度,而其參數(shù)在免修期異常井中的體現(xiàn)模式尚不直觀,為此加入基于箱型圖的定量分析。我們繪制區(qū)塊各指標(biāo)箱型圖,圖中包含了六個數(shù)據(jù)節(jié)點,將一組數(shù)據(jù)從大到小排列,分別計算出他的上邊緣,上四分位數(shù),中位數(shù),下四分位數(shù),下邊緣,橙色橫線為平均數(shù),綠色三角為中位數(shù),空心圓點是異常值,紅色點為所選井?dāng)?shù)據(jù)。
樣本中的參數(shù),有些參數(shù)的數(shù)據(jù)很大,有些參數(shù)的數(shù)據(jù)則相對很小,難以將其直接整合到一起進(jìn)行比對,于是將其進(jìn)行標(biāo)準(zhǔn)化和歸一化處理。經(jīng)過數(shù)據(jù)處理,繪制出標(biāo)準(zhǔn)化后的箱型圖,如圖4 所示。
圖4 標(biāo)準(zhǔn)化后的箱型圖
定義對于各個指標(biāo)繪制的箱型圖,大于上四分位數(shù)的數(shù)據(jù)作為異常高的值,小于下四分位數(shù)的數(shù)據(jù)作為異常低的值,在上下四分位之間的視為正常值。例如圖5 所示某井中的參數(shù),所選井沖次數(shù)據(jù)介于下四分位數(shù)和下邊緣之間,可知該參數(shù)為異常低。而所選井年產(chǎn)氣量參數(shù)介于上四分位數(shù)和上邊緣之間,則該參數(shù)即為異常高。同樣地,統(tǒng)計各個指標(biāo)異常值與正常值的個數(shù),對比免修期異常油井與常規(guī)油井在各參數(shù)上差異性,找出免修期異常油井的特異性參數(shù)。
圖5 免修期異常低井統(tǒng)計數(shù)據(jù)
分析了22 個指標(biāo)出現(xiàn)異常高、正常、異常低的頻次,計算了3 種情況的標(biāo)準(zhǔn)差,用于確定主控因素。
結(jié)合圖6 和表2 分析可知,標(biāo)準(zhǔn)差小于6 的指標(biāo)有5 個:上行最大負(fù)荷、日油能力、未動管柱天數(shù)、系統(tǒng)效率、泵效;各個指標(biāo)異常值與正常值的個數(shù),無太大區(qū)別,對免修期影響不大。沖次、套壓、年產(chǎn)油量、年產(chǎn)水量、年產(chǎn)氣量、日油能力、月產(chǎn)油量、排量、泵徑、月產(chǎn)水量這10 個指標(biāo)異常低,對免修期異常低有影響。下行最小負(fù)荷、原油密度、動液面、原油黏度、泵深這5 個指標(biāo)異常高,對免修期異常低有影響。沖程、含水這2 個指標(biāo)不在正常區(qū)間,對免修期異常低有影響。泵徑出現(xiàn)頻次92 次,在統(tǒng)計的10 個異常低指標(biāo)對免修期異常低有影響中最高,泵徑指標(biāo)越低,對免修期異常低影響越大。泵深出現(xiàn)頻次83 次,在統(tǒng)計的5 個異常高指標(biāo)對免修期異常低有影響中最高,泵深該指標(biāo)越高,對免修期異常低影響越大。
圖6 免修期異常低井各指標(biāo)標(biāo)準(zhǔn)差
表2 免修期異常低井各指標(biāo)出現(xiàn)頻次
兩種指標(biāo)相關(guān)性定量分析方法明確了各參數(shù)與免修期的相關(guān)程度,即日液能力、月產(chǎn)水量、年產(chǎn)水量、排量、泵效、沖次、含水、泵徑、泵深這9 個指標(biāo)對免修期影響較為明顯。而基于箱型圖的定量分析在明確各參數(shù)相關(guān)性的基礎(chǔ)上,進(jìn)一步展現(xiàn)了參數(shù)對免修期的影響模式,從中可以看出沖次、套壓等10 個指標(biāo)異常低和下行最小負(fù)荷、原油密度等5 個指標(biāo)異常高對免修期異常低有影響;沖程、含水這2 個指標(biāo)不在正常區(qū)間,對免修期異常低有影響;另外,泵徑、泵深等指標(biāo)也對免修期異常低影響顯著。皮爾遜相關(guān)系數(shù)和斯皮爾曼相關(guān)系數(shù)都是通過衡量變量之間的相關(guān)性程度來探究其變化趨勢,而箱型圖定量分析則是在大量的數(shù)據(jù)積累上對其進(jìn)行加工處理,進(jìn)而整合到一張張直觀的圖中,來總結(jié)其數(shù)據(jù)的分布規(guī)律。這兩類方法各有長短,綜合來看,日液能力、月產(chǎn)水量、年產(chǎn)水量、排量、泵效、沖次、含水、泵徑都與免修期呈正相關(guān),而泵深與免修期呈負(fù)相關(guān)。
針對各區(qū)塊免修期異常的油井,通過搜集其相關(guān)數(shù)據(jù),并使用算法對其進(jìn)行處理。利用這些數(shù)據(jù),我們從地質(zhì)、流體、生產(chǎn)、舉升系統(tǒng)、配套工藝等多角度開展參數(shù)分析,重點對比免修期異常油井與常規(guī)油井在各參數(shù)上差異性,在此基礎(chǔ)上統(tǒng)計歸納,明確免修期影響因素及影響規(guī)律。通過箱型圖定量分析,結(jié)合皮爾遜相關(guān)性和斯皮爾曼相關(guān)性分析方法,從中發(fā)現(xiàn),對免修期影響較為明顯的因素有日液能力、月產(chǎn)水量、年產(chǎn)水量、排量、泵效、沖次、含水、泵徑、泵深等,其中日液能力、月產(chǎn)水量、年產(chǎn)水量、排量、泵效、沖次、含水、泵徑都與免修期呈正相關(guān),而泵深與免修期呈負(fù)相關(guān)。