基于機(jī)器學(xué)習(xí)的電潛泵工況診斷

2022-09-21 08:52:58王彪韓國(guó)慶路鑫譚帥朱志勇梁星原

石油鉆采工藝 2022年2期

王彪韓國(guó)慶路鑫譚帥朱志勇梁星原

中國(guó)石油大學(xué)(北京)石油工程教育部重點(diǎn)實(shí)驗(yàn)室

電參數(shù)能夠反映電潛泵的實(shí)時(shí)工作狀態(tài)，且容易實(shí)現(xiàn)監(jiān)測(cè)和收集，因此在油田開發(fā)生產(chǎn)過程中，通過電參數(shù)對(duì)電潛泵的工作狀況進(jìn)行監(jiān)測(cè)和分析的研究較多，常見的有電流卡片方法等。這些方法依賴人工經(jīng)驗(yàn)，存在人為因素和主觀誤差。使用機(jī)器學(xué)習(xí)算法可以實(shí)現(xiàn)電參數(shù)的自動(dòng)分析，提高效率并降低主觀誤差。陳治國(guó)等［1］提出了基于模式識(shí)別的電流卡片特征值的提取方法，給出了人工判斷的量化指標(biāo)；余繼華等［2］引入了機(jī)器學(xué)習(xí)，采用神經(jīng)網(wǎng)絡(luò)方法識(shí)別電流工況，甘露等［3］使用BP算法對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行了進(jìn)一步擴(kuò)充；韓國(guó)慶等［4］補(bǔ)充了更多工況類別，進(jìn)一步擴(kuò)充了神經(jīng)網(wǎng)絡(luò)的適用性；Gupta等［5］使用主成分分析方法討論了電潛泵工況偏離正常狀態(tài)時(shí)的可視化構(gòu)建和評(píng)判方法；王國(guó)輝等［6］基于主成分分析法討論了電潛泵大數(shù)據(jù)綜合分析預(yù)警系統(tǒng)的構(gòu)建，提出通過對(duì)大數(shù)據(jù)降維實(shí)現(xiàn)油井狀態(tài)描述和監(jiān)控預(yù)警的方法；隋先富等［7］基于主成分分析法，對(duì)電潛泵的多維參數(shù)進(jìn)行降維，通過多維參數(shù)監(jiān)測(cè)了電潛泵的工作狀態(tài)改變。前人的研究側(cè)重于通過某一種方法對(duì)電潛泵井的生產(chǎn)狀態(tài)進(jìn)行描述，認(rèn)識(shí)不斷加深，但缺乏從特征提取及處理然后進(jìn)行分類識(shí)別并綜合評(píng)價(jià)的機(jī)器學(xué)習(xí)完整流程，在不同環(huán)節(jié)中依然保留有人為因素。本研究在前人研究基礎(chǔ)上，構(gòu)建了機(jī)器學(xué)習(xí)的完整流程，通過特征工程對(duì)波動(dòng)的電流數(shù)據(jù)提取大量的特征信息，然后通過降維算法實(shí)現(xiàn)特征描述和可視化，再通過分類算法實(shí)現(xiàn)工況診斷并給出具體結(jié)論，最后進(jìn)行分析與評(píng)價(jià)。使用實(shí)際生產(chǎn)時(shí)的電流數(shù)據(jù)實(shí)例，通過以上4個(gè)部分的流程的綜合，實(shí)現(xiàn)了對(duì)電潛泵工況的快速準(zhǔn)確且直觀的描述。

1 電流卡片診斷方法及其改進(jìn)

電流卡片診斷是API于1982年提出的一種電潛泵故障分類方法，其分類的依據(jù)是在不同的工況下運(yùn)行的電潛泵具有不同的電流波動(dòng)特征［3］，例如波動(dòng)的時(shí)間長(zhǎng)短、波動(dòng)的頻次大小、電流的峰值與額定值之間的關(guān)系等。傳統(tǒng)方法受限于技術(shù)條件，通過形態(tài)來進(jìn)行模糊識(shí)別，具有較強(qiáng)的主觀因素，在泵工況識(shí)別過程中會(huì)導(dǎo)致人為誤差［8］。

為了減少誤差，學(xué)界進(jìn)行了多方面的研究，各種傳感器和數(shù)據(jù)記錄設(shè)備的發(fā)展，也大大方便了電流參數(shù)的量化。傳統(tǒng)的電流卡片記錄分鐘級(jí)的電流平均數(shù)據(jù)，常見的有6 min一個(gè)點(diǎn)［9］。隨著傳感設(shè)備和數(shù)據(jù)記錄設(shè)備的性能提升，當(dāng)前油田生產(chǎn)中得到的電流數(shù)據(jù)可以達(dá)到20 s一個(gè)點(diǎn)甚至更密。數(shù)據(jù)記錄密度的提升使得電流記錄可以體現(xiàn)出有關(guān)電泵工作狀況的更多信息。此時(shí)通過傳統(tǒng)的對(duì)電泵工作狀況改變導(dǎo)致電流波動(dòng)的機(jī)理分析就顯得不夠精細(xì)和迅速。

數(shù)據(jù)密度的提升帶來了更多的電流特征。對(duì)于分析而言，這些特征的保留使得挖掘更多的信息成為可能。而采用傳統(tǒng)的方法識(shí)別，會(huì)忽視掉這些特征的細(xì)節(jié)，這種信息丟失給工況的識(shí)別帶來了誤差。經(jīng)過稀釋的數(shù)據(jù)可能會(huì)淹沒一些關(guān)鍵的波動(dòng)信息，使得一些原本正常的波動(dòng)變成沒有規(guī)律的波動(dòng)，導(dǎo)致局部的信息丟失和整體的信息變異，其中信息丟失是指局部位置的波動(dòng)峰值或波動(dòng)周期的消失，信息變異是指整體的波動(dòng)形態(tài)的改變。此外由于稀釋算法導(dǎo)致的信息損失，可能使得一些原本存在差異的電流波動(dòng)圖形變得接近，失去其獨(dú)特性，從而導(dǎo)致不同工況的電流數(shù)據(jù)被診斷為同一種工況，影響判斷的準(zhǔn)確性。

為了詳細(xì)說明局部的信息丟失與整體的信息變異，選取一口氣體影響工況井的20 s一個(gè)點(diǎn)的高密度實(shí)際電流數(shù)據(jù)，從中取30 min數(shù)據(jù)作為研究對(duì)象，放大并與一種稀釋算法和一種間歇采樣方法獲得的6 min一個(gè)點(diǎn)的稀釋數(shù)據(jù)進(jìn)行特征對(duì)比。由圖1可看出，高密度實(shí)時(shí)電流數(shù)據(jù)反映了某種規(guī)律的電流波動(dòng)，可能與負(fù)載的工作情況有關(guān)。然而通過傳統(tǒng)的均值方法或間歇采樣得到的低密度電流數(shù)據(jù)中產(chǎn)生了相比于原始數(shù)據(jù)的信息丟失，可能導(dǎo)致生產(chǎn)中的某些關(guān)鍵信息的損失。

圖1 電潛泵氣體影響工況的高密度實(shí)時(shí)電流數(shù)據(jù)與稀釋的電流數(shù)據(jù)特征對(duì)比Fig.1 Feature comparison of high-density real-time current data and diluted current data of ESP under the working condition of gas influence

解決此類信息損失的方法是盡可能保留傳感器設(shè)備傳輸?shù)脑济芏鹊臄?shù)據(jù)并進(jìn)行計(jì)算和分析，使用合理的方法去除其中包含的噪聲，同時(shí)減少對(duì)原始數(shù)據(jù)的傷害，而非使用其他方法將數(shù)據(jù)直接稀釋后計(jì)算。對(duì)于大量數(shù)據(jù)的處理與分析可以通過使用機(jī)器學(xué)習(xí)方法完成，以實(shí)現(xiàn)又快又好的評(píng)判效果。

2 機(jī)器學(xué)習(xí)流程

基于電潛泵電流數(shù)據(jù)的工況識(shí)別需要進(jìn)行包括數(shù)據(jù)預(yù)處理、特征提取、特征降維、分類模型的訓(xùn)練及預(yù)測(cè)等流程，方法如圖2所示。

圖2 基于電潛泵電流數(shù)據(jù)的工況識(shí)別流程圖Fig.2 Flow chart of working condition recognition with ESP current data

為了減少數(shù)據(jù)稀釋帶來的信息損失，需要盡量保留原始的數(shù)據(jù)密度進(jìn)行運(yùn)算。然而更大的數(shù)據(jù)量導(dǎo)致了計(jì)算的困難，也給問題的分析帶來了挑戰(zhàn)，因此需要實(shí)施特征工程從原始的波動(dòng)信息中提取出關(guān)鍵的有效信息。

2.1 特征工程

特征工程是指將原始數(shù)據(jù)轉(zhuǎn)化為更好地表達(dá)問題本質(zhì)特征的過程，將這些特征運(yùn)用到預(yù)測(cè)模型中，能提高對(duì)不可見數(shù)據(jù)的模型預(yù)測(cè)精度。特征工程的目標(biāo)是找到分解和聚合原始數(shù)據(jù)，以更好地表達(dá)問題本質(zhì)的方法，即發(fā)現(xiàn)對(duì)因變量y有明顯影響作用的自變量特征x。因此，特征工程是數(shù)據(jù)挖掘模型開發(fā)的基礎(chǔ)。

歸一化過程是對(duì)原始數(shù)據(jù)進(jìn)行線性變化，使結(jié)果落到[0,1]區(qū)間，以便消除不同數(shù)據(jù)量級(jí)之間的差別，減少分析誤差，轉(zhuǎn)換函數(shù)為

在電潛泵電流分析及工況診斷中，對(duì)電流的歸一化數(shù)據(jù)進(jìn)行波形分析，得到時(shí)域特征和波形特征作為模型的輸入，具體方法如下。

2.1.1 時(shí)域特征

(1)特征值1：方差，當(dāng)前電流值和電流均值之間的偏離程度的度量，定義為

(2)特征值2：均方根值，當(dāng)一組數(shù)據(jù)中存在較多0值，即占空比較高時(shí)，直接計(jì)算其均值不能反映電流強(qiáng)度有效值，均方根值則可以很好地表征電流強(qiáng)度有效值［10］，定義為

(3)特征值3：方根幅值，對(duì)振幅的變化非常敏感的物理量［11］，定義為

式中，Ivar為電流方差，A；Ii為當(dāng)前電流，A；I為電流均值，A；Irms為電流均方根，A；Ir為電流方根幅值，A。

2.1.2 波形特征

(1)特征值4：峰值因數(shù)，表示電源系統(tǒng)能夠提供峰值電流能力的指標(biāo)要求［12］，定義為

(2)特征值5：偏度因子，數(shù)據(jù)分布偏斜方向和程度的度量，是數(shù)據(jù)分布非對(duì)稱程度的數(shù)字特征［13］，負(fù)偏度代表統(tǒng)計(jì)數(shù)據(jù)為右偏分布，正偏度代表統(tǒng)計(jì)數(shù)據(jù)為左偏分布，定義為

式中，Cf為峰值因數(shù)；Imax為電流最大值，A；Sk為偏度因子。

(3)特征值6：波形因子，用于量化表征波形偏離正弦波形的程度［14］，定義為

其中

(4)特征值7：脈沖因子，用于描述信號(hào)沖擊的指標(biāo)［15］，定義為

(5)特征值8：裕度因子，用來檢測(cè)信號(hào)中有無沖擊的指標(biāo)，常用于監(jiān)測(cè)機(jī)械設(shè)備的磨損狀況［16］，定義為

(6)特征值9：峭度，是反映隨機(jī)變量分布特性的數(shù)值統(tǒng)計(jì)量，可以在頻域內(nèi)表示一系列瞬態(tài)的存在及其位置，消除非平穩(wěn)信號(hào)［17］。定義為

(7)特征值10：峭度因子，表示波形平緩程度，用于描述對(duì)振動(dòng)信號(hào)沖擊特性的反映［18］，定義為

式中，Sf為波形因子；Iarv為整流平均值，A；Ii(t)為隨時(shí)間變化的電流值，A；Cif為脈沖因子；Cmf為裕度因子；Ck為峭度；Ckf為峭度因子。

通過以上方法對(duì)波動(dòng)的電流數(shù)據(jù)實(shí)施特征工程，即可將波動(dòng)電流中包含的特征信息盡可能地挖掘出來，以便實(shí)施后續(xù)的機(jī)器學(xué)習(xí)步驟。特征工程是升維過程，從一維連續(xù)時(shí)間內(nèi)的波動(dòng)中提取出多維特征信息，然后針對(duì)這些特征信息展開分析，以數(shù)學(xué)模型來表達(dá)，在特征工程實(shí)現(xiàn)過程中提取出的多變量大數(shù)據(jù)集為研究和應(yīng)用提供了豐富信息。

2.2 數(shù)據(jù)降維的聚類算法

在特征工程實(shí)現(xiàn)了數(shù)據(jù)特征的挖掘之后，需要根據(jù)挖掘得到的特征值進(jìn)行處理與分析，處理的過程主要使用聚類算法實(shí)現(xiàn)數(shù)據(jù)降維，以降低計(jì)算復(fù)雜度。如果采用單獨(dú)對(duì)每個(gè)特征值進(jìn)行分析的低維度分析方法，則分析往往是孤立的，不能實(shí)現(xiàn)數(shù)據(jù)中信息的綜合利用，盲目減少分析的特征值會(huì)損失很多有用的信息，從而給分析帶來誤差。因此需要找到一種合理的方法，在減少需要分析的特征值的同時(shí)，盡量減少特征值中所包含信息的損失，以實(shí)現(xiàn)對(duì)所收集數(shù)據(jù)的全面分析。常用的數(shù)據(jù)降維方法有很多，本文采用主成分分析法(PCA)去除數(shù)據(jù)中的噪聲，降低算法的計(jì)算開銷，使得結(jié)果更容易可視化并為人所理解［19］。使用主成分分析進(jìn)行降維是通過線性變化將原始數(shù)據(jù)變換為一組各維度線性無關(guān)的標(biāo)識(shí)，提取數(shù)據(jù)的主要特征分量。使用主成分分析方法降維可以獲得各主成分的變異系數(shù)，將這些變異系數(shù)按照主成分繪制為柱狀圖，即為PCA的碎石圖，反映降維后的各主成分所保留的原始信息的百分比。根據(jù)可接受的保留信息的比率，通過碎石圖的累積值可以幫助確定所需達(dá)到的維度。

降維的維度確定后，就可以將原本多維空間中的點(diǎn)投射到降維形成的主成分空間中，觀察參數(shù)的聚集情況。通過對(duì)原本數(shù)據(jù)的所屬工況打上顏色標(biāo)簽，可以直觀地觀察各工況在主成分空間中是否存在特殊的聚集關(guān)系，實(shí)現(xiàn)聚類結(jié)果的可視化。通過對(duì)該聚集關(guān)系的描述，就可以進(jìn)行機(jī)器學(xué)習(xí)的下一步流程，建立實(shí)現(xiàn)分類任務(wù)的機(jī)器學(xué)習(xí)模型。

2.3 基于邏輯回歸算法(LR)的模式識(shí)別

在完成參數(shù)的降維、聚類與可視化后，使用分類算法對(duì)本研究中的數(shù)據(jù)聚集情況進(jìn)行具體的劃分。邏輯回歸是當(dāng)前業(yè)界比較常用的機(jī)器學(xué)習(xí)方法，用于估計(jì)某種事物的可能性［20］。它與多元線性回歸同屬一族，即廣義線性模型。多元線性回歸是直接將特征值和其對(duì)應(yīng)的概率相乘得到一個(gè)結(jié)果，邏輯回歸是在這個(gè)結(jié)果上加一個(gè)邏輯函數(shù)，來實(shí)現(xiàn)對(duì)于事物屬于某一類別的可能性估計(jì)。邏輯回歸的主要思想是在模型訓(xùn)練中，首先得到極大似然函數(shù)，然后使用梯度下降法求解函數(shù)中參數(shù)的近似值。

使用邏輯回歸模型根據(jù)一個(gè)特征值進(jìn)行二分類問題求解時(shí)，由坐標(biāo)(x,y)確定的每個(gè)點(diǎn)代表一個(gè)樣本，其中y值的0和1代表兩種樣本標(biāo)簽，x代表樣本特征。在分類模型訓(xùn)練過程中，通過采用不同函數(shù)對(duì)訓(xùn)練樣本進(jìn)行擬合，回歸出一個(gè)能夠描述大多樣本特征的函數(shù)，該函數(shù)就是最終確定的分類模型。對(duì)于本任務(wù)的多分類回歸問題，使用邏輯回歸模型可以將一個(gè)n分類任務(wù)拆分為n個(gè)二分類任務(wù)。某個(gè)分類任務(wù)歸屬于某種類型，則該類型i對(duì)應(yīng)的第i個(gè)混淆特征即為1，其余混淆特征為0，通過對(duì)每個(gè)混淆特征進(jìn)行二分類，從而實(shí)現(xiàn)多分類。

2.4 機(jī)器學(xué)習(xí)算法的評(píng)估方法

在多分類任務(wù)完成后，對(duì)機(jī)器學(xué)習(xí)算法得到的結(jié)果評(píng)估是機(jī)器學(xué)習(xí)算法完成后的必要流程。對(duì)于多分類任務(wù)的評(píng)估指標(biāo)包括準(zhǔn)確率(Accuracy)、精確率 (Precision)、召回率 (Recall)、和F1分?jǐn)?shù) (F1-Score)方法等。根據(jù)所要處理的問題不同，各種評(píng)估指標(biāo)具有不同的適用性。

準(zhǔn)確率是指對(duì)于給定的測(cè)試數(shù)據(jù)集，分類器正確分類的樣本數(shù)與總樣本數(shù)之比［21］。但當(dāng)分類任務(wù)中不同類型的樣本數(shù)量差異比較大時(shí)，或者分類任務(wù)目標(biāo)不同，準(zhǔn)確率未必能夠真實(shí)地反映分類器的分類效果。為了彌補(bǔ)準(zhǔn)確率方面的不足，引入了精確率、召回率和F1分?jǐn)?shù)的概念。以二分類任務(wù)為例，定義4種分類狀況：真正類(True Positive)、假正類 (False Positive)、假負(fù)類 (False Negative)、真負(fù)類(True Negative)。

通過以上4種概念定義精確率和召回率。精確

率表示分類器預(yù)測(cè)為正的樣本中有多少個(gè)是真實(shí)的正樣本，召回率表示樣本中的正例有多少被正確預(yù)測(cè)了，兩者分別評(píng)判了分類器的漏報(bào)或誤報(bào)率。精確率和召回率之間是互相影響的，對(duì)于一個(gè)案例而言，最好的情況是做到兩者都高，但一般情況下精確率高、召回率就低，召回率高、精確率就低。

對(duì)于電潛泵的故障診斷而言，既希望召回率高，即減少漏報(bào)，避免額外的經(jīng)濟(jì)損失，又希望精確率高，即減少誤報(bào)，避免額外的工作量和人力物力投入。因此，精確率和召回率之間還需要一定的平衡。此時(shí)就可以使用F1分?jǐn)?shù)來對(duì)兩者進(jìn)行均衡，精確率和召回率越高，則F1分?jǐn)?shù)越高，分類任務(wù)越好。

3 案例分析與評(píng)價(jià)

從A油田電潛泵井?dāng)?shù)據(jù)庫(kù)中提取了正常工況、泵抽空、過載停泵、頻繁短周期運(yùn)行4種工況的井共計(jì)56口，使用前文所述特征工程的方法從56口井的實(shí)時(shí)電流數(shù)據(jù)中分別提取10個(gè)特征值。各樣本井的特征值與工況的對(duì)應(yīng)關(guān)系部分示例見表1。

表1 樣本的特征值與工況對(duì)應(yīng)關(guān)系的部分示例Table 1 A partial example of the correspondence between eigenvalues and working conditions of samples

利用基于皮爾遜相關(guān)系數(shù)的相關(guān)性分析法對(duì)這10個(gè)特征值和實(shí)際工況進(jìn)行相關(guān)性描述，線性正相關(guān)性越強(qiáng)，則相關(guān)度越接近1，線性負(fù)相關(guān)性強(qiáng)，則相關(guān)度越接近?1。從圖3各特征值之間的相關(guān)關(guān)系，以及各特征值與最終工況的相關(guān)關(guān)系量化可以直觀看出，部分特征值之間存在較強(qiáng)的線性相關(guān)性，這說明部分特征值表現(xiàn)的特征是重復(fù)的，可以進(jìn)行適當(dāng)?shù)慕稻S操作以提取出主要的特征描述方法，降低機(jī)器學(xué)習(xí)的計(jì)算量和計(jì)算復(fù)雜度。且從與工況的關(guān)系也可以看出，工況與各個(gè)特征值之間均存在較強(qiáng)相關(guān)性，這也說明，僅使用單個(gè)特征值難以描述對(duì)結(jié)果的影響。

圖3 各特征值和工況彼此之間的相關(guān)系數(shù)Fig.3 Correlation coefficients of eigenvalues and the working conditions with each other

基于相關(guān)性熱力圖得到的分析結(jié)果，其中存在的線性相關(guān)性較強(qiáng)的變量需要進(jìn)行降維以降低計(jì)算量并實(shí)現(xiàn)可視化。對(duì)這些特征值去除工況結(jié)論進(jìn)行無監(jiān)督的PCA降維聚類，圖4的PCA碎石圖展示了降維的主成分?jǐn)?shù)量保留原始信息的程度，以各主成分解釋的方差比進(jìn)行量化。

圖4 使用PCA降維的碎石圖和累積分布圖Fig.4 Scree plot and cumulative distribution diagram obtained from dimensionality reduction with PCA

從圖4可以看出，PC1對(duì)電流特征值所包含信息的保留程度達(dá)到64.55%，PC2對(duì)電流特征值所包含信息的保留程度達(dá)到19.18%，PC1和PC2共同達(dá)到的信息保留程度達(dá)到83.73%。兩個(gè)主成分就可以保留80%以上的特征值信息，因此從可視化效果以及計(jì)算難度上考慮，可以認(rèn)為使用兩個(gè)主成分即可實(shí)現(xiàn)對(duì)電流特征值的總體描述。

使用降維后的特征值進(jìn)行二維無監(jiān)督聚類，觀察數(shù)據(jù)的聚類情況，以便確定使用電流特征值的二維聚類判別電泵工況的實(shí)現(xiàn)可行性。二維無監(jiān)督聚類效果如圖5所示。

圖5 對(duì)電參數(shù)特征值進(jìn)行二維無監(jiān)督聚類的結(jié)果Fig.5 The results of 2-dimensional unsupervised clustering for the eigenvalues of current data

從圖5可以看出，上述56口井在主成分分析圖中似乎有3到4處較好的聚類。為了確定這種聚類方式是否與各個(gè)工況相關(guān)，用原本各個(gè)電流情況對(duì)應(yīng)的工況作標(biāo)簽來對(duì)各聚類點(diǎn)進(jìn)行顏色和形狀的標(biāo)記，結(jié)果如圖6所示。

圖6 PCA聚類中各點(diǎn)所代表的工況情況Fig.6 The working conditions represented by points in the clustering diagram with PCA

從圖6可以看出，電潛泵的電參數(shù)特征值進(jìn)行二維無監(jiān)督聚類的位置分布情況確實(shí)與不同工況有關(guān)，因此認(rèn)為此次聚類效果較好，實(shí)現(xiàn)了各個(gè)工況的特征分離。從PCA降維的碎石圖上看，6個(gè)維度的主成分能夠描述電流的幾乎99.98%的信息。因此根據(jù)PCA算法，形成特征值與主成分的系數(shù)矩陣熱力圖，如圖7所示。

圖7 各特征值與各主成分之間的相關(guān)系數(shù)Fig.7 Correlation coefficients of each eigenvalue with each principal component

圖7中6個(gè)主成分與10個(gè)特征值的關(guān)系的描述為：每一行對(duì)應(yīng)一個(gè)主成分，每一列對(duì)應(yīng)一個(gè)特征值。以第1行為例，表明第1主成分可使用該行中每格的權(quán)重?cái)?shù)值與其對(duì)應(yīng)的特征值乘積的累加和表示如下

式中，f1~f10分別表示特征值1至特征值10。

其他主成分的表示方式與第1主成分的表示方式類似。

對(duì)主成分與特征值之間關(guān)系描述的主要作用是，當(dāng)新輸入一口井的數(shù)據(jù)并提取特征值后，按照熱力圖中每個(gè)點(diǎn)的系數(shù)，即可求取各個(gè)主成分值，以便進(jìn)行后續(xù)的機(jī)器學(xué)習(xí)算法。

從圖6的工況分布情況來看，PCA聚類在描述各個(gè)電泵工況時(shí)具有較好的能力，對(duì)于新加入的一口井的數(shù)據(jù)而言，如果提取特征值并降維后分布位置在上述聚簇內(nèi)部，那么該井所處工況屬于該聚簇表示的工況的可能性較大，但如果新加入的一口井處于某兩種工況形成的聚簇之間時(shí)，對(duì)于工況的判別就難以直接描述。此時(shí)需要對(duì)數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)完成分類任務(wù)，以進(jìn)行工況的準(zhǔn)確識(shí)別和判斷，最終實(shí)現(xiàn)機(jī)器學(xué)習(xí)的數(shù)據(jù)處理、訓(xùn)練與預(yù)測(cè)的閉環(huán)。

使用邏輯回歸方法對(duì)4種工況類型的56口樣本井的數(shù)據(jù)進(jìn)行學(xué)習(xí)和預(yù)測(cè)，測(cè)試集占比設(shè)置為30%，計(jì)算得到準(zhǔn)確率0.84，精確率、召回率和F1分?jǐn)?shù)見表2。

表2 使用邏輯回歸的機(jī)器學(xué)習(xí)的結(jié)果評(píng)價(jià)Table 2 Results evaluation of ML using LR algorithm

如表2所示，模型最終實(shí)現(xiàn)的效果中，4種工況類型的56口井的各評(píng)價(jià)指標(biāo)評(píng)價(jià)結(jié)果均達(dá)到80%以上，且平均F1分?jǐn)?shù)達(dá)到了85%，說明使用電流特征值降維的二維主成分建立的邏輯回歸模型在這4種工況類型的56口電泵井的評(píng)價(jià)中實(shí)現(xiàn)了較好的分類效果。

4 結(jié)論

(1)與傳統(tǒng)的電流特征識(shí)別方法相比，基于機(jī)器學(xué)習(xí)的電潛泵電流分析及工況診斷實(shí)現(xiàn)了對(duì)電流數(shù)據(jù)的特征提取，將電流波動(dòng)的形狀描述問題轉(zhuǎn)化為基于數(shù)據(jù)的數(shù)學(xué)特征量化描述問題，提升了評(píng)價(jià)的客觀性，減少了人為誤差。

(2)通過特征工程提取的特征值本身復(fù)雜多樣，且各個(gè)特征值之間可能具有較強(qiáng)的線性相關(guān)性，需要對(duì)這些數(shù)據(jù)剔除線性相關(guān)變量，保留線性無關(guān)變量，以便減少機(jī)器學(xué)習(xí)的輸入數(shù)據(jù)，降低機(jī)器學(xué)習(xí)的模型復(fù)雜度。采用PCA方法降維，一方面保留了特征提取中獲得的主要特征，另一方面減少了機(jī)器學(xué)習(xí)的輸入數(shù)據(jù)維度，降低了計(jì)算復(fù)雜度，同時(shí)還能通過聚類效果的可視化確定數(shù)據(jù)特征提取是否滿足泵工況描述的要求。使用二維主成分表征的電潛泵工況信息保留程度達(dá)到83.73%，降維聚類表現(xiàn)出了良好的工況區(qū)分性，為使用邏輯回歸方法實(shí)施分類任務(wù)奠定了基礎(chǔ)。

(3)使用降維后的電參數(shù)特征數(shù)據(jù)，建立邏輯回歸模型，完成了對(duì)電潛泵工況的診斷。對(duì)4種工況類型的56口電潛泵井的診斷準(zhǔn)確度、精確度、召回率均達(dá)到了80%以上，F(xiàn)1分?jǐn)?shù)達(dá)到了平均85%的水平，達(dá)到了期望的分類識(shí)別效果，實(shí)現(xiàn)了有效的電潛泵工況診斷。