王彪 韓國(guó)慶 路鑫 譚帥 朱志勇 梁星原
中國(guó)石油大學(xué)(北京)石油工程教育部重點(diǎn)實(shí)驗(yàn)室
電參數(shù)能夠反映電潛泵的實(shí)時(shí)工作狀態(tài),且容易實(shí)現(xiàn)監(jiān)測(cè)和收集,因此在油田開發(fā)生產(chǎn)過程中,通過電參數(shù)對(duì)電潛泵的工作狀況進(jìn)行監(jiān)測(cè)和分析的研究較多,常見的有電流卡片方法等。這些方法依賴人工經(jīng)驗(yàn),存在人為因素和主觀誤差。使用機(jī)器學(xué)習(xí)算法可以實(shí)現(xiàn)電參數(shù)的自動(dòng)分析,提高效率并降低主觀誤差。陳治國(guó)等[1]提出了基于模式識(shí)別的電流卡片特征值的提取方法,給出了人工判斷的量化指標(biāo);余繼華等[2]引入了機(jī)器學(xué)習(xí),采用神經(jīng)網(wǎng)絡(luò)方法識(shí)別電流工況,甘露等[3]使用BP算法對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行了進(jìn)一步擴(kuò)充;韓國(guó)慶等[4]補(bǔ)充了更多工況類別,進(jìn)一步擴(kuò)充了神經(jīng)網(wǎng)絡(luò)的適用性;Gupta等[5]使用主成分分析方法討論了電潛泵工況偏離正常狀態(tài)時(shí)的可視化構(gòu)建和評(píng)判方法;王國(guó)輝等[6]基于主成分分析法討論了電潛泵大數(shù)據(jù)綜合分析預(yù)警系統(tǒng)的構(gòu)建,提出通過對(duì)大數(shù)據(jù)降維實(shí)現(xiàn)油井狀態(tài)描述和監(jiān)控預(yù)警的方法;隋先富等[7]基于主成分分析法,對(duì)電潛泵的多維參數(shù)進(jìn)行降維,通過多維參數(shù)監(jiān)測(cè)了電潛泵的工作狀態(tài)改變。前人的研究側(cè)重于通過某一種方法對(duì)電潛泵井的生產(chǎn)狀態(tài)進(jìn)行描述,認(rèn)識(shí)不斷加深,但缺乏從特征提取及處理然后進(jìn)行分類識(shí)別并綜合評(píng)價(jià)的機(jī)器學(xué)習(xí)完整流程,在不同環(huán)節(jié)中依然保留有人為因素。本研究在前人研究基礎(chǔ)上,構(gòu)建了機(jī)器學(xué)習(xí)的完整流程,通過特征工程對(duì)波動(dòng)的電流數(shù)據(jù)提取大量的特征信息,然后通過降維算法實(shí)現(xiàn)特征描述和可視化,再通過分類算法實(shí)現(xiàn)工況診斷并給出具體結(jié)論,最后進(jìn)行分析與評(píng)價(jià)。使用實(shí)際生產(chǎn)時(shí)的電流數(shù)據(jù)實(shí)例,通過以上4個(gè)部分的流程的綜合,實(shí)現(xiàn)了對(duì)電潛泵工況的快速準(zhǔn)確且直觀的描述。
電流卡片診斷是API于1982年提出的一種電潛泵故障分類方法,其分類的依據(jù)是在不同的工況下運(yùn)行的電潛泵具有不同的電流波動(dòng)特征[3],例如波動(dòng)的時(shí)間長(zhǎng)短、波動(dòng)的頻次大小、電流的峰值與額定值之間的關(guān)系等。傳統(tǒng)方法受限于技術(shù)條件,通過形態(tài)來進(jìn)行模糊識(shí)別,具有較強(qiáng)的主觀因素,在泵工況識(shí)別過程中會(huì)導(dǎo)致人為誤差[8]。
為了減少誤差,學(xué)界進(jìn)行了多方面的研究,各種傳感器和數(shù)據(jù)記錄設(shè)備的發(fā)展,也大大方便了電流參數(shù)的量化。傳統(tǒng)的電流卡片記錄分鐘級(jí)的電流平均數(shù)據(jù),常見的有6 min一個(gè)點(diǎn)[9]。隨著傳感設(shè)備和數(shù)據(jù)記錄設(shè)備的性能提升,當(dāng)前油田生產(chǎn)中得到的電流數(shù)據(jù)可以達(dá)到20 s一個(gè)點(diǎn)甚至更密。數(shù)據(jù)記錄密度的提升使得電流記錄可以體現(xiàn)出有關(guān)電泵工作狀況的更多信息。此時(shí)通過傳統(tǒng)的對(duì)電泵工作狀況改變導(dǎo)致電流波動(dòng)的機(jī)理分析就顯得不夠精細(xì)和迅速。
數(shù)據(jù)密度的提升帶來了更多的電流特征。對(duì)于分析而言,這些特征的保留使得挖掘更多的信息成為可能。而采用傳統(tǒng)的方法識(shí)別,會(huì)忽視掉這些特征的細(xì)節(jié),這種信息丟失給工況的識(shí)別帶來了誤差。經(jīng)過稀釋的數(shù)據(jù)可能會(huì)淹沒一些關(guān)鍵的波動(dòng)信息,使得一些原本正常的波動(dòng)變成沒有規(guī)律的波動(dòng),導(dǎo)致局部的信息丟失和整體的信息變異,其中信息丟失是指局部位置的波動(dòng)峰值或波動(dòng)周期的消失,信息變異是指整體的波動(dòng)形態(tài)的改變。此外由于稀釋算法導(dǎo)致的信息損失,可能使得一些原本存在差異的電流波動(dòng)圖形變得接近,失去其獨(dú)特性,從而導(dǎo)致不同工況的電流數(shù)據(jù)被診斷為同一種工況,影響判斷的準(zhǔn)確性。
為了詳細(xì)說明局部的信息丟失與整體的信息變異,選取一口氣體影響工況井的20 s一個(gè)點(diǎn)的高密度實(shí)際電流數(shù)據(jù),從中取30 min數(shù)據(jù)作為研究對(duì)象,放大并與一種稀釋算法和一種間歇采樣方法獲得的6 min一個(gè)點(diǎn)的稀釋數(shù)據(jù)進(jìn)行特征對(duì)比。由圖1可看出,高密度實(shí)時(shí)電流數(shù)據(jù)反映了某種規(guī)律的電流波動(dòng),可能與負(fù)載的工作情況有關(guān)。然而通過傳統(tǒng)的均值方法或間歇采樣得到的低密度電流數(shù)據(jù)中產(chǎn)生了相比于原始數(shù)據(jù)的信息丟失,可能導(dǎo)致生產(chǎn)中的某些關(guān)鍵信息的損失。
圖1 電潛泵氣體影響工況的高密度實(shí)時(shí)電流數(shù)據(jù)與稀釋的電流數(shù)據(jù)特征對(duì)比Fig.1 Feature comparison of high-density real-time current data and diluted current data of ESP under the working condition of gas influence
解決此類信息損失的方法是盡可能保留傳感器設(shè)備傳輸?shù)脑济芏鹊臄?shù)據(jù)并進(jìn)行計(jì)算和分析,使用合理的方法去除其中包含的噪聲,同時(shí)減少對(duì)原始數(shù)據(jù)的傷害,而非使用其他方法將數(shù)據(jù)直接稀釋后計(jì)算。對(duì)于大量數(shù)據(jù)的處理與分析可以通過使用機(jī)器學(xué)習(xí)方法完成,以實(shí)現(xiàn)又快又好的評(píng)判效果。
基于電潛泵電流數(shù)據(jù)的工況識(shí)別需要進(jìn)行包括數(shù)據(jù)預(yù)處理、特征提取、特征降維、分類模型的訓(xùn)練及預(yù)測(cè)等流程,方法如圖2所示。
圖2 基于電潛泵電流數(shù)據(jù)的工況識(shí)別流程圖Fig.2 Flow chart of working condition recognition with ESP current data
為了減少數(shù)據(jù)稀釋帶來的信息損失,需要盡量保留原始的數(shù)據(jù)密度進(jìn)行運(yùn)算。然而更大的數(shù)據(jù)量導(dǎo)致了計(jì)算的困難,也給問題的分析帶來了挑戰(zhàn),因此需要實(shí)施特征工程從原始的波動(dòng)信息中提取出關(guān)鍵的有效信息。
特征工程是指將原始數(shù)據(jù)轉(zhuǎn)化為更好地表達(dá)問題本質(zhì)特征的過程,將這些特征運(yùn)用到預(yù)測(cè)模型中,能提高對(duì)不可見數(shù)據(jù)的模型預(yù)測(cè)精度。特征工程的目標(biāo)是找到分解和聚合原始數(shù)據(jù),以更好地表達(dá)問題本質(zhì)的方法,即發(fā)現(xiàn)對(duì)因變量y有明顯影響作用的自變量特征x。因此,特征工程是數(shù)據(jù)挖掘模型開發(fā)的基礎(chǔ)。
歸一化過程是對(duì)原始數(shù)據(jù)進(jìn)行線性變化,使結(jié)果落到[0,1]區(qū)間,以便消除不同數(shù)據(jù)量級(jí)之間的差別,減少分析誤差,轉(zhuǎn)換函數(shù)為
在電潛泵電流分析及工況診斷中,對(duì)電流的歸一化數(shù)據(jù)進(jìn)行波形分析,得到時(shí)域特征和波形特征作為模型的輸入,具體方法如下。
2.1.1 時(shí)域特征
(1)特征值1:方差,當(dāng)前電流值和電流均值之間的偏離程度的度量,定義為
(2)特征值2:均方根值,當(dāng)一組數(shù)據(jù)中存在較多0值,即占空比較高時(shí),直接計(jì)算其均值不能反映電流強(qiáng)度有效值,均方根值則可以很好地表征電流強(qiáng)度有效值[10],定義為
(3)特征值3:方根幅值,對(duì)振幅的變化非常敏感的物理量[11],定義為
式中,Ivar為電流方差,A;Ii為當(dāng)前電流,A;I為電流均值,A;Irms為電流均方根,A;Ir為電流方根幅值,A。
2.1.2 波形特征
(1)特征值4:峰值因數(shù),表示電源系統(tǒng)能夠提供峰值電流能力的指標(biāo)要求[12],定義為
(2)特征值5:偏度因子,數(shù)據(jù)分布偏斜方向和程度的度量,是數(shù)據(jù)分布非對(duì)稱程度的數(shù)字特征[13],負(fù)偏度代表統(tǒng)計(jì)數(shù)據(jù)為右偏分布,正偏度代表統(tǒng)計(jì)數(shù)據(jù)為左偏分布,定義為
式中,Cf為峰值因數(shù);Imax為電流最大值,A;Sk為偏度因子。
(3)特征值6:波形因子,用于量化表征波形偏離正弦波形的程度[14],定義為
其中
(4)特征值7:脈沖因子,用于描述信號(hào)沖擊的指標(biāo)[15],定義為
(5)特征值8:裕度因子,用來檢測(cè)信號(hào)中有無沖擊的指標(biāo),常用于監(jiān)測(cè)機(jī)械設(shè)備的磨損狀況[16],定義為
(6)特征值9:峭度,是反映隨機(jī)變量分布特性的數(shù)值統(tǒng)計(jì)量,可以在頻域內(nèi)表示一系列瞬態(tài)的存在及其位置,消除非平穩(wěn)信號(hào)[17]。定義為
(7)特征值10:峭度因子,表示波形平緩程度,用于描述對(duì)振動(dòng)信號(hào)沖擊特性的反映[18],定義為
式中,Sf為波形因子;Iarv為整流平均值,A;Ii(t)為隨時(shí)間變化的電流值,A;Cif為脈沖因子;Cmf為裕度因子;Ck為峭度;Ckf為峭度因子。
通過以上方法對(duì)波動(dòng)的電流數(shù)據(jù)實(shí)施特征工程,即可將波動(dòng)電流中包含的特征信息盡可能地挖掘出來,以便實(shí)施后續(xù)的機(jī)器學(xué)習(xí)步驟。特征工程是升維過程,從一維連續(xù)時(shí)間內(nèi)的波動(dòng)中提取出多維特征信息,然后針對(duì)這些特征信息展開分析,以數(shù)學(xué)模型來表達(dá),在特征工程實(shí)現(xiàn)過程中提取出的多變量大數(shù)據(jù)集為研究和應(yīng)用提供了豐富信息。
在特征工程實(shí)現(xiàn)了數(shù)據(jù)特征的挖掘之后,需要根據(jù)挖掘得到的特征值進(jìn)行處理與分析,處理的過程主要使用聚類算法實(shí)現(xiàn)數(shù)據(jù)降維,以降低計(jì)算復(fù)雜度。如果采用單獨(dú)對(duì)每個(gè)特征值進(jìn)行分析的低維度分析方法,則分析往往是孤立的,不能實(shí)現(xiàn)數(shù)據(jù)中信息的綜合利用,盲目減少分析的特征值會(huì)損失很多有用的信息,從而給分析帶來誤差。因此需要找到一種合理的方法,在減少需要分析的特征值的同時(shí),盡量減少特征值中所包含信息的損失,以實(shí)現(xiàn)對(duì)所收集數(shù)據(jù)的全面分析。常用的數(shù)據(jù)降維方法有很多,本文采用主成分分析法(PCA)去除數(shù)據(jù)中的噪聲,降低算法的計(jì)算開銷,使得結(jié)果更容易可視化并為人所理解[19]。使用主成分分析進(jìn)行降維是通過線性變化將原始數(shù)據(jù)變換為一組各維度線性無關(guān)的標(biāo)識(shí),提取數(shù)據(jù)的主要特征分量。使用主成分分析方法降維可以獲得各主成分的變異系數(shù),將這些變異系數(shù)按照主成分繪制為柱狀圖,即為PCA的碎石圖,反映降維后的各主成分所保留的原始信息的百分比。根據(jù)可接受的保留信息的比率,通過碎石圖的累積值可以幫助確定所需達(dá)到的維度。
降維的維度確定后,就可以將原本多維空間中的點(diǎn)投射到降維形成的主成分空間中,觀察參數(shù)的聚集情況。通過對(duì)原本數(shù)據(jù)的所屬工況打上顏色標(biāo)簽,可以直觀地觀察各工況在主成分空間中是否存在特殊的聚集關(guān)系,實(shí)現(xiàn)聚類結(jié)果的可視化。通過對(duì)該聚集關(guān)系的描述,就可以進(jìn)行機(jī)器學(xué)習(xí)的下一步流程,建立實(shí)現(xiàn)分類任務(wù)的機(jī)器學(xué)習(xí)模型。
在完成參數(shù)的降維、聚類與可視化后,使用分類算法對(duì)本研究中的數(shù)據(jù)聚集情況進(jìn)行具體的劃分。邏輯回歸是當(dāng)前業(yè)界比較常用的機(jī)器學(xué)習(xí)方法,用于估計(jì)某種事物的可能性[20]。它與多元線性回歸同屬一族,即廣義線性模型。多元線性回歸是直接將特征值和其對(duì)應(yīng)的概率相乘得到一個(gè)結(jié)果,邏輯回歸是在這個(gè)結(jié)果上加一個(gè)邏輯函數(shù),來實(shí)現(xiàn)對(duì)于事物屬于某一類別的可能性估計(jì)。邏輯回歸的主要思想是在模型訓(xùn)練中,首先得到極大似然函數(shù),然后使用梯度下降法求解函數(shù)中參數(shù)的近似值。
使用邏輯回歸模型根據(jù)一個(gè)特征值進(jìn)行二分類問題求解時(shí),由坐標(biāo)(x,y)確定的每個(gè)點(diǎn)代表一個(gè)樣本,其中y值的0和1代表兩種樣本標(biāo)簽,x代表樣本特征。在分類模型訓(xùn)練過程中,通過采用不同函數(shù)對(duì)訓(xùn)練樣本進(jìn)行擬合,回歸出一個(gè)能夠描述大多樣本特征的函數(shù),該函數(shù)就是最終確定的分類模型。對(duì)于本任務(wù)的多分類回歸問題,使用邏輯回歸模型可以將一個(gè)n分類任務(wù)拆分為n個(gè)二分類任務(wù)。某個(gè)分類任務(wù)歸屬于某種類型,則該類型i對(duì)應(yīng)的第i個(gè)混淆特征即為1,其余混淆特征為0,通過對(duì)每個(gè)混淆特征進(jìn)行二分類,從而實(shí)現(xiàn)多分類。
在多分類任務(wù)完成后,對(duì)機(jī)器學(xué)習(xí)算法得到的結(jié)果評(píng)估是機(jī)器學(xué)習(xí)算法完成后的必要流程。對(duì)于多分類任務(wù)的評(píng)估指標(biāo)包括準(zhǔn)確率(Accuracy)、精確率 (Precision)、召回率 (Recall)、和F1分?jǐn)?shù) (F1-Score)方法等。根據(jù)所要處理的問題不同,各種評(píng)估指標(biāo)具有不同的適用性。
準(zhǔn)確率是指對(duì)于給定的測(cè)試數(shù)據(jù)集,分類器正確分類的樣本數(shù)與總樣本數(shù)之比[21]。但當(dāng)分類任務(wù)中不同類型的樣本數(shù)量差異比較大時(shí),或者分類任務(wù)目標(biāo)不同,準(zhǔn)確率未必能夠真實(shí)地反映分類器的分類效果。為了彌補(bǔ)準(zhǔn)確率方面的不足,引入了精確率、召回率和F1分?jǐn)?shù)的概念。以二分類任務(wù)為例,定義4種分類狀況:真正類(True Positive)、假正類 (False Positive)、假負(fù)類 (False Negative)、真負(fù)類(True Negative)。
通過以上4種概念定義精確率和召回率。精確
率表示分類器預(yù)測(cè)為正的樣本中有多少個(gè)是真實(shí)的正樣本,召回率表示樣本中的正例有多少被正確預(yù)測(cè)了,兩者分別評(píng)判了分類器的漏報(bào)或誤報(bào)率。精確率和召回率之間是互相影響的,對(duì)于一個(gè)案例而言,最好的情況是做到兩者都高,但一般情況下精確率高、召回率就低,召回率高、精確率就低。
對(duì)于電潛泵的故障診斷而言,既希望召回率高,即減少漏報(bào),避免額外的經(jīng)濟(jì)損失,又希望精確率高,即減少誤報(bào),避免額外的工作量和人力物力投入。因此,精確率和召回率之間還需要一定的平衡。此時(shí)就可以使用F1分?jǐn)?shù)來對(duì)兩者進(jìn)行均衡,精確率和召回率越高,則F1分?jǐn)?shù)越高,分類任務(wù)越好。
從A油田電潛泵井?dāng)?shù)據(jù)庫(kù)中提取了正常工況、泵抽空、過載停泵、頻繁短周期運(yùn)行4種工況的井共計(jì)56口,使用前文所述特征工程的方法從56口井的實(shí)時(shí)電流數(shù)據(jù)中分別提取10個(gè)特征值。各樣本井的特征值與工況的對(duì)應(yīng)關(guān)系部分示例見表1。
表1 樣本的特征值與工況對(duì)應(yīng)關(guān)系的部分示例Table 1 A partial example of the correspondence between eigenvalues and working conditions of samples
利用基于皮爾遜相關(guān)系數(shù)的相關(guān)性分析法對(duì)這10個(gè)特征值和實(shí)際工況進(jìn)行相關(guān)性描述,線性正相關(guān)性越強(qiáng),則相關(guān)度越接近1,線性負(fù)相關(guān)性強(qiáng),則相關(guān)度越接近?1。從圖3各特征值之間的相關(guān)關(guān)系,以及各特征值與最終工況的相關(guān)關(guān)系量化可以直觀看出,部分特征值之間存在較強(qiáng)的線性相關(guān)性,這說明部分特征值表現(xiàn)的特征是重復(fù)的,可以進(jìn)行適當(dāng)?shù)慕稻S操作以提取出主要的特征描述方法,降低機(jī)器學(xué)習(xí)的計(jì)算量和計(jì)算復(fù)雜度。且從與工況的關(guān)系也可以看出,工況與各個(gè)特征值之間均存在較強(qiáng)相關(guān)性,這也說明,僅使用單個(gè)特征值難以描述對(duì)結(jié)果的影響。
圖3 各特征值和工況彼此之間的相關(guān)系數(shù)Fig.3 Correlation coefficients of eigenvalues and the working conditions with each other
基于相關(guān)性熱力圖得到的分析結(jié)果,其中存在的線性相關(guān)性較強(qiáng)的變量需要進(jìn)行降維以降低計(jì)算量并實(shí)現(xiàn)可視化。對(duì)這些特征值去除工況結(jié)論進(jìn)行無監(jiān)督的PCA降維聚類,圖4的PCA碎石圖展示了降維的主成分?jǐn)?shù)量保留原始信息的程度,以各主成分解釋的方差比進(jìn)行量化。
圖4 使用PCA降維的碎石圖和累積分布圖Fig.4 Scree plot and cumulative distribution diagram obtained from dimensionality reduction with PCA
從圖4可以看出,PC1對(duì)電流特征值所包含信息的保留程度達(dá)到64.55%,PC2對(duì)電流特征值所包含信息的保留程度達(dá)到19.18%,PC1和PC2共同達(dá)到的信息保留程度達(dá)到83.73%。兩個(gè)主成分就可以保留80%以上的特征值信息,因此從可視化效果以及計(jì)算難度上考慮,可以認(rèn)為使用兩個(gè)主成分即可實(shí)現(xiàn)對(duì)電流特征值的總體描述。
使用降維后的特征值進(jìn)行二維無監(jiān)督聚類,觀察數(shù)據(jù)的聚類情況,以便確定使用電流特征值的二維聚類判別電泵工況的實(shí)現(xiàn)可行性。二維無監(jiān)督聚類效果如圖5所示。
圖5 對(duì)電參數(shù)特征值進(jìn)行二維無監(jiān)督聚類的結(jié)果Fig.5 The results of 2-dimensional unsupervised clustering for the eigenvalues of current data
從圖5可以看出,上述56口井在主成分分析圖中似乎有3到4處較好的聚類。為了確定這種聚類方式是否與各個(gè)工況相關(guān),用原本各個(gè)電流情況對(duì)應(yīng)的工況作標(biāo)簽來對(duì)各聚類點(diǎn)進(jìn)行顏色和形狀的標(biāo)記,結(jié)果如圖6所示。
圖6 PCA聚類中各點(diǎn)所代表的工況情況Fig.6 The working conditions represented by points in the clustering diagram with PCA
從圖6可以看出,電潛泵的電參數(shù)特征值進(jìn)行二維無監(jiān)督聚類的位置分布情況確實(shí)與不同工況有關(guān),因此認(rèn)為此次聚類效果較好,實(shí)現(xiàn)了各個(gè)工況的特征分離。從PCA降維的碎石圖上看,6個(gè)維度的主成分能夠描述電流的幾乎99.98%的信息。因此根據(jù)PCA算法,形成特征值與主成分的系數(shù)矩陣熱力圖,如圖7所示。
圖7 各特征值與各主成分之間的相關(guān)系數(shù)Fig.7 Correlation coefficients of each eigenvalue with each principal component
圖7中6個(gè)主成分與10個(gè)特征值的關(guān)系的描述為:每一行對(duì)應(yīng)一個(gè)主成分,每一列對(duì)應(yīng)一個(gè)特征值。以第1行為例,表明第1主成分可使用該行中每格的權(quán)重?cái)?shù)值與其對(duì)應(yīng)的特征值乘積的累加和表示如下
式中,f1~f10分別表示特征值1至特征值10。
其他主成分的表示方式與第1主成分的表示方式類似。
對(duì)主成分與特征值之間關(guān)系描述的主要作用是,當(dāng)新輸入一口井的數(shù)據(jù)并提取特征值后,按照熱力圖中每個(gè)點(diǎn)的系數(shù),即可求取各個(gè)主成分值,以便進(jìn)行后續(xù)的機(jī)器學(xué)習(xí)算法。
從圖6的工況分布情況來看,PCA聚類在描述各個(gè)電泵工況時(shí)具有較好的能力,對(duì)于新加入的一口井的數(shù)據(jù)而言,如果提取特征值并降維后分布位置在上述聚簇內(nèi)部,那么該井所處工況屬于該聚簇表示的工況的可能性較大,但如果新加入的一口井處于某兩種工況形成的聚簇之間時(shí),對(duì)于工況的判別就難以直接描述。此時(shí)需要對(duì)數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)完成分類任務(wù),以進(jìn)行工況的準(zhǔn)確識(shí)別和判斷,最終實(shí)現(xiàn)機(jī)器學(xué)習(xí)的數(shù)據(jù)處理、訓(xùn)練與預(yù)測(cè)的閉環(huán)。
使用邏輯回歸方法對(duì)4種工況類型的56口樣本井的數(shù)據(jù)進(jìn)行學(xué)習(xí)和預(yù)測(cè),測(cè)試集占比設(shè)置為30%,計(jì)算得到準(zhǔn)確率0.84,精確率、召回率和F1分?jǐn)?shù)見表2。
表2 使用邏輯回歸的機(jī)器學(xué)習(xí)的結(jié)果評(píng)價(jià)Table 2 Results evaluation of ML using LR algorithm
如表2所示,模型最終實(shí)現(xiàn)的效果中,4種工況類型的56口井的各評(píng)價(jià)指標(biāo)評(píng)價(jià)結(jié)果均達(dá)到80%以上,且平均F1分?jǐn)?shù)達(dá)到了85%,說明使用電流特征值降維的二維主成分建立的邏輯回歸模型在這4種工況類型的56口電泵井的評(píng)價(jià)中實(shí)現(xiàn)了較好的分類效果。
(1)與傳統(tǒng)的電流特征識(shí)別方法相比,基于機(jī)器學(xué)習(xí)的電潛泵電流分析及工況診斷實(shí)現(xiàn)了對(duì)電流數(shù)據(jù)的特征提取,將電流波動(dòng)的形狀描述問題轉(zhuǎn)化為基于數(shù)據(jù)的數(shù)學(xué)特征量化描述問題,提升了評(píng)價(jià)的客觀性,減少了人為誤差。
(2)通過特征工程提取的特征值本身復(fù)雜多樣,且各個(gè)特征值之間可能具有較強(qiáng)的線性相關(guān)性,需要對(duì)這些數(shù)據(jù)剔除線性相關(guān)變量,保留線性無關(guān)變量,以便減少機(jī)器學(xué)習(xí)的輸入數(shù)據(jù),降低機(jī)器學(xué)習(xí)的模型復(fù)雜度。采用PCA方法降維,一方面保留了特征提取中獲得的主要特征,另一方面減少了機(jī)器學(xué)習(xí)的輸入數(shù)據(jù)維度,降低了計(jì)算復(fù)雜度,同時(shí)還能通過聚類效果的可視化確定數(shù)據(jù)特征提取是否滿足泵工況描述的要求。使用二維主成分表征的電潛泵工況信息保留程度達(dá)到83.73%,降維聚類表現(xiàn)出了良好的工況區(qū)分性,為使用邏輯回歸方法實(shí)施分類任務(wù)奠定了基礎(chǔ)。
(3)使用降維后的電參數(shù)特征數(shù)據(jù),建立邏輯回歸模型,完成了對(duì)電潛泵工況的診斷。對(duì)4種工況類型的56口電潛泵井的診斷準(zhǔn)確度、精確度、召回率均達(dá)到了80%以上,F(xiàn)1分?jǐn)?shù)達(dá)到了平均85%的水平,達(dá)到了期望的分類識(shí)別效果,實(shí)現(xiàn)了有效的電潛泵工況診斷。