基于實(shí)例和屬性加權(quán)樸素貝葉斯的電氣故障分類研究

2022-06-01 13:36:30舒一飛郭汶昇康潔瀅許詩(shī)雨

計(jì)算機(jī)測(cè)量與控制 2022年5期

舒一飛,郭汶昇,樊博,康潔瀅,許詩(shī)雨,楊林

(1.國(guó)網(wǎng)寧夏電力有限公司營(yíng)銷服務(wù)中心，銀川 750000； 2.四川大學(xué) 電氣工程學(xué)院，成都 610065)

0 引言

我國(guó)電氣急速發(fā)展，電氣化進(jìn)程顯著改善人民生活，但由諸多因素引起的電氣故障時(shí)有發(fā)生，給用電安全、經(jīng)濟(jì)建設(shè)及電氣市場(chǎng)發(fā)展帶來(lái)直接影響。因此及時(shí)、快速、準(zhǔn)確地對(duì)電氣故障進(jìn)行分類，對(duì)后續(xù)檢修、防治，用電線路升級(jí)都具有重要意義。居民用電過(guò)程中的電氣故障主要有漏電，短路，過(guò)壓，斷相等，而電氣故障診斷分類的傳統(tǒng)方法是基于知識(shí)驅(qū)動(dòng)的，該方法由故障診斷知識(shí)庫(kù)、專家知識(shí)庫(kù)、故障診斷推理機(jī)等組成，通過(guò)將監(jiān)視的物理征兆導(dǎo)入推理機(jī)，并由故障診斷推理機(jī)與專家知識(shí)庫(kù)交互，求解出物理征兆下的故障類型，從而完成分類。該方法簡(jiǎn)單易行，但存在較大的主觀性，不能做到對(duì)電網(wǎng)監(jiān)測(cè)數(shù)據(jù)的實(shí)時(shí)充分利用和準(zhǔn)確的故障分析分類。

近年來(lái)，諸如神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、K近鄰、決策樹(shù)等快速發(fā)展的數(shù)據(jù)驅(qū)動(dòng)方式為故障分類提供了新的手段，由于具備堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)，無(wú)需先驗(yàn)知識(shí)，可僅利用原始的數(shù)據(jù)特征就完成故障分類任務(wù)。但目前這種方法面臨挑戰(zhàn)，數(shù)據(jù)驅(qū)動(dòng)方式對(duì)數(shù)據(jù)的數(shù)量及質(zhì)量都有著較高的要求。不充分的數(shù)據(jù)量將導(dǎo)致網(wǎng)絡(luò)架構(gòu)無(wú)法擬合，過(guò)差的數(shù)據(jù)質(zhì)量將使得網(wǎng)絡(luò)的推廣能力下降，對(duì)于居民用電故障分類來(lái)說(shuō)，缺乏大量真實(shí)故障數(shù)據(jù)，需通過(guò)仿真機(jī)產(chǎn)生大量的模擬故障數(shù)據(jù)片段，不具有較強(qiáng)的推廣能力。同時(shí)這種方法無(wú)法明確地表征數(shù)據(jù)特征，僅在架構(gòu)內(nèi)部進(jìn)行學(xué)習(xí)，沒(méi)有充分完整地對(duì)數(shù)據(jù)屬性及特征進(jìn)行分析和利用，造成了數(shù)據(jù)資源的浪費(fèi)。

而樸素貝葉斯將貝葉斯概率、統(tǒng)計(jì)學(xué)理論和特征條件獨(dú)立假設(shè)相結(jié)合，對(duì)樣本的數(shù)據(jù)信息進(jìn)行了嚴(yán)密的推理計(jì)算，形成了穩(wěn)固的理論體系與方法，可以解決數(shù)據(jù)分析不確定性和不完整性問(wèn)題。同時(shí)為降低屬性條件獨(dú)立假設(shè)所帶來(lái)的負(fù)面影響，改進(jìn)樸素貝葉斯網(wǎng)絡(luò)分類算法引起了越來(lái)越多學(xué)者的廣泛關(guān)注，并由此產(chǎn)生了許多改進(jìn)的分類模型和學(xué)習(xí)算法；其中包括通過(guò)增加有向邊限制條件獨(dú)立假設(shè)的結(jié)構(gòu)擴(kuò)展、根據(jù)待測(cè)實(shí)例領(lǐng)域選擇的實(shí)例選擇、選擇最合理屬性子集的屬性選擇以及屬性加權(quán)、實(shí)例加權(quán)五種改進(jìn)方式。

其中效果較優(yōu)的為屬性加權(quán)樸素貝葉斯和實(shí)例加權(quán)樸素貝葉斯。屬性加權(quán)是根據(jù)屬性對(duì)分類預(yù)測(cè)的影響力來(lái)為不同的屬性分配不同的權(quán)值，然后在加權(quán)以后的實(shí)例樣本集上構(gòu)建貝葉斯分類器；實(shí)例加權(quán)則根據(jù)實(shí)例分布情況對(duì)訓(xùn)練實(shí)例賦予不同的權(quán)重，然后在加權(quán)的訓(xùn)練實(shí)例集上構(gòu)建分類器；加權(quán)方式可以科學(xué)嚴(yán)謹(jǐn)?shù)乇碚鲾?shù)據(jù)特征，并且能夠充分對(duì)其進(jìn)行計(jì)算與分析，使得輸入算法框架內(nèi)的特征信息濃度更高，較充分地提升算法性能表現(xiàn)。

但目前的研究局限于僅采用一種加權(quán)方法，未將屬性加權(quán)與實(shí)例加權(quán)有機(jī)結(jié)合在樸素貝葉斯框架內(nèi)，文章充分考慮不同屬性應(yīng)具有不同重要性，不同實(shí)例應(yīng)具有不同可靠性，在樸素貝葉斯框架內(nèi)采用雙重加權(quán)，解決數(shù)據(jù)分析不確定性和數(shù)據(jù)不完整性問(wèn)題，增加對(duì)數(shù)據(jù)片段特征的捕捉和利用，提高算法的實(shí)用性和魯棒性，完成對(duì)電氣故障高效準(zhǔn)確的分類，并可推廣至其他分類情形；并與其他基于數(shù)據(jù)驅(qū)動(dòng)方式的電力故障分類方法進(jìn)行對(duì)比，驗(yàn)證文中算法的有效性。

1 樸素貝葉斯分類

樸素貝葉斯分類是依據(jù)貝葉斯定理計(jì)算條件概率從而實(shí)現(xiàn)分類預(yù)測(cè)，而貝葉斯定理的前提條件是各條件屬性相互獨(dú)立且對(duì)分類結(jié)果影響相同，但這在現(xiàn)實(shí)中常常難以滿足。

如果

,…,

}為訓(xùn)練數(shù)據(jù)集，其中{

,…,

}為

個(gè)屬性變量，

為是屬性

的取值，

,…,

}是類別總數(shù)為

的類別變量。一個(gè)待分類實(shí)例

,…,

]屬于

類的條件概率，根據(jù)貝葉斯定理有:

(1)

其中:為進(jìn)行分類預(yù)測(cè)的后驗(yàn)概率，

(

,…,

∣

)為給定第

類下屬性值為[

,…,

]的條件概率，

(

)是第

類的先驗(yàn)概率，

(

,…,

)是屬性的先驗(yàn)概率，對(duì)于各類別都相同。

基于各屬性相互獨(dú)立的前提條件，條件概率可表示為：

(2)

其中:

(

∣

)表示第

類下屬性

的條件概率。對(duì)于待分類實(shí)例

,基于后驗(yàn)概率最大的原則，樸素貝葉斯分類可表示為：

(3)

式中,

(

)和

(

∣

)可以通過(guò)訓(xùn)練樣本而求得，其計(jì)算方式如下：

(4)

(5)

其中:

為訓(xùn)練樣本總數(shù)，

為第

個(gè)訓(xùn)練樣本的第

個(gè)屬性值，

為第

個(gè)屬性值在訓(xùn)練樣本中的個(gè)數(shù)，

(

)為二值函數(shù)，定義為：

(6)

2 實(shí)例和屬性加權(quán)的樸素貝葉斯

樸素貝葉斯分類基于各條件屬性相互獨(dú)立且對(duì)分類結(jié)果影響相同的假設(shè)條件，這在現(xiàn)實(shí)中難以滿足。事實(shí)上，屬性集中的一些屬性比其他屬性對(duì)預(yù)測(cè)分類更加重要，因此，可以通過(guò)屬性加權(quán)為每個(gè)屬性分配一個(gè)不同的權(quán)重，通常，對(duì)預(yù)測(cè)分類越重要的屬性為其分配越大的權(quán)重，反之亦然。此外,一些訓(xùn)練實(shí)例比其他實(shí)例對(duì)預(yù)測(cè)分類更可靠，它們對(duì)最終模型的影響應(yīng)該也更大，因此實(shí)例加權(quán)也是另一種緩解樸素貝葉斯劣勢(shì)的有效方法。

2.1 雙重加權(quán)樸素貝葉斯框架

鑒于此，本文融合屬性加權(quán)和實(shí)例加權(quán)的優(yōu)勢(shì)，提出屬性和實(shí)例加權(quán)的樸素貝葉斯分類(AIWNB)。改進(jìn)后的AIWNB，一方面采用屬性加權(quán)方法對(duì)不同的屬性分別賦予不同的權(quán)重，另一方面，采用實(shí)例加權(quán)方法更準(zhǔn)確地估計(jì)先驗(yàn)概率和條件概率。因此，AIWNB可以同時(shí)繼承屬性加權(quán)的優(yōu)點(diǎn)和實(shí)例加權(quán)的優(yōu)點(diǎn)，從而獲得比單一屬性加權(quán)或單一實(shí)例加權(quán)更好的性能。

在AIWNB中，將屬性權(quán)重納入樸素貝葉斯分類公式中，并將實(shí)例權(quán)重納入先驗(yàn)概率和條件概率中。因此,AIWNB的預(yù)測(cè)分類可表示為：

(7)

(8)

(9)

圖1 AIWNB算法架構(gòu)

2.2 實(shí)例權(quán)值的設(shè)置

尋找實(shí)例權(quán)值的方法通常采用積極學(xué)習(xí)方法和消極學(xué)習(xí)方法，文中采用了這兩種實(shí)例加權(quán)方法，并通過(guò)實(shí)驗(yàn)比較兩種實(shí)例加權(quán)算法的差異性；并據(jù)此提出二者的較為適宜的使用環(huán)境，發(fā)揮更大的算法優(yōu)勢(shì)。

2.2.1 積極實(shí)例加權(quán)

為了保持樸素貝葉斯的計(jì)算簡(jiǎn)單性，采用一種簡(jiǎn)單、高效、有效的方法——基于屬性值頻度的實(shí)例加權(quán)濾波器來(lái)學(xué)習(xí)每個(gè)實(shí)例的權(quán)重。這種方法是基于以下觀察結(jié)果：1)每個(gè)屬性值的頻率包含一些重要的信息，這些信息可以用來(lái)定義訓(xùn)練實(shí)例的權(quán)重；2)每個(gè)訓(xùn)練實(shí)例的權(quán)重與其屬性值頻率向量和整個(gè)訓(xùn)練數(shù)據(jù)集的屬性值個(gè)數(shù)向量呈正相關(guān)。

首先，計(jì)算每個(gè)屬性值的頻率，

(10)

是

(第

個(gè)實(shí)例第

個(gè)屬性值)的頻率，

是訓(xùn)練實(shí)例的數(shù)量，

是第

個(gè)實(shí)例第

個(gè)屬性值。令

為第

個(gè)屬性的值的數(shù)量，并且可表示為[

,…,

]；則第

個(gè)實(shí)例的權(quán)重定義為屬性值頻率向量與屬性值個(gè)數(shù)向量的內(nèi)積，

(11)

2.2.2 消極實(shí)例加權(quán)

不同于積極實(shí)例加權(quán)，消極實(shí)例加權(quán)集中注意力于計(jì)算并統(tǒng)計(jì)訓(xùn)練實(shí)例與測(cè)試實(shí)例間的相關(guān)性，雖然時(shí)間復(fù)雜度較積極加權(quán)方式更高，但是可以在分類準(zhǔn)確率上得到提升。

為測(cè)試實(shí)例，

為第

個(gè)訓(xùn)練實(shí)例，它們間的相似性定義為：

(12)

從式(16)可以看出，

(

)簡(jiǎn)單地對(duì)

和

的相同屬性的數(shù)量進(jìn)行統(tǒng)計(jì)的函數(shù)，進(jìn)而粗略地衡量?jī)蓚€(gè)實(shí)例間的相似程度，定義第

個(gè)訓(xùn)練實(shí)例的權(quán)重為：

(13)

2.3 屬性權(quán)值的設(shè)置

鑒于互信息可以度量每對(duì)隨機(jī)離散變量之間的相關(guān)性，因此，文中利用互信息來(lái)度量屬性-類之間、屬性-屬性之間的相關(guān)性，從而計(jì)算得到類關(guān)聯(lián)度和屬性間的相互關(guān)聯(lián)度。每個(gè)屬性的權(quán)重可以通過(guò)對(duì)歸一化后的類關(guān)聯(lián)度與平均相互關(guān)聯(lián)度之間的差值進(jìn)行Sigmoid變換后獲取，具體的計(jì)算步驟如下所示：

1)屬性(

)-類(

)的相關(guān)性、屬性(

)-屬性(

)的相關(guān)性采用互信息來(lái)度量，分別定義為：

(14)

(15)

2)對(duì)

(

;

)和

(

;

)進(jìn)行歸一化操作：

(16)

(17)

其中：

(

;

)和

(

;

)分別為歸一化類關(guān)聯(lián)度和相互關(guān)聯(lián)度；歸一化后的各相關(guān)性可直接用于運(yùn)算，不受相關(guān)屬性的單位限制。

3) 將屬性權(quán)重定義為類關(guān)聯(lián)度與平均相互關(guān)聯(lián)度的差值。

(18)

根據(jù)上式計(jì)算得到的權(quán)值可能為負(fù)數(shù)，應(yīng)使權(quán)值范圍落入[0,1]，利用sigmoid函數(shù)對(duì)其進(jìn)行變換，可得到各屬性權(quán)值，

(19)

進(jìn)一步地，將屬性加權(quán)和兩種實(shí)例加權(quán)相結(jié)合，由此得到如下兩種用于電氣設(shè)備故障分類的算法，AIWNB(屬性-積極實(shí)例加權(quán)樸素貝葉斯)和AIWNB(屬性-消極實(shí)例加權(quán)樸素貝葉斯)。

算法1:AIWNB

輸入：原始訓(xùn)練集

輸出：屬性權(quán)值向量

，實(shí)例權(quán)值向量

，類別

1.計(jì)算訓(xùn)練集各實(shí)例的屬性值頻率

及屬性值個(gè)數(shù)

；

3.計(jì)算各屬性

的

(

;

)與

(

;

)；4.對(duì)各屬性的

(

;

)與

(

;

)歸一化得到

(

;

)，

(

;

)；

7.計(jì)算先驗(yàn)概率

(

)，條件概率

(

)，類別概率

(

)；

8.返回類別。

算法2:AIWNB

輸入：原始訓(xùn)練集

輸出：屬性權(quán)值向量

，實(shí)例權(quán)值向量

，類別

1)計(jì)算訓(xùn)練實(shí)例

和待測(cè)實(shí)例

的相似性

(

)；

3)計(jì)算各屬性

的

(

;

)與

(

;

)；4)對(duì)各屬性的

(

;

)與

(

;

)歸一化得到

(

;

)，

(

;

)；

6)計(jì)算先驗(yàn)概率

(

)，條件概率

(

)，類別概率

(

)；

7)返回類別。

3 實(shí)例驗(yàn)證

3.1 數(shù)據(jù)預(yù)處理

用電數(shù)據(jù)采集于國(guó)網(wǎng)寧夏電氣有限公司計(jì)量中心，包含高低壓用戶783戶為期31天的三相電壓，三相電流，功率及功率因數(shù)8項(xiàng)數(shù)據(jù)。獲得數(shù)據(jù)后對(duì)異常數(shù)據(jù)進(jìn)行清洗，因電氣故障的發(fā)生將導(dǎo)致各項(xiàng)數(shù)據(jù)發(fā)生相應(yīng)變化，僅去除掉空值、數(shù)值偏差極大、重復(fù)值的數(shù)據(jù)段。

根據(jù)已統(tǒng)計(jì)到的用電情況，并結(jié)合故障發(fā)生時(shí)電壓電流變化情況，經(jīng)由相關(guān)文獻(xiàn)[17-20]及專家標(biāo)注，可總結(jié)為如表1的故障類別及判定依據(jù)。如果設(shè)備負(fù)載是家用熱電偶、燈、加熱器等，供電線路出現(xiàn)以下4種故障時(shí)設(shè)備電流、電壓和功率變化趨勢(shì)如表1所示，正常運(yùn)行數(shù)據(jù)段標(biāo)簽為“1”。

由于數(shù)據(jù)集內(nèi)包含的故障數(shù)據(jù)段過(guò)少，通過(guò)在故障數(shù)據(jù)段內(nèi)的每個(gè)屬性疊加隨機(jī)高斯噪聲，增加少量故障數(shù)據(jù)片段，提升加權(quán)樸素貝葉斯對(duì)其特征的捕捉能力；隨機(jī)噪聲與真實(shí)情況接近，保證數(shù)據(jù)可用，較大程度模擬真實(shí)故障數(shù)據(jù)。公式如下:

表1 電氣故障判據(jù)

(20)

其中:

為高斯噪聲的均值，設(shè)置為0；

為高斯噪聲的標(biāo)準(zhǔn)差，設(shè)置為0.1；

Gauss

(

)為生成的噪聲，將其與原始數(shù)據(jù)疊加，完成數(shù)據(jù)增強(qiáng)。僅對(duì)4種電氣故障類型進(jìn)行數(shù)據(jù)增強(qiáng)，正常運(yùn)作片段不作處理。原始數(shù)據(jù)及數(shù)據(jù)增強(qiáng)后的各電氣故障類型數(shù)量對(duì)比如表2所示。

表2 數(shù)據(jù)增強(qiáng)前后故障類型數(shù)量

經(jīng)由數(shù)據(jù)增強(qiáng)后總共獲得58 209條數(shù)據(jù)段，隨機(jī)取得10 000條數(shù)據(jù)作為測(cè)試集，并對(duì)訓(xùn)練集與測(cè)試集進(jìn)行歸一化，歸一化可提高AIWNB的收斂速度以及分類精度，文章采取min-max歸一化方法，其公式如下，

(21)

其中:

min

為所有數(shù)據(jù)段的當(dāng)前屬性

的最小值，

max

為所有數(shù)據(jù)段的當(dāng)前屬性

的最大值。

3.2 評(píng)價(jià)指標(biāo)

為準(zhǔn)確評(píng)估文章提出模型在分類中的表現(xiàn)，選擇準(zhǔn)確率(

Accuracy

)和

1分?jǐn)?shù)也作為衡量模型性能和有效性的指標(biāo)，其計(jì)算公式如下：

(22)

(23)

其中:精準(zhǔn)率(

Precision

)及召回率(

Recall

)計(jì)算公式如下，

(24)

(25)

式中,

表示正類別中準(zhǔn)確分類樣本的數(shù)量;

表示負(fù)類別中準(zhǔn)確分類樣本的數(shù)量;

表示正類別中錯(cuò)誤分類樣本的數(shù)量;

是負(fù)類別中錯(cuò)誤分類樣本的數(shù)量。

3.3 結(jié)果及分析

按前文所述，對(duì)屬性及實(shí)例分別求解其權(quán)值，為使實(shí)驗(yàn)更嚴(yán)謹(jǐn)、更具說(shuō)服性，將分別使用單獨(dú)屬性加權(quán)，單獨(dú)積極實(shí)例加權(quán)，單獨(dú)消極實(shí)例加權(quán)，屬性-積極實(shí)例加權(quán)，屬性-消極實(shí)例加權(quán)與原始樸素貝葉斯實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比，獲取到效果最佳的加權(quán)樸素貝葉斯方式。

3.3.1 屬性及實(shí)例權(quán)值

積極實(shí)例加權(quán)依賴于對(duì)各屬性的屬性值頻率計(jì)算，而觀察采集到的數(shù)據(jù)得知實(shí)際運(yùn)行數(shù)據(jù)的各屬性值分散，導(dǎo)致屬性值頻率

極小，并不利于計(jì)算；因此借用模糊化思想，文中按照表1所述的各屬性值變化界定范圍，按照類別進(jìn)行劃分，進(jìn)而計(jì)算得到各類實(shí)例的權(quán)值，如表3所示。

表3 積極實(shí)例加權(quán)各類實(shí)例權(quán)值

消極實(shí)例加權(quán)更注重于訓(xùn)練實(shí)例與測(cè)試實(shí)例的相似性，通過(guò)計(jì)算每條訓(xùn)練實(shí)例與每條測(cè)試實(shí)例的相似性對(duì)實(shí)例進(jìn)行權(quán)值的劃分，進(jìn)而改善樸素貝葉斯對(duì)不同實(shí)例的注意程度，提升分類精度。因數(shù)據(jù)片段過(guò)多，部分實(shí)例權(quán)值如表4所示。

表4 消極實(shí)例加權(quán)-部分實(shí)例權(quán)值

通過(guò)對(duì)屬性-類相關(guān)性和屬性-屬性相關(guān)性的殘差進(jìn)行sigmoid變化得到各屬性權(quán)值，基于互信息的各屬性權(quán)值如表5所示。

表5 基于互信息的各屬性權(quán)值

3.3.2 算法性能分析

為全面評(píng)價(jià)算法的整體性能，文章對(duì)各算法的準(zhǔn)確率及F1分?jǐn)?shù)進(jìn)行計(jì)算，具體值如表6～7所示，各算法總體準(zhǔn)確率如圖2所示。

表6 算法準(zhǔn)確率對(duì)比

表7 算法F1分?jǐn)?shù)對(duì)比

圖2 算法總準(zhǔn)確率曲線圖

可以看出，加權(quán)樸素貝葉斯在納入不同屬性、實(shí)例的權(quán)值后，相較于單一樸素貝葉斯提高了對(duì)電氣故障分類的準(zhǔn)確率，同時(shí)獲得較高的F1分?jǐn)?shù)，證明在加權(quán)樸素貝葉斯能夠提取到更多的全局特征，可較大程度提高分類準(zhǔn)確率。積極實(shí)例加權(quán)與消極實(shí)例加權(quán)的準(zhǔn)確率相差較小，但在實(shí)驗(yàn)過(guò)程中，消極實(shí)例加權(quán)因需要對(duì)訓(xùn)練實(shí)例及測(cè)試實(shí)例逐條計(jì)算相關(guān)性，耗費(fèi)更多的運(yùn)算時(shí)間，實(shí)際使用中偏向于實(shí)時(shí)性，可考慮使用積極實(shí)例加權(quán)。而在電氣數(shù)據(jù)分析和診斷中，消極實(shí)例加權(quán)的優(yōu)勢(shì)更大，可以獲得最高的分類準(zhǔn)確率。

雙重加權(quán)樸素貝葉斯較單一樸素貝葉斯的準(zhǔn)確率提升為0.11%～3.09%，F(xiàn)1分?jǐn)?shù)提升為0.32%～9.39%。屬性-實(shí)例雙重加權(quán)樸素貝葉斯對(duì)于待分類的電氣故障的高準(zhǔn)確率來(lái)源于對(duì)屬性和實(shí)例兩者權(quán)值的同時(shí)分析，完整又準(zhǔn)確地提取各電氣故障的特征分布；并且在第4類與第5類取得接近完全準(zhǔn)確的分類效果。屬性-積極實(shí)例加權(quán)樸素貝葉斯(AIWNB)及屬性-消極實(shí)例加權(quán)樸素貝葉斯(AIWNB)的混淆矩陣如圖3所示。

圖3 雙重加權(quán)樸素貝葉斯分類混淆矩陣

AIWNB與AIWNB在面對(duì)第2,3,4,5類時(shí)幾乎可以取得完全準(zhǔn)確的分類結(jié)果，且在1類的偏差較小；由于消極實(shí)例加權(quán)更注重于對(duì)測(cè)試實(shí)例的分析，進(jìn)而會(huì)取得更加優(yōu)良的分類效果，而代價(jià)則是增加運(yùn)算時(shí)間，積極實(shí)例加權(quán)的分類效果稍弱，但運(yùn)算時(shí)間較少，僅需根據(jù)屬性范圍確定權(quán)值。

3.4 其他電氣故障分類方法性能對(duì)比

文中基于屬性-消極實(shí)例加權(quán)樸素貝葉斯的電氣故障分類在實(shí)際數(shù)據(jù)中取得了98.06%的準(zhǔn)確率，為進(jìn)一步驗(yàn)證算法有效性，選取K近鄰(KNN,k-nearest neighbor)，決策樹(shù)(DT,decision tree)、支持向量機(jī)(SVM,support vector machine)、極端梯度提升(XGBoost)等基于數(shù)據(jù)驅(qū)動(dòng)方式作為電氣故障分類方法進(jìn)行對(duì)比；上述機(jī)器學(xué)習(xí)方法使用廣泛，分類效果較好，可形成較好的對(duì)比組。

為保證對(duì)比實(shí)驗(yàn)的可信度，在完全相同的訓(xùn)練集與測(cè)試集下收集各電氣故障分類方法的分類準(zhǔn)確率，如表8所示。

表8 其他電氣故障分類方法準(zhǔn)確率對(duì)比

對(duì)各方法指標(biāo)數(shù)據(jù)的進(jìn)一步觀察可知，雙重加權(quán)樸素貝葉斯在獲得屬性及實(shí)例的權(quán)值后，能夠更加準(zhǔn)確地對(duì)電氣故障進(jìn)行分類，相較于KNN、DT與SVM取得了更好的分類效果；而XGBoost在第4類取得了更好的分類效果，但XGBoost依賴于梯度的下降，計(jì)算量較大，根據(jù)實(shí)驗(yàn)數(shù)據(jù)顯示運(yùn)算時(shí)間為1.18 s；而AIWNB的運(yùn)算時(shí)間僅為0.536 s，具有更好的實(shí)時(shí)性。

4 結(jié)束語(yǔ)

文章采用樸素貝葉斯架構(gòu)，提出了基于屬性加權(quán)和實(shí)例加權(quán)的電氣故障分類算法。該算法通過(guò)互信息統(tǒng)計(jì)屬性-類間依賴性和屬性-屬性冗余度獲取各屬性權(quán)值，提升算法對(duì)各屬性特征的提取與利用能力；分別計(jì)算實(shí)例屬性值頻率和實(shí)例間相關(guān)性完成積極、消極實(shí)例加權(quán)，進(jìn)一步提升算法對(duì)數(shù)據(jù)全局特征的把控能力。在實(shí)驗(yàn)過(guò)程中，雙重加權(quán)樸素貝葉斯在準(zhǔn)確率、F1分?jǐn)?shù)優(yōu)于單獨(dú)加權(quán)樸素貝葉斯、單一樸素貝葉斯與其他常用分類方法，較顯著降低誤分?jǐn)?shù)量，提高分類實(shí)時(shí)性。文章算法是通用算法，可以推廣至其他待分類情形，譬如心電信號(hào)、巖爆等。