舒一飛,郭汶昇,樊 博,康潔瀅,許詩(shī)雨,楊 林
(1.國(guó)網(wǎng)寧夏電力有限公司營(yíng)銷服務(wù)中心,銀川 750000; 2.四川大學(xué) 電氣工程學(xué)院,成都 610065)
我國(guó)電氣急速發(fā)展,電氣化進(jìn)程顯著改善人民生活,但由諸多因素引起的電氣故障時(shí)有發(fā)生,給用電安全、經(jīng)濟(jì)建設(shè)及電氣市場(chǎng)發(fā)展帶來(lái)直接影響。因此及時(shí)、快速、準(zhǔn)確地對(duì)電氣故障進(jìn)行分類,對(duì)后續(xù)檢修、防治,用電線路升級(jí)都具有重要意義。居民用電過(guò)程中的電氣故障主要有漏電,短路,過(guò)壓,斷相等,而電氣故障診斷分類的傳統(tǒng)方法是基于知識(shí)驅(qū)動(dòng)的,該方法由故障診斷知識(shí)庫(kù)、專家知識(shí)庫(kù)、故障診斷推理機(jī)等組成,通過(guò)將監(jiān)視的物理征兆導(dǎo)入推理機(jī),并由故障診斷推理機(jī)與專家知識(shí)庫(kù)交互,求解出物理征兆下的故障類型,從而完成分類。該方法簡(jiǎn)單易行,但存在較大的主觀性,不能做到對(duì)電網(wǎng)監(jiān)測(cè)數(shù)據(jù)的實(shí)時(shí)充分利用和準(zhǔn)確的故障分析分類。
近年來(lái),諸如神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、K近鄰、決策樹(shù)等快速發(fā)展的數(shù)據(jù)驅(qū)動(dòng)方式為故障分類提供了新的手段,由于具備堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),無(wú)需先驗(yàn)知識(shí),可僅利用原始的數(shù)據(jù)特征就完成故障分類任務(wù)。但目前這種方法面臨挑戰(zhàn),數(shù)據(jù)驅(qū)動(dòng)方式對(duì)數(shù)據(jù)的數(shù)量及質(zhì)量都有著較高的要求。不充分的數(shù)據(jù)量將導(dǎo)致網(wǎng)絡(luò)架構(gòu)無(wú)法擬合,過(guò)差的數(shù)據(jù)質(zhì)量將使得網(wǎng)絡(luò)的推廣能力下降,對(duì)于居民用電故障分類來(lái)說(shuō),缺乏大量真實(shí)故障數(shù)據(jù),需通過(guò)仿真機(jī)產(chǎn)生大量的模擬故障數(shù)據(jù)片段,不具有較強(qiáng)的推廣能力。同時(shí)這種方法無(wú)法明確地表征數(shù)據(jù)特征,僅在架構(gòu)內(nèi)部進(jìn)行學(xué)習(xí),沒(méi)有充分完整地對(duì)數(shù)據(jù)屬性及特征進(jìn)行分析和利用,造成了數(shù)據(jù)資源的浪費(fèi)。
而樸素貝葉斯將貝葉斯概率、統(tǒng)計(jì)學(xué)理論和特征條件獨(dú)立假設(shè)相結(jié)合,對(duì)樣本的數(shù)據(jù)信息進(jìn)行了嚴(yán)密的推理計(jì)算,形成了穩(wěn)固的理論體系與方法,可以解決數(shù)據(jù)分析不確定性和不完整性問(wèn)題。同時(shí)為降低屬性條件獨(dú)立假設(shè)所帶來(lái)的負(fù)面影響,改進(jìn)樸素貝葉斯網(wǎng)絡(luò)分類算法引起了越來(lái)越多學(xué)者的廣泛關(guān)注,并由此產(chǎn)生了許多改進(jìn)的分類模型和學(xué)習(xí)算法;其中包括通過(guò)增加有向邊限制條件獨(dú)立假設(shè)的結(jié)構(gòu)擴(kuò)展、根據(jù)待測(cè)實(shí)例領(lǐng)域選擇的實(shí)例選擇、選擇最合理屬性子集的屬性選擇以及屬性加權(quán)、實(shí)例加權(quán)五種改進(jìn)方式。
其中效果較優(yōu)的為屬性加權(quán)樸素貝葉斯和實(shí)例加權(quán)樸素貝葉斯。屬性加權(quán)是根據(jù)屬性對(duì)分類預(yù)測(cè)的影響力來(lái)為不同的屬性分配不同的權(quán)值,然后在加權(quán)以后的實(shí)例樣本集上構(gòu)建貝葉斯分類器;實(shí)例加權(quán)則根據(jù)實(shí)例分布情況對(duì)訓(xùn)練實(shí)例賦予不同的權(quán)重,然后在加權(quán)的訓(xùn)練實(shí)例集上構(gòu)建分類器;加權(quán)方式可以科學(xué)嚴(yán)謹(jǐn)?shù)乇碚鲾?shù)據(jù)特征,并且能夠充分對(duì)其進(jìn)行計(jì)算與分析,使得輸入算法框架內(nèi)的特征信息濃度更高,較充分地提升算法性能表現(xiàn)。
但目前的研究局限于僅采用一種加權(quán)方法,未將屬性加權(quán)與實(shí)例加權(quán)有機(jī)結(jié)合在樸素貝葉斯框架內(nèi),文章充分考慮不同屬性應(yīng)具有不同重要性,不同實(shí)例應(yīng)具有不同可靠性,在樸素貝葉斯框架內(nèi)采用雙重加權(quán),解決數(shù)據(jù)分析不確定性和數(shù)據(jù)不完整性問(wèn)題,增加對(duì)數(shù)據(jù)片段特征的捕捉和利用,提高算法的實(shí)用性和魯棒性,完成對(duì)電氣故障高效準(zhǔn)確的分類,并可推廣至其他分類情形;并與其他基于數(shù)據(jù)驅(qū)動(dòng)方式的電力故障分類方法進(jìn)行對(duì)比,驗(yàn)證文中算法的有效性。
樸素貝葉斯分類是依據(jù)貝葉斯定理計(jì)算條件概率從而實(shí)現(xiàn)分類預(yù)測(cè),而貝葉斯定理的前提條件是各條件屬性相互獨(dú)立且對(duì)分類結(jié)果影響相同,但這在現(xiàn)實(shí)中常常難以滿足。
如果D
={A
,A
,…,A
,C
}為訓(xùn)練數(shù)據(jù)集,其中{A
,A
,…,A
}為m
個(gè)屬性變量,a
為是屬性A
的取值,C
={c
,c
,…,c
}是類別總數(shù)為q
的類別變量。一個(gè)待分類實(shí)例x
=[a
,a
,…,a
]屬于c
類的條件概率,根據(jù)貝葉斯定理有:(1)
其中:為進(jìn)行分類預(yù)測(cè)的后驗(yàn)概率,P
(a
,a
,…,a
∣c
)為給定第c
類下屬性值為[a
,a
,…,a
]的條件概率,P
(c
)是第c
類的先驗(yàn)概率,P
(a
,a
,…,a
)是屬性的先驗(yàn)概率,對(duì)于各類別都相同。基于各屬性相互獨(dú)立的前提條件,條件概率可表示為:
(2)
其中:P
(a
∣c
)表示第c
類下屬性a
的條件概率。對(duì)于待分類實(shí)例x
,基于后驗(yàn)概率最大的原則,樸素貝葉斯分類可表示為:(3)
式中,P
(c
)和P
(a
∣c
)可以通過(guò)訓(xùn)練樣本而求得,其計(jì)算方式如下:(4)
(5)
其中:n
為訓(xùn)練樣本總數(shù),a
為第i
個(gè)訓(xùn)練樣本的第j
個(gè)屬性值,n
為第j
個(gè)屬性值在訓(xùn)練樣本中的個(gè)數(shù),δ
(r
,t
)為二值函數(shù),定義為:(6)
樸素貝葉斯分類基于各條件屬性相互獨(dú)立且對(duì)分類結(jié)果影響相同的假設(shè)條件,這在現(xiàn)實(shí)中難以滿足。事實(shí)上,屬性集中的一些屬性比其他屬性對(duì)預(yù)測(cè)分類更加重要,因此,可以通過(guò)屬性加權(quán)為每個(gè)屬性分配一個(gè)不同的權(quán)重,通常,對(duì)預(yù)測(cè)分類越重要的屬性為其分配越大的權(quán)重,反之亦然。此外,一些訓(xùn)練實(shí)例比其他實(shí)例對(duì)預(yù)測(cè)分類更可靠,它們對(duì)最終模型的影響應(yīng)該也更大,因此實(shí)例加權(quán)也是另一種緩解樸素貝葉斯劣勢(shì)的有效方法。
鑒于此,本文融合屬性加權(quán)和實(shí)例加權(quán)的優(yōu)勢(shì),提出屬性和實(shí)例加權(quán)的樸素貝葉斯分類(AIWNB)。改進(jìn)后的AIWNB,一方面采用屬性加權(quán)方法對(duì)不同的屬性分別賦予不同的權(quán)重,另一方面,采用實(shí)例加權(quán)方法更準(zhǔn)確地估計(jì)先驗(yàn)概率和條件概率。因此,AIWNB可以同時(shí)繼承屬性加權(quán)的優(yōu)點(diǎn)和實(shí)例加權(quán)的優(yōu)點(diǎn),從而獲得比單一屬性加權(quán)或單一實(shí)例加權(quán)更好的性能。
在AIWNB中,將屬性權(quán)重納入樸素貝葉斯分類公式中,并將實(shí)例權(quán)重納入先驗(yàn)概率和條件概率中。 因此,AIWNB的預(yù)測(cè)分類可表示為:
(7)
(8)
(9)
圖1 AIWNB算法架構(gòu)
尋找實(shí)例權(quán)值的方法通常采用積極學(xué)習(xí)方法和消極學(xué)習(xí)方法,文中采用了這兩種實(shí)例加權(quán)方法,并通過(guò)實(shí)驗(yàn)比較兩種實(shí)例加權(quán)算法的差異性;并據(jù)此提出二者的較為適宜的使用環(huán)境,發(fā)揮更大的算法優(yōu)勢(shì)。
2.2.1 積極實(shí)例加權(quán)
為了保持樸素貝葉斯的計(jì)算簡(jiǎn)單性,采用一種簡(jiǎn)單、高效、有效的方法——基于屬性值頻度的實(shí)例加權(quán)濾波器來(lái)學(xué)習(xí)每個(gè)實(shí)例的權(quán)重。這種方法是基于以下觀察結(jié)果:1)每個(gè)屬性值的頻率包含一些重要的信息,這些信息可以用來(lái)定義訓(xùn)練實(shí)例的權(quán)重;2)每個(gè)訓(xùn)練實(shí)例的權(quán)重與其屬性值頻率向量和整個(gè)訓(xùn)練數(shù)據(jù)集的屬性值個(gè)數(shù)向量呈正相關(guān)。
首先,計(jì)算每個(gè)屬性值的頻率,
(10)
f
是a
(第i
個(gè)實(shí)例第j
個(gè)屬性值)的頻率,n
是訓(xùn)練實(shí)例的數(shù)量,a
是第r
個(gè)實(shí)例第j
個(gè)屬性值。令n
為第j
個(gè)屬性的值的數(shù)量,并且可表示為[n
,n
,…,n
];則第i
個(gè)實(shí)例的權(quán)重定義為屬性值頻率向量與屬性值個(gè)數(shù)向量的內(nèi)積,(11)
2.2.2 消極實(shí)例加權(quán)
不同于積極實(shí)例加權(quán),消極實(shí)例加權(quán)集中注意力于計(jì)算并統(tǒng)計(jì)訓(xùn)練實(shí)例與測(cè)試實(shí)例間的相關(guān)性,雖然時(shí)間復(fù)雜度較積極加權(quán)方式更高,但是可以在分類準(zhǔn)確率上得到提升。x
為測(cè)試實(shí)例,y
為第i
個(gè)訓(xùn)練實(shí)例,它們間的相似性定義為:(12)
從式(16)可以看出,s
(x
,y
)簡(jiǎn)單地對(duì)x
和y
的相同屬性的數(shù)量進(jìn)行統(tǒng)計(jì)的函數(shù),進(jìn)而粗略地衡量?jī)蓚€(gè)實(shí)例間的相似程度,定義第i
個(gè)訓(xùn)練實(shí)例的權(quán)重為:(13)
鑒于互信息可以度量每對(duì)隨機(jī)離散變量之間的相關(guān)性,因此,文中利用互信息來(lái)度量屬性-類之間、屬性-屬性之間的相關(guān)性,從而計(jì)算得到類關(guān)聯(lián)度和屬性間的相互關(guān)聯(lián)度。每個(gè)屬性的權(quán)重可以通過(guò)對(duì)歸一化后的類關(guān)聯(lián)度與平均相互關(guān)聯(lián)度之間的差值進(jìn)行Sigmoid變換后獲取,具體的計(jì)算步驟如下所示:
1)屬性(A
)-類(C
)的相關(guān)性、屬性(A
)-屬性(A
)的相關(guān)性采用互信息來(lái)度量,分別定義為:(14)
(15)
I
(A
;C
)和I
(A
;A
)進(jìn)行歸一化操作:(16)
(17)
其中:NI
(A
;C
)和NI
(A
;A
)分別為歸一化類關(guān)聯(lián)度和相互關(guān)聯(lián)度;歸一化后的各相關(guān)性可直接用于運(yùn)算,不受相關(guān)屬性的單位限制。3) 將屬性權(quán)重定義為類關(guān)聯(lián)度與平均相互關(guān)聯(lián)度的差值。
(18)
根據(jù)上式計(jì)算得到的權(quán)值可能為負(fù)數(shù),應(yīng)使權(quán)值范圍落入[0,1],利用sigmoid函數(shù)對(duì)其進(jìn)行變換,可得到各屬性權(quán)值,
(19)
進(jìn)一步地,將屬性加權(quán)和兩種實(shí)例加權(quán)相結(jié)合,由此得到如下兩種用于電氣設(shè)備故障分類的算法,AIWNB(屬性-積極實(shí)例加權(quán)樸素貝葉斯)和AIWNB(屬性-消極實(shí)例加權(quán)樸素貝葉斯)。
算法1:AIWNB
輸入:原始訓(xùn)練集
輸出:屬性權(quán)值向量w
,實(shí)例權(quán)值向量w
,類別c
1.計(jì)算訓(xùn)練集各實(shí)例的屬性值頻率f
及屬性值個(gè)數(shù)n
;A
的I
(A
;C
)與I
(A
;A
);4.對(duì)各屬性的I
(A
;C
)與I
(A
;A
)歸一化得到NI
(A
;C
),NI
(A
;A
);P
(c
),條件概率P
(a
|c
),類別概率c
(x
);8.返回類別。
算法2:AIWNB
輸入:原始訓(xùn)練集
輸出:屬性權(quán)值向量w
,實(shí)例權(quán)值向量w
,類別c
1)計(jì)算訓(xùn)練實(shí)例y
和待測(cè)實(shí)例x
的相似性s
(x
,y
);A
的I
(A
;C
)與I
(A
;A
);4)對(duì)各屬性的I
(A
;C
)與I
(A
;A
)歸一化得到NI
(A
;C
),NI
(A
;A
);P
(c
),條件概率P
(a
|c
),類別概率c
(x
);7)返回類別。
用電數(shù)據(jù)采集于國(guó)網(wǎng)寧夏電氣有限公司計(jì)量中心,包含高低壓用戶783戶為期31天的三相電壓,三相電流,功率及功率因數(shù)8項(xiàng)數(shù)據(jù)。獲得數(shù)據(jù)后對(duì)異常數(shù)據(jù)進(jìn)行清洗,因電氣故障的發(fā)生將導(dǎo)致各項(xiàng)數(shù)據(jù)發(fā)生相應(yīng)變化,僅去除掉空值、數(shù)值偏差極大、重復(fù)值的數(shù)據(jù)段。
根據(jù)已統(tǒng)計(jì)到的用電情況,并結(jié)合故障發(fā)生時(shí)電壓電流變化情況,經(jīng)由相關(guān)文獻(xiàn)[17-20]及專家標(biāo)注,可總結(jié)為如表1的故障類別及判定依據(jù)。如果設(shè)備負(fù)載是家用熱電偶、燈、加熱器等,供電線路出現(xiàn)以下4種故障時(shí)設(shè)備電流、電壓和功率變化趨勢(shì)如表1所示,正常運(yùn)行數(shù)據(jù)段標(biāo)簽為“1”。
由于數(shù)據(jù)集內(nèi)包含的故障數(shù)據(jù)段過(guò)少,通過(guò)在故障數(shù)據(jù)段內(nèi)的每個(gè)屬性疊加隨機(jī)高斯噪聲,增加少量故障數(shù)據(jù)片段,提升加權(quán)樸素貝葉斯對(duì)其特征的捕捉能力;隨機(jī)噪聲與真實(shí)情況接近,保證數(shù)據(jù)可用,較大程度模擬真實(shí)故障數(shù)據(jù)。公式如下:
表1 電氣故障判據(jù)
(20)
其中:μ
為高斯噪聲的均值,設(shè)置為0;δ
為高斯噪聲的標(biāo)準(zhǔn)差,設(shè)置為0.1;Gauss
(x
)為生成的噪聲,將其與原始數(shù)據(jù)疊加,完成數(shù)據(jù)增強(qiáng)。僅對(duì)4種電氣故障類型進(jìn)行數(shù)據(jù)增強(qiáng),正常運(yùn)作片段不作處理。原始數(shù)據(jù)及數(shù)據(jù)增強(qiáng)后的各電氣故障類型數(shù)量對(duì)比如表2所示。表2 數(shù)據(jù)增強(qiáng)前后故障類型數(shù)量
經(jīng)由數(shù)據(jù)增強(qiáng)后總共獲得58 209條數(shù)據(jù)段,隨機(jī)取得10 000條數(shù)據(jù)作為測(cè)試集,并對(duì)訓(xùn)練集與測(cè)試集進(jìn)行歸一化,歸一化可提高AIWNB的收斂速度以及分類精度,文章采取min-max歸一化方法,其公式如下,
(21)
其中:min
為所有數(shù)據(jù)段的當(dāng)前屬性A
的最小值,max
為所有數(shù)據(jù)段的當(dāng)前屬性A
的最大值。Accuracy
)和F
1分?jǐn)?shù)也作為衡量模型性能和有效性的指標(biāo),其計(jì)算公式如下:(22)
(23)
其中:精準(zhǔn)率(Precision
)及召回率(Recall
)計(jì)算公式如下,(24)
(25)
式中,TP
表示正類別中準(zhǔn)確分類樣本的數(shù)量;TN
表示負(fù)類別中準(zhǔn)確分類樣本的數(shù)量;FP
表示正類別中錯(cuò)誤分類樣本的數(shù)量;FN
是負(fù)類別中錯(cuò)誤分類樣本的數(shù)量。按前文所述,對(duì)屬性及實(shí)例分別求解其權(quán)值,為使實(shí)驗(yàn)更嚴(yán)謹(jǐn)、更具說(shuō)服性,將分別使用單獨(dú)屬性加權(quán),單獨(dú)積極實(shí)例加權(quán),單獨(dú)消極實(shí)例加權(quán),屬性-積極實(shí)例加權(quán),屬性-消極實(shí)例加權(quán)與原始樸素貝葉斯實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,獲取到效果最佳的加權(quán)樸素貝葉斯方式。
3.3.1 屬性及實(shí)例權(quán)值
積極實(shí)例加權(quán)依賴于對(duì)各屬性的屬性值頻率計(jì)算,而觀察采集到的數(shù)據(jù)得知實(shí)際運(yùn)行數(shù)據(jù)的各屬性值分散,導(dǎo)致屬性值頻率f
極小,并不利于計(jì)算;因此借用模糊化思想,文中按照表1所述的各屬性值變化界定范圍,按照類別進(jìn)行劃分,進(jìn)而計(jì)算得到各類實(shí)例的權(quán)值,如表3所示。表3 積極實(shí)例加權(quán)各類實(shí)例權(quán)值
消極實(shí)例加權(quán)更注重于訓(xùn)練實(shí)例與測(cè)試實(shí)例的相似性,通過(guò)計(jì)算每條訓(xùn)練實(shí)例與每條測(cè)試實(shí)例的相似性對(duì)實(shí)例進(jìn)行權(quán)值的劃分,進(jìn)而改善樸素貝葉斯對(duì)不同實(shí)例的注意程度,提升分類精度。因數(shù)據(jù)片段過(guò)多,部分實(shí)例權(quán)值如表4所示。
表4 消極實(shí)例加權(quán)-部分實(shí)例權(quán)值
通過(guò)對(duì)屬性-類相關(guān)性和屬性-屬性相關(guān)性的殘差進(jìn)行sigmoid變化得到各屬性權(quán)值,基于互信息的各屬性權(quán)值如表5所示。
表5 基于互信息的各屬性權(quán)值
3.3.2 算法性能分析
為全面評(píng)價(jià)算法的整體性能,文章對(duì)各算法的準(zhǔn)確率及F1分?jǐn)?shù)進(jìn)行計(jì)算,具體值如表6~7所示,各算法總體準(zhǔn)確率如圖2所示。
表6 算法準(zhǔn)確率對(duì)比
表7 算法F1分?jǐn)?shù)對(duì)比
圖2 算法總準(zhǔn)確率曲線圖
可以看出,加權(quán)樸素貝葉斯在納入不同屬性、實(shí)例的權(quán)值后,相較于單一樸素貝葉斯提高了對(duì)電氣故障分類的準(zhǔn)確率,同時(shí)獲得較高的F1分?jǐn)?shù),證明在加權(quán)樸素貝葉斯能夠提取到更多的全局特征,可較大程度提高分類準(zhǔn)確率。積極實(shí)例加權(quán)與消極實(shí)例加權(quán)的準(zhǔn)確率相差較小,但在實(shí)驗(yàn)過(guò)程中,消極實(shí)例加權(quán)因需要對(duì)訓(xùn)練實(shí)例及測(cè)試實(shí)例逐條計(jì)算相關(guān)性,耗費(fèi)更多的運(yùn)算時(shí)間,實(shí)際使用中偏向于實(shí)時(shí)性,可考慮使用積極實(shí)例加權(quán)。而在電氣數(shù)據(jù)分析和診斷中,消極實(shí)例加權(quán)的優(yōu)勢(shì)更大,可以獲得最高的分類準(zhǔn)確率。
雙重加權(quán)樸素貝葉斯較單一樸素貝葉斯的準(zhǔn)確率提升為0.11%~3.09%,F(xiàn)1分?jǐn)?shù)提升為0.32%~9.39%。屬性-實(shí)例雙重加權(quán)樸素貝葉斯對(duì)于待分類的電氣故障的高準(zhǔn)確率來(lái)源于對(duì)屬性和實(shí)例兩者權(quán)值的同時(shí)分析,完整又準(zhǔn)確地提取各電氣故障的特征分布;并且在第4類與第5類取得接近完全準(zhǔn)確的分類效果。屬性-積極實(shí)例加權(quán)樸素貝葉斯(AIWNB)及屬性-消極實(shí)例加權(quán)樸素貝葉斯(AIWNB)的混淆矩陣如圖3所示。
圖3 雙重加權(quán)樸素貝葉斯分類混淆矩陣
AIWNB與AIWNB在面對(duì)第2,3,4,5類時(shí)幾乎可以取得完全準(zhǔn)確的分類結(jié)果,且在1類的偏差較小;由于消極實(shí)例加權(quán)更注重于對(duì)測(cè)試實(shí)例的分析,進(jìn)而會(huì)取得更加優(yōu)良的分類效果,而代價(jià)則是增加運(yùn)算時(shí)間,積極實(shí)例加權(quán)的分類效果稍弱,但運(yùn)算時(shí)間較少,僅需根據(jù)屬性范圍確定權(quán)值。
文中基于屬性-消極實(shí)例加權(quán)樸素貝葉斯的電氣故障分類在實(shí)際數(shù)據(jù)中取得了98.06%的準(zhǔn)確率,為進(jìn)一步驗(yàn)證算法有效性,選取K近鄰(KNN,k-nearest neighbor),決策樹(shù)(DT,decision tree)、支持向量機(jī)(SVM,support vector machine)、極端梯度提升(XGBoost)等基于數(shù)據(jù)驅(qū)動(dòng)方式作為電氣故障分類方法進(jìn)行對(duì)比;上述機(jī)器學(xué)習(xí)方法使用廣泛,分類效果較好,可形成較好的對(duì)比組。
為保證對(duì)比實(shí)驗(yàn)的可信度,在完全相同的訓(xùn)練集與測(cè)試集下收集各電氣故障分類方法的分類準(zhǔn)確率,如表8所示。
表8 其他電氣故障分類方法準(zhǔn)確率對(duì)比
對(duì)各方法指標(biāo)數(shù)據(jù)的進(jìn)一步觀察可知,雙重加權(quán)樸素貝葉斯在獲得屬性及實(shí)例的權(quán)值后,能夠更加準(zhǔn)確地對(duì)電氣故障進(jìn)行分類,相較于KNN、DT與SVM取得了更好的分類效果;而XGBoost在第4類取得了更好的分類效果,但XGBoost依賴于梯度的下降,計(jì)算量較大,根據(jù)實(shí)驗(yàn)數(shù)據(jù)顯示運(yùn)算時(shí)間為1.18 s;而AIWNB的運(yùn)算時(shí)間僅為0.536 s,具有更好的實(shí)時(shí)性。
文章采用樸素貝葉斯架構(gòu),提出了基于屬性加權(quán)和實(shí)例加權(quán)的電氣故障分類算法。該算法通過(guò)互信息統(tǒng)計(jì)屬性-類間依賴性和屬性-屬性冗余度獲取各屬性權(quán)值,提升算法對(duì)各屬性特征的提取與利用能力;分別計(jì)算實(shí)例屬性值頻率和實(shí)例間相關(guān)性完成積極、消極實(shí)例加權(quán),進(jìn)一步提升算法對(duì)數(shù)據(jù)全局特征的把控能力。在實(shí)驗(yàn)過(guò)程中,雙重加權(quán)樸素貝葉斯在準(zhǔn)確率、F1分?jǐn)?shù)優(yōu)于單獨(dú)加權(quán)樸素貝葉斯、單一樸素貝葉斯與其他常用分類方法,較顯著降低誤分?jǐn)?shù)量,提高分類實(shí)時(shí)性。文章算法是通用算法,可以推廣至其他待分類情形,譬如心電信號(hào)、巖爆等。