黃曉晴黃 勇劉 輝褚 健鄧高峰
(1.廣西電網(wǎng)有限責(zé)任公司,廣西 南寧 530001;2.廣西電網(wǎng)有限責(zé)任公司南寧供電局,廣西 南寧 530001)
基于Apriori算法及方差分析的電力故障原因相關(guān)度分析
黃曉晴1黃 勇2劉 輝2褚 健2鄧高峰2
(1.廣西電網(wǎng)有限責(zé)任公司,廣西 南寧 530001;2.廣西電網(wǎng)有限責(zé)任公司南寧供電局,廣西 南寧 530001)
電力是國民經(jīng)濟的支柱,是國家經(jīng)濟的命脈。電力事故不僅影響電力系統(tǒng)的穩(wěn)定,甚至影響到國家經(jīng)濟和社會安全。故障樹分析法是一種有效的事故分析方法,能夠?qū)訉臃治鍪鹿试?,但是不能直接分析出?dǎo)致事故發(fā)生原因的相關(guān)程度。為此,本文提出了一種基于Apriori算法及方差分析的故障樹原因相關(guān)度的分析方法,首先利用Apriori算法在給定的數(shù)據(jù)庫中進行多遍掃描,得出頻繁項集,求出支持度;其次通過方差分析得出不同的原因?qū)ι霞壴虼嬖诿黠@的差異,得出不同原因的影響程度。有利于今后有針對性地對事故進行防范,降低事故發(fā)生的概率,減少事故的發(fā)生。
電力故障;Apriori算法;支持度;方差分析
電力系統(tǒng)在空間上的廣域分布,導(dǎo)致電力事故的發(fā)生是不可避免的,事故數(shù)據(jù)的收集、分析很難全面、系統(tǒng)地進行。分析2003年~2015年中國南方電網(wǎng)電力生產(chǎn)事故,目前同類事故重復(fù)現(xiàn)象比較普遍。采用故障樹分析法無法確定導(dǎo)致事故發(fā)生的上下級原因之間的相關(guān)度,不能確定主要的事故防范措施;另一方面,故障樹分析法缺乏對事故分析結(jié)果的系統(tǒng)應(yīng)用,要想全面查找到各個根本原因間的邏輯關(guān)系,十分困難,不能建立多方面、多維度防范措施,無法真正達到事故預(yù)防目的。利用基于Apriori算法及方差分析的故障樹上下級原因相關(guān)度分析方法,分析事故上下級原因的相關(guān)度可以有針對性地對事故進行防范,降低事故發(fā)生概率,減少事故的發(fā)生。
Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集合的算法。Apriori算法通過查找事務(wù)數(shù)據(jù)庫中所有支持度大于最小支持度的頻繁項集。將Apriori算法利用于事故樹上下級原因分析,得出的頻繁項集合的支持度便是事故樹上下級原因之間的相關(guān)度,此時最小支持度應(yīng)該設(shè)定為零;另外,Apriori算法還可以在頻繁項集合中產(chǎn)生所有大于等于最小可信度的關(guān)聯(lián)規(guī)則,即可分析同級原因的關(guān)聯(lián)規(guī)則。
對于電網(wǎng)發(fā)生的電力事故來說,在某一個確定的時間段上,電力安全生產(chǎn)管理水平是趨于一個穩(wěn)定的程度,則對應(yīng)的電力生產(chǎn)事故發(fā)生的可能性也是趨于一個確定的值。因此,在一個確定的時間段內(nèi)發(fā)生的電力生產(chǎn)事故的次數(shù)服從正態(tài)分布,也就是說在這段時間內(nèi)導(dǎo)致電力生產(chǎn)事故發(fā)生的直接原因事件出現(xiàn)的次數(shù)成正態(tài)分布。
方差分析法是一種常用的統(tǒng)計方法,方差分析就是將總的方差分解為各個方差的成分,然后利用顯著性檢驗法進行分析判斷和做出適當(dāng)?shù)慕Y(jié)論。對需要進行分析的因素進行方差分析,若分析結(jié)果落入拒絕域,說明下級因素對上級因素沒有顯著影響;若分析結(jié)果落在拒絕域外,則說明有顯著的影響。分析得出存在顯著影響的因素,可以針對性地對事故進行防范,降低事故發(fā)生的概率。
1.1概述
Apriori算法是一種以概率為基礎(chǔ)的具有影響的挖掘布爾型關(guān)聯(lián)規(guī)則頻繁項集合的算法。同時,Apriori算法是第一個關(guān)聯(lián)規(guī)則挖掘算法,也是最為經(jīng)典的算法。Apriori算法利用逐步檢索的迭代方法尋找出某數(shù)據(jù)庫中項集合的密切聯(lián)系,通過這種密切聯(lián)系來形成規(guī)則。Apriori算法中包含了幾個重要的概念,其中項集(Itemset)就是項的集合,包含K個項的集合為k項集;項集合出現(xiàn)的頻率表示在某數(shù)據(jù)庫中,包含項集合的個數(shù),稱為項集合的頻率。通過制定的最小支持度,如若某項集合滿足最小支持度,則稱它為頻繁項集。
Apriori算法是一個基于頻集理論遞推的方法,它利用“頻繁項集的所有非空子集必定是頻繁的,非頻繁項集的所有超級必定是非頻繁的”這一性質(zhì)來實現(xiàn)。其根本原理是:通過查找數(shù)據(jù)庫中的所有數(shù)據(jù)項,從而得到一個大項集L1,如果大項集L1為非空,根據(jù)此大項集得到一個候選項集合C1,然后對該數(shù)據(jù)庫中的每一個數(shù)據(jù)項數(shù)據(jù)項t,求出t在C1中的全部子集Ct。子集Ct中的每一個的候選項集c,令c加l。當(dāng)掃描該數(shù)據(jù)庫一遍后,篩選出候選項集合C1中所有計數(shù)大于或等于最小支持度的項集組成頻繁項集合。
1.2Apriori算法步驟
Apriori算法的挖掘任務(wù)分為以下問題:
(1)找出某數(shù)據(jù)庫中所有支持度大于或等于最小支持度的候選項集。具有最小支持度的候選項集稱為頻繁項目集。
(2)在頻繁項集合中產(chǎn)生所有大于等于最小可信度的關(guān)聯(lián)規(guī)則。
1.2.1具體步驟
首先確定在該數(shù)據(jù)下的最小支持度。
Apriori算法采用了候選項集合的概念,通過查找數(shù)據(jù)庫中的所有數(shù)據(jù)項,得到一個大項集L1,根據(jù)大項集得到候選項集,若候選項集的支持度大于或等于最小支持度,則該項集合為頻繁項集合(Large Itemset)。此支持度為頻繁項集合的概率。
假設(shè)一個簡單事務(wù)數(shù)據(jù)庫D的模型,數(shù)據(jù)庫D的數(shù)據(jù)如圖1所示的事故樹。分別求取一級原因A、B、C與事故之間的關(guān)聯(lián)程度,二級原因A1、B1、C1分別與一級原因A、B、C的關(guān)聯(lián)程度,三級原因A11、B11、B12、C11分別與二級原因A1、B1、C1的關(guān)聯(lián)程度,四級原因B111與三級原因B11的關(guān)聯(lián)程度,須從數(shù)據(jù)庫中計及事故的次數(shù)以及各原因的次數(shù)。
表1中:001—010代表10個電網(wǎng)事故故障樹編號,A、B、C、D、E分別代表事故一級原因。
表1 簡單事故樹數(shù)據(jù)庫的模型
若要求取一級原因與事故之間的額關(guān)聯(lián)程度首先通過掃描數(shù)據(jù)庫D,生成項集,見表2。
表2 生成階段
其次利用Apriori算法對數(shù)據(jù)庫中的項集進行掃描,計數(shù)每個項集在數(shù)據(jù)庫中的次數(shù),即在每一次迭代過程中,Apriori算法都產(chǎn)生了一個大項集,然后計算每一個候選項集所出現(xiàn)的次數(shù),最后在預(yù)先給定的最小支持度s=0%的基礎(chǔ)上確定大項集。
對上表所示的各個項集進行計數(shù),通過掃描數(shù)據(jù)庫D中的數(shù)據(jù)得出表3所示的計數(shù)次數(shù)并求出其支持度。
表3 計算階段
由于某種事故原因?qū)е率鹿拾l(fā)生是存在可能性的,盡管有些導(dǎo)致事故發(fā)生的概率很小,但是最終卻不可避免,所以在此設(shè)定最小支持度為s=0%,即出現(xiàn)的事故原因都應(yīng)該納入考慮范圍。
發(fā)掘大項集,也就是支持度大于預(yù)先給定的最小支持度的項的集合。
在第一次迭代的第一步中,所有單個項都作為候選集。接著計算每一個候選集的出現(xiàn)次數(shù),然后在最小支持度s的基礎(chǔ)上選擇頻繁項集。表3所示的S分別代表該項集的支持度即上下級原因之間的相關(guān)程度。
1.2.2具體實例
分析某110kV八所站1#主變因遭受雷擊,造成中壓側(cè)B相線圈損壞示例,其故障樹如圖2所示。
由上述事故樹分析得出該事故是由一級原因環(huán)境因素、物的因素-物理性危險和有害因素,二級原因自然因素、制造質(zhì)量不良、設(shè)備缺陷、規(guī)劃設(shè)計不周和三級原因雷擊、工藝缺陷、絕緣不良、絕緣配合不當(dāng)引起的。
利用Apriori算法對2003~2015年2046個事故樹進行掃描計數(shù),統(tǒng)計到以上原因的次數(shù)和最小支持度見表4。
表4
如圖3所示,相關(guān)度的計算結(jié)果在事故樹模型的基礎(chǔ)上表示出來,可以直觀地看到各級故障原因之間的相關(guān)程度。通過進一步的計算便可以得出底層原因?qū)υ摯问鹿实挠绊懗潭取?/p>
在實際問題的研究過程中,影響某一事物的因素往往很多。其中每一個因素的改變都有可能影響產(chǎn)品的數(shù)量和質(zhì)量,并且有些因素影響大,有些因素影響小,所以要找出對產(chǎn)品數(shù)量和質(zhì)量影響顯著的那些因素。方差分析是檢驗各因素對實驗結(jié)果影響程度的一種有效方法。
方差分析又稱“變異數(shù)分析”或“F檢驗”。多元方差分析要求樣本須滿足3個基本條件:(1)抽樣樣本是從母體中隨機選??;(2)樣本必須服從正態(tài)分布并且樣本相互獨立,(3)在各種處理條件下的樣本方差必須相同,也就是必須滿足方差齊性。對于一個企業(yè)或者一個行業(yè)來說,在某一個確定的時間段上,安全生產(chǎn)管理水平是趨于一個穩(wěn)定的程度,某一穩(wěn)定的值,則對應(yīng)的事故發(fā)生的可能性也是趨于某一個穩(wěn)定程度和某一個確定的值。因此,在一個確定的時間段內(nèi)發(fā)生的電力生產(chǎn)事故的事故原因次數(shù)服從正態(tài)分布,也就是說在這段時間導(dǎo)致事故發(fā)生的直接原因事件出現(xiàn)的次數(shù)成正態(tài)分布??紤]電力事故下的各級事故原因是多因素影響下的,利用多元方差分析對下級原因?qū)ι霞壴虻挠绊懗潭茸鳛橐粋€研究母體。
2.1數(shù)學(xué)模型
電力生產(chǎn)事故是一種由于人、物、環(huán)境等的因素失去控制或錯誤引起的意外事件,可以認(rèn)為是系統(tǒng)正常過程中出現(xiàn)的各類異?;蛘呤撬黄谕男?yīng),或是某些計劃好的事情沒有按照計劃本身執(zhí)行,出現(xiàn)在計劃外的偏差。而在理想情況下,事故是不會發(fā)生的,由于在人、物、環(huán)境和管理4種情況下差生偏差,事故就顯然發(fā)生了。
將某一段確定時間內(nèi)、特定范圍內(nèi)發(fā)生的所有電力生產(chǎn)事故事故原因集合在一起作為母體,即將導(dǎo)致這段時間、這個特定范圍內(nèi)事故發(fā)生的原因事件作為母體,不同級的事故原因作為影響因子。結(jié)合對事故原因特點的統(tǒng)計分析,假設(shè)在各種的影響因子組合水平下的樣本方差相同,滿足方差分析的條件后,建立多元方差分析模型進行事故原因統(tǒng)計分析。
2.2統(tǒng)計分析
每個事故考慮下級原因?qū)ι霞壴虻挠绊懗潭?,把上級原因所對?yīng)的所有下級原因作為影響因子,將事故下級原因發(fā)生對相應(yīng)的上級原因發(fā)生的影響關(guān)聯(lián)程度假設(shè)為一級相關(guān)和二級相關(guān),以A、B、C代表不同的下級原因,用1,2代表一級相關(guān)和二級相關(guān),得到表5的所示的結(jié)果.。
表5 下級原因影響因子的水平組合表
2.3模型統(tǒng)計結(jié)果計算分析
根據(jù)傷亡事故原因統(tǒng)計的特點,假定母體Yn服從正態(tài)分布N(μijk,σ2),其中
式(1)中,ai,bj,ck分別表示下級原因A、B、C在各自對應(yīng)水平上的效應(yīng)。其中效應(yīng)表示一個下級原因在某種水平上對母體平均數(shù)的影響程度。事故次數(shù)對應(yīng)的數(shù)學(xué)模型如式(2)。
在公式(2)中,μ表示母體平均數(shù),δijk是組合內(nèi)部Yn因σ2引起的抽樣誤差。公式(2)須滿足3個約束條件,即:a1+a2=0,b1+b2=0,c1+c2=0。
(1)假設(shè)條件
假設(shè)3個下級原因中任意兩個原因之間沒有任何交互作用,為了檢驗下級原因A、下級原因B和下級原因C三種影響因子對母體所產(chǎn)生的效應(yīng),則需要進行影響效應(yīng)的顯著性分析。假設(shè)的條件有以下3個:
假設(shè)H1:a1=a2=0
假設(shè)H2:b1=b2=0
假設(shè)H3:c1=c2=0
其中a1、a2代表下級原因A在各自水平上的效應(yīng)。
若假設(shè)H1成立,則表示下級原因A在這一段時間內(nèi)對上級原因的發(fā)生無顯著影響;否則,下級原因A在這一段時間內(nèi)對上級原因的發(fā)生有顯著影響。同樣,假設(shè)H2和H3成立,則分別表示下級原因B和下級原因C在這一段時間內(nèi)對上級原因的發(fā)生無顯著影響,否則,分別表示下級原因B和下級原因C在這一段時間內(nèi)對上級原因的發(fā)生有顯著影響。
(2)計算平均數(shù)
①計算總平均數(shù)
電力生產(chǎn)事故發(fā)生總平均數(shù)在某一段時間內(nèi)、某特定范圍內(nèi)導(dǎo)致電力生產(chǎn)事故發(fā)生的直接原因事件出現(xiàn)的基本情況,用表示。
②計算各原因分水平平均值
下級原因A、下級原因B和下級原因C三個影響因子分別在一級相關(guān)和二級相關(guān)兩種水平上有其對應(yīng)的平均值,反映一個原因在對應(yīng)各種水平上導(dǎo)致上級原因發(fā)生的平均次數(shù)。
對于下級原因A來說,其兩種水平上的平均值分別用k1A和k2A表示。
同樣,對于下級原因B因素和下級原因C來說,其在兩種水平的平均值分別用k1B、k2B和k1C、k2C表示。
2.4計算離差平方和
離差平方和反映下級原因A、下級原因B和下級原因C三種影響因子對平均上級原因發(fā)生次數(shù)的離散程度,用QT表示。
式(10)可以進行分解:
其中:QA是下級原因A引起的離差平方和;QB是下級原因B引起的離差平方和;QC是下級原因C引起的離差平方和;QE表示誤差的大小。下級原因A引起的離差平方和QA反映了下級原因A在兩種相關(guān)水平上的平均值之間的差異;同理,QB和QC分別反映了下級原因B和下級原因C在不同的兩種相關(guān)水平上平均值之間的差異。
2.5判別量計算
(1)首先確定自由度
自由度等于水平減1,即QA、QB、QC的自由度都為1,QT的自由度為7。
(2)F值計算
利用分解定理可知,F(xiàn)A、FB、FC均服從自由度為(1,4)的F分布。
2.6假設(shè)檢驗
為了驗證3個假設(shè)H1、H2和H3是否成立,首先需要給定顯著水平α,通過查詢F分布上側(cè)分位數(shù)表,從表中得出與顯著水平α相同自由度對應(yīng)的Fα值,使得P{F≥Fα}=α成立。
根據(jù)計算得到FA,如果存在FA≥Fα(1,4),則該數(shù)值表示小概率事件,則拒絕假設(shè)H1,即認(rèn)為這一段時間內(nèi)、特定范圍內(nèi)下級原因A對所對應(yīng)的上級原因的發(fā)生有顯著貢獻;如果存在FA<Fα(1,4),則該數(shù)值表示小概率事件沒有發(fā)生,則接受假設(shè)H1,即可認(rèn)為這一段時間內(nèi)、特定范圍內(nèi)級原因A對所對應(yīng)的上級原因的發(fā)生沒有顯著影響。
同樣,根據(jù)計算得到的FB、FC值,如果存在FB≥Fα(1,4)、FC≥Fα(1,4),則該數(shù)值表示小概率事件,則分別拒絕假設(shè)H2和H3,即認(rèn)為這一段時間內(nèi)、特定范圍內(nèi)下級原因B或下級原因C對所對應(yīng)的上級原因的發(fā)生有顯著貢獻;如果存在FB<Fα(1,4)、FC<Fα(1,4),則該數(shù)值表示小概率事件沒有發(fā)生,則分別接受假設(shè)H2和H3,即認(rèn)為這一段時間內(nèi)、特定的范圍內(nèi)下級原因B或下級原因C因素對所對應(yīng)的上級原因的發(fā)生沒有顯著貢獻。
3.1基礎(chǔ)統(tǒng)計量統(tǒng)計
為了驗證模型的實際可操作性,對中國南方電網(wǎng)自2003年~2015年期間發(fā)生的2046起電力生產(chǎn)事故按照本文建立的模型進行統(tǒng)計分析,其中上級原因(一級原因)環(huán)境因素出現(xiàn)的次數(shù)為855次,下級原因(二級原因)自然因素、生產(chǎn)環(huán)境不良、外力破壞分別出現(xiàn)的次數(shù)為557、68、338次,以其中某一年的54次為例,所對應(yīng)的二級原因自然因素、生產(chǎn)環(huán)境不良、外力破壞(分別用A、B、C表示自然因素、生產(chǎn)環(huán)境不良、外力破壞)引起一級原因環(huán)境因素出現(xiàn)的次數(shù)見表6。
表6 中國南方電網(wǎng)2003~2015年電力生產(chǎn)事故環(huán)境因素多元方差分析基礎(chǔ)統(tǒng)計
3.2方差分析表
根據(jù)建立的模型,通過計算公式計算得到的數(shù)值,采用表格的形式給出,即得到表7的多元方差分析表。
3.3統(tǒng)計結(jié)果分析
假設(shè)給定的顯著水平α=0.1,查詢F分布上側(cè)分位數(shù)表可知:F0.1(1,4)=4.54。根據(jù)表3得到的FA和F0.1(1,4)相比較:存在FA>F0.1(1,4)=4.54,因此拒絕假設(shè)H1,即認(rèn)為二級因素A對一級原因有顯著影響。同樣,將FB、FC與F0.1(1,4)比較:存在FB<F0.1(1,4)=4.54,F(xiàn)C<F0.1(1,4)=4.54,因此拒絕假設(shè)H2和H3,即沒有顯著影響。由此可以得出自然因素的影響較為顯著,與統(tǒng)計結(jié)果相符合。
表7 中國南方電網(wǎng)2003年~3015年電力生產(chǎn)事故環(huán)境因數(shù)多元方差分析
利用基于Apriori算法和方差分析的故障樹上下級原因相關(guān)度分析方法,分析事故上下級原因的相關(guān)度可以有針對性地對事故進行防范,降低事故發(fā)生概率,減少事故的發(fā)生。首先利用Apriori算法得出數(shù)據(jù)庫中事故上下級原因的相關(guān)程度,即支持度。在此基礎(chǔ)上建立了基于多元方差分析的電力生產(chǎn)事故原因統(tǒng)計分析模型,采用假設(shè)檢驗的方法給出某一段時間內(nèi)、某特定范圍內(nèi)對電力生產(chǎn)事故原因的發(fā)生具有顯著貢獻的直接原因事件類別,為安全管理工作指出偏重點,著重預(yù)防該類事故原因;并通過按照建立的模型對某一段時間內(nèi)發(fā)生的電力生產(chǎn)事故原因進行實例統(tǒng)計分析,說明了該方法的可行性和有效性。
[1]蔡建壯,白同朔,侯志儉.電力系統(tǒng)偶然事故選擇中異常數(shù)據(jù)的鑒別與處理[J].中國電機工程學(xué)報,2002(8):27-31.
[2]牛麗敏.Apriori算法分析與改進綜述[J].桂林電子科技大學(xué)學(xué)報,2007(1):27-30.
[3]楊小勇.方差分析法淺析——單因素的方差分析[J].實驗科學(xué)與技術(shù),2013(1):41-43.
[4]陳波,董鵬,邵勇.基于Apriori算法及其改進算法綜述[A].中國通信學(xué)會.中國通信學(xué)會第五屆學(xué)術(shù)年會論文集[C].中國通信學(xué)會,2008:6.
[5]錢光超,賈瑞玉,張然,等. Apriori算法的一種優(yōu)化方法[J].計算機工程,2008(23):196-198.
[6]李學(xué)遠(yuǎn).基于方差分析的故障測距算法的研究[D].重慶大學(xué),2007.
[7]顏雪松,蔡之華.一種基于Apriori的高效關(guān)聯(lián)規(guī)則挖掘算法的研究[J].計算機工程與應(yīng)用,2002(10):209-211.
[8]饒正嬋,范年柏.關(guān)聯(lián)規(guī)則挖掘Apriori算法研究綜述[J].計算機時代,2012(9):11-13.
[9]羅可,賀才望.基于Apriori算法改進的關(guān)聯(lián)規(guī)則提取算法[J].計算機與數(shù)字工程,2006(4):48-51+55.
[10]李濤,王林元,康峰,等.基于多元方差分析的傷亡事故統(tǒng)計分析方法研究[J].石油化工安全環(huán)保技術(shù),2014(2):31-35+2+1.
[11]馬明.基于多元統(tǒng)計方法的城市道路交通事故分析研究[D].武漢理工大學(xué),2010.
[12]王慧,李陽萍.基于多元方差分析的我國中部六省新型工業(yè)化水平差異性研究[J].科技管理研究,2013(11):93-98.
[13]呂棟雷,曹志耀,鄧寶,等.利用方差分析法進行模型驗證[J].計算機仿真,2006(8):46-48.
[14]孫國紅,沈躍,徐應(yīng)明,等.基于多元統(tǒng)計分析的黃河水質(zhì)評價方法[J].農(nóng)業(yè)環(huán)境科學(xué)學(xué)報,2011(6):1193-1199.
[15]劉明磊.正交試驗設(shè)計中的方差分析[D].東北林業(yè)大學(xué),2011.
[16]楊瑞波.事故樹分析法在電力事故分析中的應(yīng)用[J].云南電力技術(shù),2015(4):52-55.
TP391
A