程 政,雷 霞,柏小麗,徐博海
(1.瀘州電業(yè)局,四川 瀘州 646000;2.西華大學電氣信息學院,四川成都 610039;3.國電大渡河瀑布溝水利發(fā)電總廠,四川雅安 625304)
安全性評價屬于風險管理范疇,是預防和控制企業(yè)事故行之有效的方法[1]。安全性評價是度量、預測系統(tǒng)安全基礎、控制事故的重要措施。中國已用法律形式將“安全第一,預防為主”確定為勞動保護方針,也是電力安全生產(chǎn)和建設管理的基本方針。編制安全性評價標準就是要切實貫徹“安全第一,預防為主”的方針。針對電網(wǎng)運行、設備工況、生產(chǎn)環(huán)境、作業(yè)過程等進行安全性評價實現(xiàn)對事故的超前預測和控制,達到消滅和減少事故的目的。1990年,華北電網(wǎng)公司借鑒國外風險評估等現(xiàn)代安全管理辦法,開始了發(fā)電機組并網(wǎng)安全性評價,目前已在全國全面推開。隨著安全性評價在電力系統(tǒng)中的應用,一些安全性評價管理系統(tǒng)已投入實際應用,但僅僅完成了安評數(shù)據(jù)的統(tǒng)計以及個別數(shù)據(jù)的追蹤功能,對于查評中隱藏的信息沒有進行有效的分析和挖掘。如何處理這些安評數(shù)據(jù)成為研究的首要問題,數(shù)據(jù)挖掘技術應運而生。數(shù)據(jù)挖掘也稱數(shù)據(jù)庫知識發(fā)現(xiàn),它從大量的、不完全的、有噪聲的、隨機的實際應用數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程[2]。下面建立了數(shù)據(jù)挖掘模型,挖掘影響輸電網(wǎng)安全的危險點,從而指導管理者開展輸電網(wǎng)安全性評價工作。
關聯(lián)規(guī)則反映一個事物與其他事物之間的相互依存性和關聯(lián)性。如果兩個事物或者多個事物之間存在一定的關聯(lián)關系,那么,其中一個事物就能通過其他事物預測到。一般來說,關聯(lián)規(guī)則就是描述數(shù)據(jù)庫中數(shù)據(jù)項(屬性、變量)之間所存在的潛在關系的規(guī)則。設I={i1,i2,…,im}是m個不同項目的集合,D是針對I事物的集合,每一筆事物包含若干項目i1,i2,…,ik∈I。關聯(lián)規(guī)則形如 X?Y 的蘊含式,其中X?I,Y?I,X∩Y=Φ。關聯(lián)規(guī)則 X?Y在事務集 D中成立,具有兩個規(guī)則興趣度度量-支持度和置信度,它們分別反映發(fā)現(xiàn)規(guī)則的有用性和確定性。
定義1 支持度 X的支持度是事物集中A出現(xiàn)的事物數(shù)與總的事物數(shù)之比,即
定義2 置信度 規(guī)則X?Y的置信度是事物集中X、Y同時出現(xiàn)的事物數(shù)與X出現(xiàn)的事物數(shù)之比,即
如果規(guī)則的支持度大于最小支持度則認為此規(guī)則是頻繁項集,否則為非頻繁項集。同時滿足最小支持度與最小可信度兩屬性的規(guī)則稱為強關聯(lián)規(guī)則。關聯(lián)規(guī)則挖掘的目的就是從數(shù)據(jù)庫中挖掘出滿足用戶要求的最小支持度與最小可信度的強關聯(lián)規(guī)則。
挖掘關聯(lián)規(guī)則問題一般可以分解為以下兩個子問題[9]。
(1)找出存在于事物數(shù)據(jù)庫中的所有頻繁項集,即找出所有支持度滿足用戶所規(guī)定的最小支持度閾值的項集。
(2)用頻繁項集生成候選關聯(lián)規(guī)則,然后驗證候選關聯(lián)規(guī)則是否滿足用戶所規(guī)定的最小可信度閾值。若滿足,該候選關聯(lián)規(guī)則為要找的關聯(lián)規(guī)則。
要處理的問題是如何從數(shù)據(jù)源中挖掘到想要的危險點。那么建立了圖1給出了關聯(lián)規(guī)則模型。
圖1 關聯(lián)規(guī)則模型
模型解釋:數(shù)據(jù)源選擇是輸電網(wǎng)安全性評價管理系統(tǒng)中的數(shù)據(jù);ETL技術指的是對數(shù)據(jù)源中數(shù)據(jù)的清理、轉換等;應用Apriori算法時用戶需對算法中的參數(shù)進行設置,其中min_sup代表最小支持度,min_conf代表最小置信度。通過數(shù)據(jù)挖掘技術挖掘出的危險點,可以直觀地展現(xiàn)給決策者。
2.2.1 數(shù)據(jù)預處理
由于自查評表中數(shù)據(jù)比較完整、數(shù)據(jù)易處理的。下面對數(shù)據(jù)進行如下處理。
(1)問題嚴重程度缺失的處理
在自查評過程中,問題嚴重程度的缺失是由于用戶在填寫自查評結果時漏填,因此為了不遺漏任何危險的因素,默認為問題的嚴重程度為嚴重。
(2)數(shù)據(jù)錯誤的處理
數(shù)據(jù)錯誤產(chǎn)生的原因主要有兩個:設計數(shù)據(jù)時沒有進行約束;數(shù)據(jù)的人為輸入錯誤。前者是在系統(tǒng)設計時沒有對用戶的輸入進行約束,使得用戶可以輸入不滿足要求的數(shù)據(jù)。后者是由于很多數(shù)據(jù)都是以字符串的形式來存儲的,無法使用約束來保證數(shù)據(jù)的正確性,而且由于用戶知識水平和文化背景的差異,輸入時往往會拼寫出錯或者錄入完全錯誤的數(shù)據(jù)。
在自查過程中,由于參評人員對標準的理解有差異,打出的分數(shù)不滿足系統(tǒng)要求,甚至可能打出錯誤的分數(shù),因此得分率就有可能大于1或者小于0,必須進行清理。首先通過SQL語句找到所有錯誤的得分率,將這些得分率都默認為0。
(3)數(shù)據(jù)轉換
由于自查評表中的得分率在[0-1]區(qū)間,問題的嚴重程度分為一般和嚴重兩種。所用的Apriori算法是基于布爾型關聯(lián)規(guī)則的挖掘,那么現(xiàn)在將數(shù)據(jù)離散化處理。將得分率記為selfrate,問題的嚴重程度記為plevel。得分率在區(qū)間[0-0.5]之間記為 A1;在[0.5-1]之間記為A2。問題一般記為B1;問題嚴重記為B2。那么自查評表就轉化為最終的數(shù)據(jù)表,如表1所示。
表1 關聯(lián)規(guī)則模型最終事務表
2.2.2 數(shù)據(jù)挖掘的實現(xiàn)
首先采用Apriori算法生成頻繁項集,然后由頻繁項集根據(jù)最小支持度和最小置信度產(chǎn)生強規(guī)則?;贏priori算法的數(shù)據(jù)挖掘流程如圖2所示。
2.2.3 關聯(lián)規(guī)則在輸電網(wǎng)安全性評價中的應用
圖2 數(shù)據(jù)挖掘流程
輸電網(wǎng)自查評表保存著輸電網(wǎng)安全性評價中用戶自查評時產(chǎn)生的數(shù)據(jù),其中包括查評項目、查評得分、得分率等等。以自查評的項目為挖掘對象,以自查評表中的得分率(selfrate)和問題嚴重程度(plevel)為研究對象。通過前200次查評的歷史數(shù)據(jù)進行挖掘,對得分率和問題嚴重程度之間的關聯(lián)規(guī)則來判斷輸電網(wǎng)安全性評價指標是否存在危險點。
對于《輸電網(wǎng)安全性評價標準》中查評項目2.2.1[3],國家標準是這樣描述的:主力大容量電廠是否介入本網(wǎng)最高一級電壓電網(wǎng)。評分標準及方法:符合要求的滿分,基本符合要求得60%標準分,不符合要求不得分。對于次項目,取之前200次的查評數(shù)據(jù)進行分析,通過數(shù)據(jù)挖掘找到得分率和問題嚴重程度之間的關聯(lián)規(guī)則,對于得分率低且問題嚴重的關聯(lián)規(guī)則,可以得出項目2.2.1是存在危險點的。
2.2.4 挖掘結果及解釋
本模型對自查評表中查評項目2.2.1項前200次的查評歷史數(shù)據(jù)進行分析,設定最小支持度為0.5,最小置信度為0.6。最后得到3條強關聯(lián)規(guī)則。例如規(guī)則:A1?B2,其中支持度為50.2%,置信度為67.5%。意味著當“得分率”在[0-0.5]之間時,“問題嚴重程度”的概率為67.5%。那么針對這種得分率低而且問題嚴重的關聯(lián)規(guī)則,管理者可以對2.2.1項提前提出控制措施,達到預防事故的目的。
介紹了關聯(lián)規(guī)則在輸電網(wǎng)安全性評價中的應用,并建立了關聯(lián)規(guī)則模型,挖掘輸電網(wǎng)中存在的危險點。針對危險點,對輸電網(wǎng)提出相應的整改措施,對輸電網(wǎng)安全性評價有一定的指導作用。
[1]JiaweiHan,MichelineKambe著,范明,孟小峰譯.數(shù)據(jù)挖掘概念與技術[M].北京:機械工業(yè)出版社,2007.
[2]王金萍,樊鳳林,劉發(fā)旺,等.安全性評價在電力企業(yè)中的應用研究[J].華北電力技術,2005(5):23-26.
[3]國家電網(wǎng)公司.供電企業(yè)安全性評價標準[S].北京:中國電力出版社,2002.
[4]駱嘉偉,彭蔓蔓,陳景燕,等.基于消費行為的Apriori算法的研究[J].計算機工程,2003,29(5):72 -74.
[5]楊輔祥,劉云超,段智華.數(shù)據(jù)清理綜述[J].計算機應用研究,2002,19(3):3 -5.
[6]高艷霞.Apriori算法在學生成績管理中的應用[J].計算機時代,2009(8):30-31.
[7]陶建江,張文獻.關聯(lián)規(guī)則挖掘的基本算法[J].計算機工程,2004,15(30):34 -35.
[8]高杰,理紹軍,錢鋒,數(shù)據(jù)挖掘中關聯(lián)規(guī)則算法的研究及應用[J].2006(36):128 -131.
[9]程政,雷霞,廖翔,等.數(shù)據(jù)挖掘在電網(wǎng)安全性評價中的應用[J].2010(8):97-99.