尹蕊 郭江濤 王曉磊 王天軍 潘建笠
摘 要:為有效滿足智能電網(wǎng)的關(guān)聯(lián)規(guī)則挖掘需求,在繼承關(guān)聯(lián)規(guī)則挖掘頻繁樹算法優(yōu)勢的基礎(chǔ)上完成了 FP-network模型的構(gòu)建,在一個無向網(wǎng)絡(luò)圖上對所需挖掘的信息進(jìn)行壓縮處理,在此基礎(chǔ)上完成事務(wù)項目關(guān)聯(lián)矩陣的構(gòu)建,實(shí)現(xiàn)數(shù)據(jù)的存儲和挖掘過程。詳細(xì)介紹了在輸電線路故障分析中該關(guān)聯(lián)規(guī)則挖掘算法模型的應(yīng)用流程,該挖掘算法只需掃描一次數(shù)據(jù)庫,顯著提高了關(guān)聯(lián)規(guī)則挖掘的效率,該模型能夠有效滿足智能電網(wǎng)大數(shù)據(jù)間關(guān)聯(lián)的挖掘需求。
關(guān)鍵詞:智能電網(wǎng);關(guān)聯(lián)規(guī)則;挖掘算法;FP-network算法
Abstract:In order to effectively meet the needs of association rules mining in smart grids, this study completed the construction of the FP-network model by inheriting the advantages of association tree mining frequent tree algorithm, and compressed the information to be mined on an undirected network graph. On the basis of this, the paper completed the construction of the transaction item association matrix, realized the data storage and mining process. It also introduced in detail the application process of the association rule mining algorithm model in the transmission line fault analysis. The mining algorithm only needs to scan the database once. The efficiency of mining association rules is significantly improved, and the model can effectively meet the needs of mining big data associations in smart grids.
Key words:smart grid;association rules;mining algorithm;FP-network algorithm
0 引言
隨著自動化及智能化水平的持續(xù)提升,電力系統(tǒng)中的電力數(shù)據(jù)量不斷增加,電網(wǎng)運(yùn)行需基于更高的實(shí)時數(shù)據(jù)質(zhì)量實(shí)現(xiàn),進(jìn)而對數(shù)據(jù)的處理和分析過程提出了更高的要求,尤其是不良數(shù)據(jù)的及時檢測和辨識。目前應(yīng)用處理不斷增加的智能電網(wǎng)數(shù)據(jù)時仍面臨著嚴(yán)峻的挑戰(zhàn),主要表現(xiàn)在數(shù)據(jù)可視化、存儲及處理的實(shí)時性和效率、多源異構(gòu)數(shù)據(jù)的有效融合等方面,為保障智能電網(wǎng)的安全穩(wěn)定運(yùn)行、充分發(fā)揮大數(shù)據(jù)的作用,本研究主要對面向智能電網(wǎng)的關(guān)聯(lián)規(guī)則挖掘算法進(jìn)行了設(shè)計。
1 現(xiàn)狀分析
我國已相繼完成了特高壓和超高壓輸電線路的建設(shè),電網(wǎng)規(guī)模及復(fù)雜程度不斷增加,智能電網(wǎng)管理過程中的用電預(yù)測、設(shè)備故障診斷等問題均需基于電力相關(guān)數(shù)據(jù)的處理完成,傳統(tǒng)的數(shù)據(jù)挖掘算法(包括分類、聚類、關(guān)聯(lián)規(guī)則等)雖已取得了不錯的效果,但隨著各輸電網(wǎng)區(qū)域間聯(lián)系日益緊密以及實(shí)際應(yīng)用的不斷擴(kuò)展,輸電網(wǎng)線路信息隨之增多,導(dǎo)致電力系統(tǒng)故障頻繁發(fā),電力系統(tǒng)故障呈現(xiàn)出復(fù)雜多樣化特點(diǎn),而電網(wǎng)故障的各屬性間存在不同程度的關(guān)聯(lián)性,傳統(tǒng)的數(shù)據(jù)挖掘算法大多建立在充足的數(shù)據(jù)源基礎(chǔ)上,對于較為稀疏分散的源領(lǐng)域數(shù)據(jù)會由于欠擬合問題的存在而難以有效滿足實(shí)際工作對電網(wǎng)數(shù)據(jù)的挖掘需求。將關(guān)聯(lián)規(guī)則挖掘算法運(yùn)用于歷史故障信息中,通過分類和研究故障數(shù)據(jù)獲取潛在聯(lián)系,在此基礎(chǔ)上實(shí)現(xiàn)對故障的診斷和預(yù)測分析過程,以確保輸電網(wǎng)的安全穩(wěn)定運(yùn)行[1]。
2 FP-network模型
Agrawal等提出的關(guān)聯(lián)規(guī)則挖掘算法能夠在大量歷史數(shù)據(jù)中完成相關(guān)關(guān)聯(lián)性的尋找(包括頻繁項或?qū)傩蚤g的關(guān)聯(lián)),目前較為常用的關(guān)聯(lián)規(guī)則挖掘方法為FP-Tree(頻繁模式樹)和Apriori算法,需尋找大量侯選項目集的Apriori算法在數(shù)據(jù)庫較大的情況下易出現(xiàn)組合爆炸問題,并且需對數(shù)據(jù)庫進(jìn)行多次掃描。通過FP-Tree 產(chǎn)生頻繁項集(J.Han提出)可彌補(bǔ)Apriori算法的不足,該算法在FP-Tree上壓縮處理數(shù)據(jù)庫(提供頻繁項集),并始于初始后綴模式完成條件模式基的構(gòu)造以及條件FP-Tree的形成,然后在該樹上遞歸的進(jìn)行挖掘,無需產(chǎn)生候選項,頻繁模式通過遞歸訪問 FP-Tree產(chǎn)生,僅需遍歷2 次事務(wù)數(shù)據(jù)庫,分別完成頻繁 1-項集及FP-Tree的創(chuàng)建。FP-Tree算法較難實(shí)現(xiàn),雙向遍歷數(shù)據(jù)庫不利于數(shù)據(jù)庫更新的處理,因需不斷遞歸地生成“樹”增加了挖掘過程的時空復(fù)雜度。為此本研究通過在FP-network上壓縮所需數(shù)據(jù)(提供頻繁項集)及其形成的關(guān)聯(lián)矩陣實(shí)現(xiàn)計算機(jī)存儲和挖掘過程,無需產(chǎn)生候選項及數(shù)據(jù)庫重復(fù)掃描,更加適用于智能電網(wǎng)大數(shù)據(jù)的復(fù)雜規(guī)律的挖掘[1]。
2.1 FP-network模型的建立
電力系統(tǒng)的數(shù)據(jù)庫主要體現(xiàn)在事務(wù)和項目間的關(guān)聯(lián),事務(wù)數(shù)據(jù)庫如表1所示。
2.2 FP-network的矩陣形式的構(gòu)建
為使上述網(wǎng)絡(luò)圖形式存在的問題得以有效解決,計算機(jī)存儲采取了路徑-節(jié)點(diǎn)(對應(yīng)智能電網(wǎng)電力系統(tǒng)的事務(wù)和項目)關(guān)聯(lián)矩陣的表示方式,具體由T=f(B,I)表示,假設(shè),事務(wù)集合與項目集合分別由T和I表示,事務(wù)-項目關(guān)聯(lián)矩陣由矩陣B表示(由bij代表的元素構(gòu)成,其中i=1,2…,9、 j= 1,2,…,5),bij定義為:在事務(wù)i同項目j相關(guān)聯(lián)的情況下bij取值為1,否則bij為0,以表1為依據(jù)建立如下關(guān)聯(lián)矩陣[4]。
在生成關(guān)聯(lián)矩陣過程中,由于智能電網(wǎng)大數(shù)據(jù)通常表現(xiàn)為項目數(shù)目遠(yuǎn)小于事務(wù)數(shù)目,矩陣的時間復(fù)雜度近似為事務(wù)數(shù)目,數(shù)據(jù)庫存儲受到存儲和布爾矩陣B和I的轉(zhuǎn)換顯著節(jié)省了內(nèi)存空間。
2.3 FP-network算法步驟
通過FP-network算法的使用使關(guān)聯(lián)規(guī)則的挖掘過程得以有效簡化,具體步驟為:首先給定由Smin表示的最小支持度閾值,然后對數(shù)據(jù)庫進(jìn)行掃描,在Smin大于fj的情況下將第j個節(jié)點(diǎn)信息刪除,在此基礎(chǔ)上完成矩陣B、I的構(gòu)建;接下來找到非零的nk,并以第k個節(jié)點(diǎn)作為挖掘初始節(jié)點(diǎn),矩陣B中僅保留 bik取值1的節(jié)點(diǎn)k的路徑構(gòu)成集合I(I={i|bik=1}),以點(diǎn)k前的節(jié)點(diǎn)信息作為保留內(nèi)容,從而構(gòu)成新的B、I矩陣;對于節(jié)點(diǎn)k在Smin小于nk的情況下,則將其作為頻繁項集的一個元素,Smin大于等于nk則刪去此節(jié)點(diǎn)信息,形成新的B、I矩陣,重新進(jìn)行上述操作直至挖掘完全部 nk為非零的節(jié)點(diǎn)。以表1為依據(jù)取Smin=2,節(jié)點(diǎn)頻數(shù)均超過2的I1-I5的所有節(jié)點(diǎn)信息均保留下來,以節(jié)點(diǎn)I3作為挖掘起始點(diǎn),節(jié)點(diǎn)I3在矩陣B中對應(yīng)第3列,第3、5、6、7、8、9行的元素均為1需保留,得到新的矩陣表達(dá)式如下[5]。
3 基于FP-network算法的智能電網(wǎng)大數(shù)據(jù)算例分析
本研究通過設(shè)置對比實(shí)驗介紹基于FP-network算法的智能電網(wǎng)大數(shù)據(jù)挖掘過程,實(shí)驗環(huán)境選用Windows 10操作系統(tǒng)、CPU為Intel(R)Core(TM),結(jié)合運(yùn)用Anaconda平臺和python開發(fā)語言,完成對FP-network、Apriori、FP-Tree三種算法的測試過程,傳統(tǒng)以估計后的算法為主的不良數(shù)據(jù)檢測方法的計算量較大,且易出現(xiàn)"殘差淹沒/污染"問題,為此需在估計前檢測辨識出不良數(shù)據(jù),具體以輸電線路故障分析中關(guān)聯(lián)規(guī)則挖掘的應(yīng)用為例,并以某電力公司提供的輸電線路故障信息作為實(shí)驗數(shù)據(jù),預(yù)處理2010—2017年的歷史數(shù)據(jù)(包括除噪、清洗、過濾等)獲取有效信息共1 276條,構(gòu)成線路典型故障事務(wù)數(shù)據(jù)庫,通過復(fù)制真實(shí)事務(wù)信息獲取事務(wù)數(shù)據(jù)庫(包含127 600條信息)以便更好的滿足算法測試需求。由于其他屬性本身就是離散變量,僅需離散處理數(shù)據(jù)庫的“時間”屬性,根據(jù)實(shí)際分析需要可不考慮年份信息,春季(3—5月)、夏季(6—8月)、秋季(9—11月)、冬季(12月至次年2月)分別由T1、T2、T3、T4表示,預(yù)處理后的結(jié)果如表2所示[6]。
在Smin=0.5%且實(shí)驗環(huán)境相同的情況下,對在不同規(guī)模數(shù)據(jù)庫下三種算法的運(yùn)行速率進(jìn)行測試,結(jié)果表明,如圖1所示。
相比于其他2種算法本研究算法的運(yùn)行速率最優(yōu),隨著數(shù)據(jù)庫規(guī)模的增大FP-network的優(yōu)勢更加明顯。支持度的改變會改變頻繁項集的規(guī)模(對事務(wù)數(shù)據(jù)庫的規(guī)模不產(chǎn)生影響),在不同支持度下(包括最小支持度)采用數(shù)據(jù)庫(包含127 600條信息)對算法性能及執(zhí)行時間進(jìn)行測試,如圖2所示。
結(jié)果表明在不同支持度下相比于其他兩種算法本研究算法的運(yùn)行速率最優(yōu),3種算法的執(zhí)行時間在調(diào)低最小支持度后均增加,但FP-network算法的運(yùn)行速率變化幅度最小,能夠較好地應(yīng)對支持度的變化。證明了FP-network算法的性能優(yōu)勢,能夠有效滿足智能電網(wǎng)電力系統(tǒng)的大型數(shù)據(jù)庫的實(shí)時性處理需求。
取Smin=0.5%分析故障信息數(shù)據(jù)庫并獲取全部的頻繁項集,在此基礎(chǔ)上對關(guān)聯(lián)規(guī)則做進(jìn)一步挖掘,所獲取的上百條關(guān)聯(lián)規(guī)則中并非全部都有價值,部分關(guān)聯(lián)性極弱的規(guī)則沒有實(shí)際的意義,通過使用計算規(guī)則置信度方法完成置信度超過75%的規(guī)則的篩選,部分結(jié)果如表3所示。
根據(jù)實(shí)際電力知識及獲取的挖掘結(jié)果即可對智能電網(wǎng)中的線路故障情況進(jìn)行分析,找到薄弱環(huán)節(jié)并據(jù)此提出改進(jìn)措施和方案:對于規(guī)則1,在3—5月份(春季)該省中部地區(qū)220 kV線路出現(xiàn)了導(dǎo)線及地線舞動,需做好相關(guān)預(yù)防措施;對于規(guī)則2,在6—8月該省南部地區(qū)出現(xiàn)了較多的導(dǎo)線及地線故障,主要由因外力破壞導(dǎo)致,需采取措施杜絕違規(guī)施工;對于規(guī)則3,在12月至次年2月,該省中部地區(qū)的500 kV出現(xiàn)了主要有絕緣子故障引起的線路故障,需檢修部門有針對性地對中部地區(qū)增加冬季巡查;對于規(guī)則 4,東部110 kV線路故障主要由導(dǎo)線及地線故障引發(fā),需對脆弱地區(qū)的線路布局等進(jìn)行優(yōu)化處理;對于規(guī)則5,3—5 月是該省線路(以中部地區(qū)的500 kV線路為主)覆冰故障的集中發(fā)生期,需中部地區(qū)在此時段內(nèi)加強(qiáng)線路監(jiān)測并及時進(jìn)行處理[7]。
4 總結(jié)
為進(jìn)一步完善現(xiàn)有關(guān)聯(lián)規(guī)則挖掘算法,本研究根據(jù)智能電網(wǎng)大數(shù)據(jù)發(fā)展需求未處理更加適用的FP-network模型的構(gòu)建,F(xiàn)P-network模型繼承了FP-Tree算法的優(yōu)點(diǎn),適用于分類(離散)變量,需先離散化處理事務(wù)數(shù)據(jù),將所需數(shù)據(jù)壓縮于一個無向網(wǎng)絡(luò)圖上,只需掃描1次原數(shù)據(jù)庫,并采取矩陣式的存儲形式,顯著擴(kuò)大了存儲的事務(wù)規(guī)模。使智能電網(wǎng)中的大型數(shù)據(jù)庫在時間和空間上的復(fù)雜度得到顯著降低,在簡化被挖掘數(shù)據(jù)的更新和維護(hù)過程的同時,提高了關(guān)聯(lián)規(guī)則挖掘算法的效率,能夠有效滿足智能電網(wǎng)大數(shù)據(jù)挖掘需求。
參考文獻(xiàn)
[1] 孟建良,劉德超.一種基于Spark和聚類分析的辨識電力系統(tǒng)不良數(shù)據(jù)新方法[J]. 電力系統(tǒng)保護(hù)與控制, 2016(3):85-92.
[2] 黃彥浩,于之虹,謝昶,等. 電力大數(shù)據(jù)技術(shù)與電力系統(tǒng)仿真計算結(jié)合問題研究[J]. 中國電機(jī)工程學(xué)報, 2018(1):13-22.
[3] 羅明,孟傳偉,黃海量. 基于加權(quán)頻繁模式樹的通信網(wǎng)絡(luò)告警規(guī)則挖掘方法[J]. 計算機(jī)工程, 2016(4):190-196.
[4] 薛振宇,胡航海,宋毅,等. 基于大數(shù)據(jù)分析的縣公司綜合評價策略[J].電力自動化設(shè)備,2017(9):199-204.
[5] 郝然,艾芊,肖斐. 基于多元大數(shù)據(jù)平臺的用電行為分析構(gòu)架研究[J].電力自動化設(shè)備,2017(8):20-27.
[6] 王干軍,李錦舒,吳毅江,等. 基于隨機(jī)森林的高壓電纜局部放電特征尋優(yōu)[J]. 電網(wǎng)技術(shù),2019(4):1329-1336.
[7] 徐遐齡,胡偉,王春明,等. 考慮特征組合效應(yīng)的電網(wǎng)關(guān)鍵穩(wěn)定特征篩選方法研究[J]. 中國電機(jī)工程學(xué)報,2018(8):2232-2238.
(收稿日期:2019.09.23)