于燕平 林 濤
1(柳州鐵道職業(yè)技術(shù)學(xué)院動力技術(shù)學(xué)院 廣西 柳州 545616)2(武漢大學(xué)電氣工程學(xué)院 湖北 武漢 430072)
?
基于分形特征提取的電能質(zhì)量數(shù)據(jù)挖掘
于燕平1,2林 濤2
1(柳州鐵道職業(yè)技術(shù)學(xué)院動力技術(shù)學(xué)院 廣西 柳州 545616)2(武漢大學(xué)電氣工程學(xué)院 湖北 武漢 430072)
發(fā)現(xiàn)“海量”監(jiān)測數(shù)據(jù)中電能質(zhì)量問題,并提取出有用信息,是電能質(zhì)量有效治理的關(guān)鍵。將大數(shù)據(jù)挖掘技術(shù)應(yīng)用于電能質(zhì)量知識發(fā)現(xiàn),8類電能質(zhì)量數(shù)據(jù)先進行EMD分解,取前2階IMF參數(shù)后結(jié)合分形理論分別求取計盒維、截距等10維特征參數(shù)。經(jīng)泛化處理后,訓(xùn)練并生成了可靠的決策樹,抽取出IF-THEN分類規(guī)則,用于電能質(zhì)量問題預(yù)測。通過對比分析,分形參數(shù)較其他特征參數(shù)更有利于如振蕩暫態(tài)、切痕、尖峰、閃變等電能質(zhì)量問題分析,特別是對含噪電能質(zhì)量的分析。結(jié)合大數(shù)據(jù)挖掘技術(shù),不含噪和含噪信號的平均識別率分別提高了1.8%和4.1%。
數(shù)據(jù)挖掘 EMD分解 分形理論 決策樹
現(xiàn)代工業(yè)技術(shù)的不斷發(fā)展使得人們生活水平不斷地提高,進而對電能質(zhì)量和供電可靠性提出更嚴(yán)格的要求。近年來,世界各國為改善供電環(huán)境,都在積極地開發(fā)利用清潔、可再生能源。這些新能源并入原有的電力系統(tǒng),會引起電壓偏差、電壓波動、閃變、諧波污染等一系列電能質(zhì)量問題。如何有效地區(qū)分不同的電能質(zhì)量問題,是提高電能質(zhì)量的關(guān)鍵。
智能電網(wǎng)的深入建設(shè),大量運營數(shù)據(jù)的積累,電力領(lǐng)域“數(shù)據(jù)大爆炸”的時代已經(jīng)到來。面對每年數(shù)以千兆字節(jié)的海量數(shù)據(jù),對數(shù)據(jù)的存儲、分析和類型識別帶來了巨大的挑戰(zhàn)。電能質(zhì)量識別主要包括特征提取和分類兩個過程,特征參數(shù)提取的方法有S變換[1]、小波變換[2]、希爾伯特黃變換[3](HHT)等。電力系統(tǒng)實質(zhì)是一個強非線性系統(tǒng),存在著混沌機制和現(xiàn)象[4],而分形理論可以抽象非線性系統(tǒng)發(fā)現(xiàn)其內(nèi)在的規(guī)律性。近幾年來,該理論逐漸的應(yīng)用于電力系統(tǒng)分析領(lǐng)域。分類方法主要是基于傳統(tǒng)數(shù)學(xué)統(tǒng)計和機器學(xué)習(xí),如人工神經(jīng)網(wǎng)絡(luò)[5]、支持向量機等,這些分類方法的使用在電能質(zhì)量識別方面取得了很大的成功。
面對日新月異的數(shù)據(jù)更新,從中發(fā)掘出有用的知識,如電能質(zhì)量事件預(yù)測、故障識別、干擾源識別與定位和實時控制等。我們迫切需要尋找一種能夠進行強大數(shù)據(jù)分析的方法——大數(shù)據(jù)挖掘,它以數(shù)據(jù)庫和機器學(xué)習(xí)為技術(shù)支撐,進而對其進行繼承與發(fā)展。大數(shù)據(jù)挖掘技術(shù)已經(jīng)逐漸運用于電力各個領(lǐng)域,如電能消費趨勢預(yù)測[6]、電力系統(tǒng)暫態(tài)穩(wěn)定性預(yù)測[7]、火力發(fā)電機組的節(jié)能分析[8]等。
數(shù)據(jù)挖掘是從大量數(shù)據(jù)中抽取和挖掘出未知的、有價值的模式或規(guī)律等知識的復(fù)雜過程。文中根據(jù)IEEE有關(guān)電能擾動模型規(guī)定,結(jié)合MATLAB軟件仿真了8類電能質(zhì)量擾動信號。具體的挖掘過程如下:
(1) 運用希爾伯特黃變換(HHT)對8類電能質(zhì)量擾動信號進行特征參數(shù)提?。?/p>
(2) 對提取的特征參數(shù)進行泛化處理作為決策樹的輸入,訓(xùn)練模型并產(chǎn)生規(guī)則;
(3) 對電能質(zhì)量擾動信號進行模式識別;
(4) 擾動類型的深度知識發(fā)掘。
1.1 分形理論簡介
分形理論是用于描述混沌信號有效地分析方法,其認(rèn)為系統(tǒng)的各部分之間的幾何結(jié)構(gòu)都存在自相似性和標(biāo)度不變性,這為其奠定了物理基礎(chǔ),從而得到了許多成功的應(yīng)用。分形的度量方式有很多種,常用的有Hausdorff維、計盒維、相似維、關(guān)聯(lián)維等。文中特征提取的是計盒維。
計盒維定義[9]設(shè)集合F?Rn,記Nε(F)是可以覆蓋F的、邊長為ε的n維立方體(記為εn-立方體)的最少個數(shù),則F的計盒維數(shù)DB定義為:
(1)
計盒維的計算相對較容易,所以應(yīng)用廣泛,文中運用多點擬合來計算Db,步驟如下:
1) 取m個ε值,記為εi(i=1,2,…,m)。
2) 計算Nεi(F)。歸一化電能質(zhì)量擾動信號到單位立方形區(qū)域,即:F={s(t)|min(s(t))=0,max(s(t))=1,0≤t≤1},其中s(t)表示歸一化后電能擾動信號,取最小立方體的邊長為ε,可知在區(qū)間In=[(n-1)ε,nε]內(nèi),覆蓋F的最少正方體數(shù)為:
Nn=[(maxs(t)-mins(t))/ε]t∈In
則在[0,1]區(qū)間內(nèi)覆蓋F的總正方體的個數(shù)表示為:
(2)
3) 若令xi=log(1/ε),yi=logNε(F),分別計算點(xi,yi),擬合直線y=kx+b,得到直線的斜率k即為計盒維Db,式中b為截距,即:
(3)
1.2 基于分形理論的特征參數(shù)提取
電力系統(tǒng)發(fā)生故障時,系統(tǒng)會不同程度地出現(xiàn)混沌現(xiàn)象。提取出有效區(qū)分各電能質(zhì)量擾動信號的特征參數(shù)是獲得好的識別結(jié)果的關(guān)鍵。本文采用MATLAB軟件,隨機生成8種電能質(zhì)量擾動信號,分別是暫降、中斷、諧波、振蕩暫態(tài)、切痕、尖峰、暫升和閃變。采樣頻率2 KHz,數(shù)據(jù)長度取10周波,即為0.2 s,通過觀察各擾動信號,提取出10維特征向量,具體提取過程如下:
1) 考慮信號幅度的變化規(guī)律,對輸入電能質(zhì)量擾動信號每周波求取最大值,得到10維的特征向量,然后再從這10維最大值向量中求取最大值和最小值,分別記為Max1、Max2;
2) 考慮信號經(jīng)由變換后,分解為不同的頻率分量后,有利于區(qū)分含有諧波成分的信號;因此,對輸入信號進行經(jīng)驗?zāi)B(tài)分解(EMD),取出前兩階IMF分量:IMF1、IMF2;
3) 分別對IMF1、IMF2提取出各自的能量分布E1、E2;
4) 分別求取IMF1、IMF2的過零率Zcr1、Zcr2;
5) 根據(jù)分形理論,分別計算IMF1、IMF2的計盒維Db和截距b,得到4個特征向量,分別為:K1、B1、K2、B2;
6) 文中為驗證分形理論的優(yōu)越性,將分別組合特征參數(shù)為:不含分形參數(shù){Max1,Max2,E1,E2,Zcr1,Zcr2 }、含分形參數(shù){Max1,Max2,E1,E2,Zcr1、Zcr2,K1,B1,K2,B2}2組特征向量。
2.1 決策樹基本算法
決策樹算法本質(zhì)上是一種貪心算法,是以自頂向下遞歸的分治方式構(gòu)造。樹的每個內(nèi)部結(jié)點代表對一個屬性的測試,分支代表測試的每個結(jié)果,樹的每個葉子結(jié)點就表示一個類別。
算法 Generate_decision_tree根據(jù)給定的電能質(zhì)量擾動訓(xùn)練特征集生成決策樹。
輸入:訓(xùn)練特征參數(shù)的各屬性數(shù)據(jù)均離散化處理,feature_list為候選屬性集。
輸出:決策樹。
處理流程:
a. 創(chuàng)建一個結(jié)點N;
b. if 該結(jié)點中的所有樣本均屬于同一類別C,then
c. 返回N作為葉子結(jié)點,并標(biāo)記為類別C;
d. if feature_list為空,then
e. 返回N作為葉子結(jié)點,標(biāo)記為樣本中的多數(shù)類別;
f. 從feature_list求取信息增益最大的屬性test_feature;
g. 用test_feature標(biāo)記結(jié)點N;
h. 對于test_feature中的每一個已知取值ai準(zhǔn)備劃分結(jié)點N所包含的樣本集;
i. 由test_feature=ai產(chǎn)生結(jié)點N相應(yīng)的分支,用以表示測試條件;
j. 設(shè)Di為test_feature=ai所獲得的樣本集合;
k. if Di為空,then 相應(yīng)的葉子結(jié)點標(biāo)記為樣本中類別個數(shù)最多的類別;
l. else 葉子結(jié)點標(biāo)記為:Generate_decision_tree(Di,feature_list-test_feature)endfor;
m. 返回N。
2.2 屬性選擇度量
屬性選擇度量是決策樹的分裂準(zhǔn)則,用以幫助確定生成每個結(jié)點時應(yīng)采用的合適屬性,常用的方法有信息增益、增益率和基尼指數(shù)等,本文選取信息增益。
設(shè)S是包含s個數(shù)據(jù)樣本的集合,該集合中包含m種類別屬性,不同的類別記為Ci,i={1,2,3,…,m}。設(shè)si為Ci類別中的樣本個數(shù),則對給定數(shù)據(jù)對象分類所需要的信息量定義為:
(4)
式中pi為數(shù)據(jù)對象屬于類別Ci的概率。
本文數(shù)據(jù)由MATLAB 7.04隨機生成8種不含噪的電能質(zhì)量擾動信號共1610例,其中803例作為訓(xùn)練集,807例作為測試集;加入30 dB高斯白噪聲的電能質(zhì)量擾動信號共1240例,616例作為訓(xùn)練集,624例作為測試集。
3.1 特征參數(shù)值泛化處理
將提取出的特征參數(shù)保存于數(shù)據(jù)庫中,這些數(shù)據(jù)包含了大量的細節(jié)性的數(shù)據(jù)信息,因此需要對這些數(shù)據(jù)進行更高層次的抽象以獲得概要性的描述。提取的各類特征參數(shù)命名在數(shù)據(jù)庫中就對應(yīng)一個屬性,則有條件屬性C={E1,E2,Max1,Max2,Zcr1,Zcr2,K1,B1,K2,B2},假設(shè)它們存在一個概念層次樹,可以將它們劃分為若干間隔(組),本文根據(jù)數(shù)據(jù)的實際分布情況用等級進行劃分,表1為含30 dB高斯白噪聲的特征數(shù)據(jù)的泛化情況。
表1 含30 dB噪聲的各類擾動特征參數(shù)值的泛化表示
表1中只列出了含噪特征參數(shù)的泛化情況,不含噪的特征參數(shù)的泛化類似。但是由于噪聲的加入,前兩階IMF分量的過零率會有較明顯的改變,特別是第一階的IMF1分量,主要體現(xiàn)的是信號中的最高頻的分量,加入噪聲后IMF1就主要包括信號的突變部分以及大部分的噪聲信號,直接導(dǎo)致過零率的大幅增加。
3.2 模型評估
建模過程中把訓(xùn)練集隨機劃分為70%訓(xùn)練部分和30%測試部分,將訓(xùn)練部分?jǐn)?shù)據(jù)作為決策樹的輸入,計算信息增益選取合適的屬性作為分支結(jié)點,構(gòu)造決策樹,利用測試部分?jǐn)?shù)據(jù)對生成好的決策樹進行準(zhǔn)確性評估,訓(xùn)練集測試部分?jǐn)?shù)據(jù)具體挖掘結(jié)果如表2所示。
表2 電能質(zhì)量擾動信號訓(xùn)練集測試部分挖掘結(jié)果
表2對訓(xùn)練集30%測試部分?jǐn)?shù)據(jù)的挖掘結(jié)果:(1)不含噪聲的各類擾動信號不論其特征參數(shù)是否含有分形參數(shù),其識別率都為100%,實驗說明對于不含噪聲的電能質(zhì)量擾動信號的分類識別,分形參數(shù)對識別結(jié)果的影響并不大;(2)對于含30 dB噪聲的擾動信號,不含分形特征參數(shù)獲得的識別率為90.08%,而含分形特征參數(shù)的特征集識別率為98.32%,結(jié)果表明,分形參數(shù)結(jié)合其他特征參數(shù)更有利于含噪聲的電能擾動信號的識別;(3)訓(xùn)練集測試部分?jǐn)?shù)據(jù)的識別結(jié)果說明已經(jīng)構(gòu)建了一個較可靠的決策樹。
3.3 分類規(guī)則獲取
決策樹表示的分類知識可以被抽取出來并用IF-THEN分類規(guī)則形式表示,表3所示為含30 dB噪聲的電能質(zhì)量擾動信號決策樹中抽取的部分分類規(guī)則。
表3 分類規(guī)則獲取
分形理論研究的是非線性系統(tǒng)產(chǎn)生的不光滑和不可微的幾何形體,表3的分類規(guī)則表明:(1) 對于電能信號(特別是加入噪聲以后)波形出現(xiàn)振蕩暫態(tài)、切痕、尖峰、閃變等現(xiàn)象時,分類決策就會不同程度地依賴于分形參數(shù)(計盒維數(shù)或截距);(2) 對于帶噪的諧波信號,經(jīng)過EMD分解后,第一階IMF噪聲加載在高頻分量上,反而導(dǎo)致IMF1的過零率較其他的信號低;(3) 對于短時電壓變動類的電能擾動,如暫降、暫升、中斷,它們更多地依賴與幅值變化相關(guān)的特征參數(shù)(如:max1,max2,E1或E2)。
3.4 知識驗證及評價
利用測試數(shù)據(jù)集對分類規(guī)則的預(yù)測準(zhǔn)確性進行評估,分類結(jié)果如表4、表5所示。
表4 無噪聲電能質(zhì)量擾動信號(不含/含分形參數(shù))測試集挖掘結(jié)果
表5 含30 dB噪聲電能質(zhì)量擾動信號(不含/含分形參數(shù))測試集挖掘結(jié)果
預(yù)測實際分形12345678平均識別率%1無730000000100有7300000001002無078000000100有0780000001003無10753000096.2有00771000098.74無00073214091.3有00078002097.55無00007330293.6有00007710098.76無000114640081有00006730092.47無00030075096.2有00010077098.78無00014007593.8有00010007998.8
表4為不加噪聲的電能質(zhì)量擾動信號測試集評估結(jié)果,第1、2、3、7共4類擾動信號的識別率特征參數(shù)中不論是否包含分形參數(shù)都取得了100%的好結(jié)果。但從第4、5、6、8這幾類的結(jié)果對比看,特征參數(shù)含分形參數(shù)較不含分形參數(shù)的特征參數(shù)的識別率都有所提高。
表5中對加入30 dB噪聲的擾動信號的識別情況來看,不含分形參數(shù)的特征參數(shù)對第6類尖峰信號的識別有14例被誤識為切痕信號,只取得了81%的識別率。而分形參數(shù)加入以后,取得了92.4%的識別率,有了較明顯的提高,對于其他幾類擾動信號(如類3、4、5、7、8)的識別率也有較大增長。仿真結(jié)果表明:與幅值變化相關(guān)的特征參數(shù)在擾動信號的識別方面,很容易造成如振蕩暫態(tài)、切痕、尖峰等的誤識,它們無法很好地區(qū)分各信號,當(dāng)加入分形參數(shù)以后,這幾類擾動的識別率有了明顯改善,特別是在含噪聲擾動信號的識別方面,體現(xiàn)了分形參數(shù)在描述不規(guī)則變化信號的優(yōu)越性。
(1) 電力系統(tǒng)存在混沌機制,本文將電能質(zhì)量擾動信號經(jīng)由EMD分解結(jié)合分形理論應(yīng)用于電能質(zhì)量擾動信號的特征參數(shù)提取,提取出的向量作為特征集。為證明分形參數(shù)的有效性,分別對不含分形參數(shù)與含分形參數(shù)的特征參數(shù)進行了對比分析。實驗結(jié)果表明,表征幅值變化的相關(guān)特征參數(shù)對振蕩暫態(tài)、切痕、尖峰等信號的區(qū)分能力稍差,當(dāng)加上分形特征參數(shù)后能有效地抽取出各擾動信號之間微小的差異性。較文獻[10]對暫態(tài)閃變、尖峰、凹痕3類擾動的數(shù)據(jù)挖掘,本文有效地區(qū)分開8類電能質(zhì)量問題。
(2) 借助大數(shù)據(jù)挖掘工具,為電力系統(tǒng)數(shù)據(jù)發(fā)掘提供了新思路、新途徑。文中首先對特征數(shù)據(jù)進行泛化處理,應(yīng)用決策樹技術(shù)對電能質(zhì)量擾動數(shù)據(jù)進行訓(xùn)練與預(yù)測,并抽取出部分的決策規(guī)則。含分形參數(shù)的特征集對電能質(zhì)量擾動測試集的分類結(jié)果為:不加噪的平均識別準(zhǔn)確率為99.09%,較不含分形參數(shù)的97.29%,識別率提高了1.8%;含30 dB噪聲的平均識別率為98.1%,而不含分形參數(shù)的平均識別率只為94.01%,提高了4.1%,都取得了較好的分類結(jié)果。
(3) 本文中特征參數(shù)提取應(yīng)用的大部分是全局性方法,造成了一定的誤識情況。如表4中振蕩暫態(tài)仍有5例被誤識為暫升信號,表5中尖峰有6例誤識為切痕信號等,表明提取出有效的、能抽取局部信息的特征參數(shù)將更有利于多類且相似度高信號的分類識別。
[1] Kumar R,Singh B,Shahani D T,et al.Recognition of Power Quality Disturbances Using S-Transform Based ANN Classifier and Rule Based Decision Tree[J].IEEE Transactions on Industry Applications,2015,51(2):1249-1258.
[2] 潘從茂,李鳳婷.基于小波變換的暫態(tài)電能質(zhì)量的檢測與識別[J].電測與儀表,2013,50(11):69-72.
[3] 馬慧君.希爾伯特—黃變換在電能質(zhì)量檢測中的應(yīng)用研究[D].哈爾濱理工大學(xué),2013.
[4] 何友全,肖建,熊啟軍.基于分形理論的電力系統(tǒng)高頻暫態(tài)波形特征識別[J].電力系統(tǒng)自動化,2005,29(02):29-33.
[5] Biswal B,Biswal M,Mishra S,et al.Automatic Classification of Power Quality Events Using Balanced Neural Tree[J].IEEE Transactions on Industrial Electronics,2014,61(1):521-530.
[6] Yang Hang,Chen Huajun,Yuan Cai,et al.An Intelligent System for Forecasting the Trend of Consumed Electricity[C]// IEEE International Congress on Big Data (Big Data Congress).Anchorage,AK:IEEE,2014:.677-682.
[7] Tao X,Renmu H,Peng W,et al.Applications of data mining technique for power system transient stability prediction[C]//Proceedings of 2004 IEEE International Conference on Electric Utility Deregulation,Restructuring and Power Technologies.Hong Kong:IEEE,2004:389-392 .
[8] Yong-Ping Y,Ning-Ling W,Zhi-Wei Z,et al.Data mining-based modeling and application in the energy-saving analysis of large coal-fired power units[C]// 2010 International Conference on Machine Learning and Cybernetics (ICMLC).Qingdao:IEEE,2010:1095-1100.
[9] 韓培友,郝重陽,張先勇,等.基于模糊粗糙集、數(shù)學(xué)形態(tài)學(xué)和分形理論的醫(yī)學(xué)圖像分類研究[J].計算機應(yīng)用研究,2004,21(2):241-245.
[10] Dash P K,Chun I L W,Chilukuri M V.Power quality data mining using soft computing and wavelet transform[C]//IEEE TENCON.Conference on Convergent Technologies for the Asia-Pacific Region.India,Kurukshetra:IEEE,2003:976-980.
POWER QUALITY DATA MINING BASED ON FRACTAL FEATURE EXTRACTION
Yu Yanping1,2Lin Tao2
1(DepartmentofPowerTechnology,LiuzhouRailwayVocationalTechnicalCollege,Liuzhou545616,Guangxi,China)2(SchoolofElectricalEngineering,WuhanUniversity,Wuhan430072,Hubei,China)
To find the power quality problems from "mass" monitoring data and to extract available information from it,this is the key to control the power quality effectively.We applied the big data mining technology to power quality knowledge discovery,exerted the empirical mode decomposition (EMD) on 8 kinds of power quality data in advance,took the first 2-order IMF parameters and then combined the fractal theory to calculate respectively 10-dimension feature vectors of box-counting dimension,intercept,etc.After the generalisation processing,they were trained and generated the reliable decision tree which was used to extract the classification rules of IF-THEN,and was used to forecast the power quality problems.By comparative analysis,the fractal parameters were more conducive to analysing the power quality problems such as oscillatory transient,notch,spike,flicker etc.,than other features,especially to the analysis of power quality signals with noise.Combining the big data mining technology,the average recognition rate of signals with and without noise increased 1.8% and 4.1% respectively.
Data mining EMD Fractal theory Decision tree
2015-07-06。國家自然科學(xué)基金項目(51177111)。于燕平,講師,主研領(lǐng)域:電能質(zhì)量分析與處理,信號處理。林濤,教授。
TP391.9
A
10.3969/j.issn.1000-386x.2016.11.006