尹志勇,陳永光,桑博
(1.軍械工程學院車輛與電氣工程系,河北石家莊050003;2.北京跟蹤與通信技術(shù)研究所,北京100094)
基于GA-SVM的電能質(zhì)量擾動分類方法研究
尹志勇1,陳永光2,桑博1
(1.軍械工程學院車輛與電氣工程系,河北石家莊050003;2.北京跟蹤與通信技術(shù)研究所,北京100094)
電能質(zhì)量擾動的準確分類,是電能品質(zhì)改善和治理的重要決策依據(jù).為解決支持向量機(SVM)分類器在多分類問題中的不足,采用模式識別領域中聚類分析的思想,提出了一種基于遺傳算法(GA)的SVM決策樹多分類電能質(zhì)量擾動識別方法.該方法首先對參數(shù)進行初步最優(yōu)值篩選,將得到的初步最優(yōu)值作為遺傳算法初始值進行編碼,根據(jù)設立的適應度函數(shù)完成GA中的選擇、交叉、變異等操作,進一步搜索最優(yōu)值,再以最優(yōu)決策樹構(gòu)建SVM分類器,最終實現(xiàn)SVM的多分類.仿真結(jié)果表明,相比未經(jīng)優(yōu)化的SVM模型,基于GA算法優(yōu)化的SVM具有較高的識別精度和抗噪能力.
電能質(zhì)量擾動;分類;遺傳算法;支持向量機
電網(wǎng)中的非線性、沖擊性和不平衡負荷的投入導致電網(wǎng)電壓波形發(fā)生畸變、電壓波動和三相不平衡等,造成嚴重的電能質(zhì)量問題,深入研究影響電能質(zhì)量的各種因素,實現(xiàn)電能質(zhì)量擾動的準確分類,是電能品質(zhì)改善和治理的重要決策依據(jù)[1-2].SVM作為模式識別等相關領域的重要分類方法,也開始逐步運用到電能質(zhì)量擾動分類識別領域中[3-4].文獻[5]針對提高SVM識別率,提出了將SVM訓練樣本集識別率作為遺傳算法的適應度函數(shù)來優(yōu)化生成SVM最優(yōu)分類決策樹.文獻[6]提出連續(xù)利用小波變換與是變換對擾動信號特征值進行提取,先后兩次輸入SVM分類器進行識別,形成了一套“提取-初分類-再提取-再分類”的分類器設計標準.在現(xiàn)有的諸多經(jīng)典SVM分類方法中,如一對一分類、一對多分類、有向非循環(huán)圖支持向量機、決策樹支持向量機等,由于存在需要訓練的支持向量機個數(shù)過多、測試的時間過長等缺點,導致這些方法識別的精度不高,耗時過長,雖然近年來國內(nèi)外研究人員對此做出了一定的改進[7-10],但也存在識別度降低以及產(chǎn)生的SVM分類器不是最優(yōu)等問題.
針對上述問題,本文提出了一種基于遺傳算法的SVM決策樹多分類電能質(zhì)量擾動識別方法.GA由美國學者Holland在1962年首次提出,該算法以遺傳學基本理論與生物進化理論中的“適者生存,優(yōu)勝劣汰”原則為基礎,廣泛應用于搜索尋優(yōu)[11-12].首先GA對優(yōu)化參數(shù)進行編碼,根據(jù)設立的適應度函數(shù)完成GA中的選擇、交叉、變異等操作,完成對優(yōu)秀種群個體的篩選,在保留適應度較好個體的同時,淘汰適應度較差的個體,通過不斷迭代,直到選出具有最優(yōu)適應度值的個體[13].盡管遺傳算法在搜索尋優(yōu)中應用廣泛,但仍有一些不足:一是算法的全局搜索能力要高于局部搜索能力,這就導致在后期搜索最優(yōu)值時會出現(xiàn)搜索時間過長的情況;二是如果在種群進化初期,出現(xiàn)適應度較高的突變個體,會導致種群多樣性喪失,出現(xiàn)過早收斂的情況,搜索到的結(jié)果可能不是全局最優(yōu)值.為此,本文提出先對待優(yōu)化的參數(shù)(SVM的懲罰因子與徑向基核函數(shù)參數(shù))進行初步最優(yōu)值篩選,然后將得到的初步最優(yōu)值作為遺傳算法初始值進行編碼,再通過GA的選擇、交叉、變異3步操作完成進一步搜索最優(yōu)值.仿真結(jié)果表明,相比未經(jīng)優(yōu)化的SVM模型,基于GA算法優(yōu)化的SVM具有較高的識別精度和抗噪能力.
SVM是一種以統(tǒng)計學習理論為主要思想的智能機器學習算法[14],包括線性分類與非線性分類兩種.在實際分類應用中,基本遇到的都是非線性問題,此時線性可分的SVM無法處理,因此,解決非線性問題的思路都是將其通過非線性變換,將原始空間的樣本變換到高維的特征空間,然后在高維特征空間中按照類似線性可分的SVM方法尋找分類最優(yōu)的超平面S,其思想如圖1所示.
為了減少在特征空間中對向量點積的計算,Vapnik等學者通過引入符合Mercer條件下核函數(shù)的概念來代替向量點積運算[15],即:
圖1 原始空間變換到高維空間的映射Fig.1 The mapping from original space transformation to high dimensional space
在引入核函數(shù)概念后,計算高維特征空間的對偶問題轉(zhuǎn)化為式(2):
最優(yōu)分類超平面S的分類函數(shù)為:
圖2反映了SVM的結(jié)構(gòu),中間節(jié)點的線性組合構(gòu)成了輸出節(jié)點,每一個中間節(jié)點相應的表示一個支持向量.
圖2 SVM結(jié)構(gòu)圖Fig.2 The structure diagram of SVM
在實際應用中,我們面臨的絕大多數(shù)問題仍是多分類問題,而SVM作為二分類的主要手段,顯然不能滿足實際應用,因此必須要對SVM進行改進,達到解決多分類問題的目的.
目前,應用較為廣泛的多分類SVM構(gòu)造方法有一對一、一對多2種[16].一對一分類法通過將每一類訓練樣本分別與剩余的訓練樣本一一比對,共形成0.5 K(K-1)個二分類SVM分類器,其中K為訓練樣本類別數(shù);然后將測試樣本通過所有SVM分類器,運用投票法來完成分類操作.一對多分類法是將K個二分類SVM分類器中的第i類訓練樣本類別標記成1,然后將剩余的樣本類別標記為-1,然后將測試樣本通過所有SVM分類器,將預測的樣本類別號進行歸類,并判斷所屬類別.但這2類分類方法會出現(xiàn)推廣誤差無界的問題,有時還會造成拒絕分類的情況出現(xiàn).
為了解決SVM分類器在多分類問題中的缺陷,本文根據(jù)模式識別領域中聚類分析的思想,設計了SVM分類樹來完成對電能質(zhì)量擾動信號的識別.SVM分類樹的結(jié)構(gòu)如圖3所示.
圖3 SVM多分類結(jié)構(gòu)圖Fig.3 Multi-classification structure diagram of SVM
如前所述,GA可能出現(xiàn)后期搜索最優(yōu)值時搜索時間過長,初期出現(xiàn)適應度較高的突變個體而過早收斂等問題[17].為此,本文提出先對待優(yōu)化的參數(shù)(SVM的懲罰因子C與徑向基核函數(shù)參數(shù)g)進行初步最優(yōu)值篩選,將得到的初步最優(yōu)值作為遺傳算法初始值進行編碼,再通過GA的選擇、交叉、變異3步操作完成進一步搜索最優(yōu)值.
1)交叉驗證法(Cross Validation,CV)完成對參數(shù)C、g的初步尋優(yōu)
CV法是一種對分類器性能進行優(yōu)化的計算方法,其主要操作過程為:首先將全部原始數(shù)據(jù)平均分成N組;然后將N組中前N-M組作為訓練樣本,后M組作為測試樣本;最后取M組測試樣本準確率的平均值作為評價分類器的性能的指標.選取CV驗證下測試樣本準確率的平均值ηCV為最優(yōu)化參數(shù)C、g的適應度函數(shù),其數(shù)學表達如式(5)所示:
為了可以快速尋找最優(yōu)參數(shù)C、g,對其進行離散化的網(wǎng)格搜索,參數(shù)C、g都在2-10~210范圍內(nèi)進行搜索,并給定N=3,其尋優(yōu)參數(shù)結(jié)果如圖4所示.
經(jīng)過搜索,得到ηCV=97%,C=2,g=0.5.
2)遺傳算法再次尋優(yōu)步驟
GA搜索最優(yōu)值的具體步驟如下:
①種群初始化設置及各類參數(shù)編碼:設置種群數(shù)為20,最大進化代數(shù)為100,交叉操作概率為0.6,變異操作概率為0.1;將初步優(yōu)化后得到的C、g進行實數(shù)編碼.
②確立適應度函數(shù):適應度函數(shù)仍選取CV驗證下測試樣本準確率的平均值ηCV.
圖4 參數(shù)選擇結(jié)果3d立體圖Fig.4 3d diagram of parameter selection result
③選擇、交叉、變異3大遺傳操作:
選擇操作的基本思想是從上一代群體中按照適應度值的情況,以一定的概率選擇適應度值較好的個體組成新的種群,適應度較好的個體被遺傳到下一代的概率越大,通過采用概率統(tǒng)計理論中輪盤賭的方法完成個體繁衍,設種群中個體j被繁衍到下一代的概率為εi如式(6)所示.
交叉操作是對隨機選取的兩個不同個體的染色體進行交換,來得到新的優(yōu)秀個體.在對個體進行實數(shù)編碼后,采取實數(shù)交叉法對第m個染色體rm和第n個染色體rn在第k位進行交叉操作為:
式中,s為[0,1]間的隨機數(shù).
變異操作的目的是為了保持種群的多樣性,首先隨機選取一個種群個體,然后對該個體m的第n個基因rmn進行變異操作,獲得更為優(yōu)秀的個體,具體過程如式(8)所示.
④各類參數(shù)解碼.得到迭代后的最終優(yōu)化參數(shù)為:C=1.414,g=1.
綜合以上分析,基于GA的SVM分類器的工作流程如圖5所示,圖中數(shù)據(jù)預處理過程即為交叉驗證法對參數(shù)C、g的初步尋優(yōu)過程.
圖5 CV-GA-SVM分類器流程圖Fig.5 Flow chart of CV-GA-SVM classifier
為了全面分析該分類方法的實用性,仿真實驗主要從以下2個方面進行驗證.
1)不同SNR條件下對擾動信號分類識別率的影響
對6類擾動信號隨機產(chǎn)生的300組樣本,分別疊加SNR為20 dB、30 dB、40 dB的噪聲,其中前100組作為分類器訓練樣本,后200組最為分類器測試樣本,其中SVM中選擇優(yōu)化后的徑向基核函數(shù),測試樣本識別率的統(tǒng)計結(jié)果如表1所示.
從表1可知,該方法在識別擾動信號時準確率較高,抗噪性能非常明顯,平均識別率在97.08%以上.
2)不同核函數(shù)對擾動信號分類識別率的影響
為了比較優(yōu)化后核函數(shù)對SVM分類器性能的影響,將徑向基核函數(shù)與其他常用核函數(shù)進行比較,在無噪聲污染的條件下對六類擾動信號隨機產(chǎn)生的300組樣本,其中前100組作為分類器訓練樣本,后200組最為分類器測試樣本,以六類電能質(zhì)量擾動信號的平均識別率作為評價指標,統(tǒng)計結(jié)果如表2所示.
根據(jù)分類結(jié)果可知:①優(yōu)化后徑向基核函數(shù):共出現(xiàn)15個錯誤樣本,其中1組電壓暫降樣本,6組電壓沖擊樣本,8組電壓脈沖樣本,平均識別率98.75%;②線性核函數(shù):共出現(xiàn)28個錯誤樣本,其中2組電壓暫升,4組電壓暫降,2組電壓中斷,8組電壓沖擊,12組電壓脈沖,平均識別率97.67%;③階多項式核函數(shù):共出現(xiàn)23個錯誤樣本,其中2組電壓暫升,3組電壓暫降,1組電壓中斷,7組電壓沖擊,10組電壓脈沖,平均識別率98.08%;④Sigmoid核函數(shù):共出現(xiàn)22個錯誤樣本,其中1組電壓暫升,4組電壓暫降,8組電壓沖擊,9組電壓脈沖,平均識別率98.17%.從各類核函數(shù)統(tǒng)計結(jié)果來看,識別率較低的擾動類型主要為電壓沖擊與電壓脈沖,原因是電壓沖擊往往是由別的擾動產(chǎn)生時才出現(xiàn)的,其特征值被其他擾動信號特征值覆蓋,因此會經(jīng)常出現(xiàn)誤判.
表1 不同信噪比下的測試結(jié)果Tab.1 Test results under different SNR
表2 測試結(jié)果Tab.2 Test results
1)提出了一種基于遺傳算法的SVM決策樹多分類電能質(zhì)量擾動識別方法.該方法首先對SVM的懲罰因子與徑向基核函數(shù)進行初步最優(yōu)值篩選,將得到的結(jié)果作為遺傳算法初始值進行編碼,再通過GA的選擇、交叉、變異3步操作完成進一步搜索最優(yōu)值,最終獲得了最優(yōu)參數(shù),基于此,構(gòu)建了SVM分類器,并設計了分類流程.
2)對所提出的分類方法進行了實驗驗證.采用離散小波對電能質(zhì)量擾動信號分解,構(gòu)建了分類器所用的特征向量集,從不同噪聲強度和不同核函數(shù)的選擇兩個方面對GA-SVM分類方法進行了驗證,結(jié)果表明,基于GA算法優(yōu)化的SVM具有較高的識別精度和抗噪能力,適應能力較強,為電能質(zhì)量監(jiān)測的實際工程應用提供了依據(jù).
[1]邢穎,李寶樹.非線性負荷對電網(wǎng)電壓和電流的影響[J].電氣應用,2007,26(8):25-28.
[2]劉金寧,趙錦成,劉洪文.裝備電能質(zhì)量仿真和試驗系統(tǒng)研究[J].移動電源與車輛,2012(4):28-32.
[3]Karthikeyan M,Malathi V.Wavelet support vector machine approach for classification of power quality disturbances[J].International Journal of Recent Trends in Engineering,2009,1(3):290-293.
[4]占勇.基于支持向量機的電能質(zhì)量分析和負荷建模研究[D].上海:上海交通大學,2007.
[5]王一,楊俊安,劉輝.一種基于遺傳算法的SVM決策樹多分類方法[J].信號處理,2010,26(10):1495-1499.
[6]韓剛,張建文,禇鑫,等.多特征組合及優(yōu)化SVM的電能質(zhì)量擾動識別[J].電力系統(tǒng)及其自動化學報,2015,27(8):71-76.
[7]秦業(yè),袁海文,袁海斌,等.基于優(yōu)化最小二乘支持向量機的電能質(zhì)量擾動分類[J].電工技術(shù)學報,2012,27(8):209-214.
[8]張俊才,張靜.使用粒子群算法進行特征選擇及對支持向量機參數(shù)的優(yōu)化[J].微電子學與計算機,2012,29(7):138-141.
[9]H.Eristi,Y.Demir.Automatic classification of power quality events and disturbances using wavelet transform and support vector machines[J].IET Gener Transaction Distribution,2012,6(10):968-976.
[10]戰(zhàn)兵.基于支持向量機的制造系統(tǒng)靜態(tài)復雜性綜合模型研究[J].軍械工程學院學報,2014,26(4):14-18.
[11]Vasconcelos J A,Ramirez J A,Takahashi R H C,et al.Improvements in Genetic Algorithms[J].IEEE Trans Magnetics,2001,37:3414-3417.
[12]Gu W j,Zhang R c,Zhao H c.On fuzzy sliding mode guidance based on self-adaptive genetic annealing algorithm.IEEE Trans on SMC.2008,3(11):257-2581.
[13]程亞平,李志剛,張強.多目標遺傳算法在感應加熱電氣參數(shù)優(yōu)化中的應用[J].河北工業(yè)大學學報,2015,44(1):1-5.
[14]Cristianini N,Shawe-Taylor J.An Introduction to Support Vector Machines and Other Kernal-based Learning Methods[M].Cambridge:Cambridge U-niversity Press,2000.
[15]CHAPELLE O,HAFFNER P,VAPNIK V N.Support Vector Machines for Histogram-based Image Classification[J].IEEE Transactions on Neural Networks,1999,10(5):1055-1064.
[16]余輝,趙暉.支持向量機多類分類算法新研究[J].計算機工程與應用,2008,44(7):185-189.
[17]GAAFAR L K,MASOUD S A.Genetic algorithms and simulated annealing for scheduling in agile manufacturing[J].International Journal of Production Research.2005,43(14):189-216.
[責任編輯 楊屹]
Research on Power Quality Disturbance Classification Based on GA-SVM
YIN Zhi-yong1,CHEN Yong-guang2,SANG Bo1
(1.Department of Vehicle and Electric Engineering,Ordnance Engineering College,Hebei Shijiazhuang 050003,China;2. Institute of Tracking and Telecommunications technology,Beijing 100094,China)
The accurate classification of power quality is an important basis for the improvement and management.In order to solve the lack of support vector machine(SVM)classifier in multi classification problem,this paper proposes a new power quality disturbance classification method based on genetic algorithm(GA)and SVM with the cluster analysis in pattern recognition.Firstly,the method is used to select the optimal parameters,and then the results are encoded as the initial values of the genetic algorithm.According to the fitness function,the selection,crossover and mutation operations of GA are completed,and the optimal values are searched further.Finally the optimal decision tree is used to construct the SVM multi classifier.The simulation results show that the optimized SVM based on GA has higher recognition accuracy and anti noise ability than the non-optimized SVM model.
power quality disturbance;classification;genetic algorithm;support vector machine
TM76
A
1007-2373(2017)04-0075-05
10.14081/j.cnki.hgdxb.2017.04.013
2017-03-02
國家自然科學基金(51307184)
尹志勇(1979-),男,講師,博士,jamy067@163.com.