杜京義,李 娜,唐小華,韓 娟
(西安科技大學(xué) 電氣與控制工程學(xué)院,陜西 西安710054)
變電站接地網(wǎng)是保證電力系統(tǒng)可靠運(yùn)行、保障運(yùn)行人員安全的重要措施,其可靠性關(guān)系到電網(wǎng)的正常運(yùn)行。針對(duì)接地網(wǎng)腐蝕問題,很多學(xué)者不斷提出新的研究方法和理論。文獻(xiàn)[1-4]采用節(jié)點(diǎn)分析法,利用電路網(wǎng)絡(luò)理論建立診斷方程,測(cè)量接地網(wǎng)導(dǎo)體的電阻或電壓變化值,建立的數(shù)學(xué)方程規(guī)模大,增加了計(jì)算成本,不便實(shí)際推廣應(yīng)用;文獻(xiàn)[5]基于電磁學(xué)理論,利用電磁場(chǎng)分析法診斷接地網(wǎng)導(dǎo)體腐蝕狀態(tài),理論基礎(chǔ)復(fù)雜,測(cè)量時(shí)接地網(wǎng)周圍存在強(qiáng)磁場(chǎng)會(huì)對(duì)檢測(cè)產(chǎn)生一定程度的干擾,影響診斷準(zhǔn)確性;文獻(xiàn)[6]利用電化學(xué)分析法從腐蝕電化學(xué)理論出發(fā),采用電化學(xué)腐蝕監(jiān)測(cè)傳感器測(cè)量腐蝕速率,存在成本高、測(cè)試技術(shù)復(fù)雜等問題。
隨著計(jì)算機(jī)技術(shù)與人工智能的發(fā)展,機(jī)器學(xué)習(xí)的方法在電力領(lǐng)域應(yīng)用逐漸增多[7-9]。它從觀測(cè)樣本數(shù)據(jù)出發(fā)尋找規(guī)律,并利用這些規(guī)律對(duì)未來數(shù)據(jù)或無法觀測(cè)的數(shù)據(jù)進(jìn)行預(yù)測(cè)[10]。文獻(xiàn)[11-13]利用BP人工神經(jīng)網(wǎng)絡(luò),對(duì)所測(cè)得的土壤腐蝕理化因素?cái)?shù)據(jù)建立接地網(wǎng)腐蝕預(yù)測(cè)模型;但是所需訓(xùn)練樣本多,對(duì)連接權(quán)的初值敏感,且泛化能力低。
現(xiàn)有機(jī)器學(xué)習(xí)算法共同的重要理論基礎(chǔ)之一是經(jīng)典的統(tǒng)計(jì)學(xué),研究的是樣本數(shù)目趨于無窮大時(shí)的漸進(jìn)理論[14]。但在接地網(wǎng)腐蝕研究中,由于研究自然環(huán)境對(duì)材料腐蝕行為的影響及其規(guī)律的理論體系還不是很完善,可供研究的基礎(chǔ)數(shù)據(jù)較少[15]。而常規(guī)的參數(shù)學(xué)習(xí)方法存在樣本的內(nèi)在相關(guān)性未知,造成假設(shè)可能是錯(cuò)誤的,使得一些優(yōu)秀學(xué)習(xí)方法的表現(xiàn)不盡人意[16]。
針對(duì)上述問題,本文建立的接地網(wǎng)腐蝕速率非參數(shù)預(yù)測(cè)模型避免了樣本數(shù)據(jù)在錯(cuò)誤的假設(shè)下分析;同時(shí),自助法 (bootstrap)[17]和集群分類方法相結(jié)合,降低小樣本訓(xùn)練數(shù)據(jù)與實(shí)際數(shù)據(jù)分布產(chǎn)生的偏差風(fēng)險(xiǎn),通過搜尋最優(yōu)的分類器組合,有效地解決了接地網(wǎng)腐蝕速率的小樣本多分類問題。
通常對(duì)未知的接地網(wǎng)腐蝕速率進(jìn)行預(yù)測(cè),是確定土壤腐蝕理化因素之間的因果關(guān)系,建立接地網(wǎng)腐蝕速率的回歸模型?;貧w問題是利用一定數(shù)量的訓(xùn)練樣本來擬合變量間的真實(shí)狀態(tài)函數(shù);而分類問題則是擬合變量間的方程,相對(duì)于回歸算法,分類算法降低了模型的復(fù)雜度。因此,本文將回歸問題轉(zhuǎn)化為分類預(yù)測(cè),選取分類的方法研究接地網(wǎng)的腐蝕速率。根據(jù)國家電力行業(yè)標(biāo)準(zhǔn)DL/T 5394-2007《電力工程地下金屬構(gòu)筑物防腐技術(shù)導(dǎo)則》,把接地網(wǎng)腐蝕程度劃分為五個(gè)等級(jí):極弱等級(jí)I、較弱等級(jí)II、弱等級(jí)III、中等級(jí)IV和強(qiáng)等級(jí)V,見表1。
表1 碳鋼平均腐蝕速率與土壤腐蝕性
樣本數(shù)據(jù)的分布會(huì)影響分類預(yù)測(cè)的精度,采用Bootstrap法可以充分利用樣本自身信息,用重抽樣的思想生成一定數(shù)量的自舉子集,將樣本集類比于總體,將子樣本類比于樣本集[18],降低由于小樣本訓(xùn)練數(shù)據(jù)與實(shí)際數(shù)據(jù)分布產(chǎn)生的偏差風(fēng)險(xiǎn)。自舉子集生成過程示意圖如圖1所示。
圖1 自舉子集生成過程
Bootstrap法是根據(jù)原始樣本數(shù)據(jù),利用重復(fù)抽樣的方式產(chǎn)生若干個(gè)自舉子集。自舉采樣生成自舉子集的算法如圖2所示。
圖2 自舉子集的生成
機(jī)器學(xué)習(xí)的分類方法通常分為參數(shù)法和非參數(shù)法,二者在建模過程中是不同的。一般地,參數(shù)建模方法主要是假設(shè)數(shù)據(jù)集合中變量與變量之間存在某種因果關(guān)系,在建模分析中,需要首先給定一個(gè)假設(shè)函數(shù)關(guān)系y=f(w,x),然后通過訓(xùn)練樣本集搜索這個(gè)函數(shù)的待定參數(shù)w,得到參數(shù)模型。但是對(duì)于不同的假設(shè)函數(shù)關(guān)系,會(huì)產(chǎn)生不同的應(yīng)用模型。而樣本集只代表部分?jǐn)?shù)據(jù)集,產(chǎn)生的模型對(duì)于整體數(shù)據(jù)集未必全部適用。
非參數(shù)法主要從數(shù)據(jù)本身的屬性角度出發(fā),它不用事先假定一個(gè)函數(shù)關(guān)系,不需要考慮數(shù)據(jù)的因果關(guān)系,而使用不同的數(shù)學(xué)工具,從樣本數(shù)據(jù)本身獲取信息建立其非參數(shù)關(guān)系。KNN (K nearest neighbors)分類算法是一種典型的非參數(shù)機(jī)器學(xué)習(xí)算法。對(duì)于接地網(wǎng)腐蝕的多類別分類問題,選定K的值,根據(jù)某種度量方法計(jì)算待分類數(shù)據(jù)與各訓(xùn)練樣本間的相似性,選取K個(gè)樣本中個(gè)數(shù)最多的類為待分類樣本的類別。
采用前面產(chǎn)生的M個(gè)自舉子集,建立M個(gè)模型 (比如分類),一般這種模型比較簡(jiǎn)單,稱為弱分類器 (weak learner)。每次分類都將上一次分錯(cuò)的樣本權(quán)重提高一點(diǎn)再進(jìn)行分類,這樣最終得到的強(qiáng)分類器在測(cè)試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)上都可以得到比較好的成績(jī)。小樣本機(jī)器學(xué)習(xí)算法集群強(qiáng)分類器的示意圖如圖3所示。
圖3 強(qiáng)分類器模型的產(chǎn)生
對(duì)于接地網(wǎng)腐蝕速率的多類問題,已知土壤腐蝕理化因素樣本集X={x1,x2,…,xn}和類別Y={1 ,2 ,…,C}。其中,xi=[xi1,xi2,…,xip]T(i=1,2,…,n;p=1,2,…,12),n表示樣本個(gè)數(shù),p表示12種土壤腐蝕理化因素 (pH、含水量、電導(dǎo)率、有機(jī)質(zhì)、全氮、HCO3-、Cl-、SO24-、Ca2+、Mg2+、K+和Na+),C表示樣本集類別,這里C=5?;贙NN分類法構(gòu)建弱分類器算法如圖4所示。
圖4 KNN分類法構(gòu)建弱分類器算法
集群分類法主要是通過一定的數(shù)學(xué)算法,以某種方式將多個(gè)弱分類器加權(quán)組合,構(gòu)建成分類性能好的強(qiáng)分類器,進(jìn)一步提高分類器的預(yù)測(cè)精度[19]。集群強(qiáng)分類器取得分類成功的一個(gè)先決條件是,每一個(gè)單個(gè)弱分類器的錯(cuò)誤率必須小于0.5[20];否則,通過加權(quán)組合的方式得到的強(qiáng)分類器的錯(cuò)誤率反而會(huì)增大,影響分類的正確性。本文選取 Adaboost[21](adaptive boosting)構(gòu)建集群算法,最終通過加權(quán)組合得到分類效果好的強(qiáng)分類器。Adaboost構(gòu)造強(qiáng)分類器的非參數(shù)集群算法如圖5所示。
圖5 非參數(shù)集群算法
本文選取我國不同地區(qū)35個(gè)變電站的影響接地網(wǎng)腐蝕的土壤理化因素樣本數(shù)據(jù)。表2給出了35組12種土壤理化參數(shù):pH、含水量、電導(dǎo)率、有機(jī)質(zhì)、全氮、HCO3-、Cl-、、Ca2+、Mg2+、K+和Na+以及接地網(wǎng)的腐蝕速率的樣本數(shù)據(jù)。
將接地網(wǎng)土壤腐蝕理化因素樣本數(shù)據(jù)按照腐蝕速率的大小分為5個(gè)類別,由于樣本數(shù)據(jù)中沒有第五類數(shù)據(jù),因此,將原始樣本數(shù)據(jù)分為4個(gè)類別。由于樣本集有限,因此選取前33組樣本數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),后2組作為測(cè)試數(shù)據(jù)。對(duì)前33組訓(xùn)練樣本數(shù)據(jù)采用Bootstrap方法產(chǎn)生100個(gè)自助子集。
表2 接地網(wǎng)腐蝕樣本數(shù)據(jù)
對(duì)于100個(gè)自助子集4個(gè)類別的訓(xùn)練樣本集。在非參數(shù)集群算法中,具體參數(shù)初始化設(shè)置為:K=15,T=30。對(duì)自助子集進(jìn)行訓(xùn)練,當(dāng)T=6時(shí),錯(cuò)誤率開始增大,分錯(cuò)樣本數(shù)增多。而當(dāng)T=5時(shí),εt=0.092,錯(cuò)誤率達(dá)到最小,基本滿足要求。因此,選取T=5時(shí)對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)和K來訓(xùn)練分類模型。非參數(shù)集群算法訓(xùn)練誤差曲線圖如圖6所示。
利用上述訓(xùn)練好的分類器模型對(duì)測(cè)試樣本進(jìn)行檢驗(yàn)。測(cè)試樣本選取后兩組樣本數(shù)據(jù) (所屬類別均為第二類和第三類)作為測(cè)試樣本集,將測(cè)試結(jié)果與真實(shí)類別進(jìn)行對(duì)比,結(jié)果如表3所示。
圖6 非參數(shù)集群算法訓(xùn)練誤差曲線
表3 測(cè)試結(jié)果與真實(shí)結(jié)果對(duì)比
根據(jù)上述表3的結(jié)果可以看出,經(jīng)過非參數(shù)集群分類算法加權(quán)組合得到的強(qiáng)分類器,可以正確預(yù)測(cè)未知接地網(wǎng)腐蝕樣本的腐蝕等級(jí)。使用KNN分類法產(chǎn)生的單個(gè)弱分類器,不一定可以完全正確分類未知樣本的類別。尤其是當(dāng)無法正確判斷測(cè)試樣本的類別時(shí),非參數(shù)集群分類法產(chǎn)生的強(qiáng)分類器更加有效。
本文針對(duì)接地網(wǎng)腐蝕速率預(yù)測(cè)模型的小樣本及以往參數(shù)建模受人為假設(shè)的影響,運(yùn)用非參數(shù)集群分類建模方法對(duì)接地網(wǎng)腐蝕速率等級(jí)進(jìn)行建模預(yù)測(cè),經(jīng)過分析可以得到如下結(jié)論:
(1)為較好的處理腐蝕率與影響因素之間的映射關(guān)系,將接地網(wǎng)腐蝕速率的回歸問題轉(zhuǎn)化為分類問題,選取分類預(yù)測(cè)的方法研究接地網(wǎng)腐蝕速率等級(jí)。
(2)由于獲取樣本數(shù)據(jù)實(shí)施過程復(fù)雜,成本高,使得樣本數(shù)據(jù)非常有限,增加了接地網(wǎng)腐蝕速率預(yù)測(cè)模型建立的難度。Bootstrap法是通過把已有的小樣本數(shù)據(jù)擴(kuò)充為大樣本以實(shí)現(xiàn)統(tǒng)計(jì)過程,并且該方法不需做任何主觀假設(shè),可解決接地網(wǎng)腐蝕速率預(yù)測(cè)中存在的小樣本問題。
(3)單個(gè)弱分類器訓(xùn)練模型只能適用于當(dāng)前訓(xùn)練樣本數(shù)據(jù),而對(duì)未知樣本的預(yù)測(cè)可能存在較大誤差。采用弱分類器集群成強(qiáng)分類器的方法對(duì)接地網(wǎng)腐蝕速率進(jìn)行分級(jí)評(píng)定預(yù)測(cè),提高了分類預(yù)測(cè)準(zhǔn)確率。
[1]LIU Yugen,WU Lixiang,WANG Shuo.Practicality analysis for optimized erosion diagnosis of large and grid medium-scale grounding grid[J].Journal of Chongqing University,2008,31(4):417-420 (in Chinese).[劉渝根,吳立香,王碩.大中型接地網(wǎng)腐蝕優(yōu)化診斷實(shí)用化分析[J].重慶大學(xué)學(xué)報(bào),2008,31 (4):417-420.]
[2]MA Wenjing,ZHANG Bo,SONG Xushuang.Study on corrosion diagnosis method for grounding network based on regularized least square method[J].Heilongjiang Electric Power,2012,34 (4):278-284 (in Chinese).[馬文婧,張博,宋緒雙.基于正則化最小二乘法的基地網(wǎng)腐蝕診斷方法研究[J].黑龍江電力,2012,34 (4):278-284.]
[3]LIU Yugen,TENG Yongxi,CHEN Xianlu,et al.A method for corrosion diagnosis of grounding grid[J].High Voltage Engineering,2004,30 (6):19-21 (in Chinese).[劉渝根,滕永禧,陳先錄,等.接地網(wǎng)腐蝕的診斷方法研究[J].高電壓技術(shù),2004,30 (6):19-21.]
[4]XU Lei,LI Lin.Fault diagnosis for grounding grids based on electric network theory[J].Transactions of China Electro Technical Society,2012,27 (10):270-276 (in Chinese).[許磊,李琳.基于電網(wǎng)絡(luò)理論的變電站接地網(wǎng)腐蝕及斷點(diǎn)診斷方法[J].電工技術(shù)學(xué)報(bào),2012,27 (10):270-276.]
[5]LIU Yang,CUI Xiang,ZHAO Zhibin,et al.Design and application of testing magnetic field system for corrosion diagnosis of grounding grids in substation[J].Transactions of China Electro technical Society,2009,24 (1):176-182 (in Chinese).[劉洋,崔翔,趙志斌,等.變電站接地網(wǎng)腐蝕診斷磁場(chǎng)檢測(cè)系統(tǒng)的設(shè)計(jì)與應(yīng)用[J].電工技術(shù)學(xué)報(bào),2009,24 (1):176-182.]
[6]ZHANG Xiuli,LUO Ping,MO Ni,et al.Development and application of electrochemical detection system for grounding grid corrosion state[J].Proceedings of the CSEE,2008,28 (19):152-156(in Chinese).[張秀麗,駱平,莫逆,等.接地網(wǎng)腐蝕狀態(tài)電化學(xué)檢測(cè)系統(tǒng)的開發(fā)與應(yīng)用[J].中國電機(jī)工程學(xué)報(bào),2008,28 (19):152-156.]
[7]YE Shengyong,WANG Xiaoru,LIU Zhigang,et al.Power system transient stability assessment based on support vector machine incremental learning method[J].Automation of Electric Power Systems,2011,35 (11):15-19 (in Chinese).[葉圣永,王曉茹,劉志剛,等.基于支持向量機(jī)增量學(xué)習(xí)的電力系統(tǒng)暫態(tài)穩(wěn)定評(píng)估[J].電力系統(tǒng)自動(dòng)化,2011,35 (11):15-19.]
[8]WU Qiong,YANG Yihan,LIU Wenying.Electric power system transient stability on-line prediction based on least squares support vector machine[J].Proceedings of the CSEE,2007,27 (25):38-43 (in Chinese).[吳瓊,楊以涵,劉文穎.基于最小二乘支持向量機(jī)的電力系統(tǒng)暫態(tài)穩(wěn)定在線預(yù)測(cè)[J].中國電機(jī)工程學(xué)報(bào),2007,27 (25):38-43.]
[9]JIAO Shangbin,LIU Ding.Assessment of surface contamination of high voltage insulator based on least squares support vector machine[J].Automation of Electric Power Systems,2006,30 (6):61-65 (in Chinese).[焦尚彬,劉丁.基于最小二乘支持向量機(jī)的高壓絕緣子污穢程度評(píng)定[J].電力系統(tǒng)自動(dòng)化,2006,30 (6):61-65.]
[10]WANG Jue,ZHOU Zhihua,ZHOU Aoying.Machine learning and application[M].Beijing:Tsinghua University Press,2006(in Chinese).[王玨,周志華,周傲英.機(jī)器學(xué)習(xí)及其應(yīng)用[M].北京:清華大學(xué)出版社,2006.]
[11]QU Liangshan,LI Xiaogang,DU Cuiwei,et al.Corrosion rate prediction model of carbon steel in regional soil based on BP artificial neural network[J].Journal of University of Science and Technology Beijing,2009,31 (12):1569-1575(in Chinese).[曲良山,李曉剛,杜翠薇,等.運(yùn)用BP人工神經(jīng)網(wǎng)絡(luò)方法構(gòu)建碳鋼區(qū)域土壤腐蝕預(yù)測(cè)模型[J].北京科技大學(xué)學(xué)報(bào),2009,31 (12):1569-1575.]
[12]MA Xiaoyan,QU Zuyu.Application of artificial neural network in prediction corrosion value of metal in atmosphere[J].Journal of University of Science and Technology Beijing,2001,23 (2):123-126 (in Chinese).[馬小彥,屈祖玉.神經(jīng)網(wǎng)絡(luò)在金屬大氣腐蝕率預(yù)測(cè)中的應(yīng)用[J].北京科技大學(xué)學(xué)報(bào),2001,23 (2):123-126.]
[13]GUO Zhihu,XING Zhengliang,JIN Minghui.Predicting corrosion rate of mild steel in soil based on artificial neural network[J].Journal of Chinese Society for Corrosion and Protection,1996,16 (4):307-310 (in Chinese).[郭稚弧,邢政良,金名惠,等.基于人工神經(jīng)網(wǎng)絡(luò)的金屬土壤腐蝕預(yù)測(cè)方法[J].中國腐蝕與防護(hù)學(xué)報(bào),1996,16 (4):307-310.]
[14]WENG Yongji,LI Xiangyi.The pattern recognition methods in environmental corrosion science[J].Corrosion Science and Protection Technique,1994,6 (2):153-158 (in Chinese).[翁永基,李相怡.環(huán)境腐蝕科學(xué)研究中的模式識(shí)別方法[J].腐蝕科學(xué)與防護(hù),1994,6 (2):153-158.]
[15]TAN Dongning,TAN Donghan.Small sample machine learning theory:Statistical learning theory[J].Journal of Nanjing University of Science and Technology,2001,25 (1):108-112 (in Chinese).[譚東寧,譚東漢.小樣本機(jī)器學(xué)習(xí)理論:統(tǒng)計(jì)學(xué)習(xí)理論[J].南京理工大學(xué)學(xué)報(bào),2001,25 (1):108-112.]
[16]ZHANG Junping,WANG Jue.An overview about principal curves[J].Chinese Journal of Computer,2003,26 (2):129-146(in Chinese).[張軍平,王玨.主曲線研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2003,26 (2):129-146.]
[17]Efron Bradley.Bootstrap methods:Another look at the jackknife[J].The Annals of Statistics,1979,7 (1):1-26.
[18]XIE Yihui,ZHU Yu.Bootstrap methods:Development and frontiers[J].Statistics & Information Forum,2008,23(2):90-96 (in Chinese).[謝益輝,朱鈺.Bootstrap方法的歷史發(fā)展和前沿研究[J].統(tǒng)計(jì)與信息論壇,2008,23(2):90-96.]
[19]Lior Rokach.Ensemble-based classifiers[J].Artif Intell,2010 (33):1-39.
[20]Thomas G Dietterich.Machine-learning research[J].AI Magazine,1997,18 (4):97-136.
[21]Freund Y,Schapire R E.A decision-theoretic generalization of online learning and an application to boosting[J].Journal of Computer and System Sciences,1997 (55):119-139.