李 金,高 壽
(1.中國南方電網(wǎng)電力調度控制中心,廣東 廣州 510663; 2.南瑞集團公司(國網(wǎng)電力科學研究院),江蘇 南京 210003)
一種基于數(shù)據(jù)挖掘分析的設備狀態(tài)評價方法
李 金1,高 壽2
(1.中國南方電網(wǎng)電力調度控制中心,廣東 廣州510663;2.南瑞集團公司(國網(wǎng)電力科學研究院),江蘇 南京210003)
為提高電力設備狀態(tài)評估的準確性和效率,提出了一種將數(shù)據(jù)挖掘方法應用到設備狀態(tài)評價中的思路和方法。介紹了基于數(shù)據(jù)挖掘方法的狀態(tài)評價模型,從大量設備歷史數(shù)據(jù)庫中采集電力設備的臺賬信息、在線監(jiān)測信息、運行信息等作為設備評價的基礎參量,將這些歷史數(shù)據(jù)分別歸類為不同狀態(tài)的數(shù)據(jù)集,然后對每個數(shù)據(jù)集提取其主要特征向量,以此作為設備狀態(tài)評價分類依據(jù)。該方法為設備狀態(tài)評估提供了新的思路。
數(shù)據(jù)挖掘;主成分分析;電力設備狀態(tài)評價
隨著社會發(fā)展和經(jīng)濟的不斷進步,社會各行業(yè)對電力設備安全、穩(wěn)定、可靠地運行提出了越來越高的要求,電力行業(yè)傳統(tǒng)的按固定周期對所有電力設備進行監(jiān)測診斷的方法難以有效地對電力設備的狀態(tài)進行有效評估和分析,預測設備故障狀態(tài),存在工作量大、維修滯后、檢修過剩等問題[1-3]。而設備的狀態(tài)評價技術是實施狀態(tài)檢修的核心,只有在準確評價設備的實時運行狀態(tài)的基礎上,才能合理安排設備檢修的項目和時間。
本文將數(shù)據(jù)挖掘分析算法應用到設備狀態(tài)評價中,通過對大量設備歷史運行數(shù)據(jù)進行特征提取和降維處理,提取出能夠表征設備運行狀態(tài)的特征信息,然后結合設備當前運行情況,對設備狀態(tài)進行評估,為設備狀態(tài)檢修工作安排提供數(shù)據(jù)基礎。
在傳統(tǒng)的有限數(shù)據(jù)設備狀態(tài)評價系統(tǒng)中,狀態(tài)量的選取往往是單一的,故障/缺陷情況也是單一的,兩者對應的關聯(lián)規(guī)律性較弱。采用數(shù)據(jù)挖掘的方法對設備狀態(tài)進行評價,重點要獲取設備狀態(tài)量與設備狀態(tài)之間的關聯(lián)關系[4]。而在大數(shù)據(jù)環(huán)境下,所采集的設備狀態(tài)量數(shù)量較多,無疑會增加分析問題的難度和復雜性,因此本文對設備狀態(tài)量集合采用降維方法,去除冗余設備裝態(tài)量,提取出設備狀態(tài)量與設備狀態(tài)之間的關聯(lián)關系。目前在降維領域應用較為廣泛的方法有:主成分分析法[5]、因子分析[6]、局部線性嵌入(Locally Linear Embedding,LLE)、等距映射(Isometric Mapping,ISOMAP)[7]等。LLE、ISOMAP等方法適合連續(xù)時間信號的降維處理[8],而設備狀態(tài)量信息中的設備臺賬信息、運行信息等多為離散信息量,因此本文采用主成分分析方法對設備狀態(tài)量進行降維操作,提取表征設備狀態(tài)的關鍵信息。
本文設計的設備狀態(tài)評價模型包括:提取大量設備歷史運行信息,將這些運行信息分類成不同狀態(tài)的信息集;采用主成分分析法提取各個狀態(tài)信息集的特征信號;對于待評價設備的當前運行情況,將該運行信息投影到狀態(tài)信息集的特征空間進行設備狀態(tài)評價。
主成分分析(Principal Component Analysis,PCA)是多元統(tǒng)計過程控制的常用方法之一,通過一組標準正交變換,將原始數(shù)據(jù)集線性變換為一組包含原始數(shù)據(jù)的大部分信息的主成分集合,可基本表征原始數(shù)據(jù),實現(xiàn)數(shù)據(jù)從高維到低維的變換[9-10]。PCA 法已應用于電力系統(tǒng)的短期負荷預測、暫態(tài)穩(wěn)定評估、汽輪機故障診斷等方面[11-15]。
PCA算法步驟可以描述為:
假設訓練樣本集為X=[x1,x2,…,xn]T。
該樣本的平均向量為:
(1)
構造樣本集的協(xié)方差矩陣為:
(2)
計算出協(xié)方差矩陣的特征向量αi和對應的特征值λi。這些特征向量組成的矩陣A就是訓練樣本集的正交基底,將協(xié)方差矩陣的特征值按大到小排序:λ1≥λ2≥…≥λk≥…>0,可將主成分構成的變換矩陣記為:A=(α1,α2,…,αk)T。
有了這樣一個降維的子空間,任何一個測試樣本都可以向其作投影ω=Ay,即并獲得一組坐標系數(shù),即低維向量ω。
整個過程可以分為以下3個階段:
(1)提取設備歷史運行信息,并將這些歷史運行信息根據(jù)設備狀態(tài)的嚴重程度不同分為嚴重、異常、注意、正常等數(shù)據(jù)集,并對原始樣本集進行歸一化處理。
(2)采用主成分分析法實現(xiàn)各數(shù)據(jù)集的特征優(yōu)化,以減少設備特征狀態(tài)量的維數(shù),減少設備評價信號數(shù)據(jù)的復雜度。
(3)通過最近鄰算法實現(xiàn)設備狀態(tài)評價。當需要評價的樣本到來時,首先計算其與各個數(shù)據(jù)特征集中心的距離來確定其所屬的狀態(tài),取其中最小距離的狀態(tài)集作為設備狀態(tài)評價的最終結果。
目前,電力設備狀態(tài)評價的方案主要根據(jù)標準導則對設備進行打分評估,而數(shù)據(jù)挖掘技術和設備監(jiān)測技術的發(fā)展為電力設備狀態(tài)評價提供了新思路。本文在傳統(tǒng)電網(wǎng)設備狀態(tài)評價方法基礎上,將數(shù)據(jù)挖掘算法引入設備評價方法中,提出基于數(shù)據(jù)挖掘算法的設備狀態(tài)評價方法。
以數(shù)據(jù)挖掘方法進行設備狀態(tài)評價的首要問題在于表征設備狀態(tài)的各個維度的狀態(tài)信息量的獲取。
與電網(wǎng)設備狀態(tài)關系密切的數(shù)據(jù)信息來源較為復雜,要對設備狀態(tài)進行評估,首先要收集設備的相關信息,包括:(1)設備臺賬信息,此類信息作為固定參數(shù)自記錄以后不再變化,作為某項狀態(tài)量直接參與狀態(tài)評估時的計算;(2)設備在線監(jiān)測信息,此類信息采集周期短,時效性強,反映了設備的實時健康狀態(tài),作為最主要的設備狀態(tài)評估參數(shù),在設備評價時應給與最大的權重占比;(3)設備運行信息、定檢信息、缺陷信息,此類信息通常采用周期性采集方式獲取,對設備狀態(tài)評價結果的準確性有重要的參考作用;(4)其他信息,包括溫度、氣象、環(huán)境等因素,此類信息相對穩(wěn)定,但會對設備狀態(tài)評價結果產(chǎn)生影響。
經(jīng)過數(shù)據(jù)采集階段獲取設備狀態(tài)信息量以后,要對采集到的數(shù)據(jù)進行數(shù)據(jù)清理、集成、變換,使獲取到的數(shù)據(jù)能夠滿足數(shù)據(jù)挖掘算法的要求。
(1)數(shù)據(jù)清理:按照固定規(guī)則丟棄部分采集到的設備狀態(tài)量數(shù)據(jù),如在線監(jiān)測信息不符合預定的數(shù)據(jù)格式、超出正常閾值范圍、數(shù)據(jù)發(fā)生跳變等情況。
(2)數(shù)據(jù)集成:將不同來源、格式、特點性質的設備狀態(tài)量在邏輯上統(tǒng)一起來,將其轉換為適合挖掘的統(tǒng)一形式。如設備狀態(tài)量信息中包含n項信息量,則將該信息轉換為一個n維向量:[x1,x2,…,xn]T。
基于主成分分析法提取關鍵信息參量的步驟如下:
(1)將采集到的設備歷史狀態(tài)量集合分為嚴重、異常、注意、正常四個集合,記為X1,X2,X3,X4。
每個集合的數(shù)據(jù)集Xi={xi1,xi2,…,xin},其中n表示抽取的樣本個數(shù),xij表示數(shù)據(jù)集Xi中第j個訓練樣本。
λi1≥λi2≥…≥λik>0
αi1,αi2,…,αik為對應的特征向量。
(3)確定主成分向量數(shù)量。設有m個主成分能夠表征設備狀態(tài),令
(3)
式(13)表示特征值λi1,λi2,…,λim累計貢獻90%的置信區(qū)間,由此確定m個特征向量作為能夠表征狀態(tài)集的主成分向量αi1,αi2,…,αik。
(4)計算原始設備狀態(tài)量矩陣在新的m維特征空間中的投影:
Ti=AiXi=[αi1,αi2,…,αim]T·[xi1,xi2,…,xin]
(4)
式中:Ai=[αi1,αi2,…,αim]T表示特征因子矩陣,αi1,αi2,…,αik是λi1,λi2,…,λim對應的特征向量。
(6)對于待評價設備狀態(tài)信息量y,計算其在各狀態(tài)集特征空間中的投影:
ωi=Aiy
(5)
計算ωi與所有該狀態(tài)集信息量在m維特征空間中的歸一化投影的距離,取其中的最小值所在的狀態(tài)集作為該待評價設備的所屬狀態(tài)。
(7)根據(jù)上述導則對設備總體評價的規(guī)定,可以得到設備整體狀態(tài)的計算公式為:
(6)
設備狀態(tài)量參數(shù)集合的建立綜合考慮了電網(wǎng)公司歷史運行信息、實時監(jiān)測信息、靜態(tài)臺賬參數(shù)信息等不同類型的參數(shù),在這些參數(shù)基礎上進行數(shù)據(jù)挖掘分析,相比于現(xiàn)有的狀態(tài)評價導則,本文方法具有可信度高、代表性強的特點。通過某測控裝置的相關數(shù)據(jù)對本方法進行了初步驗證,而由于電網(wǎng)設備運行環(huán)境復雜的特點,參數(shù)體系的選擇、算法的實用性和準確性方面還需要結合實際情況進一步驗證。
(1)從設備臺賬信息、歷史運行信息、監(jiān)測信息中提取出設備狀態(tài)量,將狀態(tài)量以連續(xù)型數(shù)據(jù)或離散型數(shù)據(jù)表示。其中臺賬信息包括圖紙設計質量、裝置制造質量、施工安裝質量、投產(chǎn)驗收質量等信息。歷史運行信息包括家族缺陷、裝置缺陷、檢修信息等信息。監(jiān)測信息包括自檢信息、監(jiān)測數(shù)據(jù)等實時運行數(shù)據(jù)。表1給出了部分監(jiān)測信息數(shù)據(jù)類型。
表1 測控裝置部分監(jiān)測信息
(2)從電網(wǎng)公司歷史數(shù)據(jù)庫中抽取采樣數(shù)據(jù)進行主成分分析,如表2所示, 并計算各狀態(tài)集特征空間。
表2 樣本集
測試中設置m=16時可將4個狀態(tài)集均降維至90%的置信區(qū)間。將測試樣本投影至各個狀態(tài)集的特征空間,驗證結果如表3所示。
表3 測試結果
從表3結果可以看出,從正常、注意、異常、嚴重四種狀態(tài)的樣本集中各抽取25個樣本作為測試樣本,將它們投影在表2計算形成的訓練樣本特征空間中進行分類,本算法的設備狀態(tài)評價的準確率均在80%以上,具備良好的效果。
本文以設備狀態(tài)評價作為研究對象,將數(shù)據(jù)挖掘方法引入到電力設備狀態(tài)評價中,建立了電力設備狀態(tài)評估的大數(shù)據(jù)分析架構,為設備狀態(tài)評價方法提供了新的思路。同時,數(shù)據(jù)挖掘技術不斷地深入電力企業(yè)的各個領域,為將來電力系統(tǒng)健康、安全、穩(wěn)定的發(fā)展提供了更多應用渠道。目前數(shù)據(jù)挖掘在電力系統(tǒng)中的應用尚處于試探的階段,隨著“數(shù)據(jù)大爆炸時代”的到來,數(shù)據(jù)挖掘必然會對現(xiàn)有的統(tǒng)計學方法帶來巨大的沖擊。
[1] 許婧,王晶,高峰. 電力設備狀態(tài)檢修技術研究綜述[J]. 電網(wǎng)技術,2000,24(8):48-52.
[2] 吳杰余,張哲,尹項根. 電氣二次設備狀態(tài)檢修研究[J]. 繼電器,2002,30(2):22-24.
[3] SAMROUT M,YALAOUI F,CHATELET E. New methods to minimize the preventive maintenance cost of series-parallel systems using ant colony optimization [J]. Reliability Engineering and System Safety,2005,89(3): 346-354.
[4] 宮宇,呂金壯. 大數(shù)據(jù)挖掘分析在電力設備狀態(tài)評估中的應用[J]. 南方電網(wǎng)技術,2014,8(6):74-77.
[5] 趙一婕,劉滌塵,吳軍. 基于線性判別分析與主成份分析的骨干網(wǎng)架生存性評估方法[J]. 電網(wǎng)技術,2014,38(2):388-394.
[6] 羅玉波. 關于因子分析用于綜合排名的一個注記[J]. 西南大學學報(自然科學版),2013,35(4):106-110.
[7] Tan Pangning. 數(shù)據(jù)挖掘導論[M]. 范明,范宏建,譯. 北京:人民郵電出版社,2013.
[8] 嚴英杰,盛戈皞,陳玉峰. 基于關聯(lián)規(guī)則和主成分分析的輸電線路狀態(tài)評價關鍵參數(shù)體系構建[J]. 高壓電技術,2015,41(7):2308-2314.
[9] 趙曉君,鄭倩. 基于PCA-KNN聚類的通用在線故障診斷算法設計[J]. 計算機測量與控制,2015,23(8):2762-2765.
[10] 浦路平,趙鵬大,胡光道. 基于PCA和K-均值聚類的有監(jiān)督分裂層次聚類方法[J]. 計算機應用研究,2008,25(5):1412-1414.
[11] 楊國慶,張宇. 數(shù)據(jù)挖掘技術在電力設備狀態(tài)檢修中的應用[J]. 上海電力學院學報,2012,28(2):176-180.
[12] 劉寶英,楊仁剛. 基于主成分分析的最小二乘支持向量機短期負荷預測模型[J]. 電力設備自動化,2008,28(11): 13-17.
[13] 廖志偉,孫雅明. 基于數(shù)據(jù)挖掘模型的高壓輸電系統(tǒng)故障診斷[J]. 電力系統(tǒng)自動化,2001,25(15):15-19.
[14] 成永強. 基于數(shù)據(jù)挖掘的設備狀態(tài)檢修[D]. 北京: 華北電力大學,2005.
[15] 王師霜. 二次設備狀態(tài)評價數(shù)據(jù)挖掘技術的研究與應用[D]. 北京: 華北電力大學,2013.
A method of power equipment state assessment based on data mining technique
Li Jin1,Gao Shou2
(1. Power Dispatching and Communication Center of CSG,Guangzhou 510663,China; 2. NARI Group Corporation (State Grid Electric Power Research Institute),Nanjing 210003,China)
To improve the accuracy and efficiency of the power equipment condition assessment,a method of power equipment state assessment based on data mining technique is proposed in this paper. The state evaluation model based on data mining is introduced. In this method,the power equipment on-line monitoring information,inventory information,and operation information are collected from equipment history database as the basis of evaluation of equipment parameters. These historical data are classified into different data sets for each data set,then the feature vector is extracted. The data mining technique is used to extract main feature vector as classification of equipment state evaluation. The method provides a new way of thinking for the equipment state evaluation.
data mining; principal component analysis; power equipment condition assessment
TP311
A
10.19358/j.issn.1674-7720.2017.24.021
李金,高壽.一種基于數(shù)據(jù)挖掘分析的設備狀態(tài)評價方法J.微型機與應用,2017,36(24):72-75.
2017-05-19)
李金(1979-),男,碩士,高級工程師,主要研究方向:電力系統(tǒng)自動化。
高壽(1982-),男,碩士,工程師,主要研究方向:電力系統(tǒng)自動化。