謝翹楚, 姚毅
(1.四川理工學(xué)院自動化與信息工程學(xué)院, 四川自貢643000;2.人工智能四川省重點實驗室, 四川自貢643000)
電網(wǎng)歷史數(shù)據(jù)缺失及補錄研究
謝翹楚1,2, 姚毅1,2
(1.四川理工學(xué)院自動化與信息工程學(xué)院, 四川自貢643000;2.人工智能四川省重點實驗室, 四川自貢643000)
電網(wǎng)歷史數(shù)據(jù)是智能電網(wǎng)信息化發(fā)展的基礎(chǔ),確保歷史數(shù)據(jù)的完整非常必要。在分析電網(wǎng)數(shù)據(jù)采集與傳輸過程中產(chǎn)生數(shù)據(jù)缺失原因的基礎(chǔ)上,對缺失數(shù)據(jù)進行了類型劃分,并給出了發(fā)現(xiàn)和判定數(shù)據(jù)缺失的方法。根據(jù)數(shù)據(jù)缺失類型,采用缺失數(shù)據(jù)清潔法和缺失數(shù)據(jù)補錄法處理規(guī)律缺失數(shù)據(jù)和不規(guī)律缺失數(shù)據(jù),使用SPSS驗證上述方法,結(jié)果表明補錄準確度高達90%;運用隨機森林算法處理不完全規(guī)律缺失數(shù)據(jù),以均方根誤差和填補準確度為評判指標,實驗結(jié)果證明了該方法的準確性和有效性。用這些方法處理電網(wǎng)的數(shù)據(jù)缺失問題,能有效地提高電網(wǎng)歷史數(shù)據(jù)的質(zhì)量,使現(xiàn)有的數(shù)據(jù)得到最大程度的利用。
電網(wǎng)歷史數(shù)據(jù);數(shù)據(jù)缺失;數(shù)據(jù)補錄;隨機森林
近年來,隨著全球智能電網(wǎng)的飛速發(fā)展,國家電網(wǎng)公司為我國的智能電網(wǎng)建設(shè)提出了新的要求,發(fā)展高速、高效的智能電網(wǎng)系統(tǒng)變得勢在必行[1]。
智能電網(wǎng)技術(shù)就是實現(xiàn)信息化、自動化、互動化,構(gòu)建以特高壓為骨干網(wǎng)架、各級電網(wǎng)協(xié)調(diào)發(fā)展的統(tǒng)一。電網(wǎng)的歷史數(shù)據(jù)就是智能電網(wǎng)信息化建設(shè)的數(shù)據(jù)基礎(chǔ)。然而在實際中,各個變電站的數(shù)據(jù)在提取和傳輸時,會產(chǎn)生海量的雜亂無章的數(shù)據(jù),其數(shù)量級別是呈指數(shù)級增長的,這些數(shù)據(jù)在傳輸和使用的過程中,有相當一部分數(shù)據(jù)因為人為因素或客觀因素發(fā)生了缺失的現(xiàn)象,對智能電網(wǎng)的信息化建設(shè)帶來了很大的不便。為了提高電網(wǎng)數(shù)據(jù)的質(zhì)量,保障數(shù)據(jù)的完整性,為智能電網(wǎng)的發(fā)展掃清障礙,解決電網(wǎng)數(shù)據(jù)缺失是很有必要的。
本文闡述了智能電網(wǎng)變電站監(jiān)控系統(tǒng)所產(chǎn)生的數(shù)據(jù)傳輸過程,并針對在傳輸過程中所產(chǎn)生的數(shù)據(jù)缺失問題,提出了處理數(shù)據(jù)缺失的方法。
電網(wǎng)的監(jiān)控平臺可以管理一部分區(qū)域內(nèi)的所有變電站,并將其產(chǎn)生的海量數(shù)據(jù)進行數(shù)據(jù)挖掘分析,獲取其中有用的數(shù)據(jù),尋找到一定的規(guī)律,對智能電網(wǎng)建設(shè)起到積極作用[2]。
整個電網(wǎng)系統(tǒng)中,數(shù)據(jù)的傳輸大致可分為單向流傳輸與雙向傳輸,本文主要研究單向流傳輸?shù)臄?shù)據(jù)缺失。傳輸過程為:個體變電站→數(shù)據(jù)集控站→縣級調(diào)度→市級調(diào)度→省級調(diào)度。
數(shù)據(jù)在傳輸過程中,會產(chǎn)生很多的缺失,產(chǎn)生缺失的原因大致可分為兩類,主觀原因和客觀原因。人為因素所導(dǎo)致的數(shù)據(jù)采集或傳輸造成的數(shù)據(jù)缺失可稱為主觀原因,如錄入數(shù)據(jù)失誤、工作失職或有意偽造數(shù)據(jù)所造成的數(shù)據(jù)缺失。設(shè)備故障、路線中斷等客觀原因所造成的數(shù)據(jù)缺失可稱為客觀原因,如數(shù)據(jù)存儲失敗、變電站機械故障、數(shù)據(jù)傳輸路線截斷等。
盡管變電站的歷史數(shù)據(jù)屬性眾多且繁雜,但是根據(jù)數(shù)據(jù)產(chǎn)生缺失的原因,大致可以把數(shù)據(jù)缺失情況歸為三類:無規(guī)律缺失、規(guī)律缺失、不完全規(guī)律缺失[3]。
無規(guī)律缺失是指該數(shù)據(jù)是完全隨機的,其數(shù)據(jù)類型不能由已知的數(shù)據(jù)類型來判斷。規(guī)律缺失是指該數(shù)據(jù)是有規(guī)律可循的,其數(shù)據(jù)類型可以由已知的數(shù)據(jù)來補充或推斷。不完全規(guī)律缺失是指該數(shù)據(jù)中既有無規(guī)律缺失數(shù)據(jù),也有規(guī)律缺失數(shù)據(jù)。
數(shù)據(jù)缺失問題在基于傳感器采集數(shù)據(jù)的發(fā)電廠普遍存在,嚴重阻礙了電力科學(xué)與工程數(shù)據(jù)分析及挖掘在變電站優(yōu)化領(lǐng)域的發(fā)展。
變電站數(shù)據(jù)采集、存儲系統(tǒng)組成復(fù)雜,測點工作環(huán)境惡劣等多方原因能夠造成數(shù)據(jù)的缺失,主要分為: 傳感器故障、數(shù)據(jù)傳輸故障、數(shù)據(jù)存儲故障、人的主觀因素等。數(shù)據(jù)的不完整性給數(shù)據(jù)挖掘過程、數(shù)據(jù)分析和研究帶來了重重困難,這些不完整的數(shù)據(jù)會導(dǎo)致分析結(jié)果發(fā)生偏置,建立錯誤的數(shù)據(jù)挖掘模型,導(dǎo)致不準確的挖掘結(jié)果,甚至?xí)`導(dǎo)用戶的決策,導(dǎo)致經(jīng)濟損失[4-7]。
依據(jù)數(shù)據(jù)類型的重要程度來劃分數(shù)據(jù)的級別,例如首先將變壓器(油中溶解氣體、局部放電等),高壓斷路器(氣體成分),高壓母線(溫度)設(shè)定為優(yōu)先級較高的數(shù)據(jù),其次對各級別的數(shù)據(jù)依照以往的正常數(shù)據(jù)量設(shè)定相應(yīng)的閾值,如果數(shù)據(jù)量低于閾值,即可判斷數(shù)據(jù)發(fā)生了缺失,再次根據(jù)即時數(shù)值與閾值的差距,對數(shù)據(jù)的缺失情況進行評級[8]。在對數(shù)據(jù)進行檢測時,若發(fā)生數(shù)據(jù)缺失,系統(tǒng)會根據(jù)數(shù)據(jù)的優(yōu)先級別和閾值來一一判斷數(shù)據(jù)在哪個部位發(fā)生了缺失。
不同類型的數(shù)據(jù)缺失情況,應(yīng)該有相應(yīng)的缺失發(fā)現(xiàn)機制。
(1)規(guī)律缺失數(shù)據(jù)的發(fā)現(xiàn)
若數(shù)據(jù)缺失是呈規(guī)律性或遵循函數(shù)而發(fā)生的,系統(tǒng)會將其判定為規(guī)律缺失數(shù)據(jù)。
(2)不規(guī)律缺失數(shù)據(jù)的發(fā)現(xiàn)
若數(shù)據(jù)缺失是呈無規(guī)律性或隨機發(fā)生的,系統(tǒng)會將其判定為不規(guī)律缺失數(shù)據(jù)。
(3)不完全規(guī)律缺失數(shù)據(jù)的發(fā)現(xiàn)
若數(shù)據(jù)缺失即存在規(guī)律數(shù)據(jù)缺失又存在不規(guī)律數(shù)據(jù)缺失,系統(tǒng)會將其判定為不完全規(guī)律缺失數(shù)據(jù)。
傳輸中產(chǎn)生數(shù)據(jù)缺失會對整個電網(wǎng)監(jiān)控平臺的實際效果產(chǎn)生巨大的負面影響,因此,對這些缺失的數(shù)據(jù)進行處理變得勢在必行。根據(jù)現(xiàn)在大數(shù)據(jù)處理技術(shù)對于數(shù)據(jù)缺失的處理辦法,可以對電網(wǎng)產(chǎn)生的數(shù)據(jù)缺失使用缺失數(shù)據(jù)清理法和缺失數(shù)據(jù)補錄法。在數(shù)據(jù)量較大時,普通的人工補錄效率會十分低下,而一般的基于統(tǒng)計學(xué)原理的補錄方法(如采樣法、回歸預(yù)測法、EM算法等)會出現(xiàn)較大的偏差,這就需要設(shè)計更加適合的補錄決策。
3.1缺失數(shù)據(jù)清潔法
缺失數(shù)據(jù)清潔法主要分為刪除法和權(quán)重法。
刪除法是處理缺失數(shù)據(jù)最簡單的方法,就是將缺失的個體直接刪除。如果直接刪除掉一部分個體數(shù)據(jù)就可以達到預(yù)期數(shù)據(jù)的目標,這個方法是最有效的。
權(quán)重法即當缺失值的類型為規(guī)律缺失時,通過對整體的數(shù)據(jù)加權(quán)來降低整體數(shù)據(jù)的偏差。把數(shù)據(jù)缺損的個體分別記錄后,用線性回歸法求得缺損數(shù)據(jù)各個部分的權(quán)重,然后將整體的數(shù)據(jù)個體給予有差異的權(quán)重。假如個體數(shù)據(jù)類型中存在對權(quán)重估計起決定性因素的變量,那該方法可以降低數(shù)據(jù)的缺損程度。假如個體數(shù)據(jù)類型中的變量和權(quán)重并不相關(guān),那它并不能降低數(shù)據(jù)缺損程度。所以針對多個數(shù)據(jù)類型缺失的情況,就需要對不同類型的缺失組合給予有差異的權(quán)重,這將會加大數(shù)據(jù)處理的工作量,使預(yù)期結(jié)果發(fā)生偏移[9]。
缺失數(shù)據(jù)清潔法可運用于電網(wǎng)監(jiān)控系統(tǒng)中表現(xiàn)較為良好的設(shè)備所產(chǎn)生的數(shù)據(jù),但當數(shù)據(jù)類型比較復(fù)雜或設(shè)備產(chǎn)生的問題較多時,此類方法將會加大決策人員工作量,導(dǎo)致不能精確分析問題產(chǎn)生的原因,降低電網(wǎng)數(shù)據(jù)分析效率等。
3.2缺失數(shù)據(jù)補錄法
大數(shù)據(jù)處理技術(shù)的背景下,當海量數(shù)據(jù)出現(xiàn)一定的缺失情況時,如果單純地使用數(shù)據(jù)清潔法,會造成許多有用數(shù)據(jù)的遺失,這會對之后的數(shù)據(jù)挖掘和分析產(chǎn)生巨大的負面影響。因此,對缺失數(shù)據(jù)進行預(yù)估和補錄的對策(數(shù)據(jù)補錄法)應(yīng)運而生。
根據(jù)規(guī)律缺失數(shù)據(jù)和無規(guī)律缺失數(shù)據(jù)和不完全規(guī)律缺失數(shù)據(jù),采用相應(yīng)的方法解決。
3.2.1規(guī)律缺失數(shù)據(jù)補錄
針對規(guī)律缺失數(shù)據(jù),運用系統(tǒng)已形成的規(guī)律數(shù)據(jù),建立相應(yīng)的線性回歸方程式和決策樹,對缺失的數(shù)據(jù)進行預(yù)估,形成相應(yīng)的預(yù)測數(shù)據(jù),使用相應(yīng)的預(yù)測數(shù)據(jù)對缺失的數(shù)據(jù)進行替換,此方法的準確程度將會隨著數(shù)據(jù)庫中線性回歸方程式和決策樹的準確度的提升而提升[10]。
采用最小二乘法計算線性回歸方程:
(1)
(2)
(3)
當式(1)中a、b取得最小值時,則稱式(1)為該數(shù)據(jù)的線性回歸方程,式(2)與式(3)為求解線性回歸方程的方式。
這里采用SPSS的數(shù)據(jù)缺失處理進行規(guī)律缺失數(shù)據(jù)的實證。數(shù)據(jù)庫為1978-2005年的電量使用率。首先使用SPSS的數(shù)據(jù)缺失值替換功能(圖1與圖2);然后發(fā)現(xiàn)缺失值(圖3);再對缺失值進行補錄(圖4)。
圖1SPSS選擇替換缺失值
圖2智能選擇替換方法
圖3發(fā)現(xiàn)缺失值
圖4對缺失值進行補錄
如圖4所示,根據(jù)以上的原理,系統(tǒng)對缺失的數(shù)據(jù)生成了一個新的補錄值5048,而1995年該變電站的實際電量使用量為5429,準確度超過90%,證明此方法在實際工作中有效,能有效提升電網(wǎng)歷史數(shù)據(jù)質(zhì)量。
另外還可以采用就近補齊法和多重補錄法應(yīng)對不同程度數(shù)據(jù)缺失情況的補錄。其中,就近補齊法是在之前未發(fā)生缺失的相近數(shù)據(jù)中找到與缺失值最為相似的一個值來補錄,但相對需要的人工時間較多,適用于對于相對重要的數(shù)據(jù)缺失的補錄;多重補錄法是通過記錄之前所有缺失的數(shù)據(jù)所形成的一個數(shù)據(jù)庫來匹配相應(yīng)的缺失數(shù)據(jù),根據(jù)缺失值的規(guī)律特征從數(shù)據(jù)庫里調(diào)出匹配度最高的數(shù)據(jù)來進行補錄。
3.2.2無規(guī)律缺失數(shù)據(jù)補錄
針對無規(guī)律缺失數(shù)據(jù),目前采用平均值補錄最為有效,即將這些無規(guī)律的數(shù)據(jù)類型進行分類,取與該缺失數(shù)據(jù)屬性相近的數(shù)據(jù)平均值與該類數(shù)據(jù)進行替換[11]。
3.2.3不完全規(guī)律缺失數(shù)據(jù)補錄
在數(shù)據(jù)量特別大且數(shù)據(jù)類型多為不完全規(guī)律缺失數(shù)據(jù)時,如何對數(shù)據(jù)缺失的類型進行分類和處理,就要運用到大數(shù)據(jù)處理中的隨機森林原理。
如文獻[12]所述,隨機森林顧名思義,是用隨機的方式建立一個森林,森林里面由很多的決策樹組成,決策樹相互之間是沒有關(guān)聯(lián)的。在得到森林之后,當有一個新的輸入樣本進入的時候,就讓森林中的每一棵決策樹分別進行判斷,判斷這個樣本應(yīng)該屬于哪一類,然后判斷哪一類被選擇最多,就預(yù)測這個樣本為哪一類。
通過總結(jié)之前發(fā)生數(shù)據(jù)缺失的數(shù)據(jù)特征,形成相應(yīng)的決策樹,通過這些決策樹群對新的數(shù)據(jù)缺失樣本進行分類。
按這種算法得到的隨機森林中的每一棵都是很弱的,但是決策樹的數(shù)量多了就會對決策結(jié)果準確率產(chǎn)生較強的正面影響。總之,在隨機森林算法中,每一棵決策樹就是一個精通于某一個窄領(lǐng)域的“專家”,這樣在隨機森林中就有了很多個精通不同領(lǐng)域的“專家”,對一個新的問題(新的輸入數(shù)據(jù)),可以用不同的角度去看待它,最終由各個“專家”,投票得到結(jié)果。這樣可以較為準確的對已知數(shù)據(jù)樣本的類型進行智能的分類[13]。
隨機森林中的每一棵分類樹為二叉樹,其生成遵循自頂向下的遞歸分裂原則,即從根節(jié)點開始依次對訓(xùn)練集進行劃分;在二叉樹中,根節(jié)點包含全部訓(xùn)練數(shù)據(jù),按照節(jié)點純度最小原則,分裂為左節(jié)點和右節(jié)點,它們分別包含訓(xùn)練數(shù)據(jù)的一個子集,按照同樣的規(guī)則節(jié)點繼續(xù)分裂,直到滿足分支停止規(guī)則而停止生長。若節(jié)點n上的分類數(shù)據(jù)全部來自于同一類別,則此節(jié)點的純度I(n)=0,純度度量方法是Gini準則,即假設(shè)P(Xj)是節(jié)點n上屬于Xj類樣本個數(shù)占訓(xùn)練。
具體實現(xiàn)過程如下:
(1) 原始訓(xùn)練集為N,應(yīng)用bootstrap法有放回地隨機抽取k個新的自助樣本集,并由此構(gòu)建k棵分類樹,每次未被抽到的樣本組成了k個袋外數(shù)據(jù)。
(2) 設(shè)有n個變量,則在每一棵樹的每個節(jié)點處隨機抽取m個變量,然后在m中選擇一個最具有分類能力的變量,變量分類的閾值由通過檢查每一個分類點確定。
(3) 每棵樹最大限度地生長,不做任何修剪。
(4) 將生成的多棵分類樹組成隨機森林,用隨機森林分類器對新的數(shù)據(jù)進行判別與分類,分類結(jié)果按樹分類器的投票多少而定[13]。
這里采取均方根誤差(RootMeanSquareError,RMSE)和填補準確度(Accuracy)評價算法的優(yōu)越性。均方根誤差ERMSE是缺失值填補研究中應(yīng)用最廣泛的評價標準:
(4)
式中:xr為真實值;xi為算法的填補值;n為缺失值的數(shù)目;ERMSE值越小說明算法填補質(zhì)量越高[14]。
填補準確度A評價函數(shù)能夠計算出填補值中符合容忍度要求的值所占的比例:
(5)
式中:n為缺失值數(shù)量;nT為正確估計值數(shù)量。填補值在真實值的±10%以內(nèi)都可被視為在容忍度范圍之內(nèi),即為正確估計值[15]。
將隨機森林算法與當前填補效果較好的SVR-OCSFCM算法[16](即支持向量回歸與遺傳算法優(yōu)化的模糊聚類填補算法)進行比較,取某變電站的油紙絕緣中局部放電量、油中火花放電量及油中電弧為數(shù)據(jù)集,以油中電弧為填補量,對這兩種算法得到的均分根方差和填補準確度進行分析比較。根據(jù)分析得的結(jié)果如圖5與圖6所示。
圖5填補結(jié)果的均方根誤差
圖6填補結(jié)果的準確率
由圖5與圖6對均方根誤差與填補準確率分析可知,隨著缺失率的提升,隨機森林算法在均方根誤差和填補結(jié)果準確率上都要優(yōu)于SVR-OCSFCM算法。
將這些數(shù)據(jù)缺失處理方法應(yīng)用于電網(wǎng)數(shù)據(jù)處理中,大大提升了數(shù)據(jù)的可用性,提高了電網(wǎng)各類數(shù)據(jù)的挖掘分析效率,將有效推動我國智能電網(wǎng)的建設(shè)與發(fā)展。
[1] 李佳瑋,郝悍勇,李寧輝.電網(wǎng)企業(yè)大數(shù)據(jù)技術(shù)應(yīng)用研究[J].電力信息與通信技術(shù),2014,12(12):20-25.
[2] 于存水.基于智能電網(wǎng)調(diào)度系統(tǒng)的調(diào)度監(jiān)控平臺的設(shè)計與實現(xiàn)[D].長春:吉林大學(xué),2013.
[3] 李麗.數(shù)據(jù)缺失及處理方法探析[J].湖南城市學(xué)院學(xué)報:自然科學(xué)版,2016,25(1):118-119.
[4] DRISCOLL M.Duke Energy's data modeling & analytics initiative[R].2014.
[5] 武森,馮小東,單志廣.基于不完備數(shù)據(jù)聚類的缺失數(shù)據(jù)填補方法[J].計算機學(xué)報,2012,35(8):1726-1738.
[6] 韋鋼,王飛,張永健,等.負荷預(yù)測中歷史數(shù)據(jù)缺損處理[J].電力科學(xué)與工程,2004,20(1):16-19.
[7] DONG L J,LIU X,ZHANG Q,et al.Design and implementation of metering abnormal and online diagnosis system of new generation intelligent substation[J].Applied Mechanics & Materials,2014,678:343-351.
[8] 侯廣松.變電站故障數(shù)據(jù)處理與分析系統(tǒng)研究與開發(fā)[D].濟南:山東大學(xué),2014.
[9] 葉素靜,唐文清,張敏強,等.追蹤研究中缺失數(shù)據(jù)處理方法及應(yīng)用現(xiàn)狀分析[J].心理科學(xué)進展,2014,22(12):1985-1994.
[10] 吳劉倉,張家茂,邱貽濤.缺失偏態(tài)數(shù)據(jù)下線性回歸模型的統(tǒng)計推斷[J].統(tǒng)計與信息論壇,2013,28(9):22-26.
[11] 趙志文,何靜花,楊慧超.Rayleigh分布總體參數(shù)的均值填補估計和檢驗[J].佳木斯大學(xué)學(xué)報:自然科學(xué)版,2016,34(2):285-288.
[12] AURET L,ALDRICH C.Change point detection in time series data with random forests[J].Control Engineering Practice,2010,18(8):990-1002.
[13] 曹正鳳.隨機森林算法優(yōu)化研究[D].北京:首都經(jīng)濟貿(mào)易大學(xué),2014.
[14] 卜范玉,陳志奎,張清辰.基于聚類和自動編碼機的缺失數(shù)據(jù)填充算法[J].計算機工程與應(yīng)用,2015,51(18):13-17.
[15] 李建強,趙凱,潘文凱,等.電站歷史數(shù)據(jù)缺失值填補策略研究[J].電力科學(xué)與工程,2017,33(1):43-48.
[16] 唐闊,胡國圣,車喜龍,等.基于遺傳算法優(yōu)化支持向量回歸機的網(wǎng)格負載預(yù)測模型[J].吉林大學(xué)學(xué)報:理學(xué)版,2010,48(2):251-255.
Research on the Data Missing and Data Completion of Power Grid
XIEQiaochu1, 2,YAOYi1, 2
(1.School of Automation & Information Engineering, Sichuan University of Science & Engineering, Zigong 643000, China; 2.Artificial Intelligence Key Laboratory of Sichuan Province, Zigong 643000, China)
The completion of data is needed in the development of smart grid, so it is necessary to improve the data quality of smart grid. The transmitting procedure of the smart grid’s big data is introduced and the reasons of the data missing and the type of missing data in the process of data transmission are analyzed. According to the analysis of the missing data cleaning and the missing data collection, the problems of irregular missing data and missing data patterns are solved. Then SPSS is used to validate the methods. The results show that the accuracy rate is as high as 90%. The random forest algorithm is introduced to deal with the incomplete data. And the accuracy and effectiveness of the above methods are proved by the experiments. The methods to the data missing problems of smart grid above will effectively improve the quality of the smart grid data and get the most use of existing data.
smart grid; data missing; data completion; random forest
2016-12-12
四川理工學(xué)院研究生創(chuàng)新基金項目(20141210)
謝翹楚(1991-),男,四川自貢人,碩士生,主要從事大數(shù)據(jù)處理方面的研究,(E-mail)luckyxc1991@163.com
1673-1549(2017)02-0021-05
10.11863/j.suse.2017.02.05
TP274
A