彭姣 劉明碩 楊力平
摘? ?要:針對智能電網(wǎng)數(shù)據(jù)繁多、維度較高、難以識別的技術(shù)問題,提出了降低大數(shù)據(jù)維度的構(gòu)想,并設(shè)計(jì)出基于隨機(jī)森林算法的物聯(lián)網(wǎng)智能電網(wǎng)大數(shù)據(jù)管理系統(tǒng)。通過采用Bagging算法對數(shù)據(jù)樣本訓(xùn)練、學(xué)習(xí),建立起多個決策樹構(gòu)型,根據(jù)少數(shù)服從多數(shù)的投票法原則確定建立決策樹的節(jié)點(diǎn)和分支,最終建立起成熟的隨機(jī)森林算法模型,通過隨機(jī)森林算法模型將智能電網(wǎng)中的大數(shù)據(jù)從高緯度降低到低緯度。本設(shè)計(jì)的方案大大減小了大數(shù)據(jù)處理難度,優(yōu)化了數(shù)據(jù)處理的效率,增加了分析問題、解決問題的有效途徑,為智能電網(wǎng)的健康、有序運(yùn)行提供有力保障。
關(guān)鍵詞:智能電網(wǎng);維度;Bagging算法;隨機(jī)森林算法;決策樹
中圖分類號:TP39? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 中圖分類號:A
Big Data Dimension Reduction Management Scheme for Smart Grid
PENG Jiao?覮,LIU Ming-shuo,YANG Li-ping
(Information & Telecommunication Branch,State Grid Hebei Electric Power Co. Ltd.,Shijiazhuang,Hebei 050000,China)
Abstract:Aimed at the technical problems such as much data,high dimension,difficult to identify in smart grid data,the idea of reducing the big data dimension is proposed,and the big data management system of the Internet of Things smart grid based on random forest algorithm is designed. Multiple decision tree configurations are established by using the bagging algorithm to train and learn data samples,according to the minority majority voting principle,the nodes and branches of the decision tree are determined,and finally the mature random forest algorithm model is established,and the big data in the smart grid is reduced from high dimensionality to low dimensionality via the random forest algorithm model. The scheme designed in this paper greatly reduces the difficulty of big data processing,optimizes the efficiency of data processing,and increases the effective way of analyzing problems and solves problems,as well as providing powerful guarantee for the healthy and orderly operation of smart grid.
Key words:smart grid;dimension;Bagging algorithm;random forest algorithm;decision tree
智能電網(wǎng)是以物理電網(wǎng)為基礎(chǔ),將現(xiàn)代先進(jìn)的傳感測量技術(shù)、通信技術(shù)、信息技術(shù)、計(jì)算機(jī)技術(shù)和控制技術(shù)與物理電網(wǎng)高度集成而形成的新型電
網(wǎng)[1-4]。隨著云計(jì)算、物聯(lián)網(wǎng)技術(shù)的廣泛應(yīng)用,大數(shù)據(jù)已經(jīng)涉及各行各業(yè)[5-6],在智能電網(wǎng)行業(yè)中,由于產(chǎn)生的各種數(shù)據(jù)繁多,如何從大量數(shù)據(jù)中提取有效信息已成為智能電網(wǎng)應(yīng)用過程中的重要研究課題[7]。在智能電網(wǎng)行業(yè)中,浩瀚的大數(shù)據(jù)往往由于數(shù)據(jù)量太大、維數(shù)太高而在具體實(shí)踐工作中,給供電企業(yè)、用戶都帶來極其不便。在大數(shù)據(jù)應(yīng)用中,維度越高,計(jì)算數(shù)據(jù)的復(fù)雜程度也就越高,發(fā)現(xiàn)隱藏在數(shù)據(jù)之間的邏輯關(guān)系以及隱藏的問題也就越難發(fā)現(xiàn)。
隨著信息技術(shù)的不斷進(jìn)步,用戶越來越多地發(fā)現(xiàn)降低數(shù)據(jù)維度不僅僅能夠大大降低數(shù)據(jù)獲取的成本,還能夠提高數(shù)據(jù)分類的精度,更為重要的是,能夠發(fā)現(xiàn)肉眼看不到的深層含義,這對于解決智能電網(wǎng)運(yùn)行中出現(xiàn)的各種問題極其有利。隨著圖像處理技術(shù)的發(fā)展,這一塊技術(shù)領(lǐng)域得到更深刻的研究。用戶可以通過圖像處理技術(shù)提取圖像中蘊(yùn)含的數(shù)據(jù)問題,對問題的分析更為透徹,使用戶面對智能電網(wǎng)中存在的問題時,能夠從更為本質(zhì)的意義上獲取問題存在的根源。由于大數(shù)據(jù)時代的到來,各種數(shù)據(jù)正以迅雷不及掩耳之勢的速度強(qiáng)勢增長,為了減低企業(yè)的運(yùn)行成本,提高智能電網(wǎng)應(yīng)用的大數(shù)據(jù)系統(tǒng)的業(yè)務(wù)能力,保證大數(shù)據(jù)的配網(wǎng)運(yùn)營能力正常、有序、健康地發(fā)展,就有必要研究一種降低智能電網(wǎng)大數(shù)據(jù)維度的方法?;诖?,本文針對這一課題進(jìn)行了研究。
1? ?方案構(gòu)架設(shè)計(jì)
智能電網(wǎng)是聚集發(fā)電、輸電、變電、配電、用電和調(diào)度等各個環(huán)節(jié)的綜合電網(wǎng),其結(jié)構(gòu)繁雜,數(shù)據(jù)庫浩大。在用戶獲取大量的高緯度數(shù)據(jù)庫時,難以對其有直觀的認(rèn)識,難以發(fā)現(xiàn)數(shù)據(jù)之間隱含的關(guān)系。通過降維則可發(fā)現(xiàn)肉眼無法發(fā)現(xiàn)的規(guī)律,有利于用戶對智能電網(wǎng)數(shù)據(jù)分析和研究,便于及時解決在低緯發(fā)現(xiàn)的問題。在本文設(shè)計(jì)中,對智能電網(wǎng)的數(shù)據(jù)進(jìn)行降維管理的架構(gòu)大致如圖1所示。系統(tǒng)包括數(shù)據(jù)采集層、數(shù)據(jù)傳輸層、數(shù)據(jù)處理層、數(shù)據(jù)分析層以及數(shù)據(jù)應(yīng)用層,下面對各個層次分別說明。
在數(shù)據(jù)采集層中,采用TMS320F2812作為運(yùn)算控制核心,控制電網(wǎng)數(shù)據(jù)的采集,以IEC61970為智能電網(wǎng)數(shù)據(jù)采集平臺,對各種數(shù)據(jù)進(jìn)行采集并實(shí)現(xiàn)與上層設(shè)備的數(shù)據(jù)通訊和傳遞。在該數(shù)據(jù)采集層中能夠?qū)崿F(xiàn)對A類、B類、C類、D類、E類、F類等的設(shè)備進(jìn)行數(shù)據(jù)采集,提供直測數(shù)據(jù)、復(fù)制數(shù)據(jù)和定制數(shù)據(jù)等服務(wù)類型。
在數(shù)據(jù)傳輸層,可以采用IEEE C37.118通訊協(xié)議實(shí)現(xiàn)底層數(shù)據(jù)采集和數(shù)據(jù)處理層之間的數(shù)據(jù)傳輸和通訊,采用基于TCP/IP的Socket技術(shù)完成底層與上層的數(shù)據(jù)通訊。由于智能電網(wǎng)的數(shù)據(jù)信息采集涉及面較為廣泛,不同的用戶出于成本的考慮,也會采用RS232、CAN和以太網(wǎng)這3種方式將這些數(shù)據(jù)信息通過數(shù)據(jù)傳輸層傳遞到數(shù)據(jù)處理層,這也是可行的。在該層中,直接測量出的數(shù)據(jù)也可以通過上傳云端實(shí)現(xiàn)數(shù)據(jù)的永久性存儲。
在數(shù)據(jù)處理層中,數(shù)據(jù)存儲中心接收到底層傳遞的各種數(shù)據(jù)。由于數(shù)據(jù)繁多,類型不等,這對于用戶來說,增加了識別難度,應(yīng)用效率低下。就需要對這些數(shù)據(jù)進(jìn)行預(yù)處理,從而增加可識別度,提高數(shù)據(jù)讀取質(zhì)量。通常采用的方法為數(shù)據(jù)清理、數(shù)據(jù)集成和轉(zhuǎn)換、數(shù)據(jù)規(guī)約。數(shù)據(jù)清理主要是填補(bǔ)數(shù)據(jù)缺失值,使數(shù)據(jù)噪聲平滑,將離散點(diǎn)識別出來,糾正數(shù)據(jù)中不一致的信息。數(shù)據(jù)集成和轉(zhuǎn)換主要是對多源數(shù)據(jù)進(jìn)行集成,采用大數(shù)據(jù)機(jī)器學(xué)習(xí)規(guī)律和算法對其學(xué)習(xí)并訓(xùn)練成容易處理的形式,從而更加便捷地發(fā)現(xiàn)這些數(shù)據(jù)之間不容易發(fā)現(xiàn)的規(guī)律。數(shù)據(jù)規(guī)約主要是在接近或保持原始數(shù)據(jù)完整性的同時將數(shù)據(jù)集規(guī)模大大減小,使得數(shù)據(jù)分析更加有效。
在數(shù)據(jù)分析層中,對電網(wǎng)大數(shù)據(jù)信息做出減維處理。由于在數(shù)據(jù)分析層接收到的數(shù)據(jù)都是經(jīng)過預(yù)處理后的數(shù)據(jù),因此,在對數(shù)據(jù)進(jìn)行計(jì)算時,效率非常高。在本數(shù)據(jù)層,選用隨機(jī)森林算法模型對預(yù)處理后的數(shù)據(jù)做進(jìn)一步的處理。隨機(jī)森林作為一種特殊的bagging方法應(yīng)用到智能電網(wǎng)大數(shù)據(jù)處理能夠?qū)崿F(xiàn)數(shù)據(jù)的不同分類,增加數(shù)據(jù)的分類能力,通過用戶根據(jù)需求設(shè)定不同的屬性,使用戶能夠快速從浩瀚的智能電網(wǎng)大數(shù)據(jù)庫中找出期望的數(shù)據(jù)。具體算法將在下文做進(jìn)一步的說明。
在數(shù)據(jù)應(yīng)用層中,用戶根據(jù)計(jì)算的結(jié)果直接可用到各種用途。數(shù)據(jù)應(yīng)用層可以為計(jì)算機(jī)、計(jì)算機(jī)用戶用戶、集成在計(jì)算機(jī)上的各種應(yīng)用程序、顯示器,在應(yīng)用層中,能夠直接或者間接地向用戶提供各種處理后的數(shù)據(jù)服務(wù),使得用戶便利地應(yīng)用該數(shù)據(jù),從而實(shí)現(xiàn)從數(shù)據(jù)采集層到接收的最終處理,用戶根據(jù)來自底層的數(shù)據(jù)信息,獲知設(shè)備底層情況,快速做出干預(yù),有利于智能電網(wǎng)的健康、高效運(yùn)行。
2? ?基于算法模型的降維方法
將隨機(jī)森林算法模型應(yīng)用到智能電網(wǎng)大數(shù)據(jù)中,對智能電網(wǎng)大數(shù)據(jù)降維,使得電網(wǎng)數(shù)據(jù)的時間復(fù)雜度、空間復(fù)雜度降低,電網(wǎng)中各種數(shù)據(jù)集中所夾雜著的繁冗數(shù)據(jù)和噪聲數(shù)據(jù)被過濾,為電網(wǎng)的健康運(yùn)行提供較為純凈的工作環(huán)境。隨機(jī)森林是通過有放回的方式從原始樣本中隨機(jī)抽取部分樣本產(chǎn)生新的樣本集合,重復(fù)這樣的操作產(chǎn)生多個樣本集合,每個樣本集合后續(xù)都會產(chǎn)生一棵決策樹[9-10],下面結(jié)合圖2對降維過程進(jìn)行詳細(xì)說明。
(1)數(shù)據(jù)選擇:在智能電網(wǎng)數(shù)據(jù)采集層生成的大量數(shù)據(jù)中,根據(jù)用戶需求選取樣本數(shù)據(jù)集。
(2)預(yù)處理:由于數(shù)據(jù)集包含大量的不平滑信息,同時包含過多的數(shù)據(jù)噪聲,這些噪聲干擾會導(dǎo)致算法存在誤差,使得計(jì)算不準(zhǔn)確,在對數(shù)據(jù)進(jìn)行降維時,就需要移除不準(zhǔn)確的信息量,或者清除與用戶無關(guān)的數(shù)據(jù)。執(zhí)行不便識別的數(shù)據(jù)轉(zhuǎn)化為易于識別的規(guī)范數(shù)據(jù)的信息處理過程。在預(yù)處理階段,采用bagging集成學(xué)習(xí)方法對數(shù)據(jù)集進(jìn)行學(xué)習(xí),如圖3所示。
在學(xué)習(xí)時,從原始樣本訓(xùn)練集合中隨機(jī)采樣固定個數(shù)的樣本,每采集一個樣本,放回一個樣本,然后再重新采樣,如果對有N個樣本訓(xùn)練集做T次的隨機(jī)采樣,則由于采樣的隨機(jī)性,T次采樣的結(jié)果各不相同,每次結(jié)果輸出頻率最多的數(shù)據(jù),則作為最終的數(shù)據(jù)模型,則將該點(diǎn)設(shè)置當(dāng)前節(jié)點(diǎn)為葉子節(jié)點(diǎn)。在原始樣本訓(xùn)練數(shù)據(jù)集合中,假設(shè)輸入為樣本集D = {(x1,y1),(x1,y1),...(xm,ym)},第一次輸出為是通過弱學(xué)習(xí)器算法進(jìn)行輸出,即弱分類器,將弱分類器進(jìn)行迭代T次數(shù),將這些弱分類器疊加,輸出為最終的強(qiáng)分類器。
(3)建立隨機(jī)森林算法模型:根據(jù)步驟(2)中訓(xùn)練的強(qiáng)分類器建立隨機(jī)森林算法模型。利用訓(xùn)練成熟的隨機(jī)森林模型對預(yù)處理后的智能電網(wǎng)數(shù)據(jù)計(jì)算、降維,獲得易于用戶讀取的數(shù)據(jù)。建立隨機(jī)森林算法模型的方法如圖4所示。
隨機(jī)隨機(jī)森林算法對數(shù)據(jù)集的適應(yīng)能力強(qiáng),離散型數(shù)據(jù)、連續(xù)型數(shù)據(jù)都能處理。在對樣本進(jìn)行采樣時,選擇隨機(jī)性采樣使得隨機(jī)森林不易過擬合,并且抗噪聲能力較好。建立隨機(jī)森林的過程是在在決策樹基礎(chǔ)上進(jìn)行集成的運(yùn)算過程,因此在生成隨機(jī)森林模型時,通過將數(shù)據(jù)又放回的方式從原始樣本數(shù)據(jù)集中隨機(jī)抽取部分樣本產(chǎn)生新的樣本集合,然后重復(fù)這樣的操作可以產(chǎn)生多個樣本集合。此時每個樣本集合在最后都會產(chǎn)生一個決策樹,在每個決策樹產(chǎn)生時,要確定建立決策樹的節(jié)點(diǎn),在每個節(jié)點(diǎn)進(jìn)行分支的時候都要隨機(jī)地抽取部分特征,以確定建立決策樹需要的的分支節(jié)點(diǎn),然后根據(jù)分支節(jié)點(diǎn)逐步遞歸分支,在遞歸分支時,每次都需要從剩余的數(shù)據(jù)特征中隨機(jī)抽取部分特征,在次確定子分支。在確定了節(jié)點(diǎn)和分節(jié)點(diǎn)之后,就很容易地生成決策樹了,由于在樣本訓(xùn)練的時候是針對多個樣本集合,因此也對應(yīng)地生成多個決策樹。當(dāng)決策樹達(dá)到一定數(shù)量時,對建立起來的決策樹進(jìn)行存儲。然后判斷決策樹的數(shù)量是否達(dá)到用戶要求,如果沒有達(dá)到要求,則需要重新訓(xùn)練、學(xué)習(xí),根據(jù)少數(shù)服從多數(shù)的投票法原則確定新輸入樣本的類別。當(dāng)達(dá)到用戶要求時,則生成隨機(jī)森林模型。
在對智能電網(wǎng)數(shù)據(jù)降維時,利用上述生成的隨機(jī)森林模型根據(jù)數(shù)據(jù)降維算法將采集的高維數(shù)據(jù)降至低維,數(shù)據(jù)降維的原則是在減少數(shù)據(jù)列數(shù)的同時保證丟失的數(shù)據(jù)信息盡可能少。首先在完成決策樹訓(xùn)練后,計(jì)算訓(xùn)練樣本數(shù)據(jù)各個決策樹的特征變量的加權(quán)信息增益率。也計(jì)算隨機(jī)深林的決策樹特征變量的加權(quán)信息增益值,再針對二者計(jì)算特征的特征重要性(指的是特征變量的信息增益率占全部特征變量的信息增益率的比例),更具體說,假設(shè)樣本集為十萬個數(shù)據(jù),對各個樣本集的特征變量的重要性值進(jìn)行降序排列,假設(shè)將X降低到x維(X>x),選擇前n個重要性數(shù)值最大的特征變量,然后從剩下的X-n個特征中隨機(jī)挑選(x-k)個特征。共同組成x個特征,從而將高維數(shù)據(jù)從X維降低為x維。
3? ?實(shí)驗(yàn)數(shù)據(jù)及結(jié)果分析
以電能計(jì)量為例,選擇3種電能表檢測裝置檢測信息作為測試,在每個檢測裝置中選取5組測試數(shù)據(jù)作為分析,選取500個樣本,測試時間為1秒,在本測試時,已經(jīng)對樣本數(shù)據(jù)進(jìn)行了去噪處理。數(shù)據(jù)樣本如表1所示。
表2為任意電能檢定裝置檢測項(xiàng)目N(i,j)表示檢定裝置中電能表為i但是隨機(jī)森林模型算法估計(jì)為j的樣本個數(shù)。
在用上文建立的隨機(jī)森林模型進(jìn)行測試的結(jié)果為表3中的數(shù)據(jù),在表3中,真正(TPi)表示樣本i被分類模型正確預(yù)測的樣本數(shù),假負(fù)(FNi)表示樣本i,假正(FPi)為上述裝置外的樣本被預(yù)測為上述的樣本數(shù)。
根據(jù)測試情況以及相關(guān)統(tǒng)計(jì)結(jié)果可以對建立的隨機(jī)森林模型進(jìn)行總體評價,采用的評價公式參見表4。
根據(jù)上述公式,下面對本文列出的樣本數(shù)據(jù)進(jìn)行計(jì)算,計(jì)算結(jié)果如表5所示。
根據(jù)上述公式,下面利用表4中的公式對本文設(shè)計(jì)的森林算法模型的正確率進(jìn)行評估,得出數(shù)據(jù)如表6所示。
根據(jù)上述計(jì)算結(jié)果,選取的3個檢定裝置中,召回率別為91.98%、91.09%和87.04%,1#檢定裝置召回率最高。將這3個檢定裝置的樣本信息經(jīng)過上述公式運(yùn)算可得,預(yù)測的正確率分別為89.32%、90.91%和91.01%,整個模型的準(zhǔn)確率為89.91%,可見本文設(shè)計(jì)的模型估計(jì)的準(zhǔn)確率高。
4? ?結(jié)? ?論
建立隨機(jī)森林算法模型對智能電網(wǎng)大數(shù)據(jù)進(jìn)行降維管理,通過Bagging集成學(xué)習(xí)方法建立算法模型,使得多個弱分類器訓(xùn)練成強(qiáng)分類器,利用強(qiáng)分類器繼續(xù)學(xué)習(xí)、訓(xùn)練,最終建立訓(xùn)練成熟的隨機(jī)森林模型。通過隨機(jī)森林模型對智能電網(wǎng)數(shù)據(jù)降維,有效地剔除與用戶關(guān)系不大的數(shù)據(jù),獲得易于用戶讀取的數(shù)據(jù)。通過試驗(yàn)分析,本設(shè)計(jì)的技術(shù)方案估計(jì)精度達(dá)80%以上,準(zhǔn)確度高。
參考文獻(xiàn)
[1]? ? 盧志翔. 面向智能電網(wǎng)客戶大數(shù)據(jù)的語義關(guān)鍵數(shù)據(jù)管理算法研究[J].激光雜志,2016,37(2):146—148.
[2]? ? 彭小圣,鄧迪元,程時杰,等.面向智能電網(wǎng)應(yīng)用的電力大數(shù)據(jù)關(guān)鍵技術(shù) [J]. 中國電機(jī)工程學(xué)報,2015,(3):503—511.
[3]? ? 王遠(yuǎn),陶燁,蔣英明,等. 智能電網(wǎng)時序大數(shù)據(jù)實(shí)時處理系統(tǒng)[J]. 計(jì)算機(jī)應(yīng)用,2015,(z2):93—97.
[4]? ? 孫鴻飛,弓麗棟,張海濤,等. 智能電網(wǎng)大數(shù)據(jù)分析框架及其應(yīng)用演進(jìn)研究[J].現(xiàn)代電力,2016,33(6):68—77.
[5]? ? 李佳,徐勝超. 基于云計(jì)算的智能電網(wǎng)大數(shù)據(jù)處理平臺[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2018,39(10):81—87.
[6]? ? 張東霞,苗新,劉麗平. 等. 智能電網(wǎng)大數(shù)據(jù)技術(shù)發(fā)展研究[J/OL].中國電機(jī)工程學(xué)報,2015,(1):2—12.
[7]? ? 張根周. 大數(shù)據(jù)在智能電網(wǎng)領(lǐng)域的應(yīng)用[J].電網(wǎng)與清潔能源,2016,32(6):114—117.
[8]? ? 葛磊蛟,王守相,瞿海妮. 智能配用電大數(shù)據(jù)存儲架構(gòu)設(shè)計(jì)[J]. 電力自動化設(shè)備,2016,36(6):194—202.
[9]? ? 賀紅燕. 基于大數(shù)據(jù)的智能電網(wǎng)關(guān)鍵技術(shù)研究[J]. 電源技術(shù),2016,40(8):1076—1080.
[10]? 彭暉,陶洪鑄,嚴(yán)亞勤,等. 智能電網(wǎng)調(diào)度控制系統(tǒng)數(shù)據(jù)庫管理技術(shù)[J].電力系統(tǒng)自動化,2015,(1):19—25.