宋建林,戴登慧
1.國(guó)電南京自動(dòng)化股份有限公司,江蘇 南京 211100
2.南京華盾電力信息安全測(cè)評(píng)有限公司,江蘇 南京 211100
隨著我國(guó)電力體制的改革步伐不斷加大,電力市場(chǎng)化進(jìn)程也在不斷加快,這個(gè)過程中就對(duì)電力企業(yè)提升電網(wǎng)安全生產(chǎn)、電網(wǎng)規(guī)劃、優(yōu)質(zhì)服務(wù)等方面提出更多要求。隨著電力數(shù)字化過程中產(chǎn)生的相關(guān)內(nèi)部數(shù)據(jù)也越來越多,采用大數(shù)據(jù)技術(shù),可以有效分析采集來的電力客戶數(shù)據(jù),及時(shí)、準(zhǔn)確地掌握客戶用電行為特征,同樣也可以及時(shí)發(fā)現(xiàn)用電異常行為。一方面有利于對(duì)企業(yè)的電力營(yíng)銷和調(diào)度進(jìn)行決策支撐,另一方面也可以保障電力企業(yè)自身利益不受損失,顯著提升企業(yè)的盈利能力和競(jìng)爭(zhēng)能力[1-2]。
文章將采用隨機(jī)森林算法來分析用電行為,為電力企業(yè)及時(shí)有效分析用戶用電行為提供一定參考。
電力企業(yè)根據(jù)用電客戶歷史用電行為特征、貢獻(xiàn)度大小、用電需求等特點(diǎn),基于大數(shù)據(jù)分析技術(shù),從行業(yè)特點(diǎn)、客戶價(jià)值、用電需求、成長(zhǎng)性等方面刻畫用電客戶群體特征,采用現(xiàn)代統(tǒng)計(jì)分析方法及數(shù)據(jù)挖掘算法將電力用戶分類,比如高壓用戶,低壓居民用戶和低壓非居民用戶等用電形式的用戶,按照不用用戶的用電行為特點(diǎn)建立起用戶用電模型以及公共設(shè)備用電模型,從而有效監(jiān)測(cè)電力使用狀態(tài)。當(dāng)然以往電力企業(yè)在電力用戶用電監(jiān)測(cè)領(lǐng)域僅依靠線損率來估計(jì)用電用戶的用電行為,存在一定的技術(shù)局限性。因?yàn)橹挥挟?dāng)線損率超過15%的閾值時(shí),才有充分證據(jù)證明這個(gè)用戶是用電異常。
目前,很多人采用了機(jī)器學(xué)習(xí)同電力數(shù)據(jù)相互結(jié)合的方法來進(jìn)行用戶用電行為特征的提取,對(duì)用電過程進(jìn)行挖掘。而隨著智能電網(wǎng)的普及,電力用戶的數(shù)據(jù)呈現(xiàn)快速增加的態(tài)勢(shì),使得用電數(shù)據(jù)特征數(shù)目也隨之快速增長(zhǎng),且呈現(xiàn)出連續(xù)化的變化特征。
如果采用傳統(tǒng)CURE算法對(duì)數(shù)據(jù)進(jìn)行挖掘,首先需要對(duì)數(shù)據(jù)進(jìn)行離散化的操作,具有計(jì)算量大、消耗時(shí)間長(zhǎng)、一些重要的特征信息容易丟失等缺陷,相對(duì)而言,如果采用信息嫡原則的分析法對(duì)特征值進(jìn)行提取,則可以使得預(yù)測(cè)準(zhǔn)確度得以進(jìn)一步提升。在用電分析模型所含的單項(xiàng)指標(biāo)中,主要包括了每天用電量、最大線損率、電表類型、臺(tái)區(qū)線損等,再進(jìn)一步利用人工神經(jīng)網(wǎng)絡(luò)對(duì)用電行為進(jìn)行分析,只不過這樣的分析只是對(duì)其中一個(gè)用戶的用電異??梢尚源笮∵M(jìn)行判斷,無法分析用電預(yù)測(cè)樣本的準(zhǔn)確程度。按照一段時(shí)間內(nèi)用戶用電量的總體變化趨勢(shì)判定竊電行為的發(fā)生,然而卻沒有與機(jī)器學(xué)習(xí)等新技術(shù)相融合,沒有更高的工作效率。
隨機(jī)森林就是建立很多決策樹,組成一個(gè)決策樹的“森林”,通過多棵樹投票來進(jìn)行決策。這種方法能夠有效地提高對(duì)新樣本的分類準(zhǔn)確度。隨機(jī)森林在以決策樹為基學(xué)習(xí)器構(gòu)建Bagging集成(樣本的隨機(jī)選?。┑幕A(chǔ)上,進(jìn)一步在決策樹的訓(xùn)練過程中引入隨機(jī)屬性選擇。具體來說,傳統(tǒng)決策樹在選擇劃分屬性時(shí)是在當(dāng)前節(jié)點(diǎn)的屬性集合(假設(shè)有d個(gè)屬性)中選擇一個(gè)最優(yōu)屬性;而在RF隨機(jī)森林中,對(duì)基決策樹的每個(gè)節(jié)點(diǎn),先從該節(jié)點(diǎn)的屬性集合中隨機(jī)選擇一個(gè)包含K個(gè)屬性的子集,然后在從這個(gè)子集中選擇一個(gè)最優(yōu)屬性用于劃分。
在人工智能領(lǐng)域,隨機(jī)森林算法包括了數(shù)個(gè)決策樹分類器,個(gè)別樹輸出的類別眾數(shù)決定了其輸出的類別。隨機(jī)森林的生成具體算法步驟如下。
首先,對(duì)樣本數(shù)據(jù)進(jìn)行有放回的抽樣,得到多個(gè)樣本集。具體來講就是每次從原來的N個(gè)訓(xùn)練樣本中有放回地隨機(jī)抽取N個(gè)樣本(包括可能重復(fù)樣本)。
然后,從候選的特征中隨機(jī)抽取m個(gè)特征,作為當(dāng)前節(jié)點(diǎn)下決策的備選特征,從這些特征中選擇最好地劃分訓(xùn)練樣本的特征。用每個(gè)樣本集作為訓(xùn)練樣本構(gòu)造決策樹。單個(gè)決策樹在產(chǎn)生樣本集和確定特征后,使用CART算法計(jì)算,不剪枝。
最后,得到所需數(shù)目的決策樹后,采用隨機(jī)森林方法對(duì)這些樹的輸出進(jìn)行投票,以得票最多的類作為隨機(jī)森林的決策。
電力系統(tǒng)用戶的用電數(shù)據(jù),主要是從營(yíng)銷系統(tǒng)里面抽取的,在判定用戶數(shù)據(jù)的同時(shí)合理進(jìn)行篩選,將不存在用電異常可能性的數(shù)據(jù)排出,再對(duì)篩選后的原始數(shù)據(jù)進(jìn)行預(yù)處理,包括將用戶用電監(jiān)測(cè)數(shù)據(jù)與其他類型用戶數(shù)據(jù)進(jìn)行對(duì)比,對(duì)二者用電特征的差異進(jìn)行比對(duì)分析,提取出差異明顯、特征鮮明的用電特征,之后構(gòu)建專家樣本集,并對(duì)特征進(jìn)行提取操作,特征提取包括提取方差特征和提取含零百分?jǐn)?shù)特征[3]。
利用隨機(jī)森林算法對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行測(cè)試并計(jì)算得出最終的實(shí)驗(yàn)結(jié)果,具體操作步驟:通過隨機(jī)森林算法,對(duì)用戶數(shù)據(jù)進(jìn)行決策樹分類,最終分類結(jié)果由訓(xùn)練出的決策樹投票決定,以此判定用戶是否有用電異常行為。用電數(shù)據(jù)預(yù)處理和特征提取流程如圖1所示。
圖1 用電數(shù)據(jù)處理及特征提取流程
提取方差特征具體公式:
式中Vi為用戶用電量的方差;Xik為第i個(gè)用戶第k天的用電量;為用戶平均用電量;k為用戶數(shù)據(jù)量的大小。方差主要體現(xiàn)出了數(shù)據(jù)的波動(dòng)情況,當(dāng)某一用戶用電數(shù)據(jù)出現(xiàn)大幅度的波動(dòng)現(xiàn)象,如用電量長(zhǎng)期忽高忽低、方差較大,則可以預(yù)警該用戶用電存在異常。
提取含零百分?jǐn)?shù)特征具體公式:
式中Pzeroi為含零百分?jǐn)?shù);Xj為第i個(gè)用戶有包含j個(gè)零數(shù)據(jù);Xi為第i個(gè)用戶總的數(shù)據(jù)量。
除極特殊情況外,某用戶用電量每天都為零,則該用戶用電異常行為可能性極高。若某用戶除少數(shù)日期外,大多數(shù)時(shí)間用電量均為零,則有較大可能存在用電異常,若某用戶用電量斷續(xù)為零,則存在一定可能有用電異常行為。
根據(jù)用電客戶歷史用電行為特征、貢獻(xiàn)度大小、用電需求等特點(diǎn),基于大數(shù)據(jù)分析技術(shù),從行業(yè)特點(diǎn)、客戶價(jià)值、用電需求、成長(zhǎng)性等方面刻畫用電客戶群體特征,采用現(xiàn)代統(tǒng)計(jì)分析方法及數(shù)據(jù)挖掘算法將電力用戶分類,包括高壓用戶,低壓居民用戶和低壓非居民用戶等用電形式的用戶,針對(duì)不同的用戶類別建立不同的用戶用電模型以及公共設(shè)備用電模型,從而對(duì)企業(yè)的電力營(yíng)銷和調(diào)度進(jìn)行決策支撐,為用電需求側(cè)管理、優(yōu)化客戶服務(wù)管理規(guī)范提供輔助決策。