林昱奐,胡嘉銘,戴偉力,黃波
(廣東電網有限責任公司廣州番禺供電局,廣州 510000)
隨著我國經濟的快速發(fā)展和人民生活水平的不斷提升,近年來我國用電總量逐年攀升,對電能的需求也越來越大。然而以竊電為代表的異常用電行為給電網的安全穩(wěn)定運行帶來嚴重威脅并擾亂電力系統(tǒng)的正常電力規(guī)劃和用電調度。據(jù)不完全統(tǒng)計,每年由于異常用電帶來的經濟損失已超過200 億元[1-2]。
傳統(tǒng)的異常用電檢測多采用技術人員到現(xiàn)場進行排查的方式,存在排查效率低,人力物力資源消耗大和主觀性強的問題[3]。隨著數(shù)字電網和智慧電力的快速發(fā)展以及用電信息采集管理系統(tǒng)的逐步完善,各級電力用戶的配用電數(shù)據(jù)得到采集、記錄和保存,其中包含大量對異常用電檢測有用的高價值信息,如何提取這些信息并構建模型從而自動完成異常檢測是當前的研究熱點[4-5]。
當前國內外學者對異常用電檢測方法的研究主要可以分為基于分類的方法和基于聚類的方法兩個方向[6]。其中基于分類的方法需要用到已知標簽類別的數(shù)據(jù)作為訓練樣本集,用于實現(xiàn)模型參數(shù)的學習,從而得到最優(yōu)分類面或分類曲線。該類方法以支撐向量機(support vector machine,SVM)、人工神經網絡(artificial neural network,ANN)和深度學習(deep learning,DL)等模型為代表。文獻[7]提出一種粒子群優(yōu)化的SVM 分類模型對某地區(qū)221 個電力用戶的日常用電數(shù)據(jù)進行分析和處理,得到了高于91% 的正確檢測概率;文獻[8]提出一種BP 神經網絡與PCA 相結合的異常用電檢測方法,利用PCA 對高維數(shù)據(jù)降維以提升BP 神經網絡的運算效率,針對重慶某地區(qū)9956 個電力用戶的日用電量數(shù)據(jù)獲得了優(yōu)于88%的檢測正確率;文獻[9]將深度學習理論與異常檢測相結合,利用卷積神經網絡(convolutional neural network,CNN)對某地區(qū)電網數(shù)據(jù)進行試驗分析,獲得了優(yōu)于90% 的檢測概率。不同于基于分類的方法,基于聚類的方法不需要已知標簽的訓練數(shù)據(jù)集進行模型訓練,而是根據(jù)某種既定規(guī)則對數(shù)據(jù)進行劃分。根據(jù)規(guī)則不同可以分為K-均值聚類,模糊聚類和基于密度的聚類DBSCAN等不同方法[10]。文獻[11]提取電量、電壓和線損等特征并利用K-均值聚類方法進行自動聚類,針對某臺區(qū)用電數(shù)據(jù)開展試驗,獲得了90.7% 的檢測結果;文獻[12]利用模糊聚類對竊電問題進行研究,提取用電變化率等4 類指標作為特征向量進行分析,利用某市153 個電力用戶用電數(shù)據(jù)驗證了該方法的有效性;文獻[13]利用DBSCAN 方法對某地區(qū)電力用戶用電數(shù)據(jù)進行異常檢測,并從準確率,誤報率和漏報率等指標進行分析,結果表明DBCAN 得到的檢測性能明顯優(yōu)于其它對比方法。
上述文獻所提方法在面對各自問題時雖然能夠獲得較為理想的檢測結果,但是基于分類的方法需要大量的帶標簽數(shù)據(jù)用于模型訓練,然而由于異常用電數(shù)據(jù)發(fā)生的隨機性和低概率特點,導致實際工程應用中難以獲得足夠的異常樣本進行模型訓練,制約了該類方法的使用?;诰垲惖姆椒m然不需要訓練樣本集,但是該類方法對模型參數(shù)的選擇具有較高依賴性,例如K-均值聚類K 值的選擇,DBSCAN 聚類中心的選擇等,而參數(shù)選擇在實際使用時往往比較棘手。同時隨著電力數(shù)據(jù)高維,非線性和大數(shù)據(jù)量的特點愈加明顯,單一異常檢測模型也逐漸暴露出準確率低,誤漏報率高的問題。
本文在上述研究的基礎上,提出一種基于最小熵K-均值聯(lián)合果蠅算法(fruit fly optimization algorithm,F(xiàn)OA)優(yōu)化支撐向量域描述(support vector data description,SVDD)的異常用電檢測方法。首先對原始用電數(shù)據(jù)提取76 維統(tǒng)計特征并利用PCA 進行特征變換,實現(xiàn)高維電力數(shù)據(jù)的降維表征,然后提出一種最小熵K-均值方法,自動確定聚類個數(shù)K的同時實現(xiàn)特征數(shù)據(jù)的聚類,將電力用戶自動劃分為4 種不同用電模式,最后采用SVDD 對各個聚類分別進行異常檢測,作為一種一類分類器,SVDD 只需要正常類樣本即可實現(xiàn)最優(yōu)分類面的確定,同時針對SVDD 核參數(shù)和懲罰因子的設置問題,利用自適應變步長改進后的FOA 算法進行全局尋優(yōu),提升異常檢測性能。采用某市電力用戶實際數(shù)據(jù)開展試驗,對所提方法的異常用電檢測性能進行了驗證。
用戶用電負荷數(shù)據(jù)是一種典型的終端數(shù)據(jù),能夠很好地反映用戶的用電行為和習慣,具有隨時間連續(xù)變化,曲線特征明顯的特點,因此本文選擇電力用戶全年的用電負荷數(shù)據(jù)作為研究對象。
用電負荷數(shù)據(jù)呈現(xiàn)出高維,非線性和大規(guī)模等特點,如果直接對其進行分析,需要消耗大量的運算資源,異常檢測效率低。同時由于量測誤差,數(shù)據(jù)傳輸誤差等因素的存在也會降低異常檢測結果的準確性和可靠性。因此需要對原始數(shù)據(jù)進行特征提取以降低后續(xù)檢測算法的運算復雜度,提升實時性和魯棒性。
1.1.1 波動性特征
波動性特征描述的是用戶用電數(shù)據(jù)相對于用電均值的起伏程度和離散趨勢,在統(tǒng)計理論中通常采用標準差和離散系數(shù)進行描述。標準差越大,離散系數(shù)越大表明數(shù)值的波動范圍越大、離散程度越高。
假設數(shù)據(jù)集中包含N個用戶的日常用電數(shù)據(jù),每個用戶的用電數(shù)據(jù)包含D天,M個月,Q個季度,L年的用電數(shù)據(jù),分別表示為
日用電序列為
月用電序列:
季度用電序列為
年用電序列為
則每月、每季度和全年用電序列的標準差分別為
式中:uym,uzq和uvl分別為每月、每季度和全年用電序列的均值。
根據(jù)標準差和均值可以計算得到每月、每季度和全年用電序列的離散系數(shù)為
1.1.2 變動性特征
變動性特征描述的是用戶用電量隨時間變化的差異程度,本文采用相鄰兩個月和相鄰兩個季度用電量均值之間的差和比值進行表征。具體計算公式為
式中:pyk和pzi分別為相鄰兩個月和兩個季度用電均值的差值,ryk和rzi分別為相鄰兩個月和兩個季度用電均值的比值。
1.1.3 趨勢性特征
趨勢性描述的是用戶用電量隨時間變化的整體趨勢,定義每個月、每個季度和全年用電量的最大值最小之差與均值的比為趨勢特征,其具體計算公式為
經過上述特征提取過程,原始用戶用電量數(shù)據(jù)被量化為76 維特征量的形式,特征提取指標見表1??梢詫⑵渲苯虞斎氲綑z測模型并進行異常判斷,但在實際使用過程中發(fā)現(xiàn),提取的特征中不可避免的會存在一些冗余特征,這些冗余特征會影響檢測性能,因此需要進一步對特征進行變換與降維,剔除其中的冗余信息,降低后續(xù)檢測識別運算復雜度。
表1 特征提取指標Table 1 Indicators of feature extraction
主成分分析(principal component analysis,PCA)是當前數(shù)據(jù)處理和分析領域中應用最廣的一種降維方法[14-15]。通過線性變換將高維空間中具有一定相關性的數(shù)據(jù)映射為低維空間中一組線性無關的新數(shù)據(jù),并確保映射過程中信息丟失最少,從而大大降低后續(xù)數(shù)據(jù)處理的資源消耗。
將每個電力用戶用電量對應的76 維特征構成特征電量fn=[F1,…,FN]T,上標T 表示矩陣轉置運算,將所有用戶的特征向量構成矩陣F=[f1,…,fN]。協(xié)方差矩陣C公式為
對C進行特征值分解可得特征向量矩陣D=[d1,…,dN]和特征值向量λ=[λ1,…,λN],即
從式(7)可以看出,協(xié)方差矩陣被分解為2 項,其中第1 項(前W個大特征值及特征向量)對應信號子空間,包含原始數(shù)據(jù)中的絕大部分有用信息,第2 項(剩余N-W個小特征值及特征向量)對應噪聲子空間,不包含任何有用信息。因此PCA 通過將原始高維數(shù)據(jù)投影到W維信號子空間中實現(xiàn)對數(shù)據(jù)的降維,即
式中,DW=[d1,…,dW] 。
通常選取占總能量90% 的大特征值個數(shù)作為信號子空間維度W,即:
K-均值是當前應用最為廣泛的一種無監(jiān)督聚類方法[16-17],利用樣本之間歐式距離的大小來量化樣本之間的相似性,通過將距離近的樣本劃分為同一簇實現(xiàn)樣本聚類,由于原理簡單、容易實現(xiàn)被廣泛應用于電力數(shù)據(jù)處理中。然而K-均值算法需要預先設定聚類個數(shù)K,K值設置不當會導致聚類質量出現(xiàn)明顯下降。本文將信息論中熵的概念引入K-均值算法,根據(jù)最小熵準則確定聚類個數(shù)K。進而將電力用戶自動劃分為K類,每一類中的用戶擁有相似的用電模式,從而可以降低后續(xù)異常檢測的復雜度,提升魯棒性。所提最小熵K-均值聚類算法步驟為:
步驟1:令類別數(shù)K=1;
步驟2:從特征集中隨機選取K個特征點作為當前聚類中心:o1,o2,…,oK;
步驟3:將特征集中所有樣本按歐式距離的大小劃分至距離其最近的聚類中心對應的類別中;
步驟4:對每個子類中樣本求平均得到當前聚類對應新的聚類中心;
步驟5:根據(jù)步驟4 得到的聚類中心對所有樣本進行重新聚類,將其劃分至距離最近的聚類中心對應的類別中;
步驟6:根據(jù)式(11)計算當前聚類劃分下的信息熵值為
步驟7:令K=K+1;
步驟8:重復以上步驟,直至聚類個數(shù)K等于聚類樣本數(shù)N時,算法終止;
步驟9:選取熵值最小時對應的聚類結果作為所提最小熵K-均值算法的最優(yōu)聚類。
在實際生活中,異常用電行為只發(fā)生在一小部分電力用戶中,通常難以獲得足夠多的異常用電樣本數(shù)據(jù),因此像傳統(tǒng)SVM 等多類分類器由于無法獲得足夠的多類訓練數(shù)據(jù)而應用受限。SVDD 是在異常檢測領域中廣泛應用的一種一類分類器,只需要一類“正?!睒颖炯纯蓸嬙扉]合分類模型,實現(xiàn)對未知樣本“正?!被颉爱惓!钡呐袛郲18]。
SVDD 優(yōu)化目標函數(shù)為[19]
其中:B(c,r)表示球心為c;半徑為r的超球體;C為懲罰因子;ξi為每個樣本gi,i=1,…;N對應的松弛變量;構成平衡系數(shù);N為樣本集大小。
真實數(shù)據(jù)的分布往往不會呈現(xiàn)球狀分布,針對這種情況SVDD 通過引入核函數(shù),將其映射到高維空間,使其在高維空間中符合球狀分布。目前常用的核函數(shù)為高斯核,具體形式為
式中:σ為高斯核參數(shù),決定著超球面邊界的緊密性。
利用核函數(shù)并引入拉格朗日乘子將式(12)轉換為對偶形式為
當α′i=0 時,對應的gi為“正?!睒颖?,處于超球面內,當>0 時,對應的gi為支撐向量,處于超球面上,當=C時,對應的gi為“異?!睒颖?,處于超球面外,從而實現(xiàn)對異常數(shù)據(jù)的檢測。
SVDD 性能的優(yōu)劣由核參數(shù)σ和懲罰因子C共同決定,目前常用的參數(shù)優(yōu)化方法有網格搜索法、遺傳算法和粒子群算法。但是網格搜索法運算復雜,實時性差,遺傳算法容易出現(xiàn)虛警,粒子群算法容易陷入局部極值。FOA 相對于上述方法具有更快的優(yōu)化速度和更少的參數(shù)數(shù)量,因此本文選用FOA 算法對SVDD 參數(shù)進行優(yōu)化,以提升異常檢測性能。
FOA 算法是通過對果蠅覓食過程進行抽象而得到的一種群體智能優(yōu)化算法,果蠅在覓食過程中通過群體協(xié)作、信息共享的方式進行全局搜索尋優(yōu),具有算法簡單、運算量小、尋優(yōu)精度高和收斂速度快等優(yōu)點。
FOA 算法的迭代過程包含2 個階段:首先果蠅個體利用嗅覺進行大范圍全局搜索,得到群體中離食物最近的個體,然后果蠅利用視覺進行局部搜索,確定最佳果蠅個體的位置,同時其他果蠅向該位置匯聚,通過嗅覺(全局)和視覺(局部)的相互配合不斷迭代,F(xiàn)OA 算法逐漸收斂于全局最優(yōu)解。其具體步驟為:
步驟1:參數(shù)初始化。設置果蠅群體的種群規(guī)模mf、最大迭代次數(shù)nf,搜索步長ΔR和群體的初始位置(X0,Y0);
步驟2:果蠅個體利用嗅覺進行搜索。公式為
式中,(Xi,Yi)為第i次迭代后的位置。
步驟3:計算當前果蠅個體到原點的距離Di,并得到其倒數(shù)Si,公式為
步驟4:利用Si計算得到當前果蠅位置的味道濃度值S′i,公式為
式中,第f(?)為適應度函數(shù)。
步驟5:記錄味道濃度最大的果蠅個體信息為
步驟6:果蠅群體利用視覺進行局部搜索,群體內其他果蠅向最優(yōu)位置聚集,公式為
步驟7:重復步驟2~6,直至滿足最大迭代次數(shù)。
從步驟2 可以看出,F(xiàn)OA 算法采用的是固定搜索步長ΔR,ΔR的大小影響著算法的全局和局部搜索能力,當ΔR較大時,F(xiàn)OA 的全局搜索能力提升,局部搜索能力下降,反之當ΔR較小時,F(xiàn)OA 算法的局部搜索能力增強,全局搜索能力降低。因此這種固定搜索步長會降低算法收斂速度和收斂精度。針對該問題,本文將搜索步長與迭代次數(shù)關聯(lián),提出一種自適應變步長搜索方法,在算法迭代初期采用較大搜索步長,保證算法的全局搜索能力,隨著迭代的進行,搜索步長逐漸減小以保證算法的局部搜索能力。修改后的搜索過程可以表示為
從式(20)可以看出,優(yōu)化后的搜索步長隨著迭代次數(shù)的增加而減小,迭代初期,采用較大搜索步長以保證果蠅能夠快速靠向最優(yōu)位置,隨著迭代的進行,搜索步長減小,果蠅在最優(yōu)位置附近進行細致的搜索,確保收斂于全局最優(yōu)解。
根據(jù)上述內容可知,所提算法中,PCA 的運用能夠解決電力數(shù)據(jù)高維,大數(shù)據(jù)量的問題,所提最小熵K-均值方法能夠解決K-均值聚類K值的確定問題,所提FOA 優(yōu)化SVDD 模型雖然是一種基于分類的方法,但是只需要正常類樣本即可獲得最優(yōu)分類面,大大降低實際使用過程中數(shù)據(jù)獲取難度,同時該模型能夠有效解決電力數(shù)據(jù)非線性問題。
本文所提異常用電檢測算法的流程圖見圖1,可以看出算法主要包含以下5 個步驟:
圖1 算法流程圖Fig.1 Flowchart of the algorithm
步驟1:數(shù)據(jù)預處理。對數(shù)據(jù)進行清洗,以消除數(shù)據(jù)中的殘缺、錯誤等影響異常檢測的問題數(shù)據(jù),同時對數(shù)據(jù)進行歸一化,消除不同量綱的影響;
步驟2:特征提取。提取第1 節(jié)介紹的76 維統(tǒng)計特征,實現(xiàn)初步的數(shù)據(jù)降維與特征表示;
步驟3:PCA 降維。利用PCA 算法對步驟2 提取的76 維特征進行分析,剔除其中包含的冗余信息,進一步對數(shù)據(jù)進行降維,降低后續(xù)算法運算復雜度;
步驟4:最小熵K-均值聚類。將PCA 輸出的特征向量作為聚類輸入數(shù)據(jù),利用第2 節(jié)所提最小熵K-均值算法進行聚類分析,將數(shù)據(jù)集合自動劃分為K個子類,每個子類中的用戶具有相似的用電習慣;
步驟5:改進后的FOA-SVDD 異常檢測。利用第3 節(jié)所提改進后的FOA-SVDD 模型對每個子類進行異常檢測,自動確定每個子類中的異常用戶。
為了驗證所提方法的有效性,選取廣東省某地區(qū)電網956 個電力用戶2018 年1 月1 日至2018年12 月31 日共一個自然年的日用電量數(shù)據(jù)開展試驗。首先根據(jù)以下原則進行數(shù)據(jù)預處理。
5.1.1 信息殘缺用戶處理
由于采集、記錄、傳輸或者用戶自身外出等原因,獲取的數(shù)據(jù)中會出現(xiàn)某些日期或某些用戶用電量為0 或缺失的現(xiàn)象,即這部分日期或用戶的用電信息殘缺嚴重,對其進行用電模式分類和異常檢測不僅沒有意義,反而會影響正確數(shù)據(jù)的特征提取和分類識別,因此需要對其進行預處理。
對于日用電數(shù)值為0 或者缺失的天數(shù)為全年時間30% 下的用戶,采用均值補差法進行數(shù)據(jù)填充,即利用為0 或缺失數(shù)據(jù)前后各5 天的數(shù)據(jù)的均值進行插補,對于日用電數(shù)值為0 或者缺失的天數(shù)超過全年時間30%的用戶,對其設置標簽并予以剔除處理。同樣當特定日期用電數(shù)據(jù)為0 或者缺失的電力用戶超過所有用戶的10%時,對該日期設置標簽并剔除該日期的所有數(shù)據(jù)。
經上述處理后,共剔除146 個無效電力用戶數(shù)據(jù)和21 個無效日期,將剩余810 個有效電力用戶共344 天的日用電量數(shù)據(jù)作為實驗數(shù)據(jù)集,其中包含36 個異常用戶,異常比例為4.4%。
5.1.2 數(shù)據(jù)歸一化
由于數(shù)據(jù)集中除普通電力用戶外還存在部分專變用戶,其額定電壓與容量存在較大差異,因此為了清除不同量綱的影響,需要對數(shù)據(jù)進行歸一化處理。本文采用Z-score 方法,利用特征數(shù)據(jù)的均值和標準差進行歸一化,見式(21),歸一化后數(shù)據(jù)集合服從均值為0,方差為1 的標準正態(tài)分布,從而消除了不同量綱的影響。
按照圖1 所示流程,對預處理后的數(shù)據(jù)提取表1所示76 維統(tǒng)計特征,并利用PCA 方法對其進行分析,得到的特征值從大到小排列,見圖2,可以看出前3 個特征值明顯大于剩余特征值,根據(jù)式(9)計算得到信號子空間維度為W=3,即選取前3 個主分量作為新的特征集,表2 給出了這3 維特征的相關性矩陣,可以看出3 個特征兩兩之間的相關系數(shù)極小,表明經PCA 處理后得到的新特征相互獨立,不含冗余信息,并且實現(xiàn)了對高維,大數(shù)據(jù)量電力數(shù)據(jù)的低維表征,有效降低后續(xù)異常檢測方法的運算復雜度。
圖2 歸一化特征值變化曲線Fig.2 Variation curve of normalized eigenvalue
表2 主分量相關性矩陣Table 2 Correlation matrix of principal component
將PCA 處理后的特征集合作為最小的K-均值算法的輸入進行無監(jiān)督聚類處理,圖3 給出了算法迭代過程中熵值的變化曲線,可以看出當聚類個數(shù)K=4 時,熵值最小,即根據(jù)所提最小熵準則自適應確定的聚類個數(shù)為4,從而有效解決了傳統(tǒng)K-均值聚類個數(shù)的確定難題。利用所提最小熵K-均值對特征集合聚類的結果見圖4,可以看出4 個類別的可區(qū)分性較為明顯,聚類效果較好。其中聚類1 中樣本數(shù)為346,包含2 個異常用戶;聚類2 中樣本數(shù)為133,包含7 個異常用戶;聚類3 中樣本為158,包含12 個異常用戶;聚類4 中樣本數(shù)為173,包含15 個異常用戶。
圖3 不同K值對應的熵Fig.3 Entropy corresponding to different K values
圖4 聚類結果Fig.4 Clustering results
對每個聚類中的用戶用電量進行平均得到的變化曲線見圖5,可以看出4 類用戶的用電模式存在較為明顯的差異性。
圖5 不同聚類用戶用電模式曲線Fig.5 Curves of electricity consumption patterns of different clusters of users
聚類1 中用戶呈現(xiàn)出典型的雙峰特點,在早上6 點~8 點和晚上6 點~10 點之間處于用電高峰時段,且在高峰時段的用電量較大,表明家中大功率電器較多,推測該類用戶大都屬于外企職工、政府機關等從業(yè)人員,過著朝九晚五按部就班的生活。
聚類2 中用戶是典型的“夜貓子”型用戶,其用電高峰出現(xiàn)在晚上10 點~第二天早上6 點之間,且在高峰時段的用電量較大,推測該類用戶可能從事網絡主播、金融或計算機方面的職業(yè)。
聚類3 中用戶是典型的“低欲望”型用戶,其用電量在全天都處于較低水平,用電負荷最大值也比較小,表明家中只使用小功率電器,推測該類用戶節(jié)電意識較強,對價格比較敏感,應該為早出晚歸的上班族。
聚類4 中用戶為“兩級分化”型用戶,其用電量從早上8 點到下午6 點一直處于較高的狀態(tài),晚上用電量比較低,推測該類用戶可能為自由職業(yè)或者個體戶,更多的在家辦公。
按照圖1 所示流程,在完成聚類之后,利用改進的FOA-SVDD 對每個聚類的數(shù)據(jù)集合進行異常檢測,算法迭代過程中,適應度函數(shù)值的變化曲線見圖6,同時為了對比,圖6 中給出了采用傳統(tǒng)固定步長FOA、粒子群算法和遺傳算法在相同條件下分別對SVDD 參數(shù)進行優(yōu)化得到的適應度函數(shù)值。從圖6 可以看出,對于聚類1 和聚類4,4 種方法得到的最優(yōu)適應度函數(shù)值是一致的,但是改進后的FOA 算法收斂速度最快,對于聚類2 和聚類3,傳統(tǒng)固定步長FOA 和遺傳算法最終收斂時適應度函數(shù)值較大,沒能收斂于全局最優(yōu)解,改進后的FOA 算法和PSO 算法能夠收斂于全局最優(yōu)解,但是改進后的FOA 算法收斂速度更快,實時性更強。
為了定量的評估所提方法的異常檢測性能,采用式(22)定義的準確率(ACC)、誤報率(FPR)和漏報率(FNR)3 種指標,其中TP 和FP 分別為被正確檢測的“正常”樣本數(shù)和被錯誤檢測的“正?!睒颖緮?shù),TN 和FN 分別為被正確檢測的“異?!睒颖緮?shù)和被錯誤檢測的“異?!睒颖緮?shù)。所提方法對4 類用戶的異常檢測結果見表3,同時為了對比,表3 給出了采用文獻[7]所提SVM 方法和文獻[8]所提BP 神經網絡方法得到的結果??梢钥闯鰧τ诰垲?,3 種方法均可以獲得最優(yōu)的檢測性能,對于聚類2、聚類3 和聚類4,所提方法在準確率,誤檢率和漏檢率3 項指標方面均優(yōu)于2 種對比方法,上述實驗驗證了所提方法的有效性。同時需要進一步指出的是,所提方法獲得的結果是在不需要帶標簽的異常數(shù)據(jù)進行訓練的條件下獲得的,而2 種對比方法的結果是在有異常數(shù)據(jù)進行訓練的情況下獲得的。所提方法在實際工程應用中大大降低了對數(shù)據(jù)獲取的難度,具有更高的應用前景。
表3 異常檢測結果Table 3 Anomaly detection results
本文提出一種基于最小熵K-均值和改進FOA-SVDD 一類分類器的異常用電檢測模型,該模型能夠有效解決電力數(shù)據(jù)高維、非線性和大數(shù)據(jù)量帶來的運算復雜度和異常檢測正確率低,誤漏報率高的問題。主要結論有以下幾點:
1)提出一種統(tǒng)計特征提取方法并結合PCA 完成對高維電力數(shù)據(jù)的降維特征表示,提升后續(xù)異常檢測運算效率;
2)針對K-均值聚類方法K值確定難題,提出一種最小熵準則自動確定聚類個數(shù),進而利用最小熵K-均值方法將特征集合劃分為K個子集,每個子集中的電力用戶具有相似的用電模式;
3)采用自適應變步長代替?zhèn)鹘y(tǒng)FOA 的固定步長,提升FOA 算法的收斂速度和精度,進而利用改進后的FOA 對SVDD 核參數(shù)和懲罰因子進行全局尋優(yōu),提升異常檢測性能以及非線性數(shù)據(jù)適應能力;
4)所提方法不需要帶標簽的異常數(shù)據(jù)進行模型訓練,大大降低了使用過程中的數(shù)據(jù)采集難度,具有更高的應用前景;
5)采用實際電力用戶用電數(shù)據(jù)開展試驗,結果表明所提方法相對于傳統(tǒng)方法能夠獲得更高的正確率,更低的誤報和漏報率。