基于CNN-LG模型的竊電行為檢測方法研究

2022-11-14 05:53:59卿柏元陳玨羽李金瑾蔣雯倩

湖南大學(xué)學(xué)報·自然科學(xué)版 2022年8期

卿柏元陳玨羽李金瑾蔣雯倩

摘要：針對當(dāng)前電網(wǎng)單一學(xué)習(xí)器竊電檢測方法準(zhǔn)確率低、實時性差且無特征提取的問題，提出一種基于卷積神經(jīng)網(wǎng)絡(luò)輕梯度提升機(jī)（CNN-LG）模型的竊電行為檢測方法.通過卷積神經(jīng)網(wǎng)絡(luò)（CNN）提取用戶用電數(shù)據(jù)電力特征，將提取特征輸入以決策樹為基學(xué)習(xí)器的輕梯度提升機(jī)（LG）分類器對數(shù)據(jù)進(jìn)行訓(xùn)練，據(jù)此建立基于卷積神經(jīng)網(wǎng)絡(luò)輕梯度提升機(jī)模型的竊電行為檢測方法.采用基于卷積神經(jīng)網(wǎng)絡(luò)輕梯度提升機(jī)模型對國家電網(wǎng)和愛爾蘭智能能源徑（ISET）數(shù)據(jù)集分別進(jìn)行竊電行為檢測.實驗結(jié)果表明，本文提出方法可快速準(zhǔn)確實現(xiàn)電網(wǎng)中各類竊電行為檢測，相比于現(xiàn)有檢測方法具有更高準(zhǔn)確度、更優(yōu)泛化性能和實時性.

關(guān)鍵詞：竊電；決策樹；用電數(shù)據(jù)；卷積神經(jīng)網(wǎng)絡(luò)；輕梯度提升機(jī)

中圖分類號：TM715文獻(xiàn)標(biāo)志碼：A

Research on Detection Method of Electricity Theft Behavior Based on CNN-LG Model

QING Boyuan，CHEN Jueyu，LI Jinjin，JIANG Wenqian

（Measurement Center of Guangxi Power Grid Co.，Ltd.，Nanning 530023，China）

Abstract：Focusing on the problems of low accuracy，poor real-time performance，and no feature extraction in the current grid single learner power-theft detection method，a power-theft behavior detection method based on the Convolutional Neural Network-Light Gradient Boosting Machine （CNN-LG）model is proposed. First，the power features of user electricity data are extracted through the Convolutional Neural Network （CNN），and the extracted features are input into the Light Gradient Boosting Machine （LightGBM，LG）classifier based on the decision tree in order to train the data. On this basis，a detection method of electricity theft based on the CNN-LG model is established. Finally，the State Grid Corporation of China and Irish Smart Energy Trail（ISET）datasets are used to conduct experiments to verify the accuracy and effectiveness of the method proposed in this paper. The experimental results show that the method proposed in this paper can quickly and accurately realize the detection of various power theft behaviors in the power grid. Compared with the existing detection methods，it has higher accuracy，better generalization performance，and real-time performance.

Key words：electricity theft；decision trees；electricity data；convolutional neural networks；Light Gradient Boosting Machine（LightGBM，LG）

電力系統(tǒng)中配電網(wǎng)的電能損失分為技術(shù)損失（Technical Loss，TL）和非技術(shù)損失（Non-technical Loss，NTL）[1]，造成NTL的原因多數(shù)與用戶側(cè)竊電相關(guān).竊電用戶的竊電非法行為不僅對電力公司造成巨大的經(jīng)濟(jì)損失、擾亂電力市場供電秩序，而且對電網(wǎng)安全穩(wěn)定運行造成巨大風(fēng)險[2].因此，研究如何提高竊電檢測準(zhǔn)確率，降低非技術(shù)損失，對于電力公司運營和社會發(fā)展具有重大價值與意義.

傳統(tǒng)的竊電檢測是利用人工現(xiàn)場稽查的方式對可疑用戶進(jìn)行排查，需耗費巨大人力成本且效率低. 隨著智能電網(wǎng)的發(fā)展，能源互聯(lián)網(wǎng)作為智能電網(wǎng)逐漸演變的產(chǎn)物，擁有能源和信息流雙向性的特征，而由智能電表、集中器、通信網(wǎng)絡(luò)及數(shù)據(jù)管理系統(tǒng)組成的高級量測體系（Advanced Metering Infrastructure，AMI）作為能源互聯(lián)網(wǎng)信息流的主要組成部分正逐步在電網(wǎng)建立與完善.隨著AMI的快速發(fā)展，使得利用智能電表的海量數(shù)據(jù)進(jìn)行竊電檢測成為更加高效的檢測方式[3]0在AMI下利用智能電表數(shù)據(jù)對竊電行為進(jìn)行檢測的方法可分為以下3類[1].

第1類為基于電網(wǎng)狀態(tài)的檢測方法.該類方法通過分析配電網(wǎng)的拓?fù)浣Y(jié)構(gòu)，結(jié)合網(wǎng)絡(luò)潮流計算、系統(tǒng)狀態(tài)等理論，計算用戶數(shù)據(jù)的理論值，再與實際量測值比較，實時檢測竊電用戶[4].文獻(xiàn)［5］提出使用電力用戶的有功和無功功率歸一化殘差檢測和定位配電網(wǎng)中的異常用電.文獻(xiàn)［6］提出基于狀態(tài)估計和電源管理單元的竊電用戶檢測和定位模型，通過分析功率和電壓的量測值偏差對竊電嫌疑用戶定位. 當(dāng)前實際電網(wǎng)結(jié)構(gòu)和設(shè)備種類較多、數(shù)據(jù)復(fù)雜、計算難度大，電網(wǎng)完整的網(wǎng)絡(luò)拓?fù)浜蛥?shù)往往難以獲取，且在配電網(wǎng)中安裝額外設(shè)備輔助檢測，不僅安裝困難且需額外設(shè)備支出［7］.

第2類為基于博弈論的檢測方法.該類方法認(rèn)為竊電用戶與電力公司之間存在博弈，且可從博弈均衡中獲得竊電用戶和正常用戶消費的不同分布[8].文獻(xiàn)［9］構(gòu)建納什均衡模型，建立竊電用戶集與供電企業(yè)間的Stackelberg博弈.文獻(xiàn)［10］提出使用博弈論解決新型智能家居環(huán)境下的電力市場模型構(gòu)建問題，由于基于博弈論的方法側(cè)重于具有強(qiáng)大假設(shè)的理論分析，尚未得到實證的檢驗［8］.

第3類為基于人工智能檢測方法.該類方法是AMI下最為廣泛的竊電行為檢測方法，可基于用戶負(fù)荷曲線和用電量的特征對竊電用戶識別［11］.針對無標(biāo)簽的用戶數(shù)據(jù)，可采用基于聚類等無監(jiān)督學(xué)習(xí)的方法對竊電行為檢測，該類方法通過分析用戶間的用電關(guān)系發(fā)現(xiàn)離群點，以此作為依據(jù)對竊電行為進(jìn)行檢測[12-13].而現(xiàn)階段基于無監(jiān)督學(xué)習(xí)的竊電檢測方法因其參數(shù)難以設(shè)置，從而無法達(dá)到較高的檢測精度，且難以處理大規(guī)模的高維數(shù)據(jù)［14］.為克服無監(jiān)督學(xué)習(xí)方法不足，通過采用有監(jiān)督學(xué)習(xí)對帶有標(biāo)簽的用戶歷史用電量數(shù)據(jù)進(jìn)行學(xué)習(xí)，尋找異常用電模式，再對其他用戶進(jìn)行竊電檢測.神經(jīng)網(wǎng)絡(luò)因其網(wǎng)絡(luò)訓(xùn)練次數(shù)過多易出現(xiàn)過擬合［15］，而當(dāng)采用SVM或決策樹方法時，若用電數(shù)據(jù)集中含有數(shù)據(jù)缺失等噪聲時檢測結(jié)果較差［16-18］，對于用戶用電高維數(shù)據(jù)，基于淺層結(jié)構(gòu)的模型無法有效檢測［19］.上述基于有監(jiān)督學(xué)習(xí)方法均采用單一學(xué)習(xí)器進(jìn)行竊電檢測，由于不同學(xué)習(xí)器預(yù)測結(jié)果可能存在差異，因此，基于單一學(xué)習(xí)器無法通過訓(xùn)練獲取準(zhǔn)確的檢測模型[20-21].文獻(xiàn)［22］采用XGboost集成學(xué)習(xí)方法檢測竊電行為，但是該方法在處理海量用電數(shù)據(jù)時，無法實現(xiàn)準(zhǔn)確預(yù)測分類，且消耗內(nèi)存資源大，尤其在遍歷分割點時，需進(jìn)行分裂增益計算，導(dǎo)致模型訓(xùn)練時間較長.

本文針對電網(wǎng)中跨類雜糅竊電行為的快速、準(zhǔn)確檢測難題，首先，對AMI下采集的用戶原始用電數(shù)據(jù)進(jìn)行預(yù)處理，通過CNN對預(yù)處理用電數(shù)據(jù)進(jìn)行特征提取；再以決策樹為基學(xué)習(xí)器的LightGBM集成學(xué)習(xí)方法對數(shù)據(jù)訓(xùn)練獲得竊電檢測模型，據(jù)此建立基于卷積神經(jīng)網(wǎng)絡(luò)輕梯度提升機(jī)（Convolutional Neural Network-Light Gradient Boosting Machine，CNN-LG）模型的竊電行為檢測方法；最后通過國家電網(wǎng)數(shù)據(jù)集和愛爾蘭智能能源徑（Irish Smart Energy Trail，ISET）數(shù)據(jù)集分別對本文提出方法的準(zhǔn)確性和有效性進(jìn)行驗證與分析.

1基于CNN-LG模型竊電行為檢測算法

1.1卷積神經(jīng)網(wǎng)絡(luò)

用戶用電數(shù)據(jù)時間序列特征的準(zhǔn)確提取是實現(xiàn)竊電用戶識別的關(guān)鍵環(huán)節(jié).卷積神經(jīng)網(wǎng)絡(luò)由輸入、卷積層、池化層、全連接層及輸出層組成［23］.CNN模型框架如圖1所示.CNN擁有表征學(xué)習(xí)能力，對輸入數(shù)據(jù)能按其網(wǎng)絡(luò)結(jié)構(gòu)層層學(xué)習(xí)，基于CNN提取特征效果明顯，對數(shù)據(jù)沒有額外的特征工程要求.因此，本文采用CNN對用戶用電數(shù)據(jù)特征自適應(yīng)提取.

由圖1可知，卷積層為CNN的核心組成模塊，由一組平行特征圖組成，通過卷積核對輸入特征圖進(jìn)行卷積運算，得到輸出特征圖，該特征圖中所有元素均通過同一個卷積核計算，即權(quán)值和偏置項共享.卷積運算如下：

式中：X為卷積運算后得到的數(shù)據(jù).

池化層在CNN中用于縮小模型體積，提高計算速度，同時提高所提取特征的魯棒性，在減少冗余特征量同時，保留用電行為主要特征，通過減少計算參量以達(dá)到降維效果，防止過擬合現(xiàn)象，提高模型泛化能力.實際上池化操作為一種下采樣操作，其操作包括最大池化、均值池化、隨機(jī)池化等.池化操作計算式為：

式中：a（u，v）表示池化層輸入矩陣中行列的值；p（i，j）表示池化層輸出矩陣第i行j列的值；w表示參與集合區(qū)域的邊值.

全連接層將CNN中最后一個池化層的所有神經(jīng)元進(jìn)行全連接操作，其模型可表示為：

y=wx+b（4）

式中：x為全連接層的輸入；w為權(quán)值矩陣；b為偏置向量.全連接層起到所學(xué)到的分布式特征映射到樣本標(biāo)記空間的作用.

1.2LightGBM算法

LightGBM由Ke等于2017年提出[24]，該方法為Boosting算法重要成員，屬于輕量級的提升決策樹（Gradient Boosting Decision Tree，GBDT）算法，以使用決策樹為學(xué)習(xí)算法的基分類器.LightGBM主要提升GBDT在處理高維度大數(shù)據(jù)時算法訓(xùn)練效率和準(zhǔn)確度，采用分布式的算法框架，支持高效率并行訓(xùn)練，具有訓(xùn)練速度快、內(nèi)存消耗低、準(zhǔn)確度高及支持分布式計算以達(dá)到快速處理海量用戶用電數(shù)據(jù)的優(yōu)點.算法主要通過基于直方圖（Histogram）的決策樹算法、帶深度限制的按葉生長（Leaf-wise）策略、基于梯度的單邊采樣（Gradient-based one-side Sampling，GOSS）算法以及互斥特征捆綁（Exclusive Feature Bundling，EFB）算法進(jìn)行優(yōu)化.

直方圖算法也稱為Histogram算法，先把連續(xù)的浮點特征值離散化成k個整數(shù)，同時構(gòu)造一個寬度為k的直方圖.直方圖算法示意圖如圖2所示.

由圖2可知，在遍歷數(shù)據(jù)時，根據(jù)離散化后的值作為索引在直方圖中累積統(tǒng)計量，當(dāng)遍歷一次數(shù)據(jù)后，在直方圖中累積需要的統(tǒng)計量，再根據(jù)直方圖的離散值，遍歷尋找最優(yōu)的分割點.

LightGBM算法使用按葉生長（Leaf-wise）策略，如圖3所示.每次在當(dāng)前葉子節(jié)點中，尋找出分裂增益最大的葉子節(jié)點進(jìn)行分裂，而其他結(jié)點不再分裂，這樣可以提高精度，但缺點是可能會長出較深的決策樹，產(chǎn)生過擬合.為此，在Leaf-wise上增加maxdepth參數(shù)進(jìn)行限制，以控制模型的復(fù)雜度，同時防止過擬合現(xiàn)象發(fā)生.

LightGBM通過基于梯度的單邊采樣算法減少數(shù)據(jù)量和互斥特征捆綁算法減少特征量以優(yōu)化模型訓(xùn)練效率.基于梯度的單邊采樣算法，通過對樣本采樣的方法減少計算目標(biāo)函數(shù)增益時的復(fù)雜度，在計算信息增益時，梯度更大的樣本點占有更重要的作用；在對樣本進(jìn)行下采樣時，保留梯度較大的樣本點，并隨機(jī)去除梯度較小的樣本點.具體做法：首先，將樣本按照梯度排序，選出梯度最大的a×100%個樣本；在剩下小梯度數(shù)據(jù)中隨機(jī)選取b×100%個樣本，在計算信息增益時，將選出來的b×100%小梯度樣本的信息增益擴(kuò)大1-a/b的倍數(shù).互斥特征捆綁算法是將互斥特征綁在一起以減少特征維度，該算法可有效減少用于構(gòu)建直方圖的特征數(shù)量，降低計算復(fù)雜度，尤其當(dāng)特征中包含大量稀疏特征時，LightGBM算法訓(xùn)練速度提升更為明顯.

針對單一卷積神經(jīng)網(wǎng)絡(luò)模型，在竊電用戶分類預(yù)測應(yīng)用中存在功能單一導(dǎo)致準(zhǔn)確率不足的問題，本文提出2種模型的融合算法，通過LightGBM代替卷積神經(jīng)網(wǎng)絡(luò)中的Softmax層，使網(wǎng)絡(luò)中最后一層歸一化處理，變成對用電特征集成學(xué)習(xí)分類的優(yōu)化處理，從而實現(xiàn)竊電行為的準(zhǔn)確識別.

1.3CNN-LG竊電行為檢測

為實現(xiàn)竊電行為準(zhǔn)確檢測，采用CNN提取時間序列的關(guān)聯(lián)特征，將CNN結(jié)構(gòu)中Softmax層用LightGBM代替，構(gòu)建基于CNN-LG的竊電行為檢測方法.CNN-LG竊電行為檢測模型如圖4所示，實現(xiàn)步驟如下.

1）將初始化卷積神經(jīng)網(wǎng)絡(luò)用預(yù)處理后的數(shù)據(jù)集通過兩個卷積層和兩個池化層進(jìn)行預(yù)訓(xùn)練，并將訓(xùn)練好的權(quán)重固定，保存CNN模型參數(shù).

2）將預(yù)處理后數(shù)據(jù)分為訓(xùn)練集、驗證集和測試集.

3）設(shè)置網(wǎng)絡(luò)訓(xùn)練迭代次數(shù)，利用訓(xùn)練集對網(wǎng)絡(luò)進(jìn)行訓(xùn)練，輸出每次迭代的準(zhǔn)確率，并與全局準(zhǔn)確率比較，若準(zhǔn)確率更高則更新權(quán)重，否則不更新.

4）利用已經(jīng)訓(xùn)練完成的卷積神經(jīng)網(wǎng)絡(luò)對用電數(shù)據(jù)集進(jìn)行特征提取.

5）將步驟4）中提取的特征輸入至LightGBM模型，首先初始化n棵分類決策樹，其中訓(xùn)練樣例的權(quán)重為1/n；訓(xùn)練弱分類器f（x），根據(jù)訓(xùn)練誤差確定當(dāng)前弱分類器f（x）的權(quán)重λ；當(dāng)達(dá)到最大迭代次數(shù)，訓(xùn)練得到最終分類器，如式（5）所示.

f_n（x）=λ₀f₀（x）+λ₁f₁（x）+λ₂f₂（x）+…+λ_if_i（x）+…+λ_nf_n（x）（5）

式中：n為算法迭代次數(shù)；i為第i次迭代，0≤i≤n.將測試集輸入至訓(xùn)練完成的CNN-LG模型中，以此獲得檢測結(jié)果.

本文提出的CNN-LG算法流程圖如圖5所示. 該算法有效利用卷積神經(jīng)網(wǎng)絡(luò)可自適應(yīng)提取特征，且對數(shù)據(jù)無額外特征工程要求的優(yōu)點，結(jié)合LightGBM具有并行訓(xùn)練效率高、訓(xùn)練速度快、內(nèi)存消耗低、準(zhǔn)確度高的優(yōu)勢，對國家電網(wǎng)中海量用戶用電數(shù)據(jù)進(jìn)行竊電行為檢測.CNN-LG模型參數(shù)設(shè)置如表1所示.

2數(shù)據(jù)分析與預(yù)處理

2.1數(shù)據(jù)分析

采用2種不同數(shù)據(jù)集驗證本文提出方法的有效性和準(zhǔn)確性.第1種是國家電網(wǎng)（State Grid Corporation of China，SGCC）公開數(shù)據(jù)集，該數(shù)據(jù)集包含正常用戶和竊電用戶，提供是否竊電的標(biāo)簽[25-26]，第2種為ISET數(shù)據(jù)集，該數(shù)據(jù)集被認(rèn)為只包含正常用戶. 本文通過篡改用電數(shù)據(jù)以模擬用戶竊電，其中選取6 種模式對正常數(shù)據(jù)進(jìn)行模擬竊電攻擊模式.

SGCC數(shù)據(jù)集由中國國家電網(wǎng)提供某地區(qū)的用戶用電數(shù)據(jù)，該數(shù)據(jù)集包含從2014年1月―2016年10月，近147周42 372個用戶每天的用電量.該數(shù)據(jù)集分為正常用戶和竊電用戶，其中竊電用戶為3 615 個，占總用戶數(shù)的8.53%；正常用戶為38 757個，占總用戶數(shù)的91.47%.

對SGCC數(shù)據(jù)集進(jìn)一步分析得到正常用戶和竊電用戶電量值分別如圖6和圖7所示.由圖6（a）和7（a）可知，很難發(fā)現(xiàn)以天為單位的正常用戶日用電量和竊電用戶日用電量的用電規(guī)律；由圖6（b）和7（b）可知，正常用戶日用電量趨勢大致相同，即第3 d用電量為峰值，第5d用電量為谷值；竊電用戶在前些周日用電量呈一定幅度的周期性波動，而從某周開始竊電用戶的日用電量隨時間變化呈下降趨勢，并維持在較低用電量水平，且該147周數(shù)據(jù)呈現(xiàn)類似規(guī)律.進(jìn)一步提煉竊電用戶行為特征可知，竊電用戶初始用電量相比正常用戶更多（正常用戶日用電量為2～4 kWh，竊電用戶日用電量為10～40 kWh），由此可知，竊電用戶竊電行為收益更大、竊電動機(jī)更足.

為進(jìn)一步挖掘竊電用戶和正常用戶間用電量的區(qū)別，本文采用Pearson相關(guān)系數(shù)進(jìn)行分析，計算式如下：

ISET數(shù)據(jù)集由愛爾蘭CER（The Commission for Energy Regulation）組織的Electricity Customer Behaviour Trial提供，該組織通過智能電表記錄居民和商業(yè)共5 000個用戶，從2009年一2010年共533 d的用電數(shù)據(jù)[27].該數(shù)據(jù)集提供各用戶每天每半小時用電量，可用向量X=[x₁，x₂，…，x₄₈]代表某個用戶一天的用電量情況，該數(shù)據(jù)集被認(rèn)為全部是正常用戶的用電量數(shù)據(jù).為了對竊電檢測模型進(jìn)行訓(xùn)練，本文采用6種攻擊模式對該數(shù)據(jù)集進(jìn)行篡改，模擬產(chǎn)生竊電行為[28].該6種篡改模式數(shù)學(xué)式如表2所示.其中，類型1表示所有讀數(shù)乘以相同的隨機(jī)生成的參數(shù)（0.2～0.8）；類型2表示電表讀數(shù)乘以不同的隨機(jī)數(shù)α_t；類型3表示電表在t₁-t₂時間段內(nèi)發(fā)送其抄表數(shù)，并在其他時間段發(fā)送零，t₁-t₂是一個隨機(jī)定義的超過6h的時間段；類型5表示電表將當(dāng)天計量數(shù)據(jù)的平均值發(fā)送到數(shù)據(jù)管理系統(tǒng)；類型4在類型5的基礎(chǔ)上乘以隨機(jī)因子α_t；類型6表示竊電用戶顛倒一天中的抄表順序.

對任何企圖竊電的用戶來說，其目的是減少或消除自己所需支付的電費.設(shè)在力時段，經(jīng)過篡改后電表所記錄的用戶用電量為x_t，對應(yīng)時刻的單位電價為p_t，而用戶實際的用電量為x^*_t，則

即篡改后的電費較原來更低.

用電用戶可能會將某些時刻的電表讀數(shù)直接篡改為0，或按一定比例削減自己的用電量，也有可能在不改變總體用電量的同時對用電曲線進(jìn)行移峰，以取得如式（7）所示的效果.6種攻擊模式下產(chǎn)生的用電量曲線如圖9所示.

2.2數(shù)據(jù)預(yù)處理

智能電能表采集的用戶用電量數(shù)據(jù)中可能包含錯誤數(shù)據(jù)或有數(shù)據(jù)缺失，因此需對缺失數(shù)據(jù)進(jìn)行補(bǔ)值處理，本文采用牛頓差值法對采集數(shù)據(jù)的缺失值進(jìn)行處理.已知n個點對（x₁，y₁），（x₂，y₂），…，（x_n，y_n）的所有階差商式分別為：

聯(lián)立式（8）～式（11），建立差值多項式f（x），有

式中：P（x）表示牛頓差值逼近函數(shù)；R（x）表示誤差函數(shù).將缺失點x代入f（x）求得缺失值.

針對智能電能表采集的錯誤值（即離群點值），本文采用3σ定律對離群值進(jìn)行修復(fù)，計算式如下：

式中：σ（X_i）為向量X_i的標(biāo)準(zhǔn)差；x_i為某用戶在一個周期內(nèi)的用電量值；NaN表示x_i為非數(shù)值符號或0時的情況.

為平衡樣本數(shù)據(jù)，本文采用隨機(jī)過采樣方法，通過復(fù)制少數(shù)類示例來平衡數(shù)據(jù)，以消除數(shù)據(jù)不平衡帶來的影響.

3算例分析

3.1模型評價指標(biāo)構(gòu)建

竊電行為檢測本質(zhì)上為二元分類問題，當(dāng)算法完成對用戶的分類后，需對檢測方法的準(zhǔn)確性進(jìn)行評估.混淆矩陣是衡量方法優(yōu)劣的重要工具，表3為竊電行為檢測中的混淆矩陣.

混淆矩陣將所有被檢測用戶按照實際歸屬和檢測歸屬分為TP、FN、FP和TN這4類，TP和TN為模型檢測下正確分類的部分，比例越高說明檢測效果越好.命中率T_PR和誤檢率F_PR計算式分別如下：

由式（14）和式（15）可知，T_PR越接近1，F(xiàn)_PR越接近0，說明檢測效果越好.通過表3的混淆矩陣定義召回率（R_ecall）、精度（P_recision）以及F₁值，對應(yīng)式（16）～式（18）所示.

式中：R_ecall表示在實際為正的樣本中被預(yù)測為正樣本的概率.

式中：P_recision表示被分為正例的樣本中實際為正例的比例；F₁表示使用調(diào)和平均結(jié)合召回率和精度的指標(biāo).

ROC曲線下區(qū)域面積A_UC（Area Under ROC Curve）可通過接收者操作特征曲線（Receiver Operating Characteristic，ROC）下的各部分面積和求得，A_UC值越大越好，當(dāng)A_UC=1時為理想分類器.A_UC計算式如下[25]：

式中：R_anki代表樣本，的排序值；M為正樣本的個數(shù)；N為負(fù)樣本的個數(shù).

平均精度均值M_AP（Mean Average Precision）用于評估模型檢測性能.M_AP@N定義為在前N個嫌疑度最高的用戶中，檢測模型正確識別為竊電用戶的平均精度均值[25]，即

式中：r代表在前N個嫌疑度最高的用戶中竊電用戶的數(shù)量.P@k_i定義為：

3.2實驗驗證

為驗證本文提出算法的有效性和準(zhǔn)確性，實驗平臺采用64位6核心十二線程的Intel Core i7- 8750H CPU@2.20 GHz，深度學(xué)習(xí)框架采用Tensor- Flow和Keras.實驗數(shù)據(jù)為基于中國國家電網(wǎng)（SGCC）公開數(shù)據(jù)集和ISET公開數(shù)據(jù)集，具體介紹詳見本文第2節(jié).本文通過對CNN、LightGBM（該方法簡稱LG）、CNN+隨機(jī)森林（CNN用于特征提取，隨機(jī)森林用于分類，該方法簡稱CNN-RF）[29]、CNN+XG- boost（CNN用于特征提取，XGboost用于分類，該方法簡稱CNN-XG）以及本文方法進(jìn)行比較.

針對SGCC數(shù)據(jù)集的檢測試驗，各模型輸入項為經(jīng)預(yù)處理后的數(shù)據(jù)集.本文隨機(jī)選取50%輸入數(shù)據(jù)作為訓(xùn)練樣本（其中40%作為訓(xùn)練集，10%作為驗證集），余下50%數(shù)據(jù)作為測試樣本.基于SGCC數(shù)據(jù)集下不同竊電檢測方法的結(jié)果如表4所示.

由表4可知，本文采用的CNN-LG竊電行為檢測模型在SGCC數(shù)據(jù)集下各項指標(biāo)均優(yōu)于其他幾種方法，在CNN和LightGBM模型基礎(chǔ)上檢測精度均有一定提升，其中F₁值達(dá)到0.894 17，M_AP@100為0.990 29；A_UC值由原CNN的0.792 08和LightGBM的0.744 77提升至0.863 33.由此可知，本文提出方法有效利用二者優(yōu)點，實現(xiàn)竊電行為準(zhǔn)確檢測，且CNN和LightGBM模型融合相比于CNN與其他兩種集成學(xué)習(xí)方法融合檢測效果更好.采用ROC曲線對所有方法的實驗結(jié)果進(jìn)行可視化描述，如圖10所示，在ROC空間坐標(biāo)中，越靠近左上的ROC曲線意味著在同樣的檢測命中率下造成的誤檢率（F_PR）越低，檢測效果越好；A_UC為ROC曲線下的各部分面積和，其值為竊電檢測非常重要的評價指標(biāo)，本文提出的基于CNN-LG模型的竊電行為檢測方法A_UC值表現(xiàn)優(yōu)于其他方法.

竊電行為的快速檢測為電力公司現(xiàn)場稽查提供依據(jù).對本文提出的CNN-LG竊電行為檢測模型的實時性進(jìn)行驗證，隨機(jī)選取SGCC數(shù)據(jù)集50%作為實驗數(shù)據(jù)，通過與CNN-XG、CNN-RF以及CNN-LG 3種融合模型訓(xùn)練時間進(jìn)行比較，其中CNN訓(xùn)練模型的迭代次數(shù)為10.各方法的實驗結(jié)果如圖11所示，由圖11可見，CNN-XG模型、CNN-RF模型、CNN-LG模型訓(xùn)練時間分別為93.86 s、81.74 s、42.47 s. 由此可知，本文提出方法的模型訓(xùn)練時間遠(yuǎn)低于其他兩種方法，在實際電網(wǎng)環(huán)境下的數(shù)據(jù)集中實時性表現(xiàn)更好.

針對ISET數(shù)據(jù)集的檢測試驗，在用戶533 d的樣本中隨機(jī)選擇50%的樣本，采用表2中的6種竊電手段，隨機(jī)選擇50%數(shù)據(jù)作為訓(xùn)練集（其中40%作為訓(xùn)練集，10%作為驗證集），剩余50%數(shù)據(jù)作為測試集，以驗證模型的有效性.基于ISET數(shù)據(jù)集下不同竊電檢測方法的結(jié)果如表5所示.

由表5可知，本文采用的CNN-LG竊電行為檢測模型在ISET數(shù)據(jù)集下各項指標(biāo)均優(yōu)于其他幾種方法，在CNN和LightGBM模型基礎(chǔ)上檢測精度均有一定提升，其中F₁值達(dá)到0.877 75，M_AP@100為1，M_AP@200為0.992 16；A_UC值由原CNN的0.837 31和LightGBM的0.783 84提升至0.963 44，提升效果明顯，而CNN-RF的A_UC值為0.935 25，CNN-XG 的A_UC值為0.958 41，由此可知，CNN和LightGBM模型融合相比于CNN與其他兩種集成學(xué)習(xí)方法融合檢測效果更好.采用ROC曲線對所有方法的實驗結(jié)果進(jìn)行可視化描述，如圖12所示，可明顯看出，本文提出方法的A_UC值表現(xiàn)優(yōu)于其他方法.

對本文提出的基于CNN-LG模型竊電行為檢測方法的實時性進(jìn)行驗證，隨機(jī)選擇經(jīng)篡改后的ISET數(shù)據(jù)集50%數(shù)據(jù)作為實驗數(shù)據(jù)，通過與CNN-XG、CNN-RF以及CNN-LG 3種融合模型訓(xùn)練時間進(jìn)行比較，其中CNN訓(xùn)練模型的迭代次數(shù)為10.圖13為ISET數(shù)據(jù)集下不同方法的模型訓(xùn)練時間，其中CNN-XG模型訓(xùn)練時間為16.37 s，CNN-RF模型訓(xùn)練時間為14.84 s，CNN-LG模型的訓(xùn)練時間為10.76 s.由此可知，本文提出方法的模型訓(xùn)練時間遠(yuǎn)低于其他兩種方法，在ISET數(shù)據(jù)集中實時性表現(xiàn)更好.

通過上述2種不同數(shù)據(jù)集的實驗可知，本文提出的基于CNN-LG模型竊電行為檢測方法在實際電網(wǎng)數(shù)據(jù)集下檢測準(zhǔn)確度高，相比于其他幾種方法，各項評價指標(biāo)均更優(yōu)，表現(xiàn)出良好的泛化性能，且該融合模型相比于其他融合模型實時性更好.

4結(jié)論

本文提出基于CNN-LG模型的竊電行為檢測方法，實現(xiàn)了竊電行為的快速準(zhǔn)確檢測，通過國家電網(wǎng)和ISET兩種不同實際電網(wǎng)數(shù)據(jù)集對本文所提方法進(jìn)行實驗驗證.結(jié)果表明，通過卷積神經(jīng)網(wǎng)絡(luò)和LightGBM的融合模型可有效利用二者優(yōu)點對竊電行為進(jìn)行快速準(zhǔn)確檢測，該模型可從用戶用電數(shù)據(jù)準(zhǔn)確提取電力特征，避免人為特征提取的不確定性和復(fù)雜性.LightGBM用于分類預(yù)測，進(jìn)一步提高檢測準(zhǔn)確度，通過減少數(shù)據(jù)量和特征量提高檢測效率，降低內(nèi)存占用率以達(dá)到快速檢測效果，且擁有更小的計算復(fù)雜度，在保證高效率的同時防止過擬合現(xiàn)象的出現(xiàn)，相比于現(xiàn)有單模型和融合模型方法，表現(xiàn)出更高準(zhǔn)確度、良好的泛化性能以及更好的實時性. 本文提出方法更適用于電網(wǎng)中各類竊電行為檢測，有助于提高電力公司稽查效率，為電力公司在對非法用戶竊電行為現(xiàn)場稽查取證時，提供有效的依據(jù)和可靠的目標(biāo).

參考文獻(xiàn)

[1]陳啟鑫，鄭可迪，康重慶，等.異常用電的檢測方法：評述與展望[J].電力系統(tǒng)自動化，2018，42（17）：189-199.

CHEN Q X，ZHENG K D，KANG C Q，et al. Detection methods of abnormal electricity consumption behaviors：review and prospect [J]. Automation of Electric Power Systems，2018，42（17）：189-199. （In Chinese）

[2]王德文，楊凱華.基于生成式對抗網(wǎng)絡(luò)的竊電檢測數(shù)據(jù)生成方法[J].電網(wǎng)技術(shù)，2020，44（2）：775-782.

WANG D W，YANG K H. A data generation method for electricity theft detection using generative adversarial network [J]. Power System Technology，2020，44（2）：775-782. （In Chinese）

[3] ANGELOS E W S，SAAVEDRA O R，CORTES O A C，et al. Detection and identification of abnormalities in customer consumptions in power distribution systems[J]. IEEE Transactions on Power Delivery，2011，26（4）：2436-2442.

[4]HUANG S C，LO Y L，LU C N. Non-technical loss detection using state estimation and analysis of variance[J]. IEEE Transactions on Power Systems，2013，28（3）：2959-2966.

[5] RAGGI L M R，TRINDADE F C L，CUNHA V C，et al. Nontechnical loss identification by using data analytics and customer smart meters[J]. IEEE Transactions on Power Delivery，2020，35 （6）：2700-2710.

[6]CARQUEX C，ROSENBERG C. Multi-timescale electricity theft detection and localization in distribution systems based on state estimation and PMU measurements [C]//Proceedings of the Ninth International Conference on Future Energy Systems. New York，USA：Association for Computing Machinery，2015：282-290.

[7] KRISHNA VB，GUNTER C A，SANDERS W H. Evaluating detectors on optimal attack vectors that enable electricity theft and DER fraud[J]. IEEE Journal of Selected Topics in Signal Processing，2018，12（4）：790-805.

[8] AMIN S，SCHWARTZ G A，CARDENAS A A，et al. Game- theoretic models of electricity theft detection in smart utility net- works：providing new capabilities with advanced metering infrastructure [J]. IEEE Control Systems Magazine，2015，35（1）：66-81

[9]CARDENAS A A，AMIN S，SCHWARTZ G，et al. A game theory model for electricity theft detection and privacy-aware control in AMI systems[C]//2012 50th Annual Allerton Conference on Communication，Control，and Computing （Allerton）. Monticello，IL，USA：IEEE，2012：1830-1837.

[10] LIU Y，HU S Y，HUANG H，et al. Game-theoretic market-driven smart home scheduling considering energy balancing[J]. IEEE Systems Journal，2017，11（2）：910-921

[11] ZHENG K D，CHEN Q X，WANG Y，et al. A novel combined data-driven approach for electricity theft detection [J]. IEEE Transactions on Industrial Informatics，2019，15（3）：1809-1819

[12]莊池杰，張斌，胡軍，等.基于無監(jiān)督學(xué)習(xí)的電力用戶異常用電模式檢測[J].中國電機(jī)工程學(xué)報，2016，36（2）：379-387.

ZHUANG C J，ZHANG B，HU J，et al. Anomaly detection for power consumption patterns based on unsupervised learning[J]. Proceedings of the CSEE，2016，36（2）：379-387. （In Chinese）

[13]程超，張漢敬，景志敏，等.基于離群點算法和用電信息采集系統(tǒng)的反竊電研究[J].電力系統(tǒng)保護(hù)與控制，2015，43（17）：69-74.

CHENG C，ZHANG H J，JING Z M，et al. Study on the antielectricity stealing based on outlier algorithm and the electricity information acquisition system [J]. Power System Protection and Control，2015，43（17）：69-74.（In Chinese）

[14]金晟，蘇盛，曹一家，等.基于格蘭杰歸因分析的高損臺區(qū)竊電檢測[J].電力系統(tǒng)自動化，2020，44（23）：82-89.

JIN S，SU S，CAO Y J，et al. Electricity-theft detection for high- loss distribution area based on granger causality analysis[J]. Automation of Electric Power Systems，2020，44（23）：82-89. （In Chinese）

[15]李曉峰，劉剛，衛(wèi)晉，等.基于卷積神經(jīng)網(wǎng)絡(luò)與特征選擇的醫(yī)療圖像誤差預(yù)測算法[J].湖南大學(xué)學(xué)報（自然科學(xué)版），2021，48 （4）：90-99.

LI X F，LIU G，WEI J，et al. Error prediction algorithm of medical image based on convolution neural network and feature selection [J]. Journal of Hunan University （Natural Sciences），2021，48（4）：90-99.（In Chinese）

[16] NAGI J，YAP K S，TIONG S K，et al. Improving SVM-based nontechnical loss detection in power utility using the fuzzy inference system [J]. IEEE Transactions on Power Delivery，2011，26（2）：1284-1285.

[17] JINDAL A，DUA A，KAUR K，et al. Decision tree and SVM-based data analytics for theft detection in smart grid[J]. IEEE Transactions on Industrial Informatics，2016，12（3）：1005-1016.

[18]李明俊，張正豪，宋曉琳，等.基于一種多分類半監(jiān)督學(xué)習(xí)算法的駕駛風(fēng)格分類模型[J].湖南大學(xué)學(xué)報（自然科學(xué)版），2020，47（4）：10-15.

LI M J，ZHANG Z H，SONG X L，et al. Driving style classification model based on a multi-label semi-supervised learning algo- rithm[J]. Journal of Hunan University（Natural Sciences），2020，47（4）：10-15.（In Chinese）

[19] HU T Y，GUO Q L，SHEN X W，et al. Utilizing unlabeled data to detect electricity fraud in AMI：a semisupervised deep learning approach[J]. IEEE Transactions on Neural Networks and Learning Systems，2019，30（11）：3287-3299.

[20]游文霞，申坤，楊楠，等.基于AdaBoost集成學(xué)習(xí)的竊電檢測研究[J].電力系統(tǒng)保護(hù)與控制，2020，48（19）：151-159.

YOU W X，SHEN K，YANG N，et al. Research on electricity theft detection based on AdaBoost ensemble learning[J]. Power System Protection and Control，2020，48（19）：151-159.（In Chinese）

[21]游文霞，申坤，楊楠，等.基于Bagging異質(zhì)集成學(xué)習(xí)的竊電檢測[J].電力系統(tǒng)自動化，2021，45（2）：105-113.

YOU W X，SHEN K，YANG N，et al. Electricity theft detection based on Bagging heterogeneous ensemble learning[J]. Automation of Electric Power Systems，2021，45（2）：105-113.（In Chinese）

[22] YAN Z Z，WEN H. Electricity theft detection base on extreme gradient boosting in AMI[J]. IEEE Transactions on Instrumentation and Measurement，2021，70：1-9.

[23]周飛燕，金林鵬，董軍.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計算機(jī)學(xué)報，2017，40（6）：1229-1251.

ZHOU F Y，JIN L P，DONG J. Review of convolutional neural net- work[J]. Chinese Journal of Computers，2017，40（6）：1229- 1251.（In Chinese）

[24] KE G，MENG Q，F(xiàn)INLEY T，et al. LightGBM：a highly efficient gradient boosting decision tree [C]//Advances in Neural Information Processing Systems. Long Beach，USA：Curran Associates Inc.，2017：1-9.

[25] ZHENG Z B，YANG Y T，NIU X D，et al. Wide and deep convolutional neural networks for electricity-theft detection to secure smart grids[J]. IEEE Transactions on Industrial Informatics，2018，14（4）：1606-1615.

[26] TAKIDDIN A，ISMAIL M，NABIL M，et al. Detecting electricity theft cyber-attacks in AMI networks using deep vector embed- dings[J]. IEEE Systems Journal，2021，15（3）：4189-4198.

[27] Irish Smart Energy Trial. Data from the commission for energy regulation （CER）-smart metering project [EB/OL]. [2012-01-13]. http：//www.ucd.ie/issda/data/commissionforenergyregulationcer/.

[28] JOKAR P，ARIANPOO N，LEUNG V C M. Electricity theft detection in AMI using customers，consumption patterns [J]. IEEE Transactions on Smart Grid，2016，7（1）：216-226.

[29] LI S，HAN Y H，YAO X，et al. Electricity theft detection in power grids with deep learning and random forests[J]. Journal of Electrical and Computer Engineering，2019：4136874.