陳海峰,應(yīng)國德,曹 杰,林 超,潘成峰,金 潮
(1.國網(wǎng)浙江溫嶺市供電有限公司,浙江 溫嶺 317500;2.國網(wǎng)浙江省電力有限公司臺(tái)州供電公司,浙江 臺(tái)州 318020;3.溫嶺市非普電氣有限公司,浙江 溫嶺 317500)
由于分布式光伏發(fā)電享受的補(bǔ)貼主要取決于自身發(fā)電量,在利益的驅(qū)使下,某些用戶通過技術(shù)手段使分布式光伏上網(wǎng)電表多計(jì)量發(fā)電量,進(jìn)而獲取高額補(bǔ)貼,這種騙取補(bǔ)貼的行為稱為光伏竊電行為。光伏竊電行為嚴(yán)重影響了中國新能源扶植政策的落實(shí)和發(fā)電市場的公正性,用戶因竊電私自改接線路給供配電帶來了巨大的安全隱患,影響了光伏發(fā)電行業(yè)的正常發(fā)展。
光伏竊電是一個(gè)較新的課題,目前研究較少。但對(duì)傳統(tǒng)反竊電手段進(jìn)行分析,可以為本課題的研究提供思路。目前國內(nèi)外的反竊電手段主要包括儀表自身數(shù)據(jù)排查、竊電識(shí)別技術(shù)、大數(shù)據(jù)分析技術(shù)[1-2]。
儀表自身數(shù)據(jù)排查主要是從儀器數(shù)據(jù)自身的層面對(duì)數(shù)據(jù)進(jìn)行簡單分析,排查可能的竊電行為,這是目前研究和應(yīng)用都比較多的策略。詹喬松對(duì)常見的兩種竊電接線方式進(jìn)行了分析,針對(duì)這兩種竊電接線方式制訂了分析策略。這種策略雖然是針對(duì)傳統(tǒng)竊電行為的,但依據(jù)其逆向思路也可以發(fā)現(xiàn)光伏竊電[3]。
竊電識(shí)別技術(shù)是通過人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、邏輯識(shí)別等人工智能算法來發(fā)現(xiàn)竊電行為。胡林等對(duì)高壓采集終端、低壓采集終端和無線數(shù)字公用通信網(wǎng)的數(shù)據(jù)進(jìn)行協(xié)同分析,利用邏輯識(shí)別的手段檢測竊電行為。這種算法在常德供電局已得到應(yīng)用,運(yùn)行效果良好[4]。
大數(shù)據(jù)分析是利用數(shù)據(jù)挖掘的相關(guān)算法,結(jié)合高性能計(jì)算機(jī),實(shí)現(xiàn)對(duì)竊電行為的分析。王穎琛等利用高維隨機(jī)矩陣分析了竊電行為的統(tǒng)計(jì)學(xué)特性,結(jié)合大數(shù)據(jù)分析技術(shù),實(shí)現(xiàn)了對(duì)竊電發(fā)生的判別、竊電發(fā)生時(shí)間的確定、竊電地點(diǎn)的精確定位、竊電類型的判別[5]。楊蘭從配電環(huán)節(jié)進(jìn)行數(shù)據(jù)分析,計(jì)算配電管理系統(tǒng)的特征值,從而對(duì)竊電行為進(jìn)行判斷[6]。
由于巨大的商業(yè)利益,竊電領(lǐng)域是一個(gè)攻防升級(jí)都很快的領(lǐng)域。近幾年,竊電方式已經(jīng)由傳統(tǒng)的線路改造、電表改造,升級(jí)為智能電表改造[7]、虛假數(shù)據(jù)智能生成[8-9]等多種手段并舉的模式。本文所涉及的光伏領(lǐng)域,竊電案例逐年上漲,如果不盡快遏制此類行為的苗頭,將給電網(wǎng)行業(yè)、社會(huì)信用帶來難以挽回的損失。
聚類算法是機(jī)器學(xué)習(xí)中涉及對(duì)數(shù)據(jù)進(jìn)行分組的一種算法,它包含HCM(硬聚類)和FCM(模糊聚類)。HCM 是在基于目標(biāo)函數(shù)的聚類算法理論中比較完善、應(yīng)用比較廣泛的方法。本文從智能電表入手,以電力數(shù)據(jù)特征量的提取為手段,綜合HCM 算法,對(duì)竊電行為進(jìn)行挖掘,并通過在浙江臺(tái)州的實(shí)際應(yīng)用,對(duì)該算法的有效性進(jìn)行驗(yàn)證。
近幾年,隨著通信技術(shù)的提升,智能電表分時(shí)段甚至按照小時(shí)、分鐘上送發(fā)電量已經(jīng)常態(tài)化。細(xì)粒度的數(shù)據(jù)為精細(xì)化的竊電檢測提供了可行的基礎(chǔ),同時(shí)也抬高了樣本的維數(shù)??紤]到用戶數(shù)量多,這種高維數(shù)為數(shù)據(jù)的分析帶來了極大的挑戰(zhàn)。提取數(shù)據(jù)中的關(guān)鍵信息,降低數(shù)據(jù)復(fù)雜度,是解決此類問題的必由之路。
圖1 以浙江臺(tái)州某光伏用戶的數(shù)據(jù)為依據(jù),選取了1 條冬季出力曲線和1 條夏季出力曲線。2條曲線均每隔0.5 h 進(jìn)行一次采樣,每天有48 個(gè)量測點(diǎn)。夏季光照強(qiáng),隨著太陽的升起,光伏曲線迅速抬升,達(dá)到出力極限以后將不再飆升;冬季光照弱,上午的出力曲線緩慢爬升,但始終不會(huì)達(dá)到出力極限。
江浙地區(qū)極少出現(xiàn)雷暴天氣[10],因此光照強(qiáng)度很少出現(xiàn)斷崖式的變化,而是呈現(xiàn)出比較平緩的出力曲線[11],這一特點(diǎn)為本文的特征提取算法提供了依據(jù)。
圖1 不同季節(jié)的出力曲線示例
光伏出力遵從下述公式[12]:
式中:Ep為單位時(shí)間段內(nèi)光伏設(shè)備的發(fā)電量(以圖1 為例,Ep為0.5 h 內(nèi)光伏設(shè)備的發(fā)電量),由于時(shí)間間隔已經(jīng)取定,因此該量與發(fā)電功率是一致的;H 為單位時(shí)間、單位面積內(nèi)的太陽能總輻射量(以圖1 為例,就是0.5 h 內(nèi)單位面積的太陽能總輻射量);S 為光伏設(shè)備中光伏組件的總有效面積;K1為光伏組件的轉(zhuǎn)化效率;K2為系統(tǒng)綜合發(fā)電效率。從式(1)可以看出,對(duì)于一臺(tái)固定的設(shè)備,光伏設(shè)備的發(fā)電量只與光照強(qiáng)度有關(guān)。
在江浙地區(qū),由于雷暴天氣極少,一天內(nèi)的光照強(qiáng)度變化一般比較平緩。因此,可以直接根據(jù)幾何學(xué)原理,推算太陽光照強(qiáng)度的變化規(guī)律[13],即:式中:Hmax,Hmin分別為一天中光照強(qiáng)度的最大、最小值;t0為日出時(shí)間,在式(2)中換算為相對(duì)于0:00 的秒數(shù);t3為日落時(shí)間。公式的第一行是針對(duì)白天的,近似服從三角函數(shù)的變化(越接近太陽直射點(diǎn)的地區(qū),上述公式越準(zhǔn));公式的第二行是針對(duì)黑夜的,圓月和殘?jiān)鹿庹諒?qiáng)度不同,黃昏后、深夜和黎明前光照強(qiáng)度也不同,但是這樣強(qiáng)度的光照遠(yuǎn)遠(yuǎn)弱于白天,因此其波動(dòng)可以忽略不計(jì)。
綜合式(1)和式(2)可以看出,當(dāng)白天光照強(qiáng)度沒有達(dá)到光伏設(shè)備的發(fā)電極限時(shí),發(fā)電功率近似可以看成三角函數(shù)。
為了得到更精確的結(jié)果,可以采用小波分析和支持向量機(jī)相結(jié)合的方式進(jìn)行預(yù)測。
采用拉格朗日乘子,可以得出回歸函數(shù):
式中:k(xi·x)為核函數(shù);為徑向參數(shù);c 為偏移。
式中:g 為核函數(shù)參數(shù);z 為中心點(diǎn)。通過設(shè)置g和z,可以得到更好的預(yù)測函數(shù)。
本文中曲線采用一天48 點(diǎn)的采樣頻率,在實(shí)際應(yīng)用中,一天24 點(diǎn)、96 點(diǎn)、288 點(diǎn)的采樣頻率均可能出現(xiàn)。如果直接對(duì)量測點(diǎn)的數(shù)據(jù)進(jìn)行分析,則難以評(píng)估曲線自身的變化規(guī)律,而且會(huì)造成“維數(shù)災(zāi)難”。不同用戶的采樣頻率可能不同,這也為統(tǒng)一分析帶來了挑戰(zhàn)。因此,需要從曲線中提取特征量,作為后續(xù)分析的依據(jù),以此降低數(shù)據(jù)維數(shù)。從上一節(jié)的分析可知,光伏設(shè)備的出力曲線包含時(shí)間、負(fù)荷量兩大特征。
首先看光伏出力曲線時(shí)間特征,如圖2 所示。從圖中可以看出,時(shí)間特征主要包含t0,t1,t2,t3這4 個(gè)時(shí)間點(diǎn)。圖中每0.5 h 進(jìn)行一次量測,因此橫軸數(shù)字1 代表0:00,2 代表0:30,3 代表1:00,依此類推。t0,t1,t2,t3分別代表出力開始明顯上升、出力臨近極大值、出力開始下降、出力臨近極小值的時(shí)間點(diǎn)??梢詫?duì)比前一個(gè)采樣點(diǎn)和后一個(gè)采樣點(diǎn)的出力:兩者之差的絕對(duì)值第一次大于閾值時(shí),意味著t0或t2的到來;兩者之差的絕對(duì)值第一次小于閾值時(shí),意味著t1或t3的到來。事實(shí)上,上述4 個(gè)時(shí)間點(diǎn)中,t0,t3與日出、日落時(shí)間是吻合的,可依據(jù)所在地區(qū)的緯度和日期得出。光伏設(shè)備如果沒有達(dá)到出力極限,那么t1,t2取值相同,對(duì)應(yīng)日中時(shí)間。由于江浙地區(qū)的實(shí)際時(shí)間略晚于東八區(qū)時(shí)間,所以t1,t2取值相同時(shí)(未達(dá)到發(fā)電極限),該時(shí)間略晚于正午12:00。
負(fù)荷量的特征值主要包括最高單位時(shí)間發(fā)電量EPmax和最低發(fā)電量EPmin。此外,需要擬合發(fā)電功率爬升和下降階段的曲線。
圖2 光伏出力曲線的時(shí)間特征
一般而言,擬合曲線可以借助小波分析、傅里葉級(jí)數(shù)[14]等多種方式。從前文分析已經(jīng)可以看出,爬升和下降階段的曲線與三角函數(shù)相似。因此,可以將曲線擬合為三角函數(shù),擬合算法借助了傅里葉級(jí)數(shù)的思想。假設(shè)t0,t1,t2,t3這4 個(gè)時(shí)間點(diǎn)對(duì)應(yīng)的量測點(diǎn)編號(hào)為m0,m1,m2,m3則:
式中:a 為起始點(diǎn)參量,相當(dāng)于傅里葉級(jí)數(shù)中的第一個(gè)參量(平均值);b 為一階分量,與曲線的波動(dòng)程度直接相關(guān);Ep(n)為n 點(diǎn)的單位時(shí)間發(fā)電量;Eps(n)為利用公式擬合后所得到出力曲線。
光伏出力曲線的擬合如圖3 所示??梢钥闯?,利用式(5)所得到的擬合效果與曲線的實(shí)際情況相似度較高。從經(jīng)驗(yàn)來看:如果被擬合日的氣象狀況比較平穩(wěn),那么擬合效果較好;如果被擬合日的氣象發(fā)生劇烈變化,那么擬合效果較差。但是,如果用戶存在光伏竊電行為,這種擬合效果極可能不佳,除非竊電人刻意以三角函數(shù)為模型上送發(fā)電數(shù)據(jù)。
圖3 光伏出力曲線的擬合
基于上述分析,需要對(duì)曲線特征進(jìn)行進(jìn)一步的提取。式中:am0,m1(Ep)為上升段的平均負(fù)荷;σ 為上升段實(shí)際曲線與擬合曲線的方差,通過σ 表示2 條曲線的差異。
此外,判斷是否發(fā)生竊電的另一個(gè)重要方法是:后一日發(fā)電量是否相對(duì)于之前一段時(shí)間(如30天)發(fā)生了顯著的增加。
式中:Ep,sum,分別為光伏用戶當(dāng)日發(fā)電量、此前30 天的日均發(fā)電量;δ 為兩日發(fā)電差值率。如果δ 數(shù)值較大,那么說明天氣由陰轉(zhuǎn)晴、用戶擴(kuò)容,或者存在竊電行為。
至此,可以得出光伏發(fā)電曲線的特征向量:
式中:σ′為下降段曲線方差;Epmax,Epmin分別為Ep的最大值、最小值。
可以看出:式(8)的前7 個(gè)分量與負(fù)荷的具體數(shù)值無關(guān),表示了負(fù)荷曲線本身的形狀,后文的聚類算法主要針對(duì)前7 個(gè)分量進(jìn)行分析;后3個(gè)分量涉及了具體的數(shù)值,與輔助的反竊電手段有關(guān)。
HCM是一種典型的動(dòng)態(tài)聚類算法,它有明確的聚類中心,自適應(yīng)能力差,但速度快;FCM 則沒有固定的聚類中心,需要反復(fù)迭代,但自適應(yīng)能力很強(qiáng)[15-17]。
在光伏發(fā)電的場景下,正常的發(fā)電用戶一般遵循較為相似的發(fā)電曲線[18-23]。如果能夠找到正常出力的代表曲線,以之作為聚類中心;針對(duì)常見的竊電手段,考察其曲線特征,以之作為竊電用戶的聚類中心。基于這種相對(duì)固定的特征,可以采用HCM 算法進(jìn)行聚類。
聚類中心主要有三類:第一類是正常的出力曲線,第二類是設(shè)備故障等原因?qū)е碌姆钦3隽η€,第三類是存在竊電行為的出力曲線。
對(duì)于正常的光伏出力曲線,首先指定可信的光伏設(shè)備。這種設(shè)備一般為電力公司自營的光伏設(shè)備,可以隨時(shí)檢查其運(yùn)行工況。如果反竊電系統(tǒng)未接入此類設(shè)備,那么以日期、氣象因數(shù)進(jìn)行計(jì)算,或者任取若干個(gè)設(shè)備的出力曲線,計(jì)算其平均特征。如果系統(tǒng)內(nèi)包含多種差異較大的光伏設(shè)備,可以從每一類設(shè)備中選取一個(gè)聚類中心。
對(duì)于故障場景,其突出特點(diǎn)往往是比正常的光伏設(shè)備發(fā)電量要低很多。其特征為b,Epmax的數(shù)值都很小,發(fā)生故障的第一天,δ 的數(shù)值為負(fù)數(shù)。基于該特征,可以設(shè)置兩個(gè)故障設(shè)備的聚類中心,具體如下:
對(duì)于存在竊電行為的光伏設(shè)備,其竊電目標(biāo)是在數(shù)據(jù)上造假,比正常的數(shù)值要大很多。基于這種考慮,其特征包括:
(1)t0,t1,t2,t3這4 個(gè)時(shí)間點(diǎn)明顯與晝夜變化背離。作為上升段,發(fā)生竊電時(shí)t0,t1一般比正常值偏早;作為下降段,發(fā)生竊電時(shí)t2,t3一般比正常值偏晚。
(2)σ 和σ′數(shù)值很大,少數(shù)情況下很小。如果正常設(shè)備的σ 較大(當(dāng)日天氣發(fā)生了劇烈變化),那么對(duì)于σ 較小的設(shè)備,可以判定存在竊電行為。
(3)δ 數(shù)值遠(yuǎn)高于正常值,可以判定存在竊電行為,但該判據(jù)僅適用于竊電行為發(fā)生的第一天。
(4)Epmax,Epmin數(shù)值很大,這是一部分以改接線路為手段進(jìn)行竊電的典型特征。
對(duì)于竊電行為,可能同時(shí)存在上述4 種特征,也可能只存在部分特征。以正常曲線的聚類特征為基礎(chǔ),將式(8)中的特征分量分別替換為異常值,就可以得到多個(gè)代表竊電的聚類中心。竊電情形的聚類中心與正常情形的聚類中心越近,竊電檢查的標(biāo)準(zhǔn)就越嚴(yán)格,誤報(bào)率越高;反之,則漏報(bào)率越高。
對(duì)于所有樣本,正常光伏用戶的集合記為Sn,疑似竊電的用戶集合記為Ss,故障設(shè)備的集合記為Sb,未確定是否正常的用戶集合記為Su。在確認(rèn)聚類中心以后,按照下述步驟挖掘竊電行為。
(1)考察樣本的δ。設(shè)關(guān)于δ 的閾值為δΔ,聚類中心記為cΔ。如果δ-cΔ≥δΔ,表明當(dāng)日發(fā)電量遠(yuǎn)高于前一日,而且超出了正常范圍,該樣本疑似竊電,記入Ss;如果cΔ-δ≥δΔ,表明與其他用戶相比,當(dāng)日發(fā)電量低于前一日,該樣本疑似故障,計(jì)入Sb;剩余樣本計(jì)入Su繼續(xù)考察。
(2)對(duì)保留在Su中的樣本考察t0和t1,定義基于這兩個(gè)量的距離如下:
以上述距離為基礎(chǔ),利用正常、故障、竊電3 個(gè)聚類中心以及HCM 算法,將樣本分別計(jì)入Su,Sb和Ss。
針對(duì)t2和t3也進(jìn)行相似的分析。
(3)對(duì)保留在Su中的樣本考察σ。定義σ 的距離如下:
在σ 值較小時(shí),只在比σ 數(shù)值大的一側(cè)設(shè)置竊電的聚類中心;在σ 值比較大時(shí),在該值的兩側(cè)都設(shè)置竊電的聚類中心。由于方差的影響因素較多,在實(shí)際應(yīng)用中可以適當(dāng)調(diào)整聚類中心的遠(yuǎn)近,以決定方差的敏感性。應(yīng)用HCM 算法,將樣本分別計(jì)入Su和Ss。
對(duì)于σ′進(jìn)行類似操作。
(4)對(duì)Epmax,Epmin,b 設(shè)置閾值,當(dāng)參數(shù)值高于閾值時(shí),則判定存在竊電行為。Su中剩余的樣本判斷為正常光伏設(shè)備,計(jì)入Sn。
至此,完成樣本分析。對(duì)于Ss中的光伏發(fā)電設(shè)備,可以通過上門檢查等手段進(jìn)行最終確認(rèn)。
通過負(fù)荷曲線以外的數(shù)據(jù)信息,可以輔助發(fā)現(xiàn)竊電行為,進(jìn)一步提高判定的準(zhǔn)確率。這主要包括以下幾種信息:
(1)電壓、電流量。功率是通過電壓和電流計(jì)算出來的,如果改變接線,那么可以提高電壓或電流值,以此獲得更高的光伏補(bǔ)貼。設(shè)置電壓、電流的閾值,當(dāng)這些數(shù)據(jù)處于非正常水平時(shí),可以判定竊電。
(2)用戶接入信息。用戶接入當(dāng)日,不進(jìn)行第2 節(jié)的分析,這樣避免竊電誤報(bào)。次日開始,接入線路本身的功率閾值,可以作為判斷Epmax是否超過限值的依據(jù)。
(3)光伏設(shè)備的信息。包括光伏設(shè)備采用單晶硅還是多晶硅、峰值功率、峰值電壓等,以及逆變器的額定輸出容量、整機(jī)效率。將這些信息與Epmax對(duì)比,可以作為判定竊電的依據(jù)。
(4)氣象信息。主要指光照變化情況,利用光照信息可以擬合出正常樣本的σ,σ′,δ 等數(shù)據(jù)。如果與光伏設(shè)備本身的參數(shù)結(jié)合,這個(gè)數(shù)據(jù)會(huì)更準(zhǔn)確。
(5)線路信息。結(jié)合配電網(wǎng)數(shù)據(jù),考察各線路的線損,線損較高的線路存在竊電的可能性較大。針對(duì)該線路,將相應(yīng)的竊電情形的聚類中心參數(shù)設(shè)置為與正常情形較接近的值,提高竊電檢測的嚴(yán)格度。
自2019 年3 月以來,在浙江臺(tái)州選擇了948家光伏用戶進(jìn)行了實(shí)例驗(yàn)證。這948 家光伏用戶以居民為主,峰值功率都在3~5 kW,用戶申請光伏并網(wǎng)時(shí)注冊的設(shè)備信息均可查。光伏設(shè)備的數(shù)據(jù)每隔0.5 h 上送至電力公司,數(shù)據(jù)只包含每小時(shí)的發(fā)電量。由于不能接入氣象、配電網(wǎng)數(shù)據(jù),因此在查找竊電行為時(shí)未考慮此類數(shù)據(jù)。
這些用戶中包括臺(tái)州一家電力營業(yè)廳,其峰值發(fā)電功率為5 kW?;谄淇尚湃涡?,將該用戶設(shè)置為正常用戶的聚類中心。以5 月8 日首次運(yùn)行本文算法為例:t0為330(以分鐘為單位,對(duì)應(yīng)5:30),t1為510,t2為960,t3為1 140;σ,σ′分別為0.253 9 和0.103 9;δ 為0.012;Epmax為245 kWh,Epmin為1 kWh,b 為240.48 kWh。對(duì)于故障場景的聚類中心,將Epmax設(shè)置為0;對(duì)于竊電場景的聚類中心,將δ 設(shè)置為1。
經(jīng)過本文算法分析,得到如圖4 所示的散點(diǎn)圖。
圖4 設(shè)備特征的提取實(shí)例
從圖4 可以看出:有2 個(gè)設(shè)備的δ 值明顯高于正常值,疑似新發(fā)的竊電行為;另外2 個(gè)設(shè)備的σ 值與正常設(shè)備的聚類中心距離很遠(yuǎn),也推測存在竊電行為,并且已經(jīng)存在了一段時(shí)間。后經(jīng)工作人員登門勘驗(yàn),證實(shí)了系統(tǒng)的檢測結(jié)果。
該系統(tǒng)自上線以來,累計(jì)發(fā)現(xiàn)23 起疑似竊電行為。經(jīng)登門勘驗(yàn),確認(rèn)22 起屬實(shí);另外一起是由于用戶新增設(shè)備,導(dǎo)致了算法判斷失誤。該系統(tǒng)誤報(bào)率為4.3%,目前尚未發(fā)現(xiàn)漏報(bào)情況。
本文針對(duì)光伏竊電行為,設(shè)計(jì)了基于HCM的反竊電算法。該算法首先利用傅里葉級(jí)數(shù)的基本原理,結(jié)合差值分析方法,提取出設(shè)備曲線的10 項(xiàng)重要特征分量;然后根據(jù)設(shè)備的發(fā)電特點(diǎn),選擇正常、故障、竊電設(shè)備的聚類中心;最后根據(jù)特征分量的優(yōu)先級(jí),梯次利用HCM 算法聚類至疑似竊電用戶。
本文算法需要改進(jìn)之處包括:
(1)目前的10 個(gè)特征分量仍然較多,如果應(yīng)用于大型系統(tǒng),那么對(duì)系統(tǒng)的壓力較大。希望能夠進(jìn)一步減少特征分量,提高算法效率。
(2)本文僅在存在可信用戶的地區(qū)進(jìn)行了驗(yàn)證。對(duì)于不存在可信用戶的地區(qū),算法的有效性仍然需要考證。
(3)如果用戶針對(duì)算法特點(diǎn)刻意偽造發(fā)電曲線,則存在漏報(bào)的可能性。