萬迪明 ,孫海玉,張小斐,劉 昊,耿俊成,袁少光
(1.國網(wǎng)河南省電力公司電力科學(xué)研究院,河南 鄭州 450052;2.國網(wǎng)河南省電力公司商丘供電公司,河南 商丘 476000)
關(guān)口表作為臺區(qū)重要計量裝置,不僅用來計量臺區(qū)供電量大小,還可以實(shí)時監(jiān)測臺區(qū)運(yùn)行狀態(tài),支撐通電通知、配電網(wǎng)搶修等多項(xiàng)工作。營銷業(yè)務(wù)系統(tǒng)關(guān)口表與臺區(qū)掛接關(guān)系數(shù)據(jù)存在錯誤,嚴(yán)重影響線損統(tǒng)計分析、供電服務(wù)提升。當(dāng)前,關(guān)口表與臺區(qū)掛接關(guān)系核查方法主要是當(dāng)臺區(qū)線損異常波動時,特別是臺區(qū)日線損率出現(xiàn)正負(fù)交替時安排專人現(xiàn)場核查;或者是在臺區(qū)出現(xiàn)停電告警事件時,大部分低壓用戶卻正常供電時安排專人現(xiàn)場核查[1-2]。
傳統(tǒng)的臺區(qū)與關(guān)口表掛接關(guān)系核查要在臺區(qū)線損出現(xiàn)異常波動或者線損異常情況下安排專人現(xiàn)場核查,條件苛刻,無法大批量高效地開展核查工作。為解決上述問題,本文基于用戶電能表電壓曲線、臺區(qū)變壓器電能表電壓曲線二者之間相似性,采用樹增強(qiáng)樸素貝葉斯分類算法準(zhǔn)確識別關(guān)口表掛接關(guān)系錯誤的臺區(qū),對電網(wǎng)公司夯實(shí)營配基礎(chǔ)數(shù)據(jù)準(zhǔn)確性,提升臺區(qū)管理精細(xì)化水平具有極大應(yīng)用價值。
通常情況下,低壓配電網(wǎng)電氣距離越近的用電負(fù)荷電壓序列曲線波動越相似。同理,與其他臺區(qū)變壓器電壓序列曲線相比,用戶與其臺區(qū)變壓器電壓序列曲線波動更相似。可以通過比較用戶之間、用戶與供電變壓器三相電壓曲線相似性大小識別用戶與供電變壓器隸屬關(guān)系。如果某用戶與相應(yīng)的供電變壓器三相電壓曲線相似性都很差,則用戶與其供電變壓器的隸屬關(guān)系錯誤。相應(yīng)的,如果一個臺區(qū)不同用戶之間電壓曲線波動比較相似,同時與其供電變壓器三相電壓曲線相似性比較差,則臺區(qū)關(guān)口表掛接關(guān)系錯誤概率較大[3-8]。
圖1 是2019 年6 月份某天某臺區(qū)用戶與供電變壓器三相電壓曲線。不同用戶電壓曲線相似性較大,臺區(qū)變壓器A、B、C 三相電壓曲線相似性較大,但是用戶與變壓器電壓曲線相似性較小。營銷人員現(xiàn)場核查,發(fā)現(xiàn)該臺區(qū)關(guān)口表掛接關(guān)系數(shù)據(jù)錯誤。
圖1 某臺區(qū)用戶與供電變壓器三相電壓曲線
皮爾遜相關(guān)系數(shù)常用來衡量兩個時間序列數(shù)據(jù)之間波動趨勢相似性,給定兩個時間序列a和b,相關(guān)系數(shù)r定義如下[9-10]:
圖1 臺區(qū)用戶與供電變壓器三相電壓序列曲線之間的相關(guān)系數(shù)矩陣如表1 所示,可以看出變壓器三相電壓序列曲線之間相關(guān)系數(shù)都較大,不同用戶電壓序列曲線之間相關(guān)系數(shù)也都較大,但用戶與變壓器三相電壓序列曲線之間相關(guān)系數(shù)較小,這與圖1 電壓曲線波動相似性相吻合。因此相關(guān)系數(shù)可以有效度量用戶、變壓器電壓序列曲線之間的相似性。
表1 某臺區(qū)用戶與供電變壓器三相電壓曲線相關(guān)系數(shù)
在基于電壓曲線相似性判斷臺區(qū)關(guān)口表掛接關(guān)系是否正確時,需要設(shè)置兩個閾值:
(1)兩條電壓曲線之間相關(guān)系數(shù)閾值,判斷不同用戶、變壓器電壓曲線是否相似,大于該閾值判定兩條電壓曲線相似,反之判斷上述兩條電壓曲線不相似;
(2)與變壓器電壓曲線不相似臺區(qū)用戶比例閾值,判斷臺區(qū)關(guān)口表掛接關(guān)系是否正確,大于該閾值判定該臺區(qū)與關(guān)口表掛接關(guān)系錯誤,反之判定上述臺區(qū)與關(guān)口表掛接關(guān)系正確。
若上述兩個閾值設(shè)置嚴(yán)格,則臺區(qū)關(guān)口表掛接關(guān)系校驗(yàn)?zāi)P偷牟槿瘦^低,同樣若閾值設(shè)置寬松,則模型查準(zhǔn)率較低[11]。
以臺區(qū)用戶相關(guān)系數(shù)在不同區(qū)間的分布數(shù)量為輸入屬性特征,以臺區(qū)關(guān)口表掛接關(guān)系是否正確為輸出屬性,采用機(jī)器學(xué)習(xí)方法構(gòu)建臺區(qū)關(guān)口表掛接關(guān)系在線校驗(yàn)?zāi)P停M(jìn)而判斷臺區(qū)關(guān)口表掛接關(guān)系是否正確,可以避免上述人工設(shè)置閾值出現(xiàn)的問題。
貝葉斯分類應(yīng)用貝葉斯定理,通過概率統(tǒng)計方式對樣本進(jìn)行分類的機(jī)器學(xué)習(xí)方法,可用于臺區(qū)關(guān)口表掛接關(guān)系數(shù)據(jù)在線校驗(yàn)。假設(shè)某訓(xùn)練樣本集有N種可能的類別標(biāo)記Y={c1,c2,…,cN},每一個樣本X有d個屬性,即X={x1,x2,…,xd}。由貝葉斯定理可知,給定樣本X屬于類別ci的后驗(yàn)概率是P(ci|X),計算方法如下:
式中:P(X)是事件X發(fā)生的概率,概率值大小與具體類別無關(guān)。
應(yīng)用貝葉斯定理,給定樣本X,最大后驗(yàn)概率對應(yīng)的類別判斷為樣本X的類別。設(shè)c(X)為樣本實(shí)例X的最終判定的類別,則:
P(X|c(diǎn)i)是樣本所有屬性的聯(lián)合概率,難以從有限的訓(xùn)練樣本集合估計。
樸素貝葉斯分類器假設(shè)各個屬性相互獨(dú)立,且同時對分類結(jié)果產(chǎn)生影響,則:
可以看出,貝葉斯分類器的訓(xùn)練過程就是基于訓(xùn)練集D來計算類ci先驗(yàn)概率P(ci),同時計算每個屬性的條件概率P(xj|c(diǎn)i)。
假設(shè)訓(xùn)練集D中ci類樣本組成的集合為,則ci類先驗(yàn)概率:
對于離散屬性,假設(shè)表示Dci在第j個屬性取值為xj的樣本組成的集合為Dci,xj,則條件概率為:
對于連續(xù)屬性,假設(shè)數(shù)據(jù)屬性的概率值服從高斯分布,則條件概率可估計為:
式中:μci,j和是第ci類樣本在第j個屬性的均值和方差[12-14]。
樸素貝葉斯分類器結(jié)構(gòu)簡單、高效,對異常數(shù)據(jù)的抵抗性也較好,但是條件獨(dú)立性假設(shè)使得分類器無法有效利用屬性變量之間的依賴信息,分類精準(zhǔn)度較低,樸素貝葉斯分類器結(jié)構(gòu)如圖2 所示。直接采用樸素貝葉斯分類器開展臺區(qū)關(guān)口表掛接關(guān)系數(shù)據(jù)在線校驗(yàn),準(zhǔn)確性不高。但屬性之間的依賴信息太復(fù)雜時,比如完全網(wǎng)絡(luò)的貝葉斯分類器,計算效率非常低,在實(shí)際應(yīng)用中難以實(shí)現(xiàn)。因此,需要適當(dāng)擴(kuò)展樸素貝葉斯的依賴關(guān)系。
圖2 樸素貝葉斯
樹增強(qiáng)樸素貝葉斯(Tree Augmented Naive Bayes,TAN)分類器,是一種樹形結(jié)構(gòu)的貝葉斯網(wǎng)絡(luò)分類器,具體結(jié)構(gòu)如圖3 所示。在樸素貝葉斯的基礎(chǔ)上,TAN 在依賴關(guān)系較強(qiáng)的屬性之間添加有向連接弧,但又限制各屬性之間的連接關(guān)系數(shù)量,使得屬性之間依賴關(guān)系呈現(xiàn)為樹狀結(jié)構(gòu)。整體而言,與樸素貝葉斯相比,TAN 既充分地利用屬性之間的依賴關(guān)系,同時又避免了復(fù)雜的依賴關(guān)系帶來的指數(shù)級計算難題。某樹增強(qiáng)樸素貝葉斯分類器結(jié)構(gòu)如圖3所示,所有屬性節(jié)點(diǎn)均指向類節(jié)點(diǎn),同時屬性節(jié)點(diǎn)2依賴屬性節(jié)點(diǎn)1,屬性節(jié)點(diǎn)4 依賴屬性節(jié)點(diǎn)3。
圖3 樹增強(qiáng)樸素貝葉斯
TAN 學(xué)習(xí)過程如下:
(1)計算任意兩個屬性之間的條件互信息:
式中:Xi和Xj表示屬性變量;xi和xj表示屬性變量取值;C表示類變量;c表示類變量取值。
(2)以屬性為節(jié)點(diǎn)構(gòu)建完全圖,任意兩個節(jié)點(diǎn)Xi和Xj之間的權(quán)重設(shè)為I(Xi,Xj|C)。遵循不產(chǎn)生回路原則,按照邊權(quán)重順序選取n-1 條邊構(gòu)建最大權(quán)生成樹,其中n為屬性數(shù)量。
(3)挑選一個節(jié)點(diǎn)作為根節(jié)點(diǎn),所有邊的方向設(shè)置為由根節(jié)點(diǎn)向外。
(4)增加一個類別節(jié)點(diǎn),然后增加從類節(jié)點(diǎn)到每個屬性節(jié)點(diǎn)的有向邊。
容易看出,條件互信息I(xi,xj|y)刻畫了屬性Xi和Xj在已知類別情況下的相關(guān)性,因此通過最大生成樹算法,TAN 實(shí)際上僅保留了強(qiáng)相關(guān)屬性之間的依賴性。
在TAN 分類器中,對于未知類別樣本X=(X1,…,Xn),有貝葉斯公式計算其后驗(yàn)概率p(c|x1,…,xn),選擇使其后驗(yàn)概率最大的類變量取值c作為類變量預(yù)測值:
式中:c作為類變量C預(yù)測值;(X1,…,Xn)為屬性變量;c(x1,…,xn)表示屬性變量(X1,…,Xn)取值為(x1,…,xn)時類變量C的取值;GT表示在類變量C的約束下(X1,…,Xn)的最大權(quán)重跨度樹;π(xi)是在最大權(quán)重跨度樹中Xi的屬性父節(jié)點(diǎn)的取值[15-16]。
基于樹增強(qiáng)樸素貝葉斯分類的臺區(qū)關(guān)口表掛接關(guān)系在線校驗(yàn),與直接采用樸素貝葉斯分類相比準(zhǔn)確性有較大的提升,同時計算復(fù)雜度又相對較低。
提出的基于樹增強(qiáng)樸素貝葉斯分類的臺區(qū)關(guān)口表掛接關(guān)系在線校驗(yàn)方法,在某地市供電公司的營配數(shù)據(jù)質(zhì)量提升工作進(jìn)行了驗(yàn)證和推廣應(yīng)用。
首先,從營銷業(yè)務(wù)系統(tǒng)提取最新用戶-臺區(qū)隸屬關(guān)系數(shù)據(jù),并獲取每個臺區(qū)所有用戶列表;接著,對于每個用戶,從用電信息采集系統(tǒng)提取其最近一段時間的電壓序列數(shù)據(jù),個別時間點(diǎn)電壓值為空時根據(jù)線性插值法將電壓數(shù)據(jù)填補(bǔ)。某臺區(qū)變壓器及其用戶2019 年6 月某天電壓曲線如圖4 所示。
圖4 某臺區(qū)變壓器及其用戶電壓曲線
接著,以天為單位根據(jù)式(1)計算每個用戶與變壓器三相電壓曲線之間的相關(guān)系數(shù)r,上述電壓曲線相關(guān)系數(shù)矩陣如表2 所示。
表2 電壓曲線相關(guān)系數(shù)矩陣
表3 為統(tǒng)計臺區(qū)用戶皮爾遜相關(guān)系數(shù)在不同區(qū)間的分布。通常情況下,兩個時間序列之間相關(guān)系數(shù)r在[0.8,1)表明二者極強(qiáng)相關(guān),在[0.6,0.8)表明強(qiáng)相關(guān),在[0.2,0.6)表明弱相關(guān),在[-1,0.2)表明負(fù)相關(guān)或極弱相關(guān)。相應(yīng)的,用戶與變壓器A 相相關(guān)系數(shù)r在[-1,0.2)出現(xiàn)頻率設(shè)置為屬性F1,在[0.2,0.6)出現(xiàn)頻率設(shè)置為屬性F2,在[0.6,0.8)出現(xiàn)頻率設(shè)置為屬性F3,在[0.8,1)出現(xiàn)頻率設(shè)置為屬性F4,依此類推。以上述臺區(qū)為例,該臺區(qū)有108個用戶,統(tǒng)計與A 相電壓曲線相關(guān)系數(shù)在[-1,0.2)有多少用戶,作為F1屬性值;統(tǒng)計與A 相電壓曲線相關(guān)系數(shù)在[-2,0.6)有多少用戶,作為F2屬性值,依此類推;最后,以臺區(qū)用戶皮爾遜相關(guān)系數(shù)在不同區(qū)間的分布數(shù)量為輸入屬性特征,以臺區(qū)關(guān)口表掛接關(guān)系是否正確為輸出屬性,采用機(jī)器學(xué)習(xí)方法構(gòu)建臺區(qū)關(guān)口表掛接關(guān)系在線校驗(yàn)?zāi)P?,進(jìn)而判斷臺區(qū)關(guān)口表掛接關(guān)系是否正確。
表3 臺區(qū)用戶與變壓器各相電壓曲線相關(guān)系數(shù)值分布
在模型構(gòu)建和驗(yàn)證階段,選擇有代表性居民小區(qū)逐個核查臺區(qū)關(guān)口表掛接關(guān)系,并將掛接關(guān)系數(shù)據(jù)正確的臺區(qū)作為正例樣本,掛接關(guān)系數(shù)據(jù)錯誤的臺區(qū)作為負(fù)例樣本。分別采用基于樸素貝葉斯、樹增強(qiáng)樸素貝葉斯構(gòu)建臺區(qū)與關(guān)口表掛接在線校驗(yàn)關(guān)系模型,判斷臺區(qū)與關(guān)口表掛接關(guān)系是否正確。臺區(qū)與關(guān)口表掛接關(guān)系是否錯誤的混淆矩陣如表4 所示。
表4 臺區(qū)與關(guān)口表掛接關(guān)系是否錯誤的混淆矩陣
分別采用準(zhǔn)確率、召回率、F2值三項(xiàng)指標(biāo)評估基于樸素貝葉斯的臺區(qū)與關(guān)口表掛接關(guān)系校驗(yàn)?zāi)P?、基于樹增?qiáng)樸素貝葉斯的臺區(qū)與關(guān)口表掛接關(guān)系校驗(yàn)?zāi)P停u估結(jié)果如表5 所示??梢钥闯觯瑹o論是準(zhǔn)確率、召回率還是F2值,基于樹增強(qiáng)樸素貝葉斯的臺區(qū)與關(guān)口表掛接關(guān)系校驗(yàn)?zāi)P途鶅?yōu)于基于樸素貝葉斯的臺區(qū)與關(guān)口表掛接關(guān)系校驗(yàn)?zāi)P汀?/p>
表5 兩種掛接關(guān)系校驗(yàn)?zāi)P驮u估結(jié)果
根據(jù)所提出的校驗(yàn)方法,利用2019 年4 月份數(shù)據(jù)對某公司10 500 個臺區(qū)與關(guān)口表的掛接關(guān)系進(jìn)行校驗(yàn),同時該公司營銷人員對判斷掛接關(guān)系數(shù)據(jù)錯誤的98 個臺區(qū)進(jìn)行了現(xiàn)場核查,發(fā)現(xiàn)掛接關(guān)系數(shù)據(jù)錯誤用戶93 個。結(jié)果證明,該方法可及時發(fā)現(xiàn)關(guān)口表掛接關(guān)系數(shù)據(jù)錯誤的臺區(qū),與僅僅依靠人力耗時耗力的無目標(biāo)現(xiàn)場巡查相比,該方法是切實(shí)有效的。
針對臺區(qū)關(guān)口表掛接關(guān)系人工現(xiàn)場核查耗時耗力的問題,提出一種基于樹增強(qiáng)樸素貝葉斯分類的在線校驗(yàn)方法。對于一個臺區(qū),首先從用電信息采集系統(tǒng)提取臺區(qū)用戶和變壓器(關(guān)口表)的電壓曲線;接著,計算一段時間內(nèi)的每個用戶與變壓器三相電壓曲線之間的相關(guān)系數(shù);然后,統(tǒng)計所有用戶相關(guān)系數(shù)在不同區(qū)間的分布數(shù)量;最后,以臺區(qū)用戶相關(guān)系數(shù)在不同區(qū)間的分布數(shù)量為輸入屬性特征,以臺區(qū)關(guān)口表掛接關(guān)系是否正確為輸出屬性,采用樹增強(qiáng)樸素貝葉斯模型構(gòu)建臺區(qū)關(guān)口表掛接關(guān)系在線校驗(yàn)?zāi)P汀T摲椒ㄔ谀车厥须娋W(wǎng)公司試運(yùn)行,可及時發(fā)現(xiàn)關(guān)口表掛接關(guān)系數(shù)據(jù)錯誤的臺區(qū),有效提升了臺區(qū)關(guān)口表掛接關(guān)系數(shù)據(jù)與現(xiàn)場的一致性。