張家琦,郭帥,李國昌,陳穎,宋瑋瓊,關(guān)慧哲
(1.清華大學(xué) 電機工程與應(yīng)用電子技術(shù)系,北京 100084; 2.國網(wǎng)北京市電力公司,北京 100031)
智能電能表是重要的法制計量器具,是實現(xiàn)電力貿(mào)易結(jié)算的必要設(shè)備,其運行可靠性對保證用戶合法權(quán)益、電網(wǎng)公司經(jīng)濟利潤等方面有重大影響[1-3]。傳統(tǒng)上,電網(wǎng)公司通常采用現(xiàn)場巡檢、遠程異常篩查、異常主動上報等方式開展智能電能表運行狀態(tài)評價,并依據(jù)評價結(jié)果開展相應(yīng)的更換、修校等工作。但是,這種傳統(tǒng)運維模式對于人力物力要求較高,且工作周期較長,在保證智能電能表高可靠性的前提下需投入占用較多資源,且存在潛在的資產(chǎn)浪費風(fēng)險[4-5]。近年來,隨著配電網(wǎng)中海量智能電能表的接入,形成了智能電能表大數(shù)據(jù),其中包含著豐富的設(shè)備結(jié)構(gòu)、檢修和運行狀態(tài)等信息。因此,基于大數(shù)據(jù)技術(shù)建立智能電能表可靠性評估模型,對運行中智能電能表的可靠性進行合理評估,對于增加智能電能表運維效率,保障現(xiàn)場運行水平,提升公司精益化管理水平有重要意義[6-7]。
目前,建立面向合理評估智能電能表可靠性的數(shù)學(xué)模型主要采用以下三種方法。首先,通過元器件應(yīng)力法建立失效率模型,可以有效地對智能電能表基于硬件結(jié)構(gòu)和功能設(shè)計的故障或異常情況進行模擬,并基于元器件手冊計算得到MTTF(Mean Time To Failure: 平均失效前時間),用以表征智能電能表的壽命估計值,可作為智能電能表可靠性評估的重要參數(shù)[8-11];其次,基于事先假定的一種智能電能表失效率分布如威爾遜分布等,根據(jù)智能電能表的故障數(shù)據(jù)對參數(shù)進行最小二乘法擬合,從而得到智能電能表的可靠性評估模型[12];此外,結(jié)合事先假定的智能電能表失效率分布和多應(yīng)力Peck模型,對智能電能表進行加速壽命試驗,從而對智能電能表的可靠性進行評估[13-15]。但是,目前的研究大都存在智能電能表功能拓撲高度簡化、所形成的壽命模型參數(shù)較為靜態(tài)的問題,無法反映或適應(yīng)智能電能表物理模型和運行環(huán)境條件變化的影響[16-17]。而加速壽命試驗較為復(fù)雜,且隨著智能電能表可靠性水平逐漸提高,試驗中所需要的失效樣本數(shù)據(jù)獲得成本較大。
智能電能表多源大數(shù)據(jù)中包含著運行狀態(tài)的相關(guān)信息,通過對其進行融合大數(shù)據(jù)分析和建模,可以有效地鑒定智能電能表的健康狀態(tài),從而為電網(wǎng)公司實現(xiàn)相關(guān)資產(chǎn)管理工作的精益、高效提供合理建議。目前智能電能表多源數(shù)據(jù)由兩類構(gòu)成。一是故障智能電能表的檢修數(shù)據(jù),以下簡稱檢修數(shù)據(jù),該類數(shù)據(jù)記錄了已經(jīng)發(fā)生故障并拆回檢修的智能電能表的物理信息、故障類型和運行壽命;二是智能電能表的異常報警歷史記錄,以下簡稱異常數(shù)據(jù),該類數(shù)據(jù)由用電信息采集系統(tǒng)進行采集和記錄,可以反映該電能表的運行健康水平[18-19]。因此,通過對檢修數(shù)據(jù)和異常數(shù)據(jù)的融合分析,可以有效建立智能電能表可靠性評估模型。
為解決現(xiàn)有可靠性評估方法的缺點,針對智能電能表可靠性進行合理評估,提出了基于多源數(shù)據(jù)融合的智能電能表可靠性評估建模方法。對智能電能表多源大數(shù)據(jù)融合整理后,采用生存分析理論對其進行建模,將其作為影響智能電能表可靠性的協(xié)變量刻畫智能電能表的生存函數(shù)。同時,采用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)生存函數(shù)參數(shù),得到了智能電能表在協(xié)變量影響下的生存函數(shù)模型,并通過算例分析與經(jīng)典的元器件應(yīng)力法等傳統(tǒng)方法的評估結(jié)果進行了對比,驗證了模型的合理性和可行性。
將規(guī)定時間和安裝條件下智能電能表成功執(zhí)行標(biāo)準(zhǔn)中規(guī)定功能的能力稱為其可靠性。文中將一般的智能電能表失效的情況等同于智能電能表發(fā)生了故障。
對于智能電能表的可靠性進行定量評估,一般采用的指標(biāo)有可靠度R(t)、失效率λ(t)和平均故障前時間MTTF等。假設(shè)某個產(chǎn)品服從某種概率分布F(t),在一個不可預(yù)測的隨機時間點失效,如式(1)所示:
F(t)=P(T≤t),t∈R+
(1)
該分布具有概率密度函數(shù)f(t)。則可定義以下概念:
(1)可靠度R(t):規(guī)定時間和安裝條件下智能電能表成功執(zhí)行標(biāo)準(zhǔn)中規(guī)定功能的概率,如式(2)所示:
R(t)=Pr(T>t)=1-F(t)
(2)
式中T為智能電能表失效前的工作時間;t為所給定的時間。
(2)失效率λ(t):表示運行到某時刻未發(fā)生故障的智能電能表之后單位時間內(nèi)發(fā)生故障的概率,如式(3)所示:
λ(t)=f(t)/R(t)
(3)
由于目前電網(wǎng)公司一般采用對達到使用期或發(fā)生故障的智能電能表進行整機更換的策略,因此將智能電能表視為不修產(chǎn)品,采用MTTF對其可靠性進行描述。
預(yù)先假設(shè)智能電能表失效率分布進行直接擬合或是加速壽命試驗,可得到智能電能表的失效率λ(t),進而得到可靠度R(t)。但是,直接利用故障數(shù)據(jù)擬合假設(shè)分布,得到的是靜態(tài)模型,無法反映隨著環(huán)境應(yīng)力作用帶來的設(shè)備性能退化、可靠性下降等問題。采用加速壽命試驗得到的可靠性指標(biāo)考慮了環(huán)境應(yīng)力因子的影響,但是該方法依賴于在不同應(yīng)力條件下智能電能表運行試驗得到的失效數(shù)據(jù),過程復(fù)雜,執(zhí)行難度較大。
智能電能表多源大數(shù)據(jù)中包含檢修數(shù)據(jù)和異常數(shù)據(jù)。前者記錄了智能電能表失效后,即發(fā)生故障后的壽命時間和故障信息;后者則包含了運行中智能電能表健康水平與異常狀態(tài)的相關(guān)性信息。由兩者融合分析即可建立智能電能表運行狀態(tài)與多種數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,從而打破傳統(tǒng)工作模式對智能電能表運行狀態(tài)進行評估的天然限制。
將智能電能表的檢修數(shù)據(jù)和異常數(shù)據(jù)進行整理融合,即得到具有如下格式的智能電能表失效數(shù)據(jù),如式(4)所示:
(4)
由于實際中智能電能表故障率較低,導(dǎo)致失效數(shù)據(jù)中包含較多的刪失數(shù)據(jù),即數(shù)據(jù)中部分智能電能表并未發(fā)生故障。由于刪失數(shù)據(jù)中包含設(shè)備可靠性信息,無法剔除。包含此類刪失數(shù)據(jù)的數(shù)據(jù)形式無法采用傳統(tǒng)可靠性理論進行分析。生存分析理論作為一種研究事件發(fā)生前時間(Time-to-event)分布規(guī)律的理論,可以有效處理刪失數(shù)據(jù),從中提取有效信息。因此,采用生存分析理論對智能電能表失效數(shù)據(jù)進行建模分析,對智能電能表可靠性進行評估。
考慮對智能電能表失效數(shù)據(jù)進行整理,得到如下形式的數(shù)據(jù)向量,如式(5)所示:
(5)
為避免數(shù)據(jù)中無效樣本對預(yù)測模型的影響,需要對樣本進行清洗,刪去異常數(shù)目較少的樣本。其次,考慮到每個智能電能表不同異常發(fā)生的次數(shù)可能存在較大差異,為避免神經(jīng)參數(shù)訓(xùn)練發(fā)散,對其每列進行歸一化處理。歸一化所采用的公式如下:
(6)
(7)
式中X(i)=[x1(i),x2(i),…,xN(i)]。
生存分析是研究生存時間的分布規(guī)律以及生存時間和相關(guān)因素之間關(guān)系的一種統(tǒng)計分析方法,廣泛應(yīng)用于病患壽命分析和機器設(shè)備的故障-時間分析等領(lǐng)域。生存分析中很多基本概念如生存函數(shù)、風(fēng)險函數(shù)等與可靠性理論中的可靠度、失效率等基本概念相對應(yīng),下面結(jié)合智能電能表應(yīng)用場景對所應(yīng)用的基本術(shù)語進行介紹:
(1)事件:指智能電能表發(fā)生故障后/達到規(guī)定最長使用時間后,被更換;
(2)生存時間:指智能電能表從被安裝時刻到被確定發(fā)生故障/因達到規(guī)定使用最長時間后被拆換的持續(xù)時間;
(3)刪失:指智能電能表生存時間一直持續(xù)到最后觀察時間節(jié)點事件仍未發(fā)生的情況,即在觀察周期內(nèi)智能電能表保持正產(chǎn)運行的情況;
(4)協(xié)變量:影響事件發(fā)生時間的變量因素,如智能電能表的異常報警次數(shù);
(5)生存函數(shù)S(t):指個體的生存時間超過的概率,定義為S(t)=Pr(T>t);
(6)生存曲線:表征隨時間變化的生存率曲線。X軸和Y軸分別表示生存時間和生存概率;
(7)風(fēng)險函數(shù)λ(t):表征瞬時死亡概率,定義如下:
(8)
CoxPH模型又被稱為Cox比例風(fēng)險模型,該模型對風(fēng)險函數(shù)所具有的形式做了如下假設(shè),如下:
(9)
(10)
模型的求解過程包含兩部分:對hθ(X)和λ0(t)的求解。其中,對hθ(X)的求解較為復(fù)雜,hθ(X)求解后,即可基于Breslow估計器得到λ0(t)。因此,此處著重說明對hθ(X)的求解。
由于λ0(t)事先未定義,因此無法直接使用標(biāo)準(zhǔn)似然函數(shù)對預(yù)測模型進行擬合。CoxPH模型中定義了偏似然函數(shù)來對θ進行計算。假設(shè)精確生存時間有k個,數(shù)據(jù)集容量為n。將數(shù)據(jù)按照其生存時間排序t1
(11)
對所有死亡個體的條件概率相乘即有:
(12)
式中R(ti)為ti時刻內(nèi)仍然處于觀察研究的個體集合;Xi為觀察協(xié)變量。通過將偏似然函數(shù)最大化,即得到θ。一般求解時可以對其求取負對數(shù),即:
(13)
通過求取令其最小的θ,即可得到hθ(X)。隨后通過Breslow估計器,可求解λ0(t),從而得到完整的CoxPH模型。
生存分析理論中對CoxPH模型的評估主要依據(jù)Concordance-index,又稱C-index或一致性指數(shù)。該指標(biāo)衡量的是預(yù)測結(jié)果和實際觀察結(jié)果相一致的概率。以智能電能表應(yīng)用場景為例,將所有的研究對象(智能電能表)隨機地兩兩組對;對于某一對智能電能表,如果生存時間較長的一位,其預(yù)測生存時間長于生存時間較短的一位,或者預(yù)測生存概率高的一位的生存時間長于生存概率較低的另一位,則稱之為預(yù)測結(jié)果與實際結(jié)果相一致。C-index的取值范圍是[0, 1]。
傳統(tǒng)的線性CoxPH模型將協(xié)變量對于研究對象的生存函數(shù)的影響建模為線性關(guān)系。即假設(shè)部分風(fēng)險函數(shù)如下:
hθ(X)=θ·X
(14)
但在現(xiàn)實應(yīng)用場景中,該線性假設(shè)過于簡化數(shù)據(jù)關(guān)系的復(fù)雜程度。為了更好地擬合生存數(shù)據(jù)含有的非線性關(guān)系,現(xiàn)有研究工作中存在大量使用非線性對數(shù)風(fēng)險函數(shù)的模型。神經(jīng)網(wǎng)絡(luò)本身具有對非線性函數(shù)較好的擬合能力,1995年,文獻[3]提出了運用前饋神經(jīng)網(wǎng)絡(luò)模型(NNS)對生存數(shù)據(jù)進行擬合。但隨后的研究中,NNs的測試表現(xiàn)并不能超過經(jīng)典的線性CoxPH模型。
近些年來,隨著深度學(xué)習(xí)理論的迅速發(fā)展,深度神經(jīng)網(wǎng)絡(luò)的強大表征能力為非線性關(guān)系的擬合提供了新思路。文獻[1]運用結(jié)合深度神經(jīng)網(wǎng)絡(luò)的CoxPH模型對生存數(shù)據(jù)進行擬合,在多個現(xiàn)實數(shù)據(jù)集上測試得到優(yōu)于經(jīng)典線性CoxPH模型的性能??紤]到所處理應(yīng)用場景數(shù)據(jù)的復(fù)雜性,為有效刻畫其蘊含的協(xié)變量非線性組合關(guān)系,采用結(jié)合深度神經(jīng)網(wǎng)絡(luò)的CoxPH模型建立智能電能表的可靠性評估模型。
對含有深度神經(jīng)網(wǎng)絡(luò)的模型進行訓(xùn)練。參數(shù)設(shè)置如下:神經(jīng)網(wǎng)絡(luò)輸入層節(jié)點數(shù)I=21,隱含層共兩層,節(jié)點數(shù)分別為H=10和H=5,輸出層節(jié)點數(shù)為O=1,神經(jīng)網(wǎng)絡(luò)迭代次數(shù)T=4500。此處采用C-index作為所建立的智能電能表可靠性評估模型準(zhǔn)確性的指示值。具體的訓(xùn)練算法流程如圖1所示。
基于某城市實際智能電能表運維數(shù)據(jù),對以上所提出的智能電能表可靠性評估模型進行了有效性驗證。實驗中的訓(xùn)練樣本共包含49 640塊智能電能表的檢修數(shù)據(jù)和異常數(shù)據(jù),將數(shù)據(jù)集按照4:1的比例劃分為訓(xùn)練集Dtrain和測試集Dtest,其中異常種類數(shù)目N=21。
實驗的硬件平臺:操作系統(tǒng)為Windows 8.1,CPU為酷睿單核i5-5200U,2.20 GHz,代碼實現(xiàn)基于Python的Lifelines庫包以及TFDeepSurv庫包。輸入圖1所示訓(xùn)練模型進行訓(xùn)練。
圖1 模型訓(xùn)練流程圖
訓(xùn)練過程中損失函數(shù)的變化趨勢如圖2所示。在Dtrain上測試得到的一致性指數(shù)約為0.682,在Dtest上得到的一致性指數(shù)約為0.683。
圖2 訓(xùn)練過程中損失函數(shù)的變化
為表示所得到的可靠性評估模型在不同協(xié)變量取值下得到的生存曲線,取協(xié)變量向量X(1),X(2),X(3),考察任意一種異常對應(yīng)的協(xié)變量的影響,如異常5,滿足式(15)所示的約束:
(15)
圖3 不同協(xié)變量取值的生存曲線示例
為了比較不同預(yù)測方法的優(yōu)劣,基于同一批智能電能表的相關(guān)數(shù)據(jù),分別采用元器件應(yīng)力法計算其故障前平均壽命(MTTF)、先驗假定可靠性曲線分布函數(shù)進行參數(shù)擬合兩種方法對智能電能表可靠性進行評估,并與建立的評估模型進行比較。
采用元器件應(yīng)力法對智能電能表可靠性進行評估,需要得到智能電能表元器件清單。一般將智能電能表考慮為簡單的串聯(lián)失效模型,即:
(16)
式中λs為系統(tǒng)失效率(1/h),λi為第1~N個元器件的失效率(1/h)。針對某型號的智能電能表,通過分析智能電能表主板的元器件清單,選用 GJB/Z 299C-2006 電子設(shè)備預(yù)計手冊,推算出智能電能表的系統(tǒng)失效為λs=7.881 672(10-6/h),則智能電能表的平均故障前時間MTTF=1/λs=14.48年。
假設(shè)智能電能表時間-故障率關(guān)系服從威布爾分布,基于已有智能電能表數(shù)據(jù),采用最大似然估計法得到智能電能表的可靠性曲線如圖4所示。
圖4 基于威布爾分布擬合得到的生存函數(shù)
以上三種辦法,從三種不同角度出發(fā)對智能電能表可靠性進行了有效評估,各自具有不同的優(yōu)劣判斷標(biāo)準(zhǔn),無法統(tǒng)一用準(zhǔn)確率、C-index等概念進行衡量。因此,分別從模型泛化能力和結(jié)果可解釋性兩方面進行比較。
從泛化能力上比較,元器件應(yīng)力法需要查找每一種類的智能電能表的元器件清單和元器件手冊中對應(yīng)的失效率,所得到模型隨著智能電能表部件或部件組成的更換即發(fā)生變化,泛化能力較差;基于假設(shè)分布的參數(shù)擬合方法和文中所提預(yù)測方法均依賴于訓(xùn)練所選取的智能電能表故障數(shù)據(jù)樣本,模型的泛化能力較依賴于樣本質(zhì)量。
從預(yù)測結(jié)果可解釋性上比較,元器件應(yīng)力法可以針對智能電能表內(nèi)部的關(guān)鍵部件進行失效分析,可建立微觀元器件失效和功能失效上的串聯(lián)關(guān)系;但智能電能表發(fā)生故障時,常表現(xiàn)為某一功能模塊的失效,較難定位到某個具體元器件,且得到的MTTF為一定值,對智能電能表運維工作的指導(dǎo)意義較為有限。而預(yù)先假設(shè)智能電能表可靠性分布,利用數(shù)據(jù)對模型參數(shù)進行擬合的辦法采用經(jīng)驗式的假設(shè),無法對應(yīng)到智能電能表內(nèi)源性或外源性的可靠性影響因子,得到的評估曲線可解釋性較差;而文中所建立的考慮多個協(xié)變量影響的可靠性評估模型,可以通過分析單個協(xié)變量對生存概率曲線的影響,從而針對性地進行加強維護。
基于智能電能表多源大數(shù)據(jù),通過融合分析智能電能表的檢修數(shù)據(jù)和異常數(shù)據(jù),建立了智能電能表的可靠性評估模型;采用結(jié)合了深度學(xué)習(xí)的CoxPH模型,對融合分析的多源數(shù)據(jù)進行擬合,得到了智能電能表壽命-生存概率模型?;趯嶋H智能電能表運維數(shù)據(jù)的測試結(jié)果表明該模型能給出在不同協(xié)變量影響下的生存概率曲線,該結(jié)果能夠反映智能電能表的狀態(tài)信息,相比元器件應(yīng)力法和預(yù)先假設(shè)電能表可靠性分布的擬合結(jié)果更具有參考價值,對智能電能表運維工作具有重要意義。