裴劉生,周雙全,王海峰,趙華鴻
(北京金鴻泰科技有限公司,北京 100081)
隨著光伏發(fā)電并網規(guī)模的不斷增大,針對光伏發(fā)電設備故障診斷方法[1]進行研究變得尤為重要。光伏電站中光伏發(fā)電設備的類型眾多,包括逆變器、匯流箱、光伏組件等基本的電氣單元。由于光伏發(fā)電設備在運行過程中長期暴露在各種自然環(huán)境條件下,會造成設備的損壞,尤其是光伏組件會因遮擋、熱斑等情況導致其故障頻發(fā);而且光伏發(fā)電設備在運行過程中還存在老化、失配、性能衰減等問題。這些問題會嚴重影響光伏發(fā)電設備的使用壽命和光伏電站長期、安全、穩(wěn)定、高效地運行,設備一旦發(fā)生故障,勢必會增加維護成本并造成發(fā)電量的損失。因此,通過光伏發(fā)電設備的輸出特性研究光伏發(fā)電設備故障的診斷方法,并將診斷方法運用于設備的實際工作中,對于防止因設備故障造成的嚴重事故,降低電站的收益損失,實現(xiàn)光伏電站安全、穩(wěn)定、持續(xù)、高效地運行,具有極其重要的意義。
各種光伏發(fā)電設備的輸出特性表現(xiàn)出典型的時間序列[2]特征。在太陽輻照度、環(huán)境溫度、遮擋等自然及人為因素影響下,光伏發(fā)電設備輸出特性的時間序列呈現(xiàn)出不同的變化趨勢;而且,光伏發(fā)電設備輸出特性的時間序列趨勢會與其匹配的光伏發(fā)電設備之間存在強相關性,比如,完全被陰影遮擋的光伏組件的輸出電流普遍低于未被遮擋的光伏組件的輸出電流;同時,失配會造成逆變器的輸出功率降低[3]。
目前,傳統(tǒng)的基于時間序列的光伏發(fā)電設備故障診斷方法普遍存在以下3方面的問題:
1)傳統(tǒng)的數(shù)學建模方法是通過建立輸入與輸出之間的數(shù)學關系,利用統(tǒng)計學和閾值來進行故障診斷,在復雜條件下很難完成對所研究系統(tǒng)的精確建模,具有很大的局限性;
2)對于傳統(tǒng)的人工智能故障診斷方法,可能存在弱化時間序列之間的相關信息及時間序列隨時間變化的時序信息的情況,導致模型的診斷能力下降,引起誤診、漏診等現(xiàn)象;
3)在技術方面,針對單個光伏發(fā)電設備的輸出特征提取方法,通常是采用快速傅立葉變換(FFT)和小波變換技術,而這2種技術一般用于處理平穩(wěn)的時間序列,難以挖掘光伏發(fā)電設備運行時的時間序列的深層次特征[4]。
針對以上問題,本文提出一種主成分分析-聚類算法(PCA-CLUSTER)和經驗模態(tài)分解-卷積神經網絡(EMD-CNN)相結合的光伏發(fā)電設備故障診斷方法。為彌補傳統(tǒng)的人工智能故障診斷方法經常弱化光伏發(fā)電設備之間的相關信息從而導致存在誤診、漏診的缺陷,本方法對光伏發(fā)電設備輸出特性的時間序列進行主成分分析(PCA)[5],從冗余特征中提取主要成分,降低聚類輸入維數(shù),再利用K-Means算法對時間序列進行聚類分析,初步識別光伏發(fā)電設備的故障分類集合;在技術方面,針對非平穩(wěn)的時間序列的特性,利用經驗模態(tài)分解(EMD)提取故障分類集合中的時間序列的特征,繼而使用卷積神經網絡(CNN)作為分類器對時間序列特征進行訓練和分類,以最終判斷光伏發(fā)電設備具體的故障類型。
1) PCA-CLUSTER。光伏發(fā)電設備輸出特性的時間序列趨勢特性是設備潛在故障的外在表現(xiàn),每1個時間序列可以理解為多個維度的集合,且對應1種故障分類。但是,時間序列具有維度高、時間長、噪音多等特點,大量時間序列數(shù)據(jù)會導致聚類算法的效率低下、干擾因素過多,使時間序列失去了聚類趨勢,也不易于進行聚類。因此,本文提出的PCA-CLUSTER方法的基本思路是:當研究的時間序列包含高維度、多噪音數(shù)據(jù)時,并且數(shù)據(jù)體現(xiàn)的信息存在交叉重疊情況時,應用PCA[6]來提取時間序列的關鍵特征維度,然后利用K-Means算法[7]對經過PCA后得到的時間序列進行聚類分析。以光伏發(fā)電設備輸出特性的時間序列為例,先通過PCA對時間序列進行特征降維,盡量在不損失原有模型質量的情況下,將包含相同信息的特征維度從時間序列中剔除,以減少時間序列的特征維數(shù);在此基礎上,再進行時間序列的聚類。
2) EMD-CNN。光伏發(fā)電設備的輸出特性是在設備受到包含環(huán)境溫度、太陽輻照度、遮擋等外界環(huán)境的干擾信號及設備自身故障形成的干擾信號后生成的,因此,屬于典型的非線性、非平穩(wěn)時間序列。本文提出的EMD-CNN方法的基本思路是:通過采用EMD[8]和CNN[9]技術實現(xiàn)時間序列的特征提取、模型訓練和異常判斷;在對時間序列的原始數(shù)據(jù)進行預處理之后,首先利用EMD對預處理后的時間序列進行計算,提取時間序列的特征,并將其作為CNN模型訓練的輸入集;然后,由于CNN可以實現(xiàn)在一定數(shù)量的訓練集中尋找到最優(yōu)的分類效果,因此,采用CNN作為分類器對時間序列的特征進行訓練和分類;最后,在CNN模型的基礎上,針對待識別的時間序列進行異常判斷。
本文提出的PCA-CLUSTER和EMD-CNN相結合的光伏發(fā)電設備故障診斷方法的具體流程如圖1所示。
圖1 本文所述光伏發(fā)電設備故障診斷方法的流程圖Fig. 1 Flowchart of PV power generation equipment fault diagnosis method described in this paper
本文所述光伏發(fā)電設備故障診斷方法的具體步驟為:
步驟1):定義n個光伏發(fā)電設備t個時刻的時間序列S,用于反映光伏發(fā)電設備的輸出特性,如式(1)所示。
步驟2):定義光伏電站中t個時刻的太陽輻照度集合G,如式(2)所示。
步驟3):以太陽輻照度集合為參考標準,對時間序列S進行歸一化處理,得到歸一化時間序列S′,如式(3)所示。
步驟4):利用PCA對歸一化時間序列S′進行處理。首先,計算S′的相關數(shù)矩陣R;然后,求解t個特征值λ1,λ2,…,λt(其中λ1≥…≥λt≥0)和與其對應的標準正交特征向量e1,e2,…,et。求解主成分對總變差的累積貢獻率,即并取得適當?shù)膠值,其中1<z≤t。
步驟5):基于步驟4)計算得到的主成分對總變差的累計貢獻率,從而確定S′的主要成分因素,然后利用PCA-CLUSTER對S′進行聚類,獲得k個聚類子集的集合C,如式(4)所示。
步驟6):基于集合C,利用EMD依次對k個聚類子集分別進行特征提取,經過處理獲得不同故障情況下S′對應的特征數(shù)據(jù)集合,然后將S′按照一定的比例劃分為訓練樣本和測試數(shù)據(jù),為后續(xù)樣本訓練和模型驗證提供基礎數(shù)據(jù)。
步驟7):利用Spark技術搭建基于CNN的并行化模型訓練應用架構,以實現(xiàn)對S′的快速和批量樣本訓練,并且通過不斷對大量光伏發(fā)電設備的時間序列樣本進行訓練,逐步優(yōu)化和提升故障診斷模型。
步驟8):利用Spark技術搭建基于CNN的并行化分類計算應用架構,基于步驟7)的故障診斷模型,對光伏電站中大量光伏發(fā)電設備輸出特性的時間序列進行實時分類和計算,從而獲得時間序列的分類結果,判斷光伏發(fā)電設備的故障類型。
3.1.1 數(shù)據(jù)來源
本次實驗數(shù)據(jù)來自于某100 MW光伏電站中環(huán)境監(jiān)測儀、逆變器、匯流箱、光伏組串等設備的2019年全年的數(shù)據(jù),包括輸出電流、輸出電壓、輸出功率、太陽輻照度等;數(shù)據(jù)具備典型的時間序列特征,采樣周期為1 min?,F(xiàn)僅以2019年10月12日某個匯流箱匯集的12路(1#~12#)光伏組串的輸出電流數(shù)據(jù)為例,闡述PCACLUSTER和EMD-CNN相結合的光伏發(fā)電設備故障診斷方法的實現(xiàn)過程。
3.1.2 數(shù)據(jù)預處理
由于光伏發(fā)電設備所處環(huán)境復雜,獲得的數(shù)據(jù)量龐大且干擾因素較多,因此光伏組串輸出電流的時間序列表現(xiàn)出不同的變化趨勢。例如,若采集設備出現(xiàn)通信故障時,光伏組串輸出電流的時間序列是恒值;若出現(xiàn)遮擋時,光伏組串輸出電流的時間序列數(shù)值明顯偏低等。10月12日某個匯流箱中1#~12#光伏組串的輸出電流數(shù)據(jù)情況如圖2所示。
從圖2中可以看出,7#光伏組串的輸出電流曲線反映了采集設備存在通信故障,3#光伏組串的輸出電流曲線反映了該組串受到了遮擋。
圖2 10月12日某匯流箱中1#~12#光伏組串的輸出電流數(shù)據(jù)Fig. 2 Output current data by 1#~12# PV strings in a combiner box on October 12
當光伏組串的輸出電流受到太陽輻照度的影響后,其會隨著太陽輻照度的變化而產生波動,在環(huán)境溫度、大氣質量等其他條件保持不變的情況下,光伏組串的短路電流基本和太陽輻照度成正比。因此,為剔除太陽輻照度對光伏組串輸出電流的影響,將輸出電流歸一化處理為單位太陽輻照度下的光伏組串輸出電流。歸一化處理后的光伏組串輸出電流曲線如圖3所示。
圖3 歸一化處理后的1#~12#光伏組串的輸出電流曲線Fig. 3 Output current curve of 1#~12# PV strings after normalization treatment
3.1.3 降維和聚類
首先,對歸一化處理后的1#~12#光伏組串輸出電流的時間序列進行PCA,利用PCA來優(yōu)化算法的輸入維數(shù),從而降低聚類分析時的復雜度,提高識別準確率。利用PCA進行特征降維,在確保累計貢獻率不低于99%的情況下,提取時間序列中的前3個主成分的數(shù)據(jù)作為聚類算法分析時的輸入數(shù)據(jù),其得到的貢獻率依次為62.11888%、34.531165%、2.509278%,此時的累計貢獻率達到了99.159323%;由于其他時間序列的貢獻率很小,因此將不作為聚類算法分析時的輸入數(shù)據(jù)。
然后,利用K-Means算法對時間序列進行聚類,此時輸入維數(shù)大量減少,極大地提高了計算效率和準確率。K-Means算法將1#~12#光伏組串的輸出電流數(shù)據(jù)分成正常、恒值、偏低、偏低且下降、偏高5類。
3.1.4 特征提取和深度學習
針對聚類算法分析得到的5類結果,分別進行EMD-CNN析型,以提取故障特征、訓練CNN模型和識別故障類型。在通過聚類算法分析得到的5類結果的基礎上,對時間序列進行EMD,以提取時間序列特征。對不同分類結果進行EMD后的結果分別如圖4~圖8所示。
1)輸出電流為正常類型時進行EMD后的結果如圖4所示。
圖4 輸出電流為正常類型時進行EMD后的結果Fig. 4 Results of EMD when output current is normal type
由圖4可見,原始信號(Signal)經過一小段時間的上升后,最終達到一個相對平穩(wěn)的狀態(tài);Signal中的各頻率分量(即IMF分量)大部分表現(xiàn)出相對平穩(wěn)的狀態(tài),但有部分IMF分量呈現(xiàn)出上升趨勢;殘余項分量(res.)呈現(xiàn)先升后降的趨勢。
2)輸出電流為恒值類型時進行EMD后的結果如圖5所示。
圖5 輸出電流為恒值類型時進行EMD后的結果Fig. 5 Result of EMD when output current is constant value type
由圖5可見,Signal一開始時呈現(xiàn)逐漸下降的趨勢,但經過一段時間的穩(wěn)定運行后,又呈現(xiàn)逐漸上升的態(tài)勢;IMF分量大部分表現(xiàn)出平穩(wěn)的狀態(tài),只有IMF4分量出現(xiàn)較大幅度下降后又呈現(xiàn)平穩(wěn)狀態(tài);res.呈現(xiàn)先降后升的趨勢。
3)輸出電流為偏低類型時進行EMD后的結果如圖6所示。
圖6 輸出電流為偏低類型時進行EMD后的結果Fig. 6 Results of EMD when output current is low type
由圖6可見,Signal經過一小段時間的上升后,最終達到一個相對平穩(wěn)的狀態(tài);IMF分量大部分表現(xiàn)出平穩(wěn)的狀態(tài),小部分IMF分量有上升趨勢;res.呈現(xiàn)下降趨勢。
4)輸出電流為偏低且有下降類型時進行EMD后的結果如圖7所示。
由圖7可見,Signal出現(xiàn)明顯的變化趨勢,IMF分量的波動性較大,res.呈現(xiàn)先升后降的趨勢。
圖7 輸出電流為偏低且有下降類型時進行EMD后的結果Fig. 7 Result of EMD when output current is low and declining type
5)輸出電流為偏高類型時進行EMD后的結果如圖8所示。
圖8 輸出電流為偏高類型時進行EMD后的結果Fig. 8 Result of EMD when output current is high type
由圖8可見,Signal出現(xiàn)大幅下降趨勢,IMF分量表現(xiàn)出或上升或下降的波動趨勢,res.呈現(xiàn)下降趨勢。
基于以上EMD提取的時間序列特征,利用CNN算法和Spark技術進行樣本訓練和測試,并利用某100 MW光伏電站中的14400個光伏組串進行故障診斷驗證。
驗證結果表明:僅采用PCA-CLUSTER方法時的故障診斷準確率為78%;僅采用EMDCNN方法時的故障診斷準確率為85%;而采用PCA-CLUSTER和EMD-CNN相結合方法時的故障診斷準確率可達到95%。由此可知,PCACLUSTER和EMD-CNN相結合的方法可使故障診斷的準確率顯著提高。不同故障診斷方法的準確率情況如表1所示。
表1 不同故障診斷方法時的準確率情況Table 1 Accuracy of different fault diagnosis methods
由此可見,PCA-CLUSTER和EMD-CNN相結合的故障診斷方法可以實現(xiàn)對光伏發(fā)電設備故障的精準診斷,且對光伏組串進行故障診斷時切實有效。
本文提出的PCA-CLUSTER和EMD-CNN相結合的光伏發(fā)電設備故障診斷方法目前在光伏電站的使用規(guī)模已達到3 GW,取得了良好的應用效果,具有巨大的使用價值和廣闊的應用前景。
本文提出了一種PCA-CLUSTER和EMDCNN相結合的光伏發(fā)電設備故障診斷方法,并以某100 MW光伏電站中的14400個光伏組串為例,采用該方法進行了故障診斷驗證。結果顯示,此方法的準確率可達95%,高于僅采用PCACLUSTER方法時78%的準確率和僅采用EMDCNN方法時85%的準確率。
本文提出的光伏發(fā)電設備故障診斷方法在不損害光伏組串輸出電流時間序列特征的前提下,利用PCA方法剔除了光伏組串輸出電流的時間序列之間的冗余性和相關性,降低了高維度時包含的噪音影響,提高了PCA-CLUSTER方法的性能,從而取得良好的聚類效果;PCA和K-Means相結合的PCA-CLUSTER算法具有極大的創(chuàng)新性,且提升了聚類算法的準確率。將EMD方法提取的時間序列特征作為CNN的訓練樣本和測試數(shù)據(jù),利用Spark技術搭建基于CNN的并行化模型訓練和分類計算應用架構,極大地提升了樣本訓練的效率和故障類型識別的準確性。