張哲, 李升, 王徐彬
(南京工程學院 電力工程學院,江蘇 南京 211167)
隨著電力系統(tǒng)的不斷發(fā)展,新能源并網(wǎng)規(guī)模在不斷擴大,電網(wǎng)機構(gòu)變得更加復雜,電力系統(tǒng)的安全穩(wěn)定運行面臨著更加嚴峻的挑戰(zhàn)[1],電力系統(tǒng)在發(fā)生故障后導致暫態(tài)失穩(wěn)的可能性也在增加。因此,如何快速、準確地評估電力系統(tǒng)的穩(wěn)定狀況就是一個亟需解決的問題。
對暫態(tài)穩(wěn)定進行評估的方法主要有時域仿真法、能量函數(shù)法以及人工智能法。傳統(tǒng)的時域仿真法計算量比較大,無法滿足在線應用的需要;能量函數(shù)法計算速度較快,但是難以應用于大規(guī)模的復雜系統(tǒng)當中[2]。利用人工智能算法對電力系統(tǒng)的暫態(tài)穩(wěn)定狀況進行評估兼具時域仿真法和機器學習的優(yōu)勢,具備速度快、準確率高等優(yōu)點,目前已在電力系統(tǒng)的實時評估中得到廣泛運用。
文獻[3]提出了安全域的概念,并使用多支持向量機綜合進行暫態(tài)穩(wěn)定評估。文獻[4]用XGBoost算法進行暫態(tài)穩(wěn)定評估,并引入了Logistic函數(shù)來提高評估模型的可靠程度。文獻[5]基于主動學習,能夠有效降低離線仿真的時間。文獻[6]采用半監(jiān)督學習的方式,減少冗余信息,提高數(shù)據(jù)的利用率。此外,還有學者將深度學習算法[7]引入到暫態(tài)穩(wěn)定評估當中,主要體現(xiàn)在特征提取方面。然而,現(xiàn)有的諸多方法在提升準確率、數(shù)據(jù)不平衡處理等問題依然存在困難。
在現(xiàn)有研究基礎上,本文提出了一種基于K-means和隨機森林組合算法(KM-RF)的暫態(tài)穩(wěn)定評估方法。首先,在系統(tǒng)發(fā)生故障的各個階段選取能夠凸顯暫態(tài)特性的特征量組成原始輸入特征集;然后,使用Z-Score規(guī)一化和皮爾遜相關系數(shù)法對原始樣本集進行預處理,通過K-means算法來解決數(shù)據(jù)不平衡問題,采用隨機森林算法并進行暫態(tài)穩(wěn)定預測;最后在新英格蘭10機39節(jié)點標準模型中驗證了本文所提方法的有效性。
假設某個隨進森林是由k棵CART決策樹[h(X,θk),k=1,2,3,…]構(gòu)成,邊緣函數(shù)如式(1)所示。
(1)
式中:X為輸入向量,最多包含J種不同的類別;j為J種類別中的某一類;θk相互獨立且同分布的隨機向量;Y為正確的分類向量;I(.)為指示函數(shù);ak為求取平均值的函數(shù)。
隨機森林的泛化誤差如式(2)所示
Pe=PX,Y[K(X,Y)<0]
(2)
式中:P(X,Y)為對給定輸入變量X的分類錯誤率函數(shù);X,Y為概率定義空間。
當森林中決策樹數(shù)目較大時,隨機森林泛化誤差的上界如式(3)所示
(3)
先使用K-means聚類算法將同一個類標簽下的數(shù)據(jù)分解成Ki個簇,其中i是指原始數(shù)據(jù)集中的標簽數(shù),然后再使用隨機森林算法利用已分解的數(shù)據(jù)集進行分類預測。
整個過程需要對4個參數(shù)進行調(diào)參:簇數(shù)Ki(K1,K2),決策樹個數(shù)(n_estimators),每棵決策樹所選擇的分類特征數(shù)(max_features)。
對于一個特定的數(shù)據(jù)集X,類別為Y,假設這Y個類中有m個子類標簽。定義一個特征向量V代表整個模型需要優(yōu)化的參數(shù),如式(4)所示。
(4)
式中:yi∈Y;ki為指第i個類被分解成k個子類。在這個模型中不僅要確定簇數(shù),還要確定哪個類將會被分解。
針對故障開始時刻和切除時刻兩種狀態(tài)選取具有代表性的特征量[8-9]。故障開始時刻的特征量能夠反映瞬時功率平衡狀態(tài)被打破的程度以及對暫態(tài)穩(wěn)定的影響;故障切除時刻的特征量能夠反映故障持續(xù)期間不平衡能量的集聚給系統(tǒng)帶來的沖擊。選取的特征量均為系統(tǒng)特征,而不是單機特征,能夠避免因系統(tǒng)規(guī)模擴大而帶來的特征量維數(shù)的急劇增加。然后,對原始特征集進行Z-score歸一化和相關性分析。可以將不同的特征量轉(zhuǎn)化為同一個數(shù)量級,從而避免某些特征量由于數(shù)量級之間差距過大而無法發(fā)揮作用。刪除相關性過高的特征量以提升模型效率。
模型建模過程如圖1所示:①利用時域仿真法獲得原始特征集;②在數(shù)據(jù)預處理階段對特征集進行歸一化處理,并分析特征量的相關性;③使用K-means聚類算法對樣本集進行類分解,并進行參數(shù)調(diào)節(jié);④在分解后的數(shù)據(jù)集的基礎上,調(diào)節(jié)隨機森林的參數(shù);⑤模型評估并引入指標進行評價。
圖1 評估模型流程圖
以新英格蘭10機39節(jié)點系統(tǒng)進行算例分析,利用MATLAB中的工具箱PSAT進行仿真,采集故障數(shù)據(jù)。在80%、90%、100%、110%和120%標準負荷水平下,隨機設置4種不同的發(fā)電機出力,設置每條母線處發(fā)生一個三相短路故障,共計39處故障。故障切除時間為0.2 s,數(shù)據(jù)采樣周期為0.01 s,共生成780(39×5×4)組樣本,以系統(tǒng)中任意兩臺同步發(fā)電機相對功角之差是否大于360度來判斷系統(tǒng)的暫態(tài)穩(wěn)定性,將所有的樣本集存儲在矩陣當中,矩陣的每一行分別代表一組樣本數(shù)據(jù)。
在通常情況下,模型的效果與精確度成正比。但是,精確度忽略了不平衡樣本帶來的影響,反映的僅僅是數(shù)據(jù)集的總體預測精度?;煜仃?confusionmatrix)能夠很好地評估出模型的效果,如表1所示。
表1 混淆矩陣
為了更精細地判斷評估模型的性能,引入誤報率(false positive rate, FPR)、命中率(true positive rate, TPR)、準確率(accuracy, ACC)以及KAPPA系數(shù),計算方法如式(5)~式(8)所示,其中KAPPA系數(shù)值越高則代表模型整體性能越好。
(5)
(6)
(7)
(8)
式中:P0為準確率;Pe為一個函數(shù)。在二分類問題中,如果每類樣本真實個數(shù)為A1、A2,預測所得每類樣本的個數(shù)為B1、B2,總樣本數(shù)為N,Pe的計算方法如式(9)所示。
(9)
試驗結(jié)果如表2所示,當n_estimators=556,max_features=12,K1=1,K2=2時,效果最好。整體來看,ACC均值為0.91,KAPPA系數(shù)均值為0.82,TPR>0.91,F(xiàn)PR<0.17。
表2 KM-RF測試結(jié)果表
在相同的特征集數(shù)據(jù)、相同的數(shù)據(jù)處理方式情況下,分別使用KM-RF、DT、RF、SVM進行預測,結(jié)果如圖2所示。通過對比,可以發(fā)現(xiàn)KM-RF模型在各性能指標上也有明顯優(yōu)勢,準確率、命中率以及KAPPA系數(shù)值最高,誤報率最低。
圖2 各算法結(jié)果比較圖
(1) 通過對發(fā)電機動態(tài)特性分析,所構(gòu)建的特征集能夠較為全面地反映暫態(tài)穩(wěn)定的特性,提升了評估結(jié)果的準確性。通過對特征集進行Z-score歸一化處理以及皮爾遜相關性分析,避免了部分特征量無法發(fā)揮作用的問題并對相關性較高的特征量進行了篩選,提高了模型的效率和準確性。
(2) 使用K-means進行類分解,很好地解決了數(shù)據(jù)不平衡的問題,提升了整體性能。隨機森林算法分類精度高,不容易過擬合且泛化能力較強,基于此的組合算法能夠較好地處理暫態(tài)穩(wěn)定評估問題,通過與決策樹、隨機森林以及支持向量機的評估結(jié)果進行比較,在各個指標上都具備明顯優(yōu)勢。