劉新展, 朱文紅, 陳佳鵬, 鄭全朝, 王成佐
(1. 廣東電網(wǎng)有限責任公司 電力調(diào)度控制中心, 廣州 510200; 2. 廣東益泰達科技發(fā)展有限公司 電力調(diào)度部, 廣州 510200)
人工智能算法近年來得到了廣泛的研究和應(yīng)用,其中機器學(xué)習是應(yīng)用最為廣泛的算法類型.按照智能體與環(huán)境之間的交互關(guān)系,機器學(xué)習可分為監(jiān)督學(xué)習、半監(jiān)督學(xué)習和強化學(xué)習[1-2].強化學(xué)習憑借其不需要專家系統(tǒng)的內(nèi)在特征,具備更強的適應(yīng)性,已成為當前應(yīng)用最廣泛的機器學(xué)習類型.
寧劍等[3]系統(tǒng)介紹了基于控制響應(yīng)函數(shù)的區(qū)域電網(wǎng)自動發(fā)電控制(automatic generation control,AGC)方法,該研究表明控制響應(yīng)函數(shù)自身計算的復(fù)雜性是實際應(yīng)用的重要瓶頸,為此利用強化學(xué)習等智能算法成為該領(lǐng)域研究的熱點.張孝順等[4-5]基于多智能體協(xié)同學(xué)習,提出了面向互聯(lián)電網(wǎng)的區(qū)域AGC控制算法;Lin等[6]綜合考慮AGC功率分配中安全、節(jié)能、經(jīng)濟等多方面調(diào)控目標,提出了基于Q學(xué)習算法的多目標AGC調(diào)節(jié)容量動態(tài)優(yōu)化分配方法;余濤等[7]結(jié)合大規(guī)?;ヂ?lián)電網(wǎng)中各區(qū)域電網(wǎng)協(xié)同控制的要求,提出了基于改進分層強化學(xué)習的多區(qū)域電網(wǎng)CPS指令動態(tài)優(yōu)化分配算法.
當前強化學(xué)習在電網(wǎng)AGC控制方面的研究集中于大電網(wǎng)或微電網(wǎng)控制層面,對區(qū)域電網(wǎng)的控制方法研究仍相對較少.本文圍繞區(qū)域電網(wǎng)AGC控制問題,介紹Q學(xué)習算法基本原理和算法流程.基于區(qū)域電網(wǎng)AGC控制需求,在信息物理系統(tǒng)體系下構(gòu)建其控制框架,并提出其動作空間、回報函數(shù)、環(huán)境狀態(tài)等3個關(guān)鍵特征量,基于某地區(qū)電網(wǎng)實際數(shù)據(jù)構(gòu)造算例,驗證本文所提出算法的有效性.
強化學(xué)習是近年來發(fā)展較快的機器學(xué)習算法,其最大特點在于智能體通過與環(huán)境不斷交互,實現(xiàn)策略的改進,因此,具有較強的適應(yīng)性和魯棒性.強化學(xué)習的基本框架如圖1所示,其中,共涉及5個基本要素:狀態(tài)空間、動作空間、轉(zhuǎn)移函數(shù)、回報及動作策略[8],其實施策略可簡述如下:
1) 學(xué)習智能體基于監(jiān)測到的環(huán)境狀態(tài),按照自身策略在給定的動作空間中選擇相應(yīng)的動作執(zhí)行;
2) 環(huán)境將因此發(fā)生狀態(tài)改變,學(xué)習智能體據(jù)此對其動作優(yōu)劣進行評價,計算該動作的回報;
3) 通過統(tǒng)計分析回報值的大小調(diào)整自身策略,直至取得最優(yōu)策略.
按照強化學(xué)習框架中上述5個要素是否已知,可將強化學(xué)習分為有模型學(xué)習和免模型學(xué)習兩類.有模型學(xué)習可根據(jù)模型關(guān)系直接推導(dǎo)得到學(xué)習智能體的最優(yōu)策略,而對于免模型學(xué)習,則需要根據(jù)智能體與環(huán)境之間的交互,不斷改進策略以獲得最優(yōu)策略.
圖1 強化學(xué)習基本框架
(1)
圖2 Q學(xué)習算法實施流程
流程主要包括以下4個主要步驟:
1) 構(gòu)造ε-貪心策略πε并執(zhí)行.為避免原策略在動作選擇上可能的“僅利用”傾向,Q學(xué)習算法將利用ε-貪心策略對原策略重構(gòu),所獲得新策略可表示為
(2)
式中:π、πε分別為原策略和新構(gòu)造的策略;πε(x)、π(x)為新策略和原策略在環(huán)境狀態(tài)下所采取的動作;ΔA為均勻概率選擇的動作;ε為人工給定的貪心系數(shù).對于基于ε-貪心算法構(gòu)造的新策略πε,將以概率1-ε采用原策略下的動作,并以總概率1-ε在動作空間中均勻選取任一動作執(zhí)行.利用構(gòu)造所得的ε-貪心策略作用于環(huán)境,并記錄所獲取的回報值.
Qk+1(xk,ak)=Qk(xk,ak)+α[R(xk,xk+1,ak)+
(3)
3) 策略改進.策略更新的目標在于獲取最優(yōu)的動作策略,保證在各環(huán)境狀態(tài)下按照該策略執(zhí)行所獲得回報期望最高,策略改進公式可表示為
(4)
4) 收斂判定.當?shù)鷿M足策略改進后,策略改變量小于給定值時,則可判定收斂并輸出結(jié)構(gòu),該判定關(guān)系可表示為
(5)
式中:π*k(x)、π*k+1(x)分別為第k次迭代前后的最優(yōu)策略;δ為給定限值.
所謂信息物理系統(tǒng)(cyber-physical system,CPS)是指通過通信網(wǎng)絡(luò)將物理系統(tǒng)與信息系統(tǒng)緊密聯(lián)系的一體化控制系統(tǒng),通過信息的高效采集、傳輸與計算,實現(xiàn)對物理系統(tǒng)的精準控制[9-10].
區(qū)域電網(wǎng)信息物理系統(tǒng)架構(gòu)如圖3所示,區(qū)域電網(wǎng)的信息物理系統(tǒng)架構(gòu)包括:以電網(wǎng)、發(fā)電廠構(gòu)成的一次物理系統(tǒng)和以采集量測裝置、通信設(shè)備、運行控制中心構(gòu)成的二次信息系統(tǒng).其中根據(jù)電源的運行控制要求,可將其劃分為傳統(tǒng)電源和新能源兩大類.新能源主要是指風電、光伏等可再生能源,相對運行控制要求而言,由于新能源出力主要受氣象等因素影響,因此可控性較差;而水電、火電等傳統(tǒng)電源出力可控性較高.為提升電網(wǎng)運行清潔化水平,一般要求優(yōu)先通過調(diào)整傳統(tǒng)電源出力,滿足區(qū)域電網(wǎng)的調(diào)控要求.
圖3 區(qū)域電網(wǎng)信息物理系統(tǒng)架構(gòu)
為得到上述離散化取值,首先需要對斷面潮流和電網(wǎng)頻率偏差調(diào)整量進行歸一化,其計算公式為
(6)
在得到上述歸一化環(huán)境狀態(tài)量后,還需要進一步對其進行離散化處理.考慮到送電通道潮流和電網(wǎng)頻率偏差功率調(diào)整量存在的方向性要求,文中對多環(huán)境狀態(tài)進行離散化處理,結(jié)果如表1所示.
表1 環(huán)境狀態(tài)變量離散化結(jié)果
表2 動作空間變量離散化結(jié)果
“風火打捆”模式不同于傳統(tǒng)模式,要求優(yōu)先調(diào)整火電機組出力以保證區(qū)域送出功率,按照其給定計劃曲線執(zhí)行[12],并在斷面潮流存在裕度的情況下,響應(yīng)系統(tǒng)的頻率偏差調(diào)控要求.根據(jù)上述運行要求,回報函數(shù)可表示為
(7)
本算例中將對IEEE-30節(jié)點系統(tǒng)進行改造,在原節(jié)點26與節(jié)點28處分別增加一條對外聯(lián)絡(luò)線,以模擬區(qū)域電網(wǎng)與主網(wǎng)相連的場景,驗證本文所提算法的有效性.改造后所得的地區(qū)電網(wǎng)網(wǎng)架結(jié)構(gòu)如圖4所示.
圖4 區(qū)域電網(wǎng)網(wǎng)架
該區(qū)域電網(wǎng)的電源包括:火電廠3個,風電場3個,各電源的基本參數(shù)如表3所示.
表3 電源基本參數(shù)
算例中Q學(xué)習算法模型所用到的基礎(chǔ)參數(shù)為α1=6,α2=3,α3=1.Q學(xué)習算法在實際應(yīng)用生產(chǎn)控制智能體前,需要經(jīng)過歷史數(shù)據(jù)的學(xué)習.為此,利用寧劍等[3]所介紹的基于控制響應(yīng)函數(shù)的AGC控制方法,逐一計算各運行場景下的電源出力調(diào)節(jié)要求,將其作為區(qū)域發(fā)電Q學(xué)習控制方法學(xué)習的基礎(chǔ)數(shù)據(jù).為驗證該智能體在區(qū)域電網(wǎng)AGC控制中的實際效果,進一步設(shè)計了靜態(tài)仿真和動態(tài)仿真兩個場景.
1) 靜態(tài)仿真.算例中的靜態(tài)仿真不考慮智能體控制耗時和傳統(tǒng)基于控制響應(yīng)函數(shù)計算耗時,本文方法和文獻[3]調(diào)控策略差異對比如圖5所示.場景一中風電增加出力10 MW,為防止斷面越限,傳統(tǒng)方法控制策略共減少火電出力9.85 MW,而本文所提出方法減少火電出力9.8 MW;場景二中風電減少出力10 MW,傳統(tǒng)方法控制策略共增加火電出力10.2 MW,而本文所提出方法增加火電出力10.0 MW.兩個場景下,兩種方法的控制策略偏差不超過2%,表明在靜態(tài)控制中,兩種方法具有相近的控制效果.
圖5 靜態(tài)調(diào)控效果對比
2) 動態(tài)仿真.本文所設(shè)計的風電出力變化曲線如圖6所示,兩種控制方法的火電調(diào)節(jié)控制變化和聯(lián)絡(luò)線交換功率變化分別如圖7、8所示.在相同的風電出力變化動態(tài)過程中,傳統(tǒng)方法由于計算控制響應(yīng)函數(shù)耗時較長,導(dǎo)致火電機組出力變化滯后于本文所提出的方法,進而導(dǎo)致聯(lián)絡(luò)線交換功率變化的響應(yīng)速度也相應(yīng)滯后.該聯(lián)絡(luò)線交換功率控制值為815 MW,本文所提出方法的斷面功率越限時間僅為5 min,而傳統(tǒng)方法則超過8 min,表明本文所提出的方法具有更高的控制效果,對消除區(qū)域電網(wǎng)斷面越限等具有顯著效果.
圖6 風電場出力
圖7 火電出力
圖8 聯(lián)絡(luò)線功率
本文研究了基于Q學(xué)習算法的區(qū)域電網(wǎng)AGC控制問題.與傳統(tǒng)的大電網(wǎng)AGC控制相比,區(qū)域電網(wǎng)AGC控制在控制目標上不僅要考慮頻率偏差調(diào)整,還需要考慮傳輸斷面的運行控制要求;在控制對象上,需要區(qū)分傳統(tǒng)電源和新能源在調(diào)節(jié)次序上的差別.傳統(tǒng)的AGC控制策略難以適應(yīng)上述控制要求,而以Q學(xué)習算法為核心的強化學(xué)習計算方法具有較強的適應(yīng)性,能夠較好地滿足不同類型區(qū)域電網(wǎng)的運行控制要求.